Google Tìm kiếm là một trong những công cụ tìm kiếm phổ biến nhất thế giới, và để duy trì chất lượng kết quả tìm kiếm, Google đã phát triển nhiều hệ thống xếp hạng tự động. Những hệ thống này xem xét nhiều yếu tố khác nhau từ hàng trăm tỷ trang web để cung cấp những kết quả tìm kiếm phù hợp và hữu ích nhất cho người dùng. Bài viết này sẽ hướng dẫn chi tiết về các hệ thống xếp hạng mà Google đang sử dụng, giúp bạn hiểu rõ hơn về cách chúng hoạt động và ảnh hưởng đến thứ hạng của các trang web.
Google triển khai các thuật toán xếp hạng tự động, những thuật toán này đánh giá hàng loạt yếu tố và tín hiệu từ hàng trăm tỷ trang web và nội dung trong chỉ mục tìm kiếm để cung cấp những kết quả hữu ích và liên quan nhất cho người dùng, tất cả chỉ trong tích tắc.
Chúng tôi liên tục tối ưu hóa các thuật toán này thông qua các quy trình thử nghiệm và đánh giá khắt khe, đồng thời cập nhật công khai những thay đổi quan trọng trong hệ thống xếp hạng khi chúng có thể mang lại lợi ích cho các nhà quản trị nội dung và những người dùng khác.
Bài viết này cung cấp hướng dẫn chi tiết về các hệ thống xếp hạng chính của chúng tôi. Nó mô tả một số thuật toán quan trọng trong hệ thống xếp hạng cốt lõi, những công nghệ nền tảng giúp tạo ra kết quả tìm kiếm đáp ứng các truy vấn. Ngoài ra, bài viết còn đề cập đến các thuật toán khác được thiết kế để giải quyết những nhu cầu cụ thể trong việc xếp hạng.
Bạn cũng có thể truy cập trang web về cách thức hoạt động của Google Tìm kiếm để hiểu rõ hơn cách các hệ thống xếp hạng của chúng tôi phối hợp với các quy trình khác nhằm hiện thực hóa sứ mệnh hệ thống hóa thông tin toàn cầu và làm cho thông tin đó trở nên hữu ích và dễ dàng tiếp cận.
BERT
Bidirectional Encoder Representations from Transformers (BERT) là một hệ thống trí tuệ nhân tạo (AI) mà Google tích hợp vào thuật toán tìm kiếm để hiểu sâu hơn về ngữ cảnh và ý định đằng sau các truy vấn tìm kiếm. Hệ thống này cho phép Google giải mã sự khác biệt về ý nghĩa trong cách kết hợp từ ngữ, giúp cung cấp kết quả tìm kiếm chính xác hơn.
Hệ thống cung cấp thông tin khủng hoảng
Google đã phát triển một loạt hệ thống chuyên biệt để cung cấp thông tin kịp thời và đáng tin cậy trong các tình huống khủng hoảng, bất kể đó là khủng hoảng cá nhân, thiên tai hay các sự kiện khủng hoảng quy mô lớn:
- Khủng hoảng cá nhân: Các thuật toán của Google được thiết kế để phát hiện khi người dùng tìm kiếm thông tin liên quan đến các tình trạng khủng hoảng cá nhân. Trong những trường hợp này, Google hiển thị các đường dây nóng và thông tin từ các tổ chức uy tín cho các cụm từ tìm kiếm liên quan đến tự tử, tấn công tình dục, ngộ độc, bạo lực giới, hoặc nghiện ma túy. Người dùng có thể tìm hiểu thêm về cách Google hiển thị thông tin liên quan đến khủng hoảng cá nhân trên trang tìm kiếm.
- Cảnh báo khẩn cấp: Trong các tình huống khẩn cấp như thiên tai hoặc khủng hoảng quy mô lớn, hệ thống cảnh báo khẩn cấp của Google sẽ tự động hiển thị thông tin cập nhật từ các cơ quan quản lý địa phương, quốc gia hoặc quốc tế. Thông tin này có thể bao gồm số điện thoại khẩn cấp, trang web, bản đồ, bản dịch các cụm từ hữu ích, cơ hội quyên góp, và nhiều hơn nữa. Google đã thiết kế hệ thống này để cung cấp thông tin quan trọng trong các tình huống như lũ lụt, cháy rừng, động đất, bão, và các thảm họa khác, giúp người dùng nhanh chóng nắm bắt và phản ứng kịp thời với những diễn biến nguy hiểm.
Hệ thống loại bỏ trùng lặp
Trong quá trình tìm kiếm trên Google, người dùng có thể nhận được hàng ngàn, thậm chí hàng triệu kết quả phù hợp. Nhiều trong số này có nội dung tương tự hoặc trùng lặp. Để tối ưu hóa trải nghiệm người dùng, thuật toán của Google sẽ ưu tiên hiển thị những kết quả có giá trị cao nhất và loại bỏ các bản trùng lặp không cần thiết. Điều này giúp người dùng tiếp cận nhanh chóng với thông tin hữu ích nhất mà không phải lọc qua những kết quả lặp lại. Nếu muốn, người dùng có thể tìm hiểu thêm về cách hệ thống này hoạt động và cách xem lại các kết quả bị bỏ qua trong quá trình loại bỏ trùng lặp.
Tính năng loại bỏ trùng lặp cũng được áp dụng cho các đoạn trích nổi bật. Khi một trang web đã được chọn làm đoạn trích nổi bật trên trang kết quả, hệ thống của Google sẽ không lặp lại trang đó trong các phần khác của trang kết quả đầu tiên. Điều này không chỉ giúp giao diện kết quả tìm kiếm trở nên gọn gàng hơn mà còn giúp người dùng dễ dàng tìm thấy thông tin có liên quan hơn.
Hệ thống về miền khớp chính xác
Thuật toán xếp hạng của Google đánh giá nhiều yếu tố, trong đó có các từ ngữ trong tên miền, để xác định mức độ liên quan của nội dung với một truy vấn tìm kiếm. Tuy nhiên, Google sử dụng một hệ thống điều chỉnh để đảm bảo rằng các tên miền được thiết kế khớp chính xác với một số cụm từ tìm kiếm cụ thể không được ưu tiên quá mức trong kết quả tìm kiếm. Ví dụ, một tên miền như “quan-an-ngon-nhat” có thể được tạo ra với hy vọng rằng nó sẽ cải thiện thứ hạng chỉ vì tên miền chứa các từ khóa đó. Hệ thống của Google sẽ điều chỉnh để tránh tình trạng các tên miền khớp chính xác này có lợi thế không công bằng trong kết quả tìm kiếm.
Hệ thống về độ mới
Google tích hợp các thuật toán “cụm từ tìm kiếm cần độ mới” để đảm bảo rằng nội dung mới nhất được hiển thị cho các truy vấn đòi hỏi sự cập nhật. Ví dụ, khi người dùng tìm kiếm thông tin về một bộ phim vừa mới ra mắt, họ thường mong muốn thấy các bài đánh giá mới thay vì những bài viết cũ từ khi bộ phim còn đang trong giai đoạn sản xuất. Tương tự, khi một trận động đất mới xảy ra, thuật toán của Google sẽ ưu tiên hiển thị các tin tức và nội dung liên quan đến sự kiện đó, thay vì những tài liệu về đề phòng và tài nguyên từ các trận động đất trước đây.
Hệ thống phân tích đường liên kết và PageRank
Google sử dụng nhiều hệ thống để phân tích các liên kết giữa các trang web nhằm xác định nội dung nào là hữu ích nhất cho một truy vấn tìm kiếm cụ thể. Trong đó, PageRank là một trong những thuật toán xếp hạng cốt lõi được sử dụng từ khi Google ra đời. PageRank đánh giá giá trị của một trang web dựa trên số lượng và chất lượng của các liên kết đến trang đó. Nếu quan tâm, người dùng có thể tìm hiểu thêm về cơ chế hoạt động ban đầu của PageRank thông qua các nghiên cứu và bằng sáng chế liên quan. Dù PageRank đã phát triển vượt bậc so với phiên bản ban đầu, nó vẫn đóng vai trò quan trọng trong các thuật toán xếp hạng hiện đại của Google.
Hệ thống về tin tức địa phương
Google triển khai các hệ thống chuyên dụng để xác định và ưu tiên hiển thị các nguồn tin tức địa phương khi có liên quan đến truy vấn tìm kiếm. Những hệ thống này hỗ trợ các tính năng như “tin bài hàng đầu” và “tin tức địa phương”, giúp người dùng nhanh chóng tiếp cận thông tin từ các nguồn đáng tin cậy trong khu vực của họ.
MUM
Multitask Unified Model (MUM) là một mô hình trí tuệ nhân tạo đa nhiệm mà Google sử dụng để hiểu và tạo ngôn ngữ tự nhiên. Hiện tại, MUM chưa được tích hợp vào hệ thống xếp hạng chung trong tìm kiếm, nhưng nó đã được áp dụng cho các ứng dụng cụ thể, chẳng hạn như cải thiện kết quả tìm kiếm liên quan đến thông tin vắc-xin COVID-19 và tối ưu hóa các chú thích trong đoạn trích nổi bật.
So khớp thần kinh
So khớp thần kinh (neural matching) là một hệ thống trí tuệ nhân tạo được Google phát triển để hiểu cách các khái niệm trong truy vấn tìm kiếm và nội dung trang web được thể hiện, từ đó thực hiện việc so khớp giữa chúng. Hệ thống này giúp cải thiện độ chính xác của kết quả tìm kiếm bằng cách nắm bắt được mối liên hệ giữa các khái niệm, ngay cả khi từ ngữ cụ thể không hoàn toàn khớp nhau.
Hệ thống về nội dung nguyên gốc
Google có các thuật toán đảm bảo rằng nội dung nguyên gốc được hiển thị một cách nổi bật trong kết quả tìm kiếm, bao gồm cả việc ưu tiên các báo cáo nguyên gốc trước các trang web chỉ trích dẫn lại nội dung đó. Hệ thống này cũng hỗ trợ việc sử dụng mã đánh dấu chính tắc, cho phép các nhà sáng tạo nội dung chỉ rõ đâu là phiên bản chính của nội dung nếu nó bị sao chép trên nhiều trang khác.
Hệ thống giảm hạng dựa trên biện pháp xoá
Google áp dụng các chính sách giảm hạng đối với các trang web nhận được một lượng lớn yêu cầu xoá nội dung. Những yêu cầu này có thể được sử dụng làm tín hiệu để điều chỉnh thứ hạng của trang web trong kết quả tìm kiếm:
- Xoá vì lý do pháp lý: Khi một trang web nhận được nhiều yêu cầu xoá nội dung vì vi phạm bản quyền, Google có thể sử dụng điều này như một tín hiệu để giảm hạng toàn bộ nội dung khác trên trang đó. Mục tiêu là hạn chế hiển thị các nội dung vi phạm trong kết quả tìm kiếm, ưu tiên nội dung nguyên gốc và hợp pháp. Các tín hiệu giảm hạng tương tự cũng được áp dụng đối với các khiếu nại về phỉ báng, hàng giả, và các lệnh xoá từ tòa án. Đối với nội dung xâm hại tình dục trẻ em (CSAM), Google sẽ xoá ngay lập tức và giảm hạng tất cả các nội dung khác trên trang web chứa loại nội dung này.
- Xoá thông tin cá nhân: Nếu một trang web bị phát hiện cố ý thu lợi từ việc xoá thông tin cá nhân, Google sẽ áp dụng biện pháp giảm hạng đối với toàn bộ nội dung của trang đó. Hành vi tương tự trên các trang web khác cũng sẽ dẫn đến việc giảm hạng tương tự. Google có thể áp dụng các biện pháp tương tự cho các trang web nhận được nhiều yêu cầu xoá liên quan đến doxxing, hình ảnh cá nhân nhạy cảm được tạo hoặc chia sẻ mà không có sự đồng thuận, hoặc các nội dung giả mạo mang tính phản cảm.
Hệ thống xếp hạng đoạn văn
Passage ranking là một hệ thống trí tuệ nhân tạo được Google phát triển nhằm xác định và đánh giá từng phần cụ thể hoặc “đoạn văn” trên một trang web. Hệ thống này cho phép Google hiểu rõ hơn về mức độ liên quan của từng đoạn văn với một truy vấn tìm kiếm cụ thể, giúp cải thiện độ chính xác của kết quả tìm kiếm.
RankBrain
RankBrain là một hệ thống AI do Google triển khai để hiểu rõ mối quan hệ giữa các từ và các khái niệm liên quan. Nhờ RankBrain, Google có thể trả về kết quả tìm kiếm phù hợp ngay cả khi nội dung không chứa chính xác các từ khóa trong truy vấn. Hệ thống này nắm bắt ý nghĩa đằng sau các từ và khái niệm, giúp cải thiện hiệu quả tìm kiếm.
Hệ thống về thông tin đáng tin cậy
Google vận hành nhiều hệ thống khác nhau nhằm đảm bảo cung cấp thông tin đáng tin cậy nhất cho người dùng. Các hệ thống này giúp hiển thị những trang web uy tín, giảm hạng nội dung chất lượng thấp và nâng cao tiêu chuẩn báo chí. Trong trường hợp không có đủ thông tin đáng tin cậy, các hệ thống của Google sẽ tự động cảnh báo người dùng về nội dung liên quan đến các chủ đề đang thay đổi nhanh chóng hoặc khi chất lượng kết quả tìm kiếm chưa đáp ứng được yêu cầu. Ngoài ra, Google cũng cung cấp các mẹo tìm kiếm để giúp người dùng tìm thấy thông tin hữu ích hơn. Bạn có thể tìm hiểu thêm về cách Google đảm bảo chất lượng cao trong kết quả tìm kiếm.
Hệ thống về bài đánh giá
Google có một hệ thống đặc biệt để ưu tiên hiển thị các bài đánh giá chất lượng cao. Những bài đánh giá này thường cung cấp phân tích chi tiết và nghiên cứu nguyên gốc, được viết bởi các chuyên gia hoặc những người có kiến thức sâu rộng về chủ đề được đề cập.
Hệ thống về tính đa dạng của trang web
Hệ thống về tính đa dạng của trang web giúp Google hạn chế việc hiển thị quá nhiều trang từ cùng một website trong các kết quả tìm kiếm hàng đầu, nhằm đảm bảo sự đa dạng trong các kết quả. Tuy nhiên, trong một số trường hợp đặc biệt, Google vẫn có thể hiển thị nhiều hơn hai trang từ cùng một website nếu điều đó được xác định là đặc biệt phù hợp với truy vấn tìm kiếm. Hệ thống này thường xem các miền con như một phần của miền gốc. Ví dụ, các trang thuộc miền con (miencon.example.com) và miền gốc (example.com) thường được coi là từ cùng một website. Tuy nhiên, có những trường hợp ngoại lệ khi miền con được xem như một trang web độc lập để đảm bảo tính đa dạng trong kết quả tìm kiếm.
Hệ thống phát hiện nội dung rác
Google triển khai nhiều hệ thống để phát hiện và xử lý nội dung rác, tương tự như cách bộ lọc email rác hoạt động. Hệ thống phát hiện nội dung rác, bao gồm SpamBrain, giúp loại bỏ những nội dung và hành vi vi phạm chính sách về rác trực tuyến, đảm bảo rằng chỉ những kết quả hữu ích và phù hợp nhất được hiển thị. Các hệ thống này liên tục được cập nhật để bắt kịp với những phương pháp tạo ra nội dung rác mới nhất.
Hệ thống đã ngừng sử dụng
Những hệ thống sau đây được liệt kê cho mục đích lưu trữ và ghi nhận lịch sử. Chúng đã được tích hợp vào các thuật toán hiện tại hoặc đã trở thành một phần của các hệ thống xếp hạng chính của Google.
Hệ thống về nội dung hữu ích
Được ra mắt vào năm 2022 với tên gọi “bản cập nhật về nội dung hữu ích”, hệ thống này được thiết kế để đảm bảo rằng nội dung nguyên gốc, được tạo ra bởi con người và dành cho con người, được ưu tiên hiển thị trong kết quả tìm kiếm. Mục tiêu là ngăn chặn các nội dung được tạo ra chỉ để thao túng thứ hạng tìm kiếm và tăng lưu lượng truy cập. Đến tháng 3 năm 2024, hệ thống này đã phát triển và trở thành một phần của hệ thống xếp hạng cốt lõi, sử dụng nhiều tín hiệu và thuật toán khác nhau để cung cấp kết quả tìm kiếm hữu ích cho người dùng.
Hummingbird
Ra mắt vào tháng 8 năm 2013, Hummingbird là một bước tiến lớn trong hệ thống xếp hạng tổng thể của Google. Hệ thống này đã đặt nền tảng cho nhiều cải tiến tiếp theo, giúp thuật toán tìm kiếm của Google ngày càng hoàn thiện và thích ứng với các thay đổi trong hành vi tìm kiếm của người dùng.
Hệ thống Panda
Panda là một hệ thống ra đời năm 2011, được thiết kế để ưu tiên nội dung nguyên gốc và chất lượng cao trong kết quả tìm kiếm. Biệt danh “Panda” của hệ thống này đã trở thành một phần không thể thiếu trong các thuật toán xếp hạng chính của Google từ năm 2015.
Hệ thống Penguin
Penguin là một hệ thống được giới thiệu vào năm 2012 nhằm đối phó với các liên kết vi phạm và không tự nhiên. Được biết đến với tên gọi “bản cập nhật Penguin”, hệ thống này đã được tích hợp hoàn toàn vào các thuật toán xếp hạng chính của Google từ năm 2016, đóng vai trò quan trọng trong việc duy trì chất lượng của các liên kết trong kết quả tìm kiếm.
Các hệ thống xếp hạng của Google không ngừng được cải tiến để cung cấp những kết quả tìm kiếm tốt nhất cho người dùng. Hiểu rõ về những hệ thống này không chỉ giúp bạn tối ưu hóa nội dung trên website mà còn cải thiện thứ hạng tìm kiếm một cách hiệu quả. Việc nắm bắt các yếu tố xếp hạng mà Google ưu tiên sẽ là chìa khóa để thành công trong việc phát triển nội dung trực tuyến.