Tổng quan về trình thu thập dữ liệu và trình tìm nạp của Google (Tác nhân người dùng)

Google sử dụng trình thu thập thông tin và trình tìm nạp để quét và thu thập dữ liệu từ các trang web, phục vụ cho việc xây dựng chỉ mục tìm kiếm cũng như các sản phẩm khác của Google. Hiểu rõ cách thức hoạt động của các công cụ này là bước quan trọng để quản lý hiệu quả sự hiện diện trực tuyến của bạn, đảm bảo rằng các nội dung quan trọng được Google ghi nhận và hiển thị trong kết quả tìm kiếm.

Google sử dụng trình thu thập thông tin và trình tìm nạp để thực hiện các hành động liên quan đến các sản phẩm của mình, thông qua các quy trình tự động hoặc theo yêu cầu từ người dùng.

Trình thu thập thông tin, còn được gọi là robot hoặc spider, là thuật ngữ chỉ các chương trình tự động phát hiện và quét các trang web bằng cách theo dõi liên kết từ trang này sang trang khác. Trình thu thập thông tin chính của Google cho công cụ tìm kiếm là Googlebot.

Trình tìm nạp, tương tự như trình duyệt, là công cụ yêu cầu một URL khi có yêu cầu từ người dùng.

Các bảng sau đây mô tả cách các sản phẩm và dịch vụ của Google sử dụng trình thu thập thông tin và trình tìm nạp, cách chúng xuất hiện trong nhật ký liên kết giới thiệu và cách chỉ định chúng trong tệp robots.txt. Các danh sách này không đầy đủ, chỉ liệt kê các trình yêu cầu phổ biến nhất có thể xuất hiện trong tệp nhật ký.

  • Mã tác nhân người dùng trong dòng user-agent của tệp robots.txt được sử dụng để liên kết với một loại trình thu thập thông tin khi tạo quy tắc thu thập dữ liệu cho trang web. Một số trình thu thập thông tin có nhiều hơn một mã, như được trình bày trong bảng. Đối với mỗi quy tắc, chỉ cần khớp với một mã trình thu thập thông tin để quy tắc đó có hiệu lực. Danh sách này tuy không đầy đủ nhưng bao gồm hầu hết các trình thu thập thông tin bạn có thể thấy trên trang web của mình.
  • Chuỗi tác nhân người dùng đầy đủ là mô tả chi tiết về trình thu thập thông tin, xuất hiện trong yêu cầu HTTP và nhật ký web của bạn.

Thận trọng: Chuỗi tác nhân người dùng có thể dễ dàng bị giả mạo. Hãy tìm hiểu cách xác minh xem khách truy cập có phải là trình thu thập thông tin của Google hay không.

Các trình thu thập dữ liệu phổ biến

Các trình thu thập dữ liệu của Google được thiết kế để thu thập thông tin nhằm xây dựng chỉ mục tìm kiếm, thực hiện các nhiệm vụ thu thập dữ liệu theo từng sản phẩm cụ thể, và phân tích dữ liệu. Chúng luôn tuân thủ các quy tắc trong tệp robots.txt và thường thu thập dữ liệu từ các dải IP được công bố trong đối tượng googlebot.json.

Dưới đây là một số trình thu thập thông tin phổ biến của Google:

Googlebot Smartphone

  • Mã tác nhân người dùng: Googlebot
  • Chuỗi tác nhân người dùng đầy đủ: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot Desktop

  • Mã tác nhân người dùng: Googlebot
  • Chuỗi tác nhân người dùng đầy đủ: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Phiên bản hiếm gặp: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot Image

  • Dùng để thu thập dữ liệu các URL hình ảnh cho Google Hình ảnh và các sản phẩm phụ thuộc vào hình ảnh.
  • Mã tác nhân người dùng: Googlebot-Image, Googlebot
  • Chuỗi tác nhân người dùng đầy đủ: Googlebot-Image/1.0

Googlebot News

  • Dùng để thu thập dữ liệu tin bài, tuân theo mã tác nhân người dùng Googlebot-News trước đây.
  • Mã tác nhân người dùng: Googlebot-News, Googlebot
  • Chuỗi tác nhân người dùng đầy đủ: Sử dụng nhiều chuỗi tác nhân người dùng Googlebot

Googlebot Video

  • Dùng để thu thập dữ liệu các URL video cho Google Video và các sản phẩm phụ thuộc vào video.
  • Mã tác nhân người dùng: Googlebot-Video, Googlebot
  • Chuỗi tác nhân người dùng đầy đủ: Googlebot-Video/1.0

Google StoreBot

  • Thu thập thông tin trên các loại trang như trang chi tiết sản phẩm, trang giỏ hàng, và trang thanh toán.
  • Mã tác nhân người dùng: Storebot-Google
  • Chuỗi tác nhân người dùng đầy đủ:
    • Tác nhân cho máy tính: Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
    • Tác nhân cho thiết bị di động: Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool

  • Sử dụng trong các công cụ kiểm tra của Google như Kiểm tra kết quả nhiều định dạng và Kiểm tra URL trong Search Console.
  • Mã tác nhân người dùng: Google-InspectionTool, Googlebot
  • Chuỗi tác nhân người dùng đầy đủ:
    • Thiết bị di động: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
    • Máy tính: Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther

  • Trình thu thập thông tin chung, sử dụng cho nhiều nhóm sản phẩm để tìm nạp nội dung có thể truy cập công khai, ví dụ cho mục đích nghiên cứu và phát triển nội bộ.
  • Mã tác nhân người dùng: GoogleOther
  • Chuỗi tác nhân người dùng đầy đủ:
    • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
    • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36

GoogleOther-Image

  • Phiên bản tối ưu hóa của GoogleOther để tìm nạp các URL hình ảnh có thể truy cập công khai.
  • Mã tác nhân người dùng: GoogleOther-Image, GoogleOther
  • Chuỗi tác nhân người dùng đầy đủ: GoogleOther-Image/1.0

GoogleOther-Video

  • Phiên bản tối ưu hóa của GoogleOther để tìm nạp các URL video có thể truy cập công khai.
  • Mã tác nhân người dùng: GoogleOther-Video, GoogleOther
  • Chuỗi tác nhân người dùng đầy đủ: GoogleOther-Video/1.0

Google-Extended

  • Mã thông báo sản phẩm độc lập, cho phép nhà xuất bản web quản lý việc sử dụng dữ liệu của họ để cải thiện các API tạo sinh của Gemini và Vertex AI. Google-Extended không ảnh hưởng đến việc đưa vào hoặc xếp hạng trang web trên Google Tìm kiếm.
  • Mã tác nhân người dùng: Google-Extended
  • Chuỗi tác nhân người dùng đầy đủ: Google-Extended không có chuỗi tác nhân người dùng HTTP riêng, việc thu thập dữ liệu sử dụng chuỗi tác nhân người dùng hiện có của Google.

Trình thu thập thông tin trong trường hợp đặc biệt

Các trình thu thập thông tin trong trường hợp đặc biệt được một số sản phẩm của Google sử dụng khi có thỏa thuận giữa trang web và sản phẩm về quá trình thu thập dữ liệu. Ví dụ, AdsBot có thể bỏ qua các quy tắc trong tệp robots.txt (*) khi được nhà xuất bản quảng cáo cho phép. Những trình thu thập thông tin này có thể hoạt động mà không tuân thủ các quy tắc trong robots.txt, do đó, chúng sử dụng dải IP khác so với các trình thu thập thông tin thông thường, và dải IP này được công bố trong đối tượng special-crawlers.json.

Dưới đây là các trình thu thập thông tin trong trường hợp đặc biệt:

APIs-Google

  • Được Google API sử dụng để gửi thông báo đẩy, bỏ qua các quy tắc trong tệp robots.txt.
  • Mã thông báo tác nhân người dùng: APIs-Google
  • Chuỗi tác nhân người dùng đầy đủ: APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

AdsBot Mobile Web

  • Kiểm tra chất lượng quảng cáo trên trang web dành cho thiết bị di động, bỏ qua các quy tắc trong tệp robots.txt.
  • Mã thông báo tác nhân người dùng: AdsBot-Google-Mobile
  • Chuỗi tác nhân người dùng đầy đủ: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

  • Kiểm tra chất lượng quảng cáo trên trang web dành cho máy tính, bỏ qua các quy tắc trong tệp robots.txt.
  • Mã thông báo tác nhân người dùng: AdsBot-Google
  • Chuỗi tác nhân người dùng đầy đủ: AdsBot-Google (+http://www.google.com/adsbot.html)

AdSense

  • Trình thu thập thông tin của AdSense truy cập trang web để xác định nội dung và cung cấp quảng cáo có liên quan, bỏ qua các quy tắc trong tệp robots.txt.
  • Mã thông báo tác nhân người dùng: Mediapartners-Google
  • Chuỗi tác nhân người dùng đầy đủ: Mediapartners-Google

Mobile AdSense

  • Trình thu thập thông tin của Mobile AdSense truy cập trang web để xác định nội dung và cung cấp quảng cáo liên quan trên thiết bị di động, bỏ qua các quy tắc trong tệp robots.txt.
  • Mã thông báo tác nhân người dùng: Mediapartners-Google
  • Chuỗi tác nhân người dùng đầy đủ: (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

Google-Safety

  • Tác nhân người dùng Google-Safety thực hiện thu thập dữ liệu liên quan đến các hành vi sai trái, như phát hiện phần mềm độc hại trên các liên kết công khai trong các sản phẩm của Google, và bỏ qua các quy tắc trong tệp robots.txt.
  • Chuỗi tác nhân người dùng đầy đủ: Google-Safety

Trình tìm nạp do người dùng kích hoạt

Trình tìm nạp do người dùng kích hoạt là các trình tìm nạp được yêu cầu thực hiện chức năng tìm nạp dựa trên sản phẩm cụ thể theo yêu cầu của người dùng. Ví dụ, Google Site Verifier hoạt động khi người dùng yêu cầu, hoặc một trang web được lưu trữ trên Google Cloud (GCP) có tính năng cho phép người dùng trang web truy xuất một nguồn cấp dữ liệu RSS bên ngoài. Do được kích hoạt bởi yêu cầu của người dùng, những trình tìm nạp này thường bỏ qua các quy tắc trong tệp robots.txt. Dải IP mà trình tìm nạp do người dùng kích hoạt sử dụng được công bố trong user-triggered-fetchers.json và user-triggered-fetchers-google.json.

Dưới đây là một số trình tìm nạp do người dùng kích hoạt:

Feedfetcher

  • Được sử dụng để thu thập dữ liệu từ nguồn cấp dữ liệu RSS hoặc Atom cho Google Podcasts, Google News, và PubSubHubbub.
  • Mã thông báo tác nhân người dùng: FeedFetcher-Google
  • Chuỗi tác nhân người dùng đầy đủ: FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Trung tâm xuất bản của Google

Google Read Aloud

  • Khi có yêu cầu của người dùng, Google Read Aloud tìm nạp và đọc các trang web bằng tính năng chuyển văn bản sang lời nói (TTS).
  • Chuỗi tác nhân người dùng đầy đủ:
    • Tác nhân cho máy tính: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
    • Tác nhân cho thiết bị di động: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
    • Tác nhân cũ (không dùng nữa): google-speakr

Google Site Verifier

  • Google Site Verifier tìm nạp mã xác minh trong Search Console theo yêu cầu của người dùng.
  • Chuỗi tác nhân người dùng đầy đủ: Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Lưu ý về Chrome/W.X.Y.Z trong chuỗi tác nhân người dùng

Khi bạn thấy chuỗi Chrome/W.X.Y.Z trong các chuỗi tác nhân người dùng được liệt kê ở bảng trên, W.X.Y.Z thực chất là một phần giữ chỗ đại diện cho phiên bản cụ thể của trình duyệt Chrome mà tác nhân người dùng đó sử dụng, ví dụ như 41.0.2272.96. Phiên bản này sẽ được cập nhật theo thời gian để phản ánh phiên bản Chromium mới nhất mà Googlebot đang sử dụng.

Nếu bạn đang tìm kiếm hoặc lọc các tác nhân người dùng với mẫu này trong nhật ký hoặc máy chủ, hãy sử dụng ký tự đại diện cho phần phiên bản thay vì chỉ định một phiên bản cụ thể.

Tác nhân người dùng trong tệp robots.txt

Trong trường hợp tệp robots.txt chứa nhiều tác nhân người dùng, Google sẽ tuân theo tác nhân cụ thể nhất. Nếu bạn muốn tất cả các trình thu thập thông tin của Google có thể truy cập vào các trang của mình, bạn không cần sử dụng tệp robots.txt. Nếu bạn muốn chặn hoặc cho phép toàn bộ các trình thu thập thông tin của Google truy cập một số nội dung, bạn có thể chỉ định Googlebot làm tác nhân người dùng. Ví dụ, nếu bạn muốn tất cả các trang của mình xuất hiện trên Google Tìm kiếm và hiển thị quảng cáo AdSense, bạn không cần sử dụng tệp robots.txt. Tương tự, nếu bạn muốn chặn hoàn toàn một số trang khỏi Google, việc chặn Googlebot cũng sẽ ngăn mọi tác nhân người dùng khác của Google truy cập những trang đó.

Tuy nhiên, nếu bạn muốn kiểm soát chi tiết hơn, bạn có thể thiết lập các quy tắc cụ thể. Ví dụ, bạn có thể muốn toàn bộ trang của mình xuất hiện trên Google Tìm kiếm, nhưng không muốn Google thu thập dữ liệu hình ảnh trong một thư mục cá nhân. Trong trường hợp này, bạn có thể sử dụng tệp robots.txt để không cho phép Googlebot-Image thu thập dữ liệu trong thư mục cá nhân, trong khi vẫn cho phép Googlebot thu thập dữ liệu mọi tệp khác. Cấu hình có thể như sau:

makefile

User-agent: Googlebot
Disallow:
User-agent: Googlebot-Image
Disallow: /personal

Trong một ví dụ khác, giả sử bạn muốn hiển thị quảng cáo trên tất cả các trang của mình, nhưng không muốn những trang đó xuất hiện trong Google Tìm kiếm. Trong trường hợp này, bạn cần chặn Googlebot nhưng cho phép tác nhân người dùng Mediapartners-Google, với cấu hình như sau:

makefile

User-agent: Googlebot
Disallow: /
User-agent: Mediapartners-Google
Disallow:

Kiểm soát tốc độ thu thập dữ liệu

Mỗi trình thu thập thông tin của Google truy cập các trang web với mục đích cụ thể và tốc độ riêng. Google sử dụng các thuật toán để xác định tốc độ thu thập dữ liệu tối ưu cho từng trang web. Nếu bạn nhận thấy trình thu thập thông tin của Google thu thập dữ liệu quá thường xuyên trên trang web của mình, bạn có thể điều chỉnh để giảm tốc độ thu thập.

Trình thu thập thông tin đã bị gỡ bỏ bởi Google

Các trình thu thập thông tin sau đây của Google đã ngừng hoạt động nhưng vẫn được liệt kê để tham khảo lịch sử.

Duplex trên web

  • Hỗ trợ dịch vụ Duplex trên web.
  • Mã thông báo tác nhân người dùng: DuplexWeb-Google
  • Chuỗi tác nhân người dùng đầy đủ: Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36
  • Lưu ý: Duplex trên web có thể bỏ qua ký tự đại diện *.

Web Light

  • Kiểm tra sự hiện diện của tiêu đề no-transform khi người dùng nhấp vào trang của bạn trong kết quả tìm kiếm, trong các điều kiện thích hợp. Tác nhân người dùng Web Light chỉ được sử dụng cho các yêu cầu duyệt web từ khách truy cập thực. Vì vậy, tác nhân này bỏ qua các quy tắc trong tệp robots.txt, vốn chỉ áp dụng cho các yêu cầu thu thập dữ liệu tự động.
  • Mã thông báo tác nhân người dùng: googleweblight
  • Chuỗi tác nhân người dùng đầy đủ: Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

AdsBot Mobile Web

  • Kiểm tra chất lượng quảng cáo trên trang web dành cho iPhone. Bỏ qua các quy tắc tác nhân người dùng chung (*) trong tệp robots.txt.
  • Mã thông báo tác nhân người dùng: AdsBot-Google-Mobile
  • Chuỗi tác nhân người dùng đầy đủ: Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Mobile Apps Android

  • Kiểm tra chất lượng quảng cáo trên các trang dành cho ứng dụng Android. Tuân theo quy tắc trong tệp robots.txt của AdsBot-Google, nhưng bỏ qua các quy tắc tác nhân người dùng chung (*) trong tệp robots.txt.
  • Mã thông báo tác nhân người dùng: AdsBot-Google-Mobile-Apps
  • Chuỗi tác nhân người dùng đầy đủ: AdsBot-Google-Mobile-Apps

Google Favicon

  • Mã thông báo tác nhân người dùng:
    • Googlebot-Image
    • Googlebot
  • Chuỗi tác nhân người dùng đầy đủ: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon

Việc hiểu rõ về các trình thu thập dữ liệu và trình tìm nạp của Google không chỉ giúp bạn quản lý tốt hơn sự xuất hiện của website trong kết quả tìm kiếm, mà còn đảm bảo rằng các nội dung quan trọng được Google ghi nhận đúng cách. Bằng cách sử dụng tệp robots.txt một cách chính xác, bạn có thể kiểm soát những phần nội dung nào trên trang web của mình được phép hoặc không được phép thu thập dữ liệu, từ đó tối ưu hóa hiệu suất SEO của website.

Facebook
X
LinkedIn
Tumblr
Threads
logo_v4seowebsite

V4SEO là đội ngũ SEO & Web xuất phát từ Nha Trang, triển khai dự án cho doanh nghiệp trên toàn quốc. Chúng tôi cung cấp Dịch vụ SEO Nha Trang theo chuẩn Google, kết hợp kỹ thuật, nội dung và entity để tăng trưởng bền vững. Song song, Dịch vụ thiết kế website Nha Trang tối ưu UX, tốc độ và Core Web Vitals nhằm tối đa chuyển đổi; báo cáo minh bạch, hỗ trợ dài hạn.

Nội dung được sự cố vấn của chuyên gia SEO - Võ Quang Vinh
author-founder-v4seowebsite

Võ Quang Vinh – Chuyên gia SEO với hơn 10 năm kinh nghiệm triển khai hàng trăm dự án SEO tổng thể, từ thương mại điện tử đến dịch vụ địa phương. Từng đảm nhiệm vai trò SEO và là Keymember tại Gobranding và dân dắt đội SEO BachhoaXanh.com, anh là người đứng sau nhiều chiến dịch tăng trưởng traffic vượt bậc. Hiện tại, Vinh là người sáng lập và điều hành V4SEO, cung cấp giải pháp SEO & thiết kế website chuẩn UX/UI giúp doanh nghiệp bứt phá thứ hạng Google và tối ưu chuyển đổi. 

Bài viết liên quan
ĐĂNG KÝ V4SEO NGAY HÔM NAY KHUYẾN MÃI 15% TẤT CẢ DỊCH VỤ ÁP DỤNG TỚI HẾT THÁNG 2/2026

Nhận tư vấn từ V4SEO Đăng ký ngay hôm nay Bứt phá trong mai sau