Xác minh Googlebot và các trình thu thập dữ liệu khác của Google

Trong quá trình quản lý và tối ưu hóa website, việc xác minh các trình thu thập dữ liệu truy cập vào máy chủ là điều vô cùng quan trọng. Điều này không chỉ giúp bạn bảo vệ website khỏi những truy cập giả mạo mà còn đảm bảo rằng các trình thu thập dữ liệu hợp pháp, như Googlebot, đang thu thập thông tin một cách chính xác. Bài viết này sẽ hướng dẫn bạn cách xác minh Googlebot và các trình thu thập dữ liệu khác của Google một cách chi tiết, giúp bạn duy trì sự an toàn và hiệu quả cho website của mình.

Bạn có thể xác minh xem một trình thu thập dữ liệu web truy cập vào máy chủ của bạn có thực sự là Googlebot hay không, một công cụ thu thập dữ liệu của Google, để đảm bảo rằng không có kẻ xấu giả mạo để truy cập vào trang web của bạn.

Google phân loại trình thu thập dữ liệu thành ba nhóm chính:

  1. Googlebot: Đây là trình thu thập dữ liệu chính của Google, chuyên sử dụng cho các sản phẩm tìm kiếm. Nó tuân thủ các quy tắc trong tệp robots.txt. Tên miền ngược sẽ có dạng crawl-.googlebot.com hoặc geo-crawl-.geo.googlebot.com, và địa chỉ IP tương ứng nằm trong tệp googlebot.json.
  2. Trình thu thập dữ liệu đặc biệt: Các công cụ này thực hiện các nhiệm vụ cụ thể như AdsBot, có thể hoặc không tuân thủ các quy tắc trong tệp robots.txt. Tên miền ngược thường có dạng rate-limited-proxy-.google.com, với danh sách IP nằm trong tệp special-crawlers.json.
  3. Trình tìm nạp do người dùng kích hoạt: Những công cụ và chức năng được người dùng khởi tạo như Google Site Verifier sẽ bỏ qua các quy tắc trong tệp robots.txt vì chúng thực hiện tìm nạp theo yêu cầu của người dùng. Các IP của chúng thường phân giải thành tên miền .gae.googleusercontent.com hoặc google-proxy-.google.com, với danh sách IP nằm trong các tệp user-triggered-fetchers.json và user-triggered-fetchers-google.json.

Để xác minh một cách chính xác, bạn có thể sử dụng hai phương pháp:

  • Thủ công: Sử dụng công cụ dòng lệnh để tra cứu IP của một trình thu thập dữ liệu Googlebot khi bạn chỉ cần xác minh một lần.
  • Tự động: Áp dụng khi cần kiểm tra trên diện rộng bằng cách đối chiếu địa chỉ IP của trình thu thập dữ liệu với danh sách IP công khai của Googlebot.

Sử dụng công cụ dòng lệnh

  1. Chạy quy trình tra cứu DNS ngược trên địa chỉ IP truy cập (được ghi nhận trong nhật ký hệ thống) bằng lệnh host.
  2. Xác minh rằng tên miền đó thuộc googlebot.com, google.com, hoặc googleusercontent.com.
  3. Tiếp tục chạy quy trình tra cứu DNS tiến trên tên miền đã truy xuất trong bước 1 bằng lệnh host để kiểm tra lại tên miền.
  4. Xác nhận rằng địa chỉ IP này khớp với địa chỉ IP ban đầu được ghi nhận trong nhật ký của bạn.

Ví dụ:

  • Ví dụ 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
  • Ví dụ 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.
host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
  • Ví dụ 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.
host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Sử dụng giải pháp tự động

Ngoài ra, bạn có thể xác định Googlebot thông qua địa chỉ IP bằng cách so khớp địa chỉ IP của trình thu thập dữ liệu với danh sách dải IP của Google:

  • Googlebot
  • Trình thu thập dữ liệu đặc biệt như AdsBot
  • Hoạt động tìm nạp do người dùng kích hoạt

Đối với các địa chỉ IP khác mà Google có thể sử dụng để truy cập trang web của bạn (ví dụ như Apps Script), bạn nên so khớp địa chỉ IP với danh sách IP chung của Google. Lưu ý rằng địa chỉ IP trong các tệp JSON sẽ được thể hiện ở định dạng CIDR.

Việc xác minh các trình thu thập dữ liệu truy cập vào website của bạn, đặc biệt là Googlebot, là một bước quan trọng trong việc duy trì bảo mật và hiệu quả cho website. Bằng cách sử dụng các phương pháp thủ công và tự động, bạn có thể đảm bảo rằng chỉ những trình thu thập dữ liệu hợp pháp mới có quyền truy cập và thu thập thông tin trên website của mình. Điều này không chỉ giúp bảo vệ dữ liệu mà còn tối ưu hóa khả năng hiện diện trên các công cụ tìm kiếm, từ đó nâng cao hiệu quả SEO cho website của bạn.

Facebook
X
LinkedIn
Tumblr
Threads
logo_v4seowebsite

V4SEO là đội ngũ SEO & Web xuất phát từ Nha Trang, triển khai dự án cho doanh nghiệp trên toàn quốc. Chúng tôi cung cấp Dịch vụ SEO Nha Trang theo chuẩn Google, kết hợp kỹ thuật, nội dung và entity để tăng trưởng bền vững. Song song, Dịch vụ thiết kế website Nha Trang tối ưu UX, tốc độ và Core Web Vitals nhằm tối đa chuyển đổi; báo cáo minh bạch, hỗ trợ dài hạn.

Nội dung được sự cố vấn của chuyên gia SEO - Võ Quang Vinh
author-founder-v4seowebsite

Võ Quang Vinh – Chuyên gia SEO với hơn 10 năm kinh nghiệm triển khai hàng trăm dự án SEO tổng thể, từ thương mại điện tử đến dịch vụ địa phương. Từng đảm nhiệm vai trò SEO và là Keymember tại Gobranding và dân dắt đội SEO BachhoaXanh.com, anh là người đứng sau nhiều chiến dịch tăng trưởng traffic vượt bậc. Hiện tại, Vinh là người sáng lập và điều hành V4SEO, cung cấp giải pháp SEO & thiết kế website chuẩn UX/UI giúp doanh nghiệp bứt phá thứ hạng Google và tối ưu chuyển đổi. 

Bài viết liên quan
ĐĂNG KÝ V4SEO NGAY HÔM NAY KHUYẾN MÃI 15% TẤT CẢ DỊCH VỤ ÁP DỤNG TỚI HẾT THÁNG 1/2026

Nhận tư vấn từ V4SEO Đăng ký ngay hôm nay Bứt phá trong mai sau