Trong quá trình quản lý và tối ưu hóa website, việc xác minh các trình thu thập dữ liệu truy cập vào máy chủ là điều vô cùng quan trọng. Điều này không chỉ giúp bạn bảo vệ website khỏi những truy cập giả mạo mà còn đảm bảo rằng các trình thu thập dữ liệu hợp pháp, như Googlebot, đang thu thập thông tin một cách chính xác. Bài viết này sẽ hướng dẫn bạn cách xác minh Googlebot và các trình thu thập dữ liệu khác của Google một cách chi tiết, giúp bạn duy trì sự an toàn và hiệu quả cho website của mình.
Bạn có thể xác minh xem một trình thu thập dữ liệu web truy cập vào máy chủ của bạn có thực sự là Googlebot hay không, một công cụ thu thập dữ liệu của Google, để đảm bảo rằng không có kẻ xấu giả mạo để truy cập vào trang web của bạn.
Google phân loại trình thu thập dữ liệu thành ba nhóm chính:
- Googlebot: Đây là trình thu thập dữ liệu chính của Google, chuyên sử dụng cho các sản phẩm tìm kiếm. Nó tuân thủ các quy tắc trong tệp robots.txt. Tên miền ngược sẽ có dạng crawl-–––.googlebot.com hoặc geo-crawl-–––.geo.googlebot.com, và địa chỉ IP tương ứng nằm trong tệp googlebot.json.
- Trình thu thập dữ liệu đặc biệt: Các công cụ này thực hiện các nhiệm vụ cụ thể như AdsBot, có thể hoặc không tuân thủ các quy tắc trong tệp robots.txt. Tên miền ngược thường có dạng rate-limited-proxy-–––.google.com, với danh sách IP nằm trong tệp special-crawlers.json.
- Trình tìm nạp do người dùng kích hoạt: Những công cụ và chức năng được người dùng khởi tạo như Google Site Verifier sẽ bỏ qua các quy tắc trong tệp robots.txt vì chúng thực hiện tìm nạp theo yêu cầu của người dùng. Các IP của chúng thường phân giải thành tên miền –––.gae.googleusercontent.com hoặc google-proxy-–––.google.com, với danh sách IP nằm trong các tệp user-triggered-fetchers.json và user-triggered-fetchers-google.json.
Để xác minh một cách chính xác, bạn có thể sử dụng hai phương pháp:
- Thủ công: Sử dụng công cụ dòng lệnh để tra cứu IP của một trình thu thập dữ liệu Googlebot khi bạn chỉ cần xác minh một lần.
- Tự động: Áp dụng khi cần kiểm tra trên diện rộng bằng cách đối chiếu địa chỉ IP của trình thu thập dữ liệu với danh sách IP công khai của Googlebot.
Sử dụng công cụ dòng lệnh
- Chạy quy trình tra cứu DNS ngược trên địa chỉ IP truy cập (được ghi nhận trong nhật ký hệ thống) bằng lệnh
host. - Xác minh rằng tên miền đó thuộc googlebot.com, google.com, hoặc googleusercontent.com.
- Tiếp tục chạy quy trình tra cứu DNS tiến trên tên miền đã truy xuất trong bước 1 bằng lệnh
hostđể kiểm tra lại tên miền. - Xác nhận rằng địa chỉ IP này khớp với địa chỉ IP ban đầu được ghi nhận trong nhật ký của bạn.
Ví dụ:
- Ví dụ 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.comcrawl-66-249-66-1.googlebot.com has address 66.249.66.1
- Ví dụ 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.comgeo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
- Ví dụ 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.comrate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Sử dụng giải pháp tự động
Ngoài ra, bạn có thể xác định Googlebot thông qua địa chỉ IP bằng cách so khớp địa chỉ IP của trình thu thập dữ liệu với danh sách dải IP của Google:
- Googlebot
- Trình thu thập dữ liệu đặc biệt như AdsBot
- Hoạt động tìm nạp do người dùng kích hoạt
Đối với các địa chỉ IP khác mà Google có thể sử dụng để truy cập trang web của bạn (ví dụ như Apps Script), bạn nên so khớp địa chỉ IP với danh sách IP chung của Google. Lưu ý rằng địa chỉ IP trong các tệp JSON sẽ được thể hiện ở định dạng CIDR.
Việc xác minh các trình thu thập dữ liệu truy cập vào website của bạn, đặc biệt là Googlebot, là một bước quan trọng trong việc duy trì bảo mật và hiệu quả cho website. Bằng cách sử dụng các phương pháp thủ công và tự động, bạn có thể đảm bảo rằng chỉ những trình thu thập dữ liệu hợp pháp mới có quyền truy cập và thu thập thông tin trên website của mình. Điều này không chỉ giúp bảo vệ dữ liệu mà còn tối ưu hóa khả năng hiện diện trên các công cụ tìm kiếm, từ đó nâng cao hiệu quả SEO cho website của bạn.
