Tệp robots.txt là một công cụ quan trọng trong việc quản lý quá trình thu thập dữ liệu của các công cụ tìm kiếm trên trang web của bạn. Google, với vai trò là công cụ tìm kiếm hàng đầu, áp dụng những quy tắc cụ thể để diễn giải và xử lý tệp robots.txt. Bài viết này sẽ giải thích chi tiết cách google hiểu và thực hiện các quy tắc trong tệp robots.txt, giúp bạn tối ưu hóa hiệu quả SEO cho trang web của mình.
Trình thu thập dữ liệu tự động của Google tuân thủ giao thức loại trừ robot (Robots Exclusion Protocol – REP). Điều này có nghĩa là trước khi tiến hành thu thập dữ liệu trên một trang web, trình thu thập dữ liệu của Google sẽ tải và phân tích tệp robots.txt của trang web để xác định những phần nào có thể thu thập dữ liệu. Tuy nhiên, REP không áp dụng cho các trình thu thập dữ liệu do người dùng điều khiển (chẳng hạn như các yêu cầu thông tin từ nguồn cấp dữ liệu) hoặc các trình thu thập dữ liệu dùng để tăng cường bảo mật cho người dùng (như phân tích phần mềm độc hại).
Trang này mô tả cách Google diễn giải REP. Để tìm hiểu tiêu chuẩn gốc, hãy tham khảo RFC 9309.
Tệp robots.txt là gì?
Nếu bạn không muốn các trình thu thập dữ liệu truy cập vào một số phần cụ thể trên trang web của mình, bạn có thể tạo một tệp robots.txt với các quy tắc cụ thể. Tệp robots.txt là một tệp văn bản đơn giản, chứa các quy tắc quy định trình thu thập dữ liệu nào có quyền truy cập vào phần nào của trang web. Ví dụ, tệp robots.txt cho trang example.com có thể có nội dung như sau:
plaintext
# Tệp robots.txt này kiểm soát việc thu thập dữ liệu các URL dưới https://example.com.
# Tất cả các trình thu thập dữ liệu đều không được phép thu thập dữ liệu các tệp trong thư mục "includes",
# như các tệp .css, .js, nhưng Googlebot cần chúng để hiển thị, vì vậy Googlebot được phép thu thập.
User-agent: *
Disallow: /includes/User-agent: GooglebotAllow: /includes/
Sitemap: https://example.com/sitemap.xml
Nếu bạn mới bắt đầu làm quen với tệp robots.txt, hãy xem qua bài viết giới thiệu về robots.txt của chúng tôi. Bạn cũng có thể tham khảo các mẹo để tạo tệp robots.txt và danh sách câu hỏi thường gặp cùng với câu trả lời tương ứng.
Vị trí của tệp và phạm vi hiệu lực
Tệp robots.txt cần được đặt tại thư mục gốc của trang web và phải sử dụng giao thức được hỗ trợ. Giống như các URL khác, URL của tệp robots.txt phân biệt chữ hoa và chữ thường. Đối với Google Tìm kiếm, các giao thức được hỗ trợ bao gồm HTTP, HTTPS và FTP. Trên HTTP và HTTPS, trình thu thập dữ liệu sẽ tìm nạp tệp robots.txt thông qua yêu cầu HTTP GET không điều kiện. Trên FTP, trình thu thập dữ liệu sử dụng lệnh RETR (retrieve) với thông tin đăng nhập ẩn danh.
Các quy tắc trong tệp robots.txt chỉ áp dụng cho máy chủ, giao thức và cổng mà tệp này đang lưu trữ.
Ví dụ về URL tệp robots.txt hợp lệ
Bảng dưới đây cung cấp ví dụ về các URL của tệp robots.txt và những đường dẫn URL hợp lệ tương ứng. Cột 1 chứa URL của tệp robots.txt, và cột 2 chứa các miền mà tệp này sẽ hoặc không áp dụng.
Ví dụ về URL tệp robots.txt hợp lệ
https://example.com/robots.txt: Đây là trường hợp phổ biến. Tệp này không có hiệu lực với các miền con, giao thức hoặc số cổng khác. Tuy nhiên, tệp này sẽ có hiệu lực với mọi tệp trong mọi thư mục con trên cùng máy chủ, giao thức và cổng.Có hiệu lực với:https://example.com/https://example.com/folder/file
Không có hiệu lực với:
https://other.example.com/http://example.com/https://example.com:8181/
https://www.example.com/robots.txt: Tệp robots.txt trên tên miền phụ chỉ áp dụng cho tên miền phụ đó.Có hiệu lực với:https://www.example.com/
Không có hiệu lực với:
https://example.com/https://shop.www.example.com/https://www.shop.example.com/
https://example.com/folder/robots.txt: Không phải là tệp robots.txt hợp lệ. Trình thu thập dữ liệu không kiểm tra tệp robots.txt trong thư mục con.https://www.exämple.com/robots.txt: IDN tương đương với các phiên bản Punycode của chúng. Xem thêm về RFC 3492.Có hiệu lực với:https://www.exämple.com/https://xn--exmple-cua.com/
Không có hiệu lực với:
https://www.example.com/
ftp://example.com/robots.txt:Có hiệu lực với:ftp://example.com/
Không có hiệu lực với:
https://example.com/
https://212.96.82.21/robots.txt: Tệp robots.txt có địa chỉ IP dưới dạng tên máy chủ sẽ chỉ có hiệu lực khi thu thập dữ liệu địa chỉ IP đó dưới dạng tên máy chủ. Tệp này sẽ không tự động có hiệu lực với mọi trang web được lưu trữ trên địa chỉ IP đó.Có hiệu lực với:https://212.96.82.21/
Không có hiệu lực với:
https://example.com/(ngay cả khi được lưu trữ trên 212.96.82.21)
https://example.com:443/robots.txt: Số cổng tiêu chuẩn (80 cho HTTP, 443 cho HTTPS, 21 cho FTP) tương đương với tên máy chủ mặc định của chúng.Có hiệu lực với:https://example.com:443/https://example.com/
Không có hiệu lực với:
https://example.com:444/
https://example.com:8181/robots.txt: Các tệp robots.txt trên những số cổng không chuẩn chỉ có hiệu lực với nội dung được cung cấp thông qua các số cổng đó.Có hiệu lực với:https://example.com:8181/
Không có hiệu lực với:
https://example.com/
Xử lý lỗi và mã trạng thái HTTP
Khi yêu cầu tệp robots.txt, mã trạng thái HTTP trong phản hồi của máy chủ sẽ ảnh hưởng đến cách Googlebot xử lý tệp này. Dưới đây tóm tắt cách Googlebot xử lý các tệp robots.txt dựa trên các mã trạng thái HTTP khác nhau.
- 2xx (success): Mã trạng thái HTTP thành công cho phép trình thu thập dữ liệu của Google xử lý tệp robots.txt theo thông tin được cung cấp bởi máy chủ.
- 3xx (redirection): Googlebot sẽ theo dõi tối đa 5 bước chuyển hướng như quy định trong RFC 1945, sau đó dừng lại và coi đó là lỗi 404 đối với tệp robots.txt. Quy tắc này cũng áp dụng cho bất kỳ URL nào không được phép trong chuỗi chuyển hướng, vì lệnh chuyển hướng khiến trình thu thập dữ liệu không thể truy cập các quy tắc. Google không theo dõi các lệnh chuyển hướng logic trong các tệp robots.txt như chuyển hướng bằng khung, JavaScript hoặc meta refresh.
- 4xx (client errors): Googlebot xử lý tất cả các lỗi 4xx, ngoại trừ mã 429, như thể không có tệp robots.txt hợp lệ. Điều này có nghĩa là Google giả định rằng không có hạn chế nào đối với việc thu thập dữ liệu. Không nên sử dụng các mã trạng thái 401 và 403 để giới hạn tốc độ thu thập dữ liệu. Trừ mã 429, các mã trạng thái 4xx sẽ không ảnh hưởng đến tốc độ thu thập dữ liệu. Để giới hạn tốc độ thu thập dữ liệu, hãy tìm hiểu các phương pháp thích hợp khác.
- 5xx (server errors): Do máy chủ không thể cung cấp phản hồi chắc chắn cho yêu cầu của Google về tệp robots.txt, Google sẽ tạm thời coi các lỗi máy chủ 5xx và 429 như là trang web hoàn toàn không cho phép thu thập dữ liệu. Google sẽ tiếp tục thử thu thập dữ liệu của tệp robots.txt cho đến khi nhận được mã trạng thái HTTP không phải lỗi máy chủ. Lỗi 503 (service unavailable) sẽ dẫn đến việc thử lại yêu cầu thường xuyên. Nếu không thể truy cập tệp robots.txt trong hơn 30 ngày, Google sẽ sử dụng bản sao gần nhất của tệp này từ bộ nhớ đệm. Nếu không có bản sao nào, Google sẽ coi như không có hạn chế đối với việc thu thập dữ liệu.Nếu cần tạm ngưng quá trình thu thập dữ liệu, bạn nên phân phát mã trạng thái HTTP 503 cho tất cả các URL trên trang web.Nếu xác định được rằng trang web được cấu hình sai và trả về mã trạng thái 5xx thay vì 404 cho các trang bị thiếu, Google sẽ coi lỗi 5xx của trang web đó như là lỗi 404. Ví dụ, nếu trang lỗi trả về mã trạng thái 5xx có thông báo “Không tìm thấy trang”, Google sẽ diễn giải mã trạng thái đó là lỗi 404 (not found).
- Các lỗi khác: Google coi tệp robots.txt không thể tìm nạp do các sự cố liên quan đến DNS hoặc kết nối mạng (như hết thời gian chờ, phản hồi không hợp lệ, kết nối bị đặt lại hoặc gián đoạn, lỗi khi nhóm dữ liệu HTTP) là lỗi máy chủ.
Lưu vào bộ nhớ đệm
Google thường lưu trữ nội dung của tệp robots.txt vào bộ nhớ đệm trong tối đa 24 giờ. Tuy nhiên, thời gian này có thể kéo dài hơn nếu không thể làm mới phiên bản đã lưu trong bộ nhớ đệm, chẳng hạn như do hết thời gian chờ hoặc gặp lỗi 5xx. Các trình thu thập dữ liệu khác nhau có thể dùng chung một phản hồi đã lưu trong bộ nhớ đệm. Google có thể điều chỉnh thời gian lưu vào bộ nhớ đệm dựa trên các tiêu đề HTTP max-age của Cache-Control.
Định dạng tệp
Tệp robots.txt phải là tệp văn bản thuần túy được mã hóa UTF-8, và các dòng phải được phân tách bằng CR, CR/LF hoặc LF.
Google sẽ bỏ qua các dòng không hợp lệ trong tệp robots.txt, bao gồm dấu thứ tự byte (Byte Order Mark – BOM) Unicode ở đầu tệp, và chỉ sử dụng các dòng hợp lệ. Ví dụ, nếu nội dung tải xuống là HTML thay vì các quy tắc trong tệp robots.txt, Google sẽ cố gắng phân tích cú pháp nội dung, trích xuất các quy tắc hợp lệ và bỏ qua mọi nội dung khác.
Tương tự, nếu chế độ mã hóa ký tự của tệp robots.txt không phải là UTF-8, Google có thể bỏ qua các ký tự không thuộc phạm vi UTF-8, điều này có thể làm cho các quy tắc trong tệp robots.txt trở nên không hợp lệ.
Hiện tại, Google áp dụng giới hạn kích thước tệp robots.txt là 500 kibibyte (KiB). Phần nội dung vượt quá kích thước tối đa này sẽ bị bỏ qua. Bạn có thể giảm kích thước tệp robots.txt bằng cách hợp nhất các quy tắc để tránh vượt quá kích thước cho phép. Ví dụ, đặt các nội dung bị loại trừ vào một thư mục riêng.
Cú pháp
Các dòng hợp lệ trong tệp robots.txt phải bao gồm một trường, dấu hai chấm và một giá trị. Dấu cách là tùy chọn nhưng nên sử dụng để tăng tính dễ đọc. Hệ thống sẽ bỏ qua khoảng trắng ở đầu và cuối dòng. Để thêm nhận xét vào tệp, bạn có thể sử dụng ký tự # trước phần nhận xét. Mọi ký tự sau ký tự # sẽ bị bỏ qua. Định dạng chung là <field>:<value><#optional-comment>.
Google hỗ trợ các trường sau:
- user-agent: xác định trình thu thập dữ liệu áp dụng cho quy tắc này.
- allow: chỉ định một đường dẫn URL được phép thu thập dữ liệu.
- disallow: chỉ định một đường dẫn URL không được phép thu thập dữ liệu.
- sitemap: URL đầy đủ của một sơ đồ trang web.
Các trường allow và disallow còn được gọi là các quy tắc (hay lệnh). Các quy tắc này luôn được xác định theo cú pháp rule: [path], trong đó [path] là tùy chọn. Theo mặc định, các trình thu thập dữ liệu được chỉ định không bị ràng buộc bởi bất kỳ quy tắc hạn chế nào nếu không có quy tắc nào được áp dụng. Trình thu thập dữ liệu sẽ bỏ qua các quy tắc không có [path].
Giá trị [path] (nếu được chỉ định) phải nằm ở vị trí tương đối so với thư mục gốc của trang web từ đó tệp robots.txt được truy xuất (sử dụng cùng một giao thức, cổng, tên máy chủ và tên miền). Giá trị đường dẫn phải bắt đầu bằng / để chỉ định thư mục gốc, và phân biệt chữ hoa chữ thường. Tìm hiểu thêm về cách xác định URL phù hợp dựa trên giá trị đường dẫn.
user-agent
Dòng user-agent xác định trình thu thập dữ liệu mà quy tắc này áp dụng. Tham khảo bài viết trợ giúp về Trình thu thập dữ liệu và chuỗi tác nhân người dùng của Google để có danh sách đầy đủ các chuỗi tác nhân người dùng có thể sử dụng trong tệp robots.txt. Giá trị của dòng user-agent không phân biệt chữ hoa chữ thường.
disallow
Quy tắc disallow chỉ định các đường dẫn mà trình thu thập dữ liệu không được phép thu thập (theo dòng user-agent mà quy tắc disallow được nhóm cùng). Trình thu thập dữ liệu sẽ bỏ qua các quy tắc không có đường dẫn. Google không thể lập chỉ mục nội dung của các trang bị cấm thu thập dữ liệu, nhưng vẫn có thể lập chỉ mục URL và hiển thị URL đó trong kết quả tìm kiếm mà không có đoạn trích. Tìm hiểu thêm về cách chặn hoạt động lập chỉ mục.
Giá trị của quy tắc disallow phân biệt chữ hoa chữ thường.
Cách sử dụng:
lua
disallow: [path]
allow
Quy tắc allow chỉ định các đường dẫn mà trình thu thập dữ liệu được phép truy cập. Nếu không có đường dẫn nào được chỉ định, quy tắc này sẽ bị bỏ qua. Giá trị của quy tắc allow phân biệt chữ hoa chữ thường.
Cách sử dụng:
lua
allow: [path]
sitemap
Google, Bing, Yahoo và các công cụ tìm kiếm phổ biến khác hỗ trợ trường sitemap trong tệp robots.txt, theo định nghĩa trên sitemaps.org. Giá trị của trường sitemap phân biệt chữ hoa chữ thường.
Cách sử dụng:
makefile
sitemap: [absoluteURL]
Dòng [absoluteURL] trỏ đến vị trí của sơ đồ trang web hoặc tệp chỉ mục sơ đồ trang web. Đây phải là một URL đầy đủ (bao gồm cả giao thức và máy chủ) và không cần phải mã hóa URL. URL không bắt buộc phải nằm trên cùng một máy chủ với tệp robots.txt. Bạn có thể chỉ định nhiều trường sitemap. Trường sơ đồ trang web không bị ràng buộc bởi bất kỳ tác nhân người dùng cụ thể nào, và mọi trình thu thập dữ liệu đều có thể tuân theo những trường này miễn là không bị cấm.
Ví dụ:
makefile
user-agent: otherbot
disallow: /kalesitemap: https://example.com/sitemap.xmlsitemap: https://cdn.example.org/other-sitemap.xml
sitemap: https://ja.example.org/テスト-サイトマップ.xml
Nhóm các dòng và quy tắc
Bạn có thể nhóm các quy tắc áp dụng cho nhiều tác nhân người dùng bằng cách lặp lại dòng user-agent cho từng trình thu thập dữ liệu.
Ví dụ:
makefile
user-agent: a
disallow: /cuser-agent: bdisallow: /d
user-agent: euser-agent: f
disallow: /g
user-agent: h
Trong ví dụ này, có bốn nhóm quy tắc riêng biệt:
- Một nhóm cho tác nhân người dùng “a”.
- Một nhóm cho tác nhân người dùng “b”.
- Một nhóm cho cả tác nhân người dùng “e” và “f”.
- Một nhóm cho tác nhân người dùng “h”.
Để tìm hiểu chi tiết về cách nhóm các quy tắc, hãy tham khảo phần 2.1 của giao thức loại trừ robot.
Thứ tự ưu tiên đối với tác nhân người dùng
Chỉ có một nhóm hợp lệ duy nhất cho mỗi trình thu thập dữ liệu cụ thể. Googlebot xác định nhóm quy tắc chính xác bằng cách tìm trong tệp robots.txt nhóm có tác nhân người dùng cụ thể nhất phù hợp với tác nhân người dùng của Googlebot. Các nhóm khác sẽ bị bỏ qua. Tất cả các văn bản không khớp đều bị loại trừ (ví dụ: cả googlebot/1.2 và googlebot* đều tương đương với googlebot). Thứ tự xuất hiện của các nhóm trong tệp robots.txt không quan trọng.
Nếu bạn khai báo nhiều nhóm quy tắc cho cùng một tác nhân người dùng, tất cả các quy tắc trong các nhóm đó sẽ được kết hợp nội bộ thành một nhóm duy nhất. Tuy nhiên, nhóm dành cho tác nhân người dùng cụ thể và nhóm chung (*) sẽ không kết hợp với nhau.
Ví dụ
Khớp với trường user-agent
sql
user-agent: googlebot-news
(group 1)user–agent: *(group 2)
user–agent: googlebot(group 3)
Cách các trình thu thập dữ liệu chọn nhóm phù hợp:
- Googlebot News: Googlebot-news tuân theo nhóm 1, vì đây là nhóm cụ thể nhất.
- Googlebot (web): Googlebot tuân theo nhóm 3.
- Googlebot StoreBot: Storebot-Google tuân theo nhóm 2, vì không có nhóm cụ thể nào dành cho Storebot-Google.
- Googlebot News (khi thu thập dữ liệu hình ảnh): Khi thu thập dữ liệu hình ảnh, googlebot-news tuân theo nhóm 1. Googlebot-news chỉ tuân theo nhóm 1 vì không thu thập dữ liệu hình ảnh cho Google Hình ảnh.
- Otherbot (web): Các trình thu thập dữ liệu khác của Google tuân theo nhóm 2.
- Otherbot (tin tức): Các trình thu thập dữ liệu khác của Google có chức năng thu thập dữ liệu tin tức nhưng không được xác định là googlebot-news sẽ tuân theo nhóm 2. Ngay cả khi có một mục dành riêng cho trình thu thập dữ liệu, mục đó chỉ có hiệu lực nếu phù hợp.
Nhóm quy tắc
Nếu có nhiều nhóm trong tệp robots.txt liên quan đến một tác nhân người dùng cụ thể, Googlebot sẽ hợp nhất các nhóm đó nội bộ. Ví dụ:
makefile
user-agent: googlebot-news
disallow: /fishuser-agent: *disallow: /carrots
user-agent: googlebot-newsdisallow: /shrimp
Googlebot sẽ nhóm các quy tắc lại với nhau nội bộ dựa trên tác nhân người dùng, ví dụ:
makefile
user-agent: googlebot-news
disallow: /fish
disallow: /shrimpuser-agent: *disallow: /carrots
Trình phân tích cú pháp robots.txt bỏ qua các quy tắc khác ngoài allow, disallow và user-agent. Điều này có nghĩa là đoạn mã sau trong tệp robots.txt được coi là một nhóm, và quy tắc disallow: / sẽ áp dụng cho cả user-agent a và b:
makefile
user-agent: a
sitemap: https://example.com/sitemap.xmluser-agent: bdisallow: /
Khi xử lý các quy tắc trong tệp robots.txt, trình thu thập dữ liệu sẽ bỏ qua dòng sitemap. Ví dụ, các trình thu thập dữ liệu hiểu đoạn mã trước đó trong tệp robots.txt như sau:
makefile
user-agent: a
user-agent: b
disallow: /Tìm URL phù hợp dựa trên giá trị đường dẫn
Google sử dụng giá trị đường dẫn trong các quy tắc allow và disallow để xác định liệu một quy tắc có áp dụng cho một URL cụ thể trên trang web hay không. Quy trình này hoạt động bằng cách so sánh quy tắc với thành phần đường dẫn của URL mà trình thu thập dữ liệu đang cố gắng truy cập. Các ký tự ASCII không thuộc 7-bit trong một đường dẫn có thể được sử dụng dưới dạng ký tự UTF-8 hoặc ký tự UTF-8 mã hóa bằng ký tự thoát phần trăm theo RFC 3986.
Google, Bing và các công cụ tìm kiếm phổ biến khác hỗ trợ một số ký tự đại diện có giới hạn cho các giá trị đường dẫn. Các ký tự đại diện này bao gồm:
*chỉ định 0 hoặc nhiều ký tự hợp lệ bất kỳ.$chỉ định điểm cuối của URL.
Nội dung dưới đây cho thấy cách các ký tự đại diện ảnh hưởng đến quá trình phân tích cú pháp:
Ví dụ về đường dẫn khớp:
/: Khớp với thư mục gốc và mọi URL cấp thấp hơn./*: Tương đương với/. Ký tự đại diện đứng sau bị bỏ qua./$: Chỉ khớp với thư mục gốc. Mọi URL cấp thấp hơn đều được phép thu thập dữ liệu./fish: Khớp với mọi đường dẫn bắt đầu bằng/fish. Lưu ý rằng quá trình so khớp phân biệt chữ hoa chữ thường.Khớp:/fish/fish.html/fish/salmon.html/fishheads/fishheads/yummy.html/fish.php?id=anything
Không khớp:
/Fish.asp/catfish/?id=fish/desert/fish
/fish*: Tương đương với/fish. Ký tự đại diện đứng sau bị bỏ qua.Khớp:/fish/fish.html/fish/salmon.html/fishheads/fishheads/yummy.html/fish.php?id=anything
Không khớp:
/Fish.asp/catfish/?id=fish/desert/fish
/fish/: Khớp với mọi mục trong thư mục/fish/.Khớp:/fish//fish/?id=anything/fish/salmon.htm
Không khớp:
/fish/fish.html/animals/fish//Fish/Salmon.asp
/*.php: Khớp với mọi đường dẫn chứa.php.Khớp:/index.php/filename.php/folder/filename.php/folder/filename.php?parameters/folder/any.php.file.html/filename.php/
Không khớp:
/(ngay cả khi liên kết đến/index.php)/windows.PHP
/*.php$: Khớp với mọi đường dẫn kết thúc bằng.php.Khớp:/filename.php/folder/filename.php
Không khớp:
/filename.php?parameters/filename.php//filename.php5/windows.PHP
/fish*.php: Khớp với mọi đường dẫn chứa/fishvà.phptheo thứ tự này.Khớp:/fish.php/fishheads/catfish.php?parameters
Không khớp:
/Fish.PHP
Thứ tự ưu tiên đối với quy tắc
Khi khớp quy tắc trong tệp robots.txt với URL, các trình thu thập dữ liệu sẽ áp dụng quy tắc cụ thể nhất, dựa trên độ dài của đường dẫn quy tắc. Trong trường hợp các quy tắc mâu thuẫn với nhau (bao gồm cả các quy tắc có ký tự đại diện), Google sẽ sử dụng quy tắc có mức độ hạn chế thấp nhất.
Ví dụ sau minh họa quy tắc mà Googlebot sẽ áp dụng cho một URL cụ thể:
Trường hợp ví dụ
- https://example.com/page
makefile
allow: /p
disallow: /
Quy tắc áp dụng:
allow: /pvì quy tắc này cụ thể hơn. - https://example.com/folder/page
bash
allow: /folder
disallow: /folder
Quy tắc áp dụng:
allow: /foldervì khi có nhiều quy tắc mâu thuẫn, Google sẽ sử dụng quy tắc có mức độ hạn chế thấp nhất. - https://example.com/page.htm
makefile
allow: /page
disallow: /*.htm
Quy tắc áp dụng:
disallow: /*.htmvì đường dẫn quy tắc dài hơn và khớp với nhiều ký tự hơn trong URL, nên cụ thể hơn. - https://example.com/page.php5
makefile
allow: /page
disallow: /*.ph
Quy tắc áp dụng:
allow: /pagevì khi có nhiều quy tắc mâu thuẫn, Google sẽ sử dụng quy tắc có mức độ hạn chế thấp nhất. - https://example.com/
makefile
allow: /$
disallow: /
Quy tắc áp dụng:
allow: /$vì quy tắc này cụ thể hơn. - https://example.com/page.htm
makefile
allow: /$
disallow: /
Quy tắc áp dụng:
disallow: /vì quy tắcallowchỉ áp dụng cho URL gốc.
Hiểu rõ cách google diễn giải và xử lý tệp robots.txt giúp bạn kiểm soát tốt hơn quá trình thu thập dữ liệu trang web, từ đó tối ưu hóa SEO và bảo vệ những phần thông tin nhạy cảm. Việc cấu hình đúng tệp robots.txt không chỉ đảm bảo rằng trang web của bạn được thu thập dữ liệu hiệu quả mà còn giúp tăng cường trải nghiệm người dùng thông qua việc cải thiện tốc độ tải trang và bảo mật thông tin.
