Trong quá trình quản lý trang web, việc hiểu rõ các yếu tố ảnh hưởng đến khả năng xuất hiện trên Google Tìm kiếm là điều vô cùng quan trọng. Mã trạng thái HTTP, lỗi mạng và lỗi DNS là những yếu tố kỹ thuật có thể tác động trực tiếp đến quá trình lập chỉ mục và hiển thị trang web của bạn trên Google. Bài viết này sẽ giúp bạn hiểu rõ hơn về những ảnh hưởng của các mã trạng thái HTTP, lỗi mạng và lỗi DNS đối với Google Tìm kiếm và cách khắc phục chúng để tối ưu hóa hiệu quả SEO.
Trang này cung cấp thông tin về tác động của các mã trạng thái HTTP, lỗi mạng và lỗi DNS đối với Google Tìm kiếm. Nội dung trình bày các mã trạng thái phổ biến nhất mà Googlebot thường gặp trên môi trường web, cũng như các lỗi mạng và lỗi DNS tiêu biểu. Các mã trạng thái ít gặp hơn, chẳng hạn như 418 (I’m a teapot), sẽ không được đề cập. Mọi vấn đề nêu trong trang này đều có cảnh báo hoặc lỗi tương ứng trong báo cáo lập chỉ mục trang của Search Console.
Chúng tôi không hỗ trợ thử nghiệm tính năng của các giao thức hỗ trợ (HTTP và FTP) trừ khi có quy định khác.
Mã trạng thái HTTP
Mã trạng thái HTTP được tạo ra bởi máy chủ lưu trữ trang web khi phản hồi yêu cầu của ứng dụng, như trình duyệt hoặc trình thu thập dữ liệu. Mỗi mã trạng thái HTTP mang ý nghĩa riêng, nhưng thường kết quả yêu cầu sẽ tương tự nhau. Ví dụ, có nhiều mã trạng thái thông báo chuyển hướng, nhưng kết quả trả về thì giống nhau.
Search Console tạo thông báo lỗi cho các mã trạng thái trong khoảng 4xx–5xx và các lệnh chuyển hướng không thành công (3xx). Nếu máy chủ phản hồi bằng mã trạng thái 2xx, Google có thể cân nhắc lập chỉ mục nội dung nhận được trong phản hồi đó.
Google không đảm bảo lập chỉ mục khi gặp mã trạng thái HTTP 2xx (success).
Bảng mã trạng thái HTTP phổ biến:
2xx (success)
Google sẽ cân nhắc lập chỉ mục nội dung này. Nếu nội dung có dấu hiệu lỗi, như trang trống hoặc thông báo lỗi, Search Console sẽ hiển thị lỗi soft 404.
- 200 (success): Google sẽ đưa nội dung vào quy trình lập chỉ mục, nhưng không đảm bảo chắc chắn việc lập chỉ mục.
- 201 (created), 202 (accepted): Googlebot sẽ chờ nhận nội dung trong thời gian nhất định, sau đó đưa phần nội dung đã nhận vào quy trình lập chỉ mục. Thời gian chờ tùy thuộc vào loại tác nhân người dùng, như Googlebot Smartphone hoặc Googlebot Image.
- 204 (no content): Googlebot báo hiệu không nhận được nội dung nào, có thể dẫn đến lỗi soft 404 trong báo cáo lập chỉ mục trang của trang web.
3xx (redirection)
Googlebot sẽ theo dõi tối đa 10 bước chuyển hướng. Nếu không nhận được nội dung trong vòng 10 bước, Search Console sẽ báo lỗi chuyển hướng trong báo cáo lập chỉ mục trang của trang web. Số bước chuyển hướng phụ thuộc vào loại tác nhân người dùng; ví dụ, Googlebot Smartphone có thể có số bước khác với Googlebot Image.
Với tệp robots.txt, Googlebot sẽ theo dõi ít nhất 5 bước chuyển hướng như quy định trong RFC 1945, sau đó dừng lại và coi đó là lỗi 404 của tệp robots.txt.
Mọi nội dung Googlebot nhận được từ URL chuyển hướng sẽ bị bỏ qua, và nội dung của URL đích cuối cùng sẽ được xem xét để lập chỉ mục.
- 301 (moved permanently): Googlebot theo dõi lệnh chuyển hướng và coi đó là tín hiệu mạnh để chọn trang đích của lệnh chuyển hướng làm trang chính tắc.
- 302 (found): Googlebot theo dõi lệnh chuyển hướng và coi đó là tín hiệu yếu để chọn trang đích của lệnh chuyển hướng làm trang chính tắc.
- 303 (see other), 304 (not modified): Googlebot báo hiệu rằng nội dung giống với lần thu thập trước đó, có thể tính toán lại các tín hiệu của URL nhưng không ảnh hưởng đến việc lập chỉ mục.
- 307 (temporary redirect), 308 (moved permanently): Tương đương với 302 và 301. Dù Google Tìm kiếm xử lý các mã này tương tự nhau, nhưng ý nghĩa của chúng vẫn khác nhau, vì vậy cần sử dụng mã trạng thái thích hợp để hỗ trợ các ứng dụng khác.
4xx (client errors)
Google không lập chỉ mục các URL trả về mã trạng thái 4xx. Những URL đã được lập chỉ mục và trả về mã trạng thái 4xx sẽ bị xoá khỏi chỉ mục.
- 400 (bad request): Ngoại trừ lỗi 429, mọi lỗi 4xx được xử lý giống nhau, Googlebot báo hiệu rằng nội dung không tồn tại và quy trình lập chỉ mục sẽ xoá URL khỏi chỉ mục nếu URL này đã có trong chỉ mục.
- 401 (unauthorized), 403 (forbidden), 404 (not found), 410 (gone), 411 (length required), 429 (too many requests): Googlebot coi mã trạng thái 429 là tín hiệu máy chủ quá tải và coi đó là lỗi máy chủ.
5xx (server errors)
Lỗi máy chủ 5xx và 429 sẽ khiến Googlebot giảm tốc độ thu thập dữ liệu. Những URL đã lập chỉ mục vẫn còn trong chỉ mục, nhưng cuối cùng sẽ bị xoá nếu liên tục trả về lỗi máy chủ.
- 500 (internal server error): Googlebot giảm tốc độ thu thập dữ liệu và quy trình lập chỉ mục sẽ xoá những URL liên tục trả về lỗi máy chủ khỏi chỉ mục.
- 502 (bad gateway), 503 (service unavailable): Các mã trạng thái này báo hiệu rằng nội dung không được nhận, và Googlebot sẽ xử lý tương ứng.
Lưu ý rằng nếu tệp robots.txt trả về mã trạng thái lỗi máy chủ trong hơn 30 ngày, Google sẽ sử dụng phiên bản gần đây nhất lưu trong bộ nhớ đệm hoặc xem như không có hạn chế nào đối với việc thu thập dữ liệu.
Lỗi soft 404
Lỗi soft 404 xảy ra khi một URL trả về một trang thông báo rằng nội dung không tồn tại, nhưng lại phản hồi bằng mã trạng thái 200 (success). Điều này có thể xảy ra trong trường hợp trang không chứa nội dung chính hoặc là trang trống.
Các trang này có thể được tạo ra bởi máy chủ web, hệ thống quản lý nội dung hoặc trình duyệt người dùng vì nhiều lý do khác nhau. Ví dụ:
- Thiếu tệp trên máy chủ.
- Kết nối đến cơ sở dữ liệu bị hỏng.
- Trang kết quả tìm kiếm nội bộ trống.
- Chưa tải hoặc thiếu tệp JavaScript.
Việc trả về mã trạng thái 200 (success) trong những tình huống này có thể gây ra trải nghiệm không tốt cho người dùng, vì họ có thể nghĩ rằng trang đang hoạt động bình thường, nhưng thực tế lại gặp lỗi hoặc thông báo lỗi. Những trang này sẽ bị loại trừ khỏi kết quả tìm kiếm của Google.
Khi thuật toán của Google phát hiện rằng trang thực sự là trang lỗi dựa trên nội dung của trang, một lỗi soft 404 sẽ xuất hiện trong báo cáo lập chỉ mục trang của Search Console.
Khắc phục lỗi soft 404
Tùy thuộc vào tình trạng của trang và mục tiêu mong muốn, bạn có thể xử lý lỗi soft 404 bằng nhiều cách:
Trang và nội dung không còn tồn tại
-
- Nếu trang đã bị xóa và không có trang thay thế với nội dung tương tự, hãy trả về mã trạng thái 404 (not found) hoặc 410 (gone). Những mã trạng thái này cho công cụ tìm kiếm biết rằng trang không còn tồn tại và không nên lập chỉ mục nội dung này.
- Nếu có quyền truy cập vào tệp cấu hình máy chủ, bạn có thể tạo trang thông báo lỗi tùy chỉnh để trang này hữu ích hơn cho người dùng. Một trang 404 tùy chỉnh hiệu quả nên giúp người dùng tìm thấy thông tin họ cần hoặc cung cấp nội dung liên quan để khuyến khích họ khám phá thêm trên trang web.
Trang hoặc nội dung hiện đã chuyển sang nơi khác
-
- Nếu trang đã di chuyển hoặc có một trang thay thế phù hợp trên trang web, hãy sử dụng lệnh 301 (permanent redirect) để chuyển hướng người dùng đến vị trí mới. Điều này giúp duy trì trải nghiệm người dùng và thông báo cho công cụ tìm kiếm về vị trí mới của trang. Sử dụng Công cụ kiểm tra URL để xác minh rằng URL thực sự trả về mã trạng thái thích hợp.
Trang và nội dung vẫn tồn tại
-
- Nếu một trang bị gắn cờ lỗi soft 404 nhưng vẫn tồn tại, có thể do trang không tải đúng cách cho Googlebot hoặc thiếu tài nguyên quan trọng trong quá trình hiển thị. Hãy sử dụng Công cụ kiểm tra URL để kiểm tra nội dung hiển thị và mã HTTP trả về. Nếu trang không có nội dung hoặc hiển thị thông báo lỗi, có thể là do tham chiếu đến tài nguyên không tải được, như hình ảnh, tập lệnh hoặc các thành phần khác không phải văn bản. Tình trạng này có thể được xem là lỗi soft 404 và có thể do tài nguyên bị chặn, lỗi máy chủ, hoặc tài nguyên có kích thước lớn và tải chậm.
Lỗi mạng và lỗi DNS
Lỗi mạng và lỗi DNS có thể nhanh chóng ảnh hưởng tiêu cực đến khả năng hiển thị của URL trong Google Tìm kiếm. Googlebot xử lý các lỗi như thời gian chờ, lỗi đặt lại kết nối và lỗi DNS tương tự như cách xử lý lỗi máy chủ 5xx. Khi gặp lỗi mạng, tốc độ thu thập dữ liệu sẽ ngay lập tức giảm, do lỗi mạng thường cho thấy máy chủ không đủ khả năng xử lý mức tải hiện tại. Vì Googlebot không thể kết nối với máy chủ lưu trữ trang web, nên Google không nhận được bất kỳ nội dung nào để lập chỉ mục. Những URL đã được lập chỉ mục nhưng không thể truy cập sẽ bị xoá khỏi chỉ mục của Google trong vài ngày. Search Console có thể ghi nhận từng lỗi tương ứng cho các trường hợp này.
Nếu bạn không tự lưu trữ trang web, hãy liên hệ với nhà cung cấp dịch vụ lưu trữ hoặc CDN để được hỗ trợ.
Gỡ lỗi mạng
Những lỗi này xuất hiện trước hoặc trong quá trình Google thu thập dữ liệu URL. Do lỗi có thể xảy ra trước khi máy chủ phản hồi, nên không có mã trạng thái nào được trả về để báo hiệu vấn đề, điều này khiến việc chẩn đoán lỗi trở nên khó khăn hơn. Để gỡ lỗi thời gian chờ và lỗi đặt lại kết nối, bạn có thể thực hiện các bước sau:
- Kiểm tra nhật ký và cài đặt tường lửa. Có thể một quy tắc chặn quá rộng đang ngăn cản kết nối. Đảm bảo rằng không có quy tắc tường lửa nào chặn địa chỉ IP của Googlebot.
- Kiểm tra lưu lượng truy cập mạng. Sử dụng các công cụ như tcpdump và Wireshark để thu thập và phân tích các gói TCP, nhằm tìm ra các điểm bất thường có thể do một thành phần mạng hoặc mô-đun máy chủ gây ra.
- Nếu không phát hiện điều gì bất thường, hãy liên hệ với nhà cung cấp dịch vụ lưu trữ để được hỗ trợ thêm.
Lỗi có thể xảy ra ở bất kỳ thành phần nào trong máy chủ xử lý lưu lượng mạng. Ví dụ, nếu giao diện mạng bị quá tải, các gói tin có thể bị mất, dẫn đến lỗi thời gian chờ (không thể thiết lập kết nối) và lỗi đặt lại kết nối (gói RST được gửi đi do đóng nhầm cổng).
Gỡ lỗi DNS
Cấu hình sai là nguyên nhân phổ biến nhất gây ra lỗi DNS, nhưng lỗi này cũng có thể do quy tắc tường lửa chặn các truy vấn DNS của Googlebot. Để gỡ lỗi DNS, hãy thực hiện các bước sau:
- Kiểm tra các quy tắc tường lửa. Đảm bảo rằng không có quy tắc tường lửa nào chặn địa chỉ IP của Google và cả yêu cầu UDP lẫn TCP đều được cho phép.
- Kiểm tra các bản ghi DNS của bạn. Xác minh rằng các bản ghi A và CNAME đang trỏ đến đúng địa chỉ IP và tên máy chủ. Ví dụ:
css
dig +nocmd example.com a +noall +answer
dig +nocmd www.example.com cname +noall +answer
- Kiểm tra để đảm bảo rằng tất cả các máy chủ định danh đang trỏ đến đúng địa chỉ IP của trang web. Ví dụ:
less
dig +nocmd example.com ns +noall +answer
example.com. 86400 IN NS a.iana-servers.net.
example.com. 86400 IN NS b.iana-servers.net.
dig +nocmd @a.iana-servers.net example.com +noall +answer
example.com. 86400 IN A 93.184.216.34
dig +nocmd @b.iana-servers.net example.com +noall +answer
- Nếu bạn đã thực hiện thay đổi cấu hình DNS trong vòng 72 giờ qua, có thể cần thời gian để các thay đổi này có hiệu lực trên toàn mạng DNS. Để đẩy nhanh quá trình, bạn có thể xóa bộ nhớ đệm DNS công khai của Google.
- Nếu bạn tự vận hành máy chủ DNS, hãy đảm bảo máy chủ hoạt động ổn định và không bị quá tải.
Việc hiểu rõ và quản lý các mã trạng thái HTTP, lỗi mạng và lỗi DNS là yếu tố quan trọng giúp bạn duy trì sự hiện diện của trang web trên Google Tìm kiếm. Bằng cách nắm vững những kiến thức này và thực hiện các biện pháp khắc phục kịp thời, bạn có thể tối ưu hóa hiệu quả SEO và đảm bảo rằng trang web của mình luôn được Google lập chỉ mục và hiển thị tốt nhất. Hãy thường xuyên kiểm tra và theo dõi tình trạng của trang web thông qua các công cụ như Google Search Console để kịp thời phát hiện và xử lý các vấn đề kỹ thuật.
