Sơ đồ trang web (sitemap) là một công cụ quan trọng giúp các công cụ tìm kiếm như Google thu thập thông tin về các trang trên website của bạn một cách hiệu quả. Bằng cách tạo và gửi sơ đồ trang web, bạn có thể thông báo cho Google về những URL quan trọng nhất mà bạn muốn được ưu tiên xuất hiện trong kết quả tìm kiếm. Trong bài viết này, chúng ta sẽ tìm hiểu chi tiết về cách tạo và gửi sơ đồ trang web, cũng như các phương pháp tốt nhất để tối ưu hóa quy trình này.
Trang này cung cấp hướng dẫn chi tiết về cách tạo và gửi sơ đồ trang web (sitemap) cho Google, đặc biệt hữu ích cho những người mới bắt đầu làm quen với khái niệm này.

Google hỗ trợ nhiều định dạng sơ đồ trang web khác nhau, tất cả đều tuân theo giao thức sơ đồ trang web. Mỗi định dạng có những ưu điểm và hạn chế riêng, vì vậy bạn cần chọn định dạng phù hợp nhất với cấu trúc và nhu cầu của trang web của mình. Google không có sự ưu tiên đối với bất kỳ định dạng nào. Dưới đây là so sánh chi tiết giữa các định dạng sơ đồ trang web phổ biến:
Sơ đồ trang web XML: Sơ đồ trang web XML là định dạng linh hoạt nhất, cho phép bạn mở rộng và cung cấp thêm thông tin về hình ảnh, video, nội dung tin tức và các phiên bản bản địa hóa của trang web.
- Ưu điểm:
- Linh hoạt và dễ mở rộng, phù hợp với hầu hết các loại trang web.
- Cung cấp lượng thông tin phong phú về các URL trên trang web.
- Hầu hết các hệ thống quản lý nội dung (CMS) có khả năng tự động tạo sơ đồ trang web XML hoặc có các plugin hỗ trợ.
- Nhược điểm:
- Quá trình xử lý có thể trở nên phức tạp, đặc biệt với các trang web lớn hoặc thường xuyên thay đổi URL.
- Việc duy trì và cập nhật sơ đồ trang web XML có thể gặp khó khăn nếu không được quản lý cẩn thận.
Sơ đồ trang web RSS, mRSS và Atom 1.0: Các sơ đồ trang web sử dụng định dạng RSS, mRSS và Atom 1.0 có cấu trúc tương tự XML nhưng thường được tự động tạo bởi CMS, làm cho chúng trở thành lựa chọn dễ dàng nhất để triển khai.
- Ưu điểm:
- Hầu hết các CMS đều tự động tạo các nguồn cấp dữ liệu này, giảm thiểu công sức thiết lập.
- Hữu ích cho việc cung cấp thông tin về video trên trang web cho Google.
- Nhược điểm:
- Giới hạn trong việc cung cấp thông tin, chỉ hỗ trợ video, không hỗ trợ hình ảnh hoặc tin tức.
- Tương tự như XML, quá trình xử lý và quản lý có thể trở nên phức tạp.
Sơ đồ trang web dạng văn bản: Định dạng văn bản là định dạng đơn giản nhất, chỉ liệt kê các URL của trang HTML và các nội dung có thể lập chỉ mục khác.
- Ưu điểm:
- Đơn giản trong việc thực hiện và duy trì, đặc biệt thích hợp cho các trang web lớn cần quản lý nhiều URL.
- Nhược điểm:
- Chỉ hỗ trợ các trang HTML và nội dung văn bản có thể lập chỉ mục, không phù hợp cho các trang web có nhu cầu phức tạp hơn như quản lý hình ảnh hoặc video.
Việc lựa chọn định dạng sơ đồ trang web phù hợp là bước đầu tiên quan trọng trong việc tối ưu hóa SEO và cải thiện khả năng lập chỉ mục của trang web trên các công cụ tìm kiếm như Google.
Các phương pháp tối ưu hóa sơ đồ trang web
Để tối ưu hóa hiệu quả sơ đồ trang web (sitemap), việc tuân thủ các phương pháp tốt nhất được đề xuất bởi giao thức sơ đồ trang web là rất quan trọng. Những phương pháp này thường liên quan đến việc quản lý kích thước tệp, vị trí lưu trữ và định dạng URL trong sơ đồ trang web.
Giới hạn kích thước sơ đồ trang web: Mỗi sơ đồ trang web đều bị giới hạn kích thước ở mức 50 MB (không nén) hoặc 50.000 URL, bất kể định dạng. Nếu vượt quá giới hạn này, bạn cần chia sơ đồ trang web thành nhiều tệp nhỏ hơn. Một cách tối ưu là tạo tệp chỉ mục sơ đồ trang web để quản lý các tệp này và gửi tệp chỉ mục đó cho Google. Phương pháp này không chỉ giúp bạn theo dõi hiệu suất của từng sơ đồ trang web trong Google Search Console mà còn đảm bảo rằng tất cả các URL quan trọng đều được Google thu thập dữ liệu đầy đủ.

Vị trí và mã hóa tệp sơ đồ trang web: Tệp sơ đồ trang web cần được mã hóa bằng phương thức UTF-8 để đảm bảo tính toàn vẹn dữ liệu. Vị trí lưu trữ tệp cũng đóng vai trò quan trọng trong cách thức các công cụ tìm kiếm truy cập và thu thập dữ liệu trang web. Tốt nhất, bạn nên lưu trữ sơ đồ trang web tại thư mục gốc của trang web để nó có thể tác động đến toàn bộ các tệp trên trang. Nếu bạn gửi sơ đồ trang web thông qua Google Search Console, sơ đồ trang web sẽ chỉ ảnh hưởng đến các thư mục con thuộc cùng thư mục mẹ, do đó, vị trí này cần được chọn lựa cẩn thận để tối ưu hóa phạm vi thu thập dữ liệu.
Định dạng và thuộc tính URL: Việc sử dụng URL tuyệt đối và đầy đủ trong sơ đồ trang web là cực kỳ quan trọng. Google sẽ thu thập dữ liệu URL đúng như cách bạn liệt kê, vì vậy bạn nên tránh sử dụng URL tương đối. Ví dụ, thay vì sử dụng /mypage.html, bạn nên sử dụng URL đầy đủ như https://www.example.com/mypage.html. Điều này đảm bảo rằng Google sẽ hiểu chính xác cấu trúc URL và nội dung trang web của bạn.
Khi liệt kê các URL trong sơ đồ trang web, bạn nên chỉ bao gồm những URL mà bạn muốn hiển thị trong kết quả tìm kiếm. Google thường hiển thị URL chính tắc trong kết quả tìm kiếm, và sơ đồ trang web là công cụ giúp bạn kiểm soát và định hướng quá trình này. Đối với các trang có cả phiên bản dành cho máy tính và thiết bị di động, bạn nên chỉ định rõ phiên bản nào cần được ưu tiên trong sơ đồ trang web. Nếu muốn bao gồm cả hai, bạn cần chú thích rõ ràng để Google phân biệt.
Để có thêm thông tin chi tiết và đầy đủ về các phương pháp tốt nhất, bạn nên tham khảo trực tiếp giao thức sơ đồ trang web. Việc tuân thủ chặt chẽ các quy tắc này sẽ giúp tối ưu hóa khả năng lập chỉ mục và cải thiện hiệu suất SEO của trang web.
Sơ đồ trang web XML
Định dạng sơ đồ trang web XML là một trong những định dạng linh hoạt nhất trong các định dạng được hỗ trợ bởi các công cụ tìm kiếm. Khi sử dụng tệp XML, bạn có thể cung cấp không chỉ các thông tin cơ bản về URL mà còn bổ sung dữ liệu liên quan đến nội dung đa phương tiện như hình ảnh, video, tin tức, và các phiên bản bản địa hóa của trang web.
Dưới đây là một ví dụ cơ bản về sơ đồ trang web XML, chứa thông tin về vị trí của một URL duy nhất:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.example.com/foo.html</loc>
<lastmod>2022-06-04</lastmod>
</url>
</urlset>
Bạn có thể tham khảo thêm các ví dụ phức tạp hơn và tài liệu chi tiết tại sitemaps.org.
Lưu ý bổ sung về sơ đồ trang web XML
- Tất cả các giá trị trong thẻ XML phải được mã hóa ký tự đúng cách.
- Google sẽ bỏ qua các giá trị trong thẻ
<priority>và<changefreq>. - Google sử dụng giá trị trong thẻ
<lastmod>nếu giá trị này được cung cấp một cách chính xác, nhất quán và có thể xác minh (ví dụ: bằng cách so sánh với bản sửa đổi gần đây nhất của trang). - Giá trị
<lastmod>nên phản ánh ngày và giờ của lần cập nhật nội dung quan trọng gần đây nhất trên trang. Ví dụ: những thay đổi trong nội dung chính, dữ liệu có cấu trúc hoặc các liên kết trên trang được coi là quan trọng, nhưng việc cập nhật ngày có bản quyền thì không.
RSS, mRSS và Atom 1.0
Nếu hệ thống quản lý nội dung (CMS) của bạn tạo ra các nguồn cấp dữ liệu RSS hoặc Atom, bạn có thể gửi URL của nguồn cấp dữ liệu đó dưới dạng sơ đồ trang web. Hầu hết các CMS đều tự động tạo nguồn cấp dữ liệu, nhưng cần lưu ý rằng các nguồn này chỉ cung cấp thông tin về các URL được cập nhật gần đây.
Lưu ý bổ sung về RSS, mRSS và Atom 1.0
- Google chấp nhận các nguồn cấp dữ liệu RSS 2.0 và Atom 1.0.
- Bạn có thể sử dụng nguồn cấp dữ liệu mRSS (RSS đa phương tiện) để cung cấp cho Google thông tin chi tiết về nội dung video trên trang web của mình.
- Cũng như với mọi tệp XML, tất cả giá trị của thẻ phải là thực thể có ký tự thoát.
Sơ đồ trang web dạng văn bản
Nếu bạn chỉ cần cung cấp danh sách các URL trên trang web, bạn có thể tạo một tệp văn bản đơn giản, trong đó mỗi dòng chứa một URL, và gửi tệp này cho Google. Ví dụ: nếu trang web của bạn có hai URL, bạn có thể thêm chúng vào sơ đồ trang web văn bản tại https://www.example.com/sitemap.txt như sau:
https://www.example.com/file1.html
https://www.example.com/file2.html
Lưu ý bổ sung cho sơ đồ trang web dạng tệp văn bản
- Đừng đưa thông tin nào khác ngoài các URL vào tệp sơ đồ trang web.
- Bạn có thể đặt tên tệp văn bản tùy ý, miễn là nó có đuôi
.txt(ví dụ: sodotrangweb.txt).
Cách tạo sơ đồ trang web
Việc tạo sơ đồ trang web đóng vai trò quan trọng trong việc thông báo cho công cụ tìm kiếm biết những URL nào trên trang web của bạn nên được ưu tiên lập chỉ mục và xuất hiện trong kết quả tìm kiếm. Những URL này thường là các URL chính tắc. Trong trường hợp bạn có nhiều URL dẫn đến cùng một nội dung, hãy chọn URL chính tắc và đưa URL đó vào sơ đồ trang web thay vì liệt kê tất cả các URL trùng lặp.
Sau khi đã xác định được các URL cần đưa vào sơ đồ trang web, bạn có thể chọn một trong những phương pháp sau để tạo sơ đồ, tùy thuộc vào quy mô và cấu trúc của trang web:
- Để CMS tự động tạo sơ đồ trang web.
- Tạo sơ đồ trang web thủ công cho các trang web có ít URL.
- Tự động tạo sơ đồ trang web cho các trang web có nhiều URL.
Để CMS tự động tạo sơ đồ trang web
Nếu bạn đang sử dụng hệ thống quản lý nội dung (CMS) như WordPress, Wix hoặc Blogger, có thể CMS của bạn đã tự động tạo và cung cấp sơ đồ trang web cho các công cụ tìm kiếm. Bạn nên kiểm tra thông tin về cách CMS của mình tạo sơ đồ trang web, hoặc cách bạn có thể tạo sơ đồ trang web nếu CMS không tự động làm việc này. Ví dụ: với Wix, bạn có thể tìm kiếm theo cụm từ “wix sitemap”, hoặc “Blogger RSS” cho Blogger.
Tạo sơ đồ trang web thủ công
Đối với các trang web có số lượng URL không nhiều, bạn có thể tự tay tạo sơ đồ trang web. Để thực hiện, hãy mở một trình soạn thảo văn bản, chẳng hạn như Windows Notepad hoặc Nano (Linux, macOS), rồi tạo nội dung theo cú pháp XML được mô tả trong phần định dạng sơ đồ trang web. Bạn có thể đặt tên cho tệp này miễn là các ký tự được sử dụng tuân thủ quy định về định danh URL.
Việc tạo thủ công có thể phù hợp cho các trang web nhỏ, nhưng với các trang web lớn, phương pháp này sẽ tốn nhiều công sức và đòi hỏi sự duy trì lâu dài.
Tự động tạo sơ đồ trang web bằng các công cụ
Đối với những trang web có nhiều URL, bạn nên sử dụng phương pháp tự động để tạo sơ đồ trang web. Có nhiều công cụ hỗ trợ tạo sơ đồ trang web tự động. Tuy nhiên, cách tối ưu nhất là sử dụng phần mềm của chính trang web để thực hiện điều này. Bạn có thể lấy danh sách URL từ cơ sở dữ liệu của trang web, sau đó xuất trực tiếp lên máy chủ web hoặc lưu vào một tệp trên máy chủ. Hãy tham khảo ý kiến của nhà phát triển hoặc quản trị viên máy chủ về cách triển khai phương pháp này. Nếu cần hướng dẫn cụ thể về mã lập trình, bạn có thể tham khảo bộ sưu tập các công cụ tạo sơ đồ trang web của bên thứ ba (lưu ý rằng nhiều công cụ trong số đó có thể đã lỗi thời và không còn được duy trì).
Bạn không cần quan tâm đến thứ tự của các URL trong sơ đồ trang web, vì Google không ưu tiên điều này. Tuy nhiên, hãy lưu ý các giới hạn về kích thước của tệp sơ đồ trang web. Nếu tệp quá lớn, bạn sẽ cần phải chia nhỏ thành các tệp con. Tìm hiểu thêm về cách quản lý các sơ đồ trang web có kích thước lớn để tối ưu hóa hiệu quả SEO.
Gửi sơ đồ trang web cho Google
Gửi sơ đồ trang web cho Google là một bước quan trọng trong quy trình SEO, nhưng cần lưu ý rằng việc gửi này chỉ là một gợi ý cho Google. Nó không đảm bảo rằng Google sẽ tải xuống hoặc sử dụng sơ đồ trang web để thu thập dữ liệu các URL trên trang web của bạn. Để cung cấp sơ đồ trang web cho Google, bạn có thể thực hiện bằng các phương pháp sau:
- Gửi sơ đồ trang web thông qua Search Console bằng cách sử dụng báo cáo Sơ đồ trang web. Phương pháp này giúp bạn biết khi nào Googlebot đã truy cập sơ đồ trang web và xem xét các lỗi có thể phát sinh trong quá trình xử lý.
- Sử dụng Search Console API để gửi sơ đồ trang web thông qua lập trình, phù hợp với các trang web lớn hoặc có hệ thống tự động hóa.
- Chèn dòng lệnh sau vào tệp robots.txt để chỉ định đường dẫn đến sơ đồ trang web. Google sẽ đọc dòng lệnh này trong lần tiếp theo khi thu thập dữ liệu từ tệp robots.txt của bạn:
Sitemap: https://example.com/my_sitemap.xml
- Nếu bạn sử dụng nguồn cấp dữ liệu Atom hoặc RSS, bạn có thể sử dụng WebSub để thông báo các công cụ tìm kiếm, bao gồm cả Google, về các thay đổi trong nội dung.
Cách gửi sơ đồ trang web cho nhiều trang web
Khi quản lý nhiều trang web, bạn có thể tối ưu hóa quy trình gửi sơ đồ trang web bằng cách tạo một hoặc nhiều sơ đồ trang web chứa các URL của tất cả các trang web đã được xác minh, sau đó lưu trữ các sơ đồ này tại một vị trí duy nhất. Bạn có thể lựa chọn giữa hai phương pháp sau:
- Tạo một sơ đồ trang web duy nhất chứa URL của nhiều trang web, bao gồm cả các trang web thuộc các miền khác nhau. Ví dụ: sơ đồ trang web tại
https://host1.example.com/sitemap.xmlcó thể chứa các URL sau:https://host1.example.com
https://host2.example.com
https://host3.example.com
https://host1.example1.com
https://host1.example.ch
- Tạo nhiều sơ đồ trang web riêng biệt (mỗi sơ đồ cho một trang web) và lưu trữ chúng tại cùng một vị trí. Ví dụ:
https://host1.example.com/host1-example-sitemap.xml
https://host1.example.com/host2-example-sitemap.xml
https://host1.example.com/host3-example-sitemap.xml
https://host1.example.com/host1-example1-sitemap.xml
https://host1.example.com/host1-example-ch-sitemap.xml
Gửi sơ đồ trang web cho nhiều trang web qua Search Console
Đảm bảo bạn đã xác minh quyền sở hữu đối với tất cả các trang web mà bạn muốn thêm vào sơ đồ trang web.
Tạo sơ đồ trang web (một hoặc nhiều tùy theo nhu cầu), chứa URL của tất cả các trang web bạn muốn đưa vào. Bạn cũng có thể tạo một tệp chỉ mục sơ đồ trang web để quản lý các sơ đồ trang web này dễ dàng hơn.
Sử dụng Google Search Console để gửi sơ đồ trang web hoặc tệp chỉ mục sơ đồ trang web.
Gửi sơ đồ trang web cho nhiều trang web qua tệp robots.txt
Tạo một hoặc nhiều sơ đồ trang web riêng cho từng trang web. Đảm bảo rằng mỗi tệp sơ đồ trang web chỉ chứa các URL của trang web tương ứng.
Tải tất cả các sơ đồ trang web lên một trang web mà bạn kiểm soát, ví dụ như https://sitemaps.example.com.
Đối với từng trang web, đảm bảo rằng tệp robots.txt của trang đó tham chiếu đến sơ đồ trang web tương ứng. Ví dụ: nếu bạn tạo một sơ đồ trang web cho https://example.com/ và lưu trữ tại https://sitemaps.example.com/sitemap-example-com.xml, hãy đảm bảo rằng tệp robots.txt tại https://example.com/robots.txt chứa tham chiếu sau:
# robots.txt file of https://example.com/
sitemap: https://sitemaps.example.com/sitemap-example-com.xml
Khắc phục sự cố liên quan đến sơ đồ trang web
Bạn có thể sử dụng Google Search Console để khắc phục các vấn đề liên quan đến sơ đồ trang web. Hãy tham khảo phần hướng dẫn khắc phục sự cố sơ đồ trang web để nhận được sự trợ giúp chi tiết.
Việc tạo và gửi sơ đồ trang web là bước quan trọng giúp cải thiện khả năng hiển thị của trang web trên công cụ tìm kiếm. Bằng cách tuân thủ các phương pháp tốt nhất và chọn định dạng sơ đồ trang web phù hợp, bạn có thể tối ưu hóa quá trình thu thập dữ liệu của Google và đảm bảo rằng những URL quan trọng nhất của bạn được ưu tiên xuất hiện trong kết quả tìm kiếm. Hãy bắt đầu ngay hôm nay để tối ưu hóa SEO cho trang web của bạn bằng cách tạo và gửi sơ đồ trang web cho Google.
