Tối ưu hóa dữ liệu có cấu trúc tập dữ liệu để nâng cao khả năng phát hiện trên Google

Trong thời đại kỹ thuật số, việc tối ưu hóa nội dung để thu hút sự chú ý từ các công cụ tìm kiếm là vô cùng quan trọng. Đặc biệt, đối với các tập dữ liệu, việc sử dụng dữ liệu có cấu trúc không chỉ giúp người dùng dễ dàng tìm kiếm mà còn cải thiện khả năng xuất hiện trong kết quả tìm kiếm của Google. Trong bài viết này, chúng ta sẽ tìm hiểu chi tiết về cách tối ưu hóa dữ liệu có cấu trúc cho tập dữ liệu, sử dụng các tiêu chuẩn của schema.org và các phương thức khác.

Tập dữ liệu (Dataset) sẽ được tối ưu hóa khả năng tìm kiếm khi bạn cung cấp thông tin bổ sung như tên gọi, mô tả, tác giả và định dạng phân phối dưới dạng dữ liệu có cấu trúc. Google khám phá và lập chỉ mục các tập dữ liệu thông qua việc sử dụng schema.org và các tiêu chuẩn siêu dữ liệu khác, cho phép chèn vào các trang mô tả tập dữ liệu. Mã đánh dấu này nhằm tăng cường khả năng hiển thị của các tập dữ liệu trong các lĩnh vực như khoa học đời sống, khoa học xã hội, máy học, dữ liệu công dân, chính phủ và nhiều lĩnh vực khác. Bạn có thể sử dụng công cụ Tìm kiếm Tập dữ liệu của Google để tìm các tập dữ liệu liên quan.

Lưu ý: Giao diện thực tế của kết quả tìm kiếm có thể khác nhau. Bạn có thể xem trước các tính năng trong công cụ Kiểm tra kết quả nhiều định dạng.

Dưới đây là một số ví dụ về nội dung đủ điều kiện làm tập dữ liệu:

  • Bảng hoặc tệp CSV chứa dữ liệu cụ thể
  • Tập hợp các bảng được tổ chức một cách có hệ thống
  • Tệp định dạng độc quyền có chứa dữ liệu
  • Một tập hợp các tệp liên kết với nhau tạo thành một tập dữ liệu có ý nghĩa
  • Đối tượng có cấu trúc chứa dữ liệu ở định dạng khác, có thể được tải vào công cụ chuyên dụng để xử lý
  • Ảnh chụp dữ liệu
  • Các tệp liên quan đến công nghệ máy học, chẳng hạn như tham số huấn luyện hoặc định nghĩa cấu trúc mạng nơ-ron

Cách thêm dữ liệu có cấu trúc

Dữ liệu có cấu trúc là một chuẩn mực quan trọng trong việc cung cấp thông tin cho các công cụ tìm kiếm, giúp phân loại nội dung trên trang web một cách chính xác. Nếu bạn mới bắt đầu với dữ liệu có cấu trúc, điều quan trọng là nắm vững cách thức hoạt động và cách triển khai nó để tối ưu hóa khả năng hiển thị trên các công cụ tìm kiếm như Google.

Dưới đây là tổng quan về quy trình xây dựng, kiểm tra và triển khai dữ liệu có cấu trúc cho website của bạn. Nếu bạn cần hướng dẫn chi tiết, hãy tham khảo tài liệu hoặc các khóa học lập trình về dữ liệu có cấu trúc.

  1. Thêm các thuộc tính bắt buộc: Tùy thuộc vào định dạng mà bạn đang sử dụng, bạn cần xác định vị trí phù hợp để chèn dữ liệu có cấu trúc vào trang web.
    • Sử dụng hệ thống quản lý nội dung (CMS): Nếu bạn đang sử dụng CMS, việc sử dụng các plugin tích hợp sẵn sẽ giúp quá trình triển khai dữ liệu có cấu trúc trở nên dễ dàng hơn.
    • Triển khai với JavaScript: Nếu bạn sử dụng JavaScript, hãy tìm hiểu cách tạo và triển khai dữ liệu có cấu trúc bằng ngôn ngữ này để đảm bảo tính tương thích và hiệu quả.
  2. Tuân thủ nguyên tắc SEO: Đảm bảo mã của bạn tuân theo các nguyên tắc về dữ liệu có cấu trúc. Sử dụng công cụ Kiểm tra kết quả nhiều định dạng của Google để xác thực mã và khắc phục mọi lỗi nghiêm trọng. Đồng thời, cân nhắc sửa các vấn đề nhỏ để nâng cao chất lượng của dữ liệu có cấu trúc, ngay cả khi không bắt buộc.
  3. Triển khai và kiểm tra: Sau khi triển khai dữ liệu có cấu trúc trên một số trang, sử dụng Công cụ kiểm tra URL để xem Google đánh giá trang của bạn như thế nào. Đảm bảo rằng Google có thể truy cập trang mà không gặp rào cản nào như tệp robots.txt, thẻ noindex, hoặc yêu cầu đăng nhập. Nếu mọi thứ đều ổn, bạn có thể yêu cầu Google thu thập lại dữ liệu các URL của mình.
  4. Thông báo thay đổi cho Google: Sau khi xuất bản trang mới, hãy chờ Google thu thập và lập chỉ mục lại dữ liệu. Điều này có thể mất vài ngày. Để thông báo về các thay đổi sau này, bạn nên gửi sơ đồ trang web (sitemap) thông qua Search Console hoặc tự động hóa quá trình này bằng API của Sitemap.
  5. Xóa tập dữ liệu khỏi kết quả tìm kiếm: Nếu bạn không muốn một tập dữ liệu xuất hiện trong kết quả tìm kiếm, hãy sử dụng thẻ meta robots để kiểm soát cách Google lập chỉ mục tập dữ liệu của bạn. Hãy nhớ rằng có thể mất vài ngày hoặc vài tuần để các thay đổi này có hiệu lực trên kết quả tìm kiếm.

Xóa tập dữ liệu khỏi kết quả tìm kiếm tập dữ liệu

Nếu bạn muốn loại bỏ một tập dữ liệu khỏi kết quả tìm kiếm tập dữ liệu trên Google, bạn cần sử dụng thẻ meta robots để kiểm soát cách Google lập chỉ mục tập dữ liệu đó. Lưu ý rằng, sau khi thực hiện thay đổi, có thể mất vài ngày hoặc thậm chí vài tuần để những thay đổi này được cập nhật và phản ánh trong kết quả tìm kiếm, tùy thuộc vào tần suất thu thập thông tin của Google.

Phương thức khám phá tập dữ liệu của Google

Google khám phá và lập chỉ mục dữ liệu có cấu trúc liên quan đến tập dữ liệu trên các trang web thông qua việc sử dụng mã đánh dấu Dataset của schema.org hoặc cấu trúc tương đương theo định dạng Data Catalog Vocabulary (DCAT) của W3C. Hiện tại, Google cũng đang thử nghiệm hỗ trợ dữ liệu có cấu trúc dựa trên W3C CSVW, và sẽ tiếp tục điều chỉnh, phát triển các phương pháp mới khi có các cải tiến hiệu quả hơn trong việc định nghĩa và triển khai tập dữ liệu. Để hiểu rõ hơn về phương thức khám phá tập dữ liệu của Google, bạn có thể tham khảo phần hỗ trợ việc khám phá các tập dữ liệu trên trang tài liệu chính thức.

Ví dụ

Dưới đây là một ví dụ về cách sử dụng cú pháp JSON-LD kết hợp với schema.org để triển khai dữ liệu có cấu trúc cho tập dữ liệu. Đây là phương pháp được ưu tiên khi kiểm tra và xác thực dữ liệu bằng công cụ Kiểm tra kết quả nhiều định dạng của Google. Ngoài ra, từ vựng schema.org cũng có thể được áp dụng trong cú pháp RDFa 1.1 hoặc Microdata. Bạn cũng có thể sử dụng từ vựng DCAT của W3C để mô tả siêu dữ liệu của tập dữ liệu. Ví dụ sau được xây dựng dựa trên một trường hợp thực tế.

Ví dụ về tập dữ liệu sử dụng cú pháp JSON-LD:

<html>
<head>
<title>NCDC Storm Events Database</title>
<script type="application/ld+json">
{
"@context": "https://schema.org/",
"@type": "Dataset",
"name": "NCDC Storm Events Database",
"description": "Storm Data is provided by the National Weather Service (NWS) and contain statistics on...",
"url": "https://catalog.data.gov/dataset/ncdc-storm-events-database",
"sameAs": "https://gis.ncdc.noaa.gov/geoportal/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510",
"identifier": [
"https://doi.org/10.1000/182",
"https://identifiers.org/ark:/12345/fk1234"
],
"keywords": [
"ATMOSPHERE > ATMOSPHERIC PHENOMENA > CYCLONES",
"ATMOSPHERE > ATMOSPHERIC PHENOMENA > DROUGHT",
"ATMOSPHERE > ATMOSPHERIC PHENOMENA > FOG",
"ATMOSPHERE > ATMOSPHERIC PHENOMENA > FREEZE"
],
"license": "https://creativecommons.org/publicdomain/zero/1.0/",
"isAccessibleForFree": true,
"hasPart": [
{
"@type": "Dataset",
"name": "Sub dataset 01",
"description": "Informative description of the first subdataset...",
"license": "https://creativecommons.org/publicdomain/zero/1.0/",
"creator": {
"@type": "Organization",
"name": "Sub dataset 01 creator"
}
},
{
"@type": "Dataset",
"name": "Sub dataset 02",
"description": "Informative description of the second subdataset...",
"license": "https://creativecommons.org/publicdomain/zero/1.0/",
"creator": {
"@type": "Organization",
"name": "Sub dataset 02 creator"
}
}
],
"creator": {
"@type": "Organization",
"url": "https://www.ncei.noaa.gov/",
"name": "OC/NOAA/NESDIS/NCEI > National Centers for Environmental Information, NESDIS, NOAA, U.S. Department of Commerce",
"contactPoint": {
"@type": "ContactPoint",
"contactType": "customer service",
"telephone": "+1-828-271-4800",
"email": "ncei.orders@noaa.gov"
}
},
"funder": {
"@type": "Organization",
"sameAs": "https://ror.org/00tgqzw13",
"name": "National Weather Service"
},
"includedInDataCatalog": {
"@type": "DataCatalog",
"name": "data.gov"
},
"distribution": [
{
"@type": "DataDownload",
"encodingFormat": "CSV",
"contentUrl": "https://www.ncdc.noaa.gov/stormevents/ftp.jsp"
},
{
"@type": "DataDownload",
"encodingFormat": "XML",
"contentUrl": "https://gis.ncdc.noaa.gov/all-records/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510"
}
],
"temporalCoverage": "1950-01-01/2013-12-18",
"spatialCoverage": {
"@type": "Place",
"geo": {
"@type": "GeoShape",
"box": "18.0 -65.0 72.0 172.0"
}
}
}
</script>
</head>
<body>
</body>
</html>

Ví dụ về tập dữ liệu sử dụng cú pháp RDFa với từ vựng DCAT:

<article about="/node/1234" typeof="dcat:Dataset">
<dl>
<dt>Name:</dt>
<dd property="dc:title">ACME Inc Cash flow data</dd>
<dt>Identifiers:</dt>
<dd property="dc:identifier">https://doi.org/10.1000/182</dd>
<dd property="dc:identifier">https://identifiers.org/ark:/12345/fk1234</dd>
<dt>Description:</dt>
<dd property="dc:description">Financial Statements - Consolidated Statement of Cash Flows</dd>
<dt>Category:</dt>
<dd rel="dc:subject">Financial</dd>
<dt class="field-label">Downloads:</dt>
<dd>
<ul>
<li>
<a rel="dcat:distribution" href="Consolidated_Statement_of_Cash_Flows_en.csv">
<span property="dcat:mediaType" content="text/csv">Consolidated_Statement_of_Cash_Flows_en.csv</span>
</a>
</li>
<li>
<a rel="dcat:distribution" href="files/Consolidated_Statement_of_Cash_Flows_en.xls">
<span property="dcat:mediaType" content="application/vnd.ms-excel">Consolidated_Statement_of_Cash_Flows_en.xls</span>
</a>
</li>
<li>
<a rel="dcat:distribution" href="files/consolidated_statement_of_cash_flows_en.xml">
<span property="dcat:mediaType" content="application/xml">consolidated_statement_of_cash_flows_en.xml</span>
</a>
</li>
</ul>
</dd>
</dl>
</article>

Nguyên tắc

Các trang web cần tuân thủ các nguyên tắc về dữ liệu có cấu trúc để đảm bảo rằng nội dung của bạn được Google và các công cụ tìm kiếm khác hiểu và lập chỉ mục một cách hiệu quả. Ngoài việc tuân thủ các nguyên tắc này, bạn cũng nên áp dụng các phương pháp tối ưu hóa tốt nhất liên quan đến sơ đồ trang web và nguồn gốc dữ liệu như sau:

Phương pháp tốt nhất đối với sơ đồ trang web

Việc sử dụng tệp sơ đồ trang web là rất quan trọng trong việc giúp Google dễ dàng tìm thấy và lập chỉ mục các URL của bạn. Khi bạn tích hợp sơ đồ trang web với các mã đánh dấu như sameAs, bạn có thể cung cấp một cách chi tiết về cách các tập dữ liệu được mô tả và xuất bản trên toàn bộ trang web.

Nếu bạn quản lý một kho lưu trữ tập dữ liệu, rất có thể bạn sẽ có ít nhất hai loại trang: trang chính tắc (canonical) cho mỗi tập dữ liệu và trang liệt kê nhiều tập dữ liệu (chẳng hạn như trang kết quả tìm kiếm hoặc nhóm tập dữ liệu). Để đảm bảo tính chính xác và hiệu quả, bạn nên thêm dữ liệu có cấu trúc vào các trang chính tắc. Thuộc tính sameAs nên được sử dụng để liên kết đến trang chính tắc trong trường hợp có nhiều bản sao của cùng một tập dữ liệu, như các trang thông tin trên kết quả tìm kiếm.

Mặc dù Google không yêu cầu bạn phải đánh dấu rõ ràng tất cả các mục liên quan đến cùng một tập dữ liệu, nhưng nếu có lý do cần làm như vậy, chúng tôi khuyến nghị sử dụng thuộc tính sameAs để đảm bảo tính nhất quán và chính xác.

Phương pháp tốt nhất về nguồn gốc dữ liệu

Khi làm việc với các tập dữ liệu mở, việc xuất bản lại, tổng hợp hoặc dựa trên các bộ dữ liệu khác là điều thường thấy. Trong những trường hợp này, bạn nên sử dụng thuộc tính sameAs để chỉ ra URL chính tắc của bản gốc, đặc biệt khi tập dữ liệu hoặc mô tả của nó chỉ là bản sao của nội dung đã được xuất bản ở nơi khác. Thuộc tính sameAs cần phản ánh chính xác đặc điểm của tập dữ liệu, và bạn không nên sử dụng cùng một giá trị sameAs cho hai tập dữ liệu khác nhau.

Nếu tập dữ liệu được xuất bản lại với những thay đổi đáng kể, bao gồm cả thay đổi trong siêu dữ liệu, thuộc tính isBasedOn nên được sử dụng. Trong trường hợp tập dữ liệu được tạo ra từ hoặc là sự tổng hợp của nhiều tập dữ liệu gốc, bạn cũng nên sử dụng thuộc tính isBasedOn để thể hiện mối quan hệ này.

Đối với các tập dữ liệu có nhiều giá trị nhận dạng, thuộc tính identifier nên được sử dụng để đính kèm các giá trị nhận dạng như DOI hoặc các giá trị nhận dạng rút gọn khác. Trong cú pháp JSON-LD, thuộc tính này có thể được biểu thị bằng cú pháp danh sách JSON.

Các thuộc tính văn bản nên có

Chúng tôi khuyến nghị rằng tất cả các thuộc tính văn bản nên được giới hạn ở mức 5000 ký tự hoặc ít hơn. Google Tìm kiếm Tập dữ liệu chỉ sử dụng 5000 ký tự đầu tiên của bất kỳ thuộc tính văn bản nào, do đó việc tuân thủ giới hạn này là cần thiết. Tên và tiêu đề của tập dữ liệu thường chỉ cần là một vài từ hoặc một câu ngắn gọn để đảm bảo tính dễ hiểu và hiệu quả trong việc hiển thị trên kết quả tìm kiếm.

Lỗi và cảnh báo đã biết

Trong quá trình sử dụng công cụ Kiểm tra kết quả nhiều định dạng của Google hoặc các hệ thống xác thực khác, bạn có thể gặp phải các lỗi hoặc cảnh báo. Một số hệ thống xác thực có thể yêu cầu bạn cung cấp thông tin liên hệ chi tiết cho tổ chức, bao gồm cả loại liên hệ (contactType) với các giá trị hữu ích như dịch vụ khách hàng (customer service), khẩn cấp (emergency), nhà báo (journalist), phòng tin tức (newsroom), và tương tác công chúng (public engagement). Các lỗi liên quan đến csvw:Table có thể được bỏ qua nếu chúng xuất hiện ngoài dự kiến cho thuộc tính mainEntity.

Định nghĩa kiểu dữ liệu có cấu trúc

Để nội dung của bạn đủ điều kiện xuất hiện dưới dạng kết quả nhiều định dạng, bạn cần phải thêm các thuộc tính bắt buộc trong dữ liệu có cấu trúc. Ngoài ra, việc sử dụng các thuộc tính khuyến nghị sẽ giúp bạn cung cấp thông tin chi tiết hơn về nội dung, qua đó cải thiện trải nghiệm người dùng.

Bạn có thể sử dụng công cụ Kiểm tra kết quả nhiều định dạng của Google để xác thực mã đánh dấu của mình và đảm bảo rằng mọi thông tin đều được triển khai chính xác.

Trọng tâm của dữ liệu có cấu trúc là mô tả siêu dữ liệu của tập dữ liệu và thể hiện nội dung liên quan. Chẳng hạn, siêu dữ liệu của một tập dữ liệu sẽ mô tả nội dung tập dữ liệu bao gồm những gì, các biến số mà tập dữ liệu đo lường, người tạo ra tập dữ liệu, và các thông tin khác. Tuy nhiên, siêu dữ liệu không chứa các giá trị cụ thể cho các biến số và các thông tin chi tiết hơn.

Dataset

Bạn có thể tham khảo định nghĩa đầy đủ của Dataset tại schema.org/Dataset.

Khi triển khai dữ liệu có cấu trúc cho tập dữ liệu, bạn nên cung cấp thêm thông tin bổ sung như giấy phép, thời gian xuất bản, DOI (Digital Object Identifier), hoặc thuộc tính sameAs để trỏ đến phiên bản chính của tập dữ liệu trong một kho lưu trữ khác. Các thuộc tính như identifier, license, và sameAs rất quan trọng đối với các tập dữ liệu cung cấp thông tin về giấy phép và nguồn gốc.

Các thuộc tính được Google hỗ trợ:

  • Thuộc tính bắt buộc:
    • description (Text): Đây là một phần tóm tắt ngắn gọn mô tả nội dung của tập dữ liệu.
      • Nguyên tắc: Phần tóm tắt phải dài từ 50 đến 5.000 ký tự. Có thể bao gồm cú pháp Markdown và khi sử dụng định dạng JSON-LD, biểu thị dòng mới bằng \n.
    • name (Text): Tên mô tả của tập dữ liệu, ví dụ: “Độ sâu của tuyết ở Bắc bán cầu”.
      • Nguyên tắc: Sử dụng tên đặc biệt cho các tập dữ liệu khác nhau, chẳng hạn như “Snow depth in the Northern Hemisphere” và “Snow depth in the Southern Hemisphere”.
  • Thuộc tính nên có:
    • alternateName (Text): Tên thay thế, bí danh hoặc từ viết tắt cho tập dữ liệu, ví dụ: "alternateName": ["Quick Draw Dataset", "quickdraw-dataset"].
    • creator (Person hoặc Organization): Tác giả hoặc tổ chức tạo ra tập dữ liệu. Sử dụng ID ORCID cho cá nhân và ID ROR cho tổ chức. Ví dụ: "creator": [{"@type": "Person", "sameAs": "https://orcid.org/0000-0000-0000-0000", "name": "Jane Foo"}].
    • citation (Text hoặc CreativeWork): Dùng để xác định các bài báo học thuật liên quan mà nhà cung cấp dữ liệu đề xuất trích dẫn. Ví dụ: "citation": "Doe J (2014) Influence of X ... https://doi.org/10.1111/111".
    • funder (Person hoặc Organization): Cá nhân hoặc tổ chức hỗ trợ tài chính cho tập dữ liệu. Sử dụng ID ORCID cho cá nhân và ID ROR cho tổ chức. Ví dụ: "funder": [{"@type": "Organization", "sameAs": "https://ror.org/yyyyyyyyy", "name": "Fictitious Funding Organization"}].
    • hasPart hoặc isPartOf (URL hoặc Dataset): Nếu tập dữ liệu là một phần của một tập dữ liệu lớn hơn hoặc bao gồm các tập dữ liệu nhỏ hơn, sử dụng thuộc tính này để mô tả mối quan hệ đó. Ví dụ: "hasPart": [{"@type": "Dataset", "name": "Sub dataset 01", "description": "Informative description of the first subdataset..."}].
    • identifier (URL, Text hoặc PropertyValue): Giá trị nhận dạng, chẳng hạn như DOI hoặc Compact Identifier. Nếu có nhiều giá trị nhận dạng, thuộc tính này có thể sử dụng lại. Ví dụ: "identifier": "https://doi.org/10.1000/182".
    • isAccessibleForFree (Boolean): Xác định liệu tập dữ liệu có được truy cập miễn phí hay không.
    • keywords (Text): Từ khóa tóm tắt nội dung của tập dữ liệu.
    • license (URL hoặc CreativeWork): Giấy phép cho việc phân phối tập dữ liệu. Ví dụ: "license": "https://creativecommons.org/publicdomain/zero/1.0/".
    • measurementTechnique (Text hoặc URL): Kỹ thuật, công nghệ hoặc phương pháp được sử dụng trong tập dữ liệu. Thuộc tính này đang được đề xuất và chờ chuẩn hóa trên schema.org.
    • sameAs (URL): URL của trang web tham khảo đặc điểm của tập dữ liệu.
    • spatialCoverage (Text hoặc Place): Cung cấp thuộc tính về không gian của tập dữ liệu nếu có. Ví dụ: "spatialCoverage": {"@type": "Place", "geo": {"@type": "GeoShape", "box": "39.3280 120.1633 40.445 123.7878"}}.
    • temporalCoverage (Text): Mô tả dữ liệu trong tập dữ liệu về một khoảng thời gian cụ thể theo chuẩn ISO 8601. Ví dụ: "temporalCoverage": "1950-01-01/2013-12-18".
    • variableMeasured (Text hoặc PropertyValue): Các biến mà tập dữ liệu đo lường, ví dụ như nhiệt độ hoặc áp suất.
    • version (Text hoặc Number): Số phiên bản của tập dữ liệu.
    • url (URL): Vị trí của một trang mô tả tập dữ liệu.

DataCatalog

Bạn có thể tìm thấy định nghĩa đầy đủ của DataCatalog tại schema.org/DataCatalog.

Các tập dữ liệu thường được lưu trữ trong các kho lưu trữ dữ liệu chứa nhiều tập dữ liệu khác nhau. Một tập dữ liệu có thể nằm trong nhiều kho lưu trữ và bạn có thể tham chiếu đến một danh mục dữ liệu chứa tập dữ liệu này bằng cách sử dụng các thuộc tính chuyên ngành sau:

Thuộc tính nên có:

  • includedInDataCatalog (DataCatalog): Thuộc tính này dùng để xác định danh mục dữ liệu mà tập dữ liệu đang thuộc về.

DataDownload

Định nghĩa đầy đủ của DataDownload có thể được tham khảo tại schema.org/DataDownload. Khi triển khai dữ liệu có cấu trúc cho các tập dữ liệu có tính năng tải xuống, bạn cần thêm một số thuộc tính bổ sung ngoài các thuộc tính cơ bản của Dataset.

Thuộc tính bắt buộc:

  • distribution.contentUrl (URL): Đây là đường dẫn trực tiếp để tải xuống tập dữ liệu.

Thuộc tính nên có:

  • distribution (DataDownload): Thuộc tính này mô tả vị trí tải tập dữ liệu và định dạng của tệp tải xuống.
  • distribution.encodingFormat (Text hoặc URL): Định dạng phân phối của tệp tải xuống, chẳng hạn như CSV hoặc Excel.

Tập dữ liệu dạng bảng

Phương thức triển khai tập dữ liệu dạng bảng hiện đang trong giai đoạn beta và có thể sẽ được thay đổi trong tương lai. Một tập dữ liệu dạng bảng thường được tổ chức theo cấu trúc hàng và cột. Đối với các trang web có nhúng tập dữ liệu dạng bảng, bạn có thể tạo mã đánh dấu chi tiết hơn dựa trên phương thức chuẩn. Tại thời điểm này, một biến thể của CSVW (“CSV trên Web”, được chuẩn hóa bởi W3C) có thể được sử dụng để cung cấp nội dung dạng bảng trên trang HTML.

Dưới đây là một ví dụ minh họa một bảng nhỏ được mã hóa theo định dạng JSON-LD của CSVW. Lưu ý rằng công cụ Kiểm tra kết quả nhiều định dạng của Google có thể đưa ra một số lỗi đã biết khi kiểm tra cấu trúc này.

<html>
<head>
<title>American Humane Association</title>
<script type="application/ld+json">
{
"@context": ["https://schema.org", {"csvw": "https://www.w3.org/ns/csvw#"}],
"@type": "Dataset",
"name":"AMERICAN HUMANE ASSOCIATION",
"description": "ProPublica's Nonprofit Explorer lets you view summaries of 2.2 million tax returns from tax-exempt organizations and see financial details such as their executive compensation and revenue and expenses. You can browse raw IRS data released since 2013 and access over 9.4 million tax filing documents going back as far as 2001.",
"publisher": {
"@type": "Organization",
"name": "ProPublica"
},
"mainEntity" : {
"@type" : "csvw:Table",
"csvw:tableSchema": {
"csvw:columns": [
{
"csvw:name": "Year",
"csvw:datatype": "string",
"csvw:cells": [
{
"csvw:value": "2024",
"csvw:primaryKey": "2024"
},
{
"csvw:value": "2024",
"csvw:primaryKey": "2024"
}]
},
{
"csvw:name": "Organization name",
"csvw:datatype": "string",
"csvw:cells": [
{
"csvw:value": "AMERICAN HUMANE ASSOCIATION",
"csvw:primaryKey": "2024"
},
{
"csvw:value": "AMERICAN HUMANE ASSOCIATION",
"csvw:primaryKey": "2024"
}]
},
{
"csvw:name": "Organization address",
"csvw:datatype": "string",
"csvw:cells": [
{
"csvw:value": "1400 16TH STREET NW",
"csvw:primaryKey": "2024"
},
{
"csvw:value": "1400 16TH STREET NW",
"csvw:primaryKey": "2024"
}]
},
{
"csvw:name": "Organization NTEE Code",
"csvw:datatype": "string",
"csvw:cells": [
{
"csvw:value": "D200",
"csvw:notes": "Animal Protection and Welfare",
"csvw:primaryKey": "2024"
},
{
"csvw:value": "D200",
"csvw:notes": "Animal Protection and Welfare",
"csvw:primaryKey": "2024"
}]
},
{
"csvw:name": "Total functional expenses ($)",
"csvw:datatype": "integer",
"csvw:cells": [
{
"csvw:value": "13800212",
"csvw:primaryKey": "2024"
},
{
"csvw:value": "13800212",
"csvw:primaryKey": "2024"
}]
}]
}
}
}
</script>
</head>
<body>
</body>
</html>

Theo dõi kết quả nhiều định dạng bằng Search Console

Search Console là một công cụ quan trọng giúp bạn giám sát hiệu suất của trang web trong Google Tìm kiếm. Mặc dù bạn không bắt buộc phải đăng ký Search Console để trang web được Google lập chỉ mục, nhưng việc sử dụng công cụ này sẽ giúp bạn hiểu rõ hơn và cải thiện cách Google hiển thị và xếp hạng trang web của bạn. Bạn nên kiểm tra Search Console trong các trường hợp sau:

    • Sau lần đầu triển khai dữ liệu có cấu trúc
    • Sau khi phát hành mẫu mới hoặc cập nhật mã của bạn
    • Phân tích lưu lượng truy cập định kỳ

Sau lần đầu triển khai dữ liệu có cấu trúc

Sau lần đầu triển khai dữ liệu có cấu trúc, sau khi Google đã lập chỉ mục các trang của bạn, hãy sử dụng báo cáo trạng thái kết quả nhiều định dạng để xác định các vấn đề tiềm ẩn. Lý tưởng nhất là số lượng mục hợp lệ sẽ tăng lên và số lượng mục không hợp lệ không tăng. Nếu bạn phát hiện ra vấn đề trong dữ liệu có cấu trúc, bạn cần thực hiện các bước sau:

  • Sửa các mục không hợp lệ.
  • Kiểm tra URL đang hoạt động để đảm bảo vấn đề đã được khắc phục.
  • Yêu cầu xác thực lại bằng cách sử dụng báo cáo trạng thái.

Sau khi phát hành các mẫu mới hoặc cập nhật mã

Sau khi phát hành các mẫu mới hoặc cập nhật mã, khi bạn thực hiện các thay đổi lớn trên trang web, hãy theo dõi kỹ lưỡng số lượng mục dữ liệu có cấu trúc không hợp lệ. Nếu số lượng mục không hợp lệ tăng lên, có thể bạn đã triển khai một mẫu mới không hoạt động chính xác hoặc trang web của bạn đang tương tác với mẫu hiện có theo một cách mới và không hợp lệ. Nếu số lượng mục hợp lệ giảm (nhưng số mục không hợp lệ không tăng), điều này có thể cho thấy bạn đã ngừng nhúng dữ liệu có cấu trúc trên các trang của mình. Hãy sử dụng công cụ kiểm tra URL để tìm hiểu nguyên nhân gây ra vấn đề.

Cảnh báo: Đừng sử dụng các đường liên kết đã được lưu trong bộ nhớ đệm để gỡ lỗi trên các trang. Thay vào đó, hãy sử dụng công cụ kiểm tra URL vì công cụ này có phiên bản mới nhất của các trang.

Phân tích lưu lượng truy cập định kỳ

Phân tích lưu lượng truy cập định kỳ là việc cần thiết. Bạn nên phân tích lưu lượng truy cập nhận được qua Google Tìm kiếm bằng cách sử dụng báo cáo hiệu suất. Dữ liệu trong báo cáo này sẽ cho bạn biết tần suất trang web xuất hiện dưới dạng kết quả nhiều định dạng trong tìm kiếm, tần suất người dùng nhấp vào trang, và vị trí trung bình của trang trong kết quả tìm kiếm. Bạn cũng có thể tự động lấy các kết quả này bằng Search Console API.

Khắc phục sự cố

Nếu gặp sự cố khi triển khai hoặc gỡ lỗi dữ liệu có cấu trúc, thì bạn có thể tham khảo một số tài nguyên trợ giúp sau đây.

  • Nếu bạn đang sử dụng hệ thống quản lý nội dung (CMS) hoặc có người quản lý trang web cho bạn, hãy yêu cầu họ hỗ trợ và đảm bảo rằng bạn đã chuyển tiếp tất cả thông báo từ Search Console để họ nắm rõ các vấn đề cần giải quyết.
  • Google không đảm bảo rằng các tính năng dựa trên dữ liệu có cấu trúc sẽ xuất hiện trong kết quả tìm kiếm. Để tìm hiểu các lý do phổ biến khiến nội dung của bạn không hiển thị dưới dạng kết quả nhiều định dạng, hãy tham khảo Nguyên tắc chung về dữ liệu có cấu trúc.
  • Có thể có lỗi trong dữ liệu có cấu trúc mà bạn đã triển khai. Bạn nên kiểm tra danh sách các lỗi liên quan đến dữ liệu có cấu trúc để xác định và khắc phục.
  • Nếu trang của bạn bị áp dụng biện pháp thủ công, dữ liệu có cấu trúc trên trang có thể bị bỏ qua, mặc dù trang vẫn có thể xuất hiện trong kết quả tìm kiếm của Google. Để khắc phục những vấn đề này, hãy sử dụng báo cáo Biện pháp thủ công.
  • Hãy xem xét lại các nguyên tắc để đảm bảo rằng nội dung của bạn tuân thủ các quy định. Nguyên nhân gây ra lỗi có thể xuất phát từ việc sử dụng nội dung không hợp lệ hoặc thẻ đánh dấu không chính xác. Tuy nhiên, không phải tất cả các vấn đề đều liên quan đến lỗi cú pháp, vì vậy công cụ kiểm tra kết quả nhiều định dạng có thể không phát hiện được những vấn đề này.
  • Khắc phục sự cố khi kết quả nhiều định dạng bị thiếu hoặc giảm số lượng:
  • Hãy kiên nhẫn chờ Google thu thập dữ liệu và lập chỉ mục lại trang của bạn. Cần lưu ý rằng có thể mất vài ngày sau khi xuất bản một trang mới thì Google mới có thể tìm và thu thập dữ liệu trên trang đó. Đối với các câu hỏi chung về quá trình thu thập dữ liệu và lập chỉ mục, hãy tham khảo nội dung Câu hỏi thường gặp về việc thu thập dữ liệu và lập chỉ mục trên Google Tìm kiếm.
  • Nếu cần thêm hỗ trợ, bạn có thể đăng câu hỏi trong diễn đàn của Trung tâm Google Tìm kiếm.

Một tập dữ liệu cụ thể không xuất hiện trong kết quả Tìm kiếm Tập dữ liệu

Nguyên nhân: Trang web của bạn có thể chưa có dữ liệu có cấu trúc trên trang mô tả tập dữ liệu hoặc trang này chưa được thu thập dữ liệu.

Khắc phục vấn đề:

  • Sao chép đường liên kết đến trang mà bạn mong muốn hiển thị trong kết quả tìm kiếm tập dữ liệu và đưa đường liên kết này vào công cụ kiểm tra kết quả nhiều định dạng. Nếu bạn nhận được thông báo “Trang không đủ điều kiện cho các kết quả nhiều định dạng mà quy trình kiểm tra này xác định được” hoặc “Không phải mã đánh dấu nào cũng đủ điều kiện cho các kết quả nhiều định dạng”, điều này có nghĩa là trang đó chưa có mã đánh dấu loại tập dữ liệu hoặc mã đánh dấu bị sai. Để khắc phục vấn đề này, bạn có thể tham khảo phần hướng dẫn cách thêm dữ liệu có cấu trúc.
  • Nếu trang đã có mã đánh dấu, vấn đề có thể là do trang chưa được thu thập dữ liệu. Bạn có thể kiểm tra trạng thái thu thập thông tin bằng cách sử dụng Search Console.

Biểu trưng công ty bị thiếu hoặc không hiển thị chính xác trong phần kết quả

Nguyên nhân: Trang của bạn có thể thiếu mã đánh dấu schema.org dành cho biểu trưng của tổ chức hoặc Google chưa nhận dạng doanh nghiệp của bạn.

Khắc phục vấn đề:

  • Thêm dữ liệu có cấu trúc cho biểu trưng vào trang của bạn.
  • Thiết lập thông tin doanh nghiệp của bạn trên Google.

Tối ưu hóa dữ liệu có cấu trúc tập dữ liệu là một bước quan trọng để cải thiện khả năng phát hiện trên Google và các công cụ tìm kiếm khác. Bằng cách sử dụng các tiêu chuẩn của schema.org và tuân theo các nguyên tắc cơ bản, bạn có thể đảm bảo rằng tập dữ liệu của mình sẽ được lập chỉ mục một cách hiệu quả, mang lại giá trị lớn hơn cho người dùng và nâng cao sự hiện diện của trang web trên các kết quả tìm kiếm.

Facebook
X
LinkedIn
Tumblr
Threads
logo_v4seowebsite

V4SEO là đội ngũ SEO & Web xuất phát từ Nha Trang, triển khai dự án cho doanh nghiệp trên toàn quốc. Chúng tôi cung cấp Dịch vụ SEO Nha Trang theo chuẩn Google, kết hợp kỹ thuật, nội dung và entity để tăng trưởng bền vững. Song song, Dịch vụ thiết kế website Nha Trang tối ưu UX, tốc độ và Core Web Vitals nhằm tối đa chuyển đổi; báo cáo minh bạch, hỗ trợ dài hạn.

Nội dung được sự cố vấn của chuyên gia SEO - Võ Quang Vinh
author-founder-v4seowebsite

Võ Quang Vinh – Chuyên gia SEO với hơn 10 năm kinh nghiệm triển khai hàng trăm dự án SEO tổng thể, từ thương mại điện tử đến dịch vụ địa phương. Từng đảm nhiệm vai trò SEO và là Keymember tại Gobranding và dân dắt đội SEO BachhoaXanh.com, anh là người đứng sau nhiều chiến dịch tăng trưởng traffic vượt bậc. Hiện tại, Vinh là người sáng lập và điều hành V4SEO, cung cấp giải pháp SEO & thiết kế website chuẩn UX/UI giúp doanh nghiệp bứt phá thứ hạng Google và tối ưu chuyển đổi. 

Bài viết liên quan
ĐĂNG KÝ V4SEO NGAY HÔM NAY KHUYẾN MÃI 15% TẤT CẢ DỊCH VỤ ÁP DỤNG TỚI HẾT THÁNG 1/2026

Nhận tư vấn từ V4SEO Đăng ký ngay hôm nay Bứt phá trong mai sau