Ngành SEO liên tục phát triển, đòi hỏi các chuyên gia phải trang bị những công cụ và kỹ thuật tiên tiến để khai thác sâu dữ liệu website. Trong bối cảnh đó, hiểu rõ và làm chủ custom extraction Screaming Frog là gì không chỉ là một lợi thế mà còn là kỹ năng thiết yếu để giải quyết các thách thức phân tích phức tạp. Khả năng tùy chỉnh trích xuất dữ liệu từ các trang web giúp các nhà quản lý SEO vượt qua giới hạn của báo cáo tiêu chuẩn, mở ra cánh cửa phân tích chi tiết, sâu sắc hơn về cấu trúc, nội dung và các yếu tố kỹ thuật ảnh hưởng đến hiệu suất tìm kiếm.
Tại V4SEO, chúng tôi nhận thấy Custom Extraction là công cụ mạnh mẽ, cho phép bạn biến Screaming Frog từ một crawler cơ bản thành một cỗ máy thu thập thông tin chuyên biệt, phục vụ mọi nhu cầu từ kiểm tra schema markup đến phân tích liên kết nội bộ phức tạp. Bài viết này sẽ cung cấp một hướng dẫn chuyên sâu, từ định nghĩa cơ bản đến các kỹ thuật nâng cao, giúp bạn tối đa hóa tiềm năng của tính năng này.
Custom Extraction trong Screaming Frog: Định nghĩa và vai trò trong SEO
Custom Extraction là gì?
Custom Extraction trong Screaming Frog là một tính năng cho phép người dùng tùy chỉnh thu thập các đoạn dữ liệu cụ thể từ HTML của một trang web, ngoài những trường dữ liệu tiêu chuẩn mà Screaming Frog tự động crawl, bằng cách sử dụng các quy tắc Regex, XPath hoặc CSS Path. Điều này giúp các nhà làm SEO có thể trích xuất thông tin đặc thù không được hiển thị trực tiếp trong các báo cáo mặc định của công cụ.
Tại sao Custom Extraction lại quan trọng cho SEO?
Custom Extraction đóng vai trò then chốt trong SEO bằng cách cung cấp khả năng thu thập dữ liệu chuyên biệt mà không công cụ nào khác có thể làm được một cách dễ dàng, từ đó giúp phát hiện các vấn đề kỹ thuật, tối ưu hóa nội dung và hiểu rõ hơn về cách công cụ tìm kiếm nhìn nhận website của bạn. Việc này mở ra khả năng phân tích sâu hơn về cấu trúc, nội dung, và hiệu suất của website, hỗ trợ đắc lực cho các chiến lược SEO phức tạp.

Các trường hợp sử dụng phổ biến (Use Cases)
Custom Extraction có thể được ứng dụng trong nhiều tình huống SEO khác nhau để thu thập thông tin giá trị.
Kiểm tra dữ liệu có cấu trúc: Trích xuất các trường từ JSON-LD, Microdata, hoặc RDFa để xác minh tính chính xác và đầy đủ của schema markup trên toàn bộ website.
Phân tích nội dung: Thu thập các thẻ heading (H1, H2), đoạn mô tả sản phẩm, giá, ID sản phẩm, hoặc các thuộc tính tùy chỉnh khác để đánh giá chất lượng và sự độc đáo của nội dung.
Kiểm tra liên kết nội bộ: Trích xuất các liên kết cụ thể trong phần nội dung chính của trang để phân tích chiến lược internal linking, khác với việc crawl liên kết thông thường.
Phát hiện nội dung trùng lặp: Trích xuất một phần nội dung chính của trang (ví dụ: 100 từ đầu tiên) để nhanh chóng xác định các trang có nội dung tương đồng.
Kiểm soát chất lượng: Tìm kiếm các chuỗi văn bản cụ thể như “Thêm vào giỏ hàng” hoặc “Hết hàng” để theo dõi trạng thái sản phẩm hoặc các lỗi trên trang.
Các phương pháp Custom Extraction và khi nào sử dụng?
Để thực hiện Custom Extraction trong Screaming Frog, bạn có ba phương pháp chính: Regex (Regular Expression), XPath và CSS Path. Mỗi phương pháp có ưu và nhược điểm riêng, phù hợp với các tình huống trích xuất khác nhau.
Regex (Regular Expression): Sức mạnh và giới hạn
Regex là một chuỗi ký tự mô tả một mẫu tìm kiếm, được sử dụng để khớp và trích xuất văn bản dựa trên các mẫu cụ thể. Phương pháp này mạnh mẽ khi bạn cần trích xuất dữ liệu dựa trên các chuỗi ký tự hoặc định dạng phức tạp, không phụ thuộc vào cấu trúc DOM.

Cách cấu hình Regex trong Screaming Frog:
- Truy cập Configuration > Custom > Extraction.
- Nhấn Add để thêm bộ trích xuất mới.
- Đặt Name cho bộ trích xuất (ví dụ: “Product ID Regex”).
- Chọn Type là Regex.
- Trong trường Value, nhập biểu thức Regex của bạn.
Ví dụ có ảnh: (Hình ảnh minh họa giao diện cấu hình Regex trong Screaming Frog với một biểu thức mẫu để trích xuất Product ID)
Ví dụ Regex: Để trích xuất mã sản phẩm có dạng “PROD-XXXX” từ văn bản:
PROD-(\d{4})
Ví dụ khác, để trích xuất URL hình ảnh có dạng /uploads/images/xyz.jpg:
\/uploads\/images\/(.*?\.(jpg|png|gif))
Thư viện Regex cho SEO: Regex cực kỳ hữu ích cho nhiều tác vụ SEO, từ trích xuất giá sản phẩm, ID bài viết, đến các đoạn meta data cụ thể. Để nắm vững hơn các ứng dụng regex Screaming Frog, việc tham khảo một thư viện các biểu thức thông dụng là cần thiết.
Trích xuất giá: Giá: (\d{1,3}(?:,\d{3})*(?:\.\d{2})?) (Ví dụ: “Giá: 1.000.000đ”) Trích xuất ID: data-product-id=”(\d+)” (Ví dụ: <div data-product-id=”12345″>) Trích xuất URL hình ảnh: <img.*?src=”(.*?)” (Sẽ trích xuất tất cả src của thẻ img) Trích xuất Meta Description: <meta name=”description” content=”(.*?)”
XPath: Trích xuất dựa trên cấu trúc DOM
XPath (XML Path Language) là một ngôn ngữ dùng để điều hướng và chọn các node trong một tài liệu XML hoặc HTML. XPath rất mạnh mẽ khi bạn cần trích xuất dữ liệu dựa trên vị trí hoặc mối quan hệ của các phần tử trong cấu trúc DOM của trang.
Cấu hình XPath:
- Truy cập Configuration > Custom > Extraction.
- Nhấn Add, đặt Name.
- Chọn Type là XPath.
- Trong trường Value, nhập biểu thức XPath của bạn.
Ví dụ có ảnh: (Hình ảnh minh họa giao diện cấu hình XPath trong Screaming Frog với một biểu thức mẫu để trích xuất tiêu đề H1)
Ví dụ XPath: Để trích xuất văn bản trong thẻ H1:
//h1/text()
Để trích xuất thuộc tính href của tất cả các liên kết trong một phần tử có class main-content:
//div[@class=”main-content”]//a/@href
Các mẫu XPath nâng cao cho các phần tử phức tạp: XPath có thể xử lý các tình huống phức tạp hơn, đặc biệt hữu ích khi làm việc với JSON-LD nhúng trong <script> tag.
Trích xuất trường ‘name’ từ JSON-LD:
//script[@type=”application/ld+json”]/text()
Sau đó bạn có thể dùng một Regex thứ hai để trích xuất name từ output của XPath này. Hoặc nếu muốn trích xuất trực tiếp:
//script[@type=”application/ld+json”]/text()[contains(., ‘”name”‘)]
(Lưu ý: Việc xử lý JSON-LD tốt nhất là trích xuất toàn bộ script, sau đó phân tích bằng Regex hoặc công cụ khác).
CSS Path: Đơn giản và hiệu quả
CSS Path (hay CSS Selector) là một cách đơn giản để chọn các phần tử HTML dựa trên tên thẻ, class, ID hoặc các thuộc tính khác. CSS Path thường dễ viết và đọc hơn XPath cho các trường hợp cơ bản, đặc biệt nếu bạn đã quen thuộc với CSS.
Cấu hình CSS Path:
- Truy cập Configuration > Custom > Extraction.
- Nhấn Add, đặt Name.
- Chọn Type là CSSPath.
- Trong trường Value, nhập biểu thức CSS Path của bạn.
Ví dụ có ảnh: (Hình ảnh minh họa giao diện cấu hình CSS Path trong Screaming Frog với một biểu thức mẫu để trích xuất tiêu đề của bài viết)
Ví dụ CSS Path: Để trích xuất văn bản trong thẻ H1 có class “post-title”:
h1.post-title
Để trích xuất giá trị thuộc tính content của thẻ meta description:
meta[name=”description”]::attr(content)
So sánh và lựa chọn phương pháp phù hợp (Regex vs XPath vs CSS Path)
Việc lựa chọn phương pháp Custom Extraction phụ thuộc vào cấu trúc HTML của trang và loại dữ liệu bạn muốn trích xuất.
| Tiêu chí | Regex (Regular Expression) | XPath | CSS Path (Selector) |
| Phù hợp nhất | Trích xuất dựa trên mẫu chuỗi ký tự, không phụ thuộc DOM. | Trích xuất dựa trên vị trí, cấu trúc, hoặc mối quan hệ của phần tử. | Trích xuất dựa trên tên thẻ, class, ID, thuộc tính (đơn giản hơn). |
| Độ phức tạp | Cao (đòi hỏi kiến thức về biểu thức chính quy). | Trung bình đến cao (cần hiểu cấu trúc DOM và cú pháp XPath). | Thấp đến trung bình (dễ học nếu quen CSS). |
| Ưu điểm | Rất linh hoạt, có thể xử lý các chuỗi phức tạp. | Rất mạnh mẽ với cấu trúc HTML phức tạp, có thể duyệt qua cây DOM. | Dễ đọc, dễ viết cho các trường hợp cơ bản, nhanh chóng. |
| Nhược điểm | Khó viết và debug, dễ bị phá vỡ nếu định dạng thay đổi. | Cú pháp có thể dài dòng, khó hiểu với người mới. | Hạn chế khả năng duyệt lên trên (ancestor) hoặc theo text node. |
| Khi nên dùng | Trích xuất ID, giá, ngày tháng, email, số điện thoại từ văn bản thô. | Trích xuất từ JSON-LD trong thẻ script, dữ liệu trong bảng, các phần tử lồng nhau phức tạp. | Trích xuất H1, H2, tiêu đề bài viết, mô tả sản phẩm theo class/ID. |
| Gợi ý chọn | Khi dữ liệu cần trích xuất là một mẫu text cụ thể. | Khi cần định vị dữ liệu theo cấu trúc HTML hoặc liên quan đến vị trí. | Khi có thể xác định dữ liệu bằng selector CSS đơn giản. |
Hướng dẫn chi tiết từng bước thiết lập Custom Extraction trong Screaming Frog
Thiết lập Custom Extraction trong Screaming Frog là một quy trình trực quan, cho phép bạn nhanh chóng bắt đầu trích xuất dữ liệu tùy chỉnh.

Bước 1: Mở Screaming Frog và chọn ‘Configuration’ -> ‘Custom’ -> ‘Extraction’
Đầu tiên, hãy khởi chạy Screaming Frog SEO Spider. Trên thanh menu chính, điều hướng đến Configuration, sau đó chọn Custom, và cuối cùng nhấp vào Extraction. Thao tác này sẽ mở cửa sổ Custom Extraction, nơi bạn sẽ quản lý tất cả các bộ trích xuất của mình.
Bước 2: Thêm trình trích xuất mới (Add Extractor)
Trong cửa sổ Custom Extraction, bạn sẽ thấy một danh sách trống hoặc các bộ trích xuất đã có. Để thêm một bộ trích xuất mới, hãy nhấp vào nút Add ở phía dưới bên trái của cửa sổ. Một hàng mới sẽ xuất hiện, sẵn sàng để bạn cấu hình.
Bước 3: Cấu hình thông số (Name, Type, Value) và ví dụ trực quan
Với mỗi bộ trích xuất mới, bạn cần điền ba thông số chính:
Name: Đặt một tên mô tả cho bộ trích xuất của bạn (ví dụ: “Tiêu đề H1”, “Giá sản phẩm”). Tên này sẽ hiển thị làm tiêu đề cột trong báo cáo.
Type: Chọn phương pháp trích xuất bạn muốn sử dụng: Regex, XPath hoặc CSS Path. Lựa chọn này sẽ quyết định cú pháp bạn cần nhập vào trường Value.
Value: Nhập biểu thức Regex, XPath hoặc CSS Path của bạn. Đây là phần quan trọng nhất, nơi bạn định nghĩa chính xác dữ liệu nào cần trích xuất. Ví dụ, nếu bạn chọn Type là CSS Path và muốn trích xuất H1, bạn có thể nhập h1 vào trường Value.
Ví dụ trực quan: (Hình ảnh minh họa cửa sổ Custom Extraction với một bộ trích xuất đã được cấu hình hoàn chỉnh, bao gồm Name, Type, và Value)
Bước 4: Chạy Crawl và xem dữ liệu trích xuất
Sau khi đã cấu hình các bộ trích xuất mong muốn, đóng cửa sổ Custom Extraction. Quay lại giao diện chính của Screaming Frog, nhập URL của website bạn muốn crawl vào thanh địa chỉ và nhấp Start. Khi quá trình crawl hoàn tất, dữ liệu trích xuất sẽ xuất hiện trong một tab riêng, thường là tab Custom Extraction hoặc trong các tab tương ứng với tên bạn đã đặt cho bộ trích xuất.
Bước 5: Xuất dữ liệu đã trích xuất
Để xuất dữ liệu đã trích xuất, bạn có thể chọn tab Custom Extraction hoặc bất kỳ tab báo cáo nào chứa dữ liệu tùy chỉnh. Nhấp vào nút Export ở góc trên bên phải của giao diện Screaming Frog. Dữ liệu sẽ được xuất ra file CSV, sẵn sàng để phân tích thêm trong Google Sheets, Excel hoặc các công cụ khác.
Các tình huống Custom Extraction nâng cao và ví dụ thực tế
Custom Extraction không chỉ dừng lại ở các trường hợp cơ bản. Với các kỹ thuật nâng cao, bạn có thể giải quyết nhiều vấn đề phức tạp hơn trong SEO.

Trích xuất dữ liệu Schema Markup (JSON-LD, Microdata)
Trích xuất schema markup là một trong những ứng dụng mạnh mẽ nhất của Custom Extraction, giúp đảm bảo dữ liệu có cấu trúc của bạn được triển khai chính xác và đầy đủ.
JSON-LD: Thường nằm trong thẻ <script type=”application/ld+json”>. Để trích xuất toàn bộ JSON-LD:
//script[@type=”application/ld+json”]/text()
Sau khi trích xuất toàn bộ JSON-LD, bạn có thể dùng công cụ khác hoặc Regex để phân tích các trường cụ thể như name, price, rating.
Microdata: Nằm trực tiếp trong HTML thông qua các thuộc tính như itemprop, itemscope. Ví dụ để trích xuất itemprop=”name”:
//*[@itemprop=”name”]/text()
Hoặc để lấy itemprop=”price” từ một thẻ span:
span[itemprop=”price”]::text
Phân tích Internal Linking (trích xuất link nội bộ trong phần nội dung)
Thông thường, Screaming Frog crawl tất cả các liên kết. Tuy nhiên, nếu bạn chỉ muốn phân tích các liên kết trong một phần nội dung cụ thể (ví dụ: trong thẻ <article> hoặc <div class=”post-content”>), Custom Extraction là lý tưởng.
Ví dụ: Trích xuất tất cả href của các thẻ <a> nằm trong một div có class main-article-content:
//div[@class=”main-article-content”]//a/@href
Thu thập thông tin sản phẩm (giá, SKU, tình trạng kho hàng)
Đối với các website thương mại điện tử, việc thu thập thông tin sản phẩm hàng loạt là rất quan trọng để kiểm soát dữ liệu.
Giá sản phẩm: div.product-price::text hoặc //span[@class=”product-price”]/text() SKU (Stock Keeping Unit): span.sku::text hoặc //span[@itemprop=”sku”]/text() Tình trạng kho hàng: div.stock-status::text hoặc Regex (Còn hàng|Hết hàng)
Phát hiện nội dung trùng lặp (trích xuất nội dung chính của trang)
Để nhanh chóng xác định các trang có nội dung quá giống nhau, bạn có thể trích xuất một phần nội dung chính của trang.
Ví dụ: Trích xuất 200 ký tự đầu tiên từ thẻ <p> đầu tiên trong phần nội dung chính:
substring(//div[@class=”content”]/p[1]/text(), 1, 200)
Sau đó, bạn có thể sử dụng các công cụ so sánh văn bản (như trong Google Sheets) để tìm các bản sao tiềm năng.
Kiểm tra cấu trúc Hn Heading
Đảm bảo cấu trúc heading (H1, H2, H3,…) được sử dụng đúng cách là một phần quan trọng của SEO on-page.
Trích xuất tất cả H1, H2, H3:
- H1: h1::text
- H2: h2::text
- H3: h3::text
Bạn có thể tạo nhiều extractions cho mỗi loại heading để có cái nhìn tổng quan về cách các heading được sử dụng trên toàn website.
Xử lý sự cố (Troubleshooting) thường gặp khi sử dụng Custom Extraction
Khi làm việc với Custom Extraction, bạn có thể gặp phải một số vấn đề. Việc hiểu rõ nguyên nhân và cách khắc phục giúp tiết kiệm thời gian và đảm bảo độ chính xác của dữ liệu.
| Lỗi | Dấu hiệu | Nguyên nhân | Cách khắc phục | Mức độ ưu tiên |
| Dữ liệu không được trích xuất hoặc bị sai | Cột extraction trống hoặc chứa giá trị không mong muốn. | Biểu thức Regex/XPath/CSS Path sai; phần tử HTML không tồn tại hoặc thay đổi; trang web sử dụng JavaScript để render nội dung. | Kiểm tra lại cú pháp biểu thức; sử dụng “Test” trong cửa sổ Custom Extraction; kiểm tra HTML source code thực tế (View Page Source) so với DOM hiển thị (Inspect Element); bật chế độ JavaScript Rendering trong Configuration > Spider > Rendering. | Cao |
| Vấn đề hiệu suất khi crawl với nhiều extractions | Screaming Frog chạy chậm, tiêu tốn nhiều RAM. | Quá nhiều extractions; extractions phức tạp (ví dụ: Regex/XPath duyệt qua toàn bộ DOM); website lớn. | Giảm số lượng extractions không cần thiết; tối ưu hóa biểu thức Regex/XPath/CSS Path để chúng hiệu quả hơn; tăng RAM cho Screaming Frog (nếu cần); xem xét chia nhỏ crawl hoặc sử dụng chế độ Storage Mode để lưu trữ dữ liệu trên đĩa. | Trung bình |
| Khác biệt giữa kết quả khi kiểm tra thủ công và qua Screaming Frog | Dữ liệu trích xuất thủ công bằng Inspect Element khác với kết quả của Screaming Frog. | Screaming Frog mặc định crawl HTML tĩnh (initial HTML) trừ khi bật JavaScript rendering; browser hiển thị nội dung sau khi JS đã chạy. | Luôn so sánh biểu thức với HTML source code (Ctrl+U) hoặc sử dụng View Page Source của Screaming Frog. Nếu trang dùng JS, bật JavaScript Rendering trong Screaming Frog và thử lại. | Cao |
| Trích xuất chỉ trả về một phần của dữ liệu mong muốn | Dữ liệu bị cắt ngắn hoặc thiếu các thành phần. | Biểu thức không khớp toàn bộ chuỗi; lỗi trong nhóm bắt (capturing group) của Regex; selector không đủ bao phủ. | Điều chỉnh biểu thức để đảm bảo nó khớp với toàn bộ phần tử hoặc nội dung mong muốn. Sử dụng các modifier (như . khớp newline) hoặc ::text để lấy nội dung text. | Trung bình |
Tối ưu hóa Custom Extraction cho hiệu suất cao
Để đảm bảo Custom Extraction không làm chậm quá trình crawl của bạn, đặc biệt với các website lớn, việc tối ưu hóa là rất quan trọng.
Mẹo sử dụng Regex hiệu quả
Sử dụng Regex cụ thể: Tránh các biểu thức quá rộng (ví dụ: .*) khi không cần thiết. Càng cụ thể, Regex càng chạy nhanh.

Giới hạn phạm vi tìm kiếm: Nếu bạn biết dữ liệu nằm trong một thẻ HTML cụ thể (ví dụ: <div id=”content”>), hãy kết hợp với XPath hoặc CSS Path trước để trích xuất phần đó, sau đó áp dụng Regex trên kết quả đã trích xuất thay vì toàn bộ HTML.
Sử dụng non-greedy quantifiers: Thay vì .*, hãy dùng .*? để Regex khớp với chuỗi ngắn nhất có thể, tránh việc Regex “tham lam” quét quá nhiều.
Giới hạn số lượng extractions
Mỗi bộ trích xuất thêm vào đều yêu cầu Screaming Frog xử lý thêm. Chỉ trích xuất những gì cần thiết: Đánh giá lại các nhu cầu của bạn và loại bỏ bất kỳ extractions nào không cần thiết. Kết hợp extractions: Nếu có thể, hãy tạo một Regex hoặc XPath phức tạp hơn để trích xuất nhiều trường từ một lần chạy thay vì nhiều extractions đơn lẻ. Tận dụng chế độ “Save HTML”: Nếu bạn cần phân tích nhiều dữ liệu phức tạp mà không muốn thêm quá nhiều extractions, bạn có thể cấu hình Screaming Frog để lưu toàn bộ HTML của các trang được crawl (Configuration > Spider > Extraction > Save HTML). Sau đó, bạn có thể dùng các công cụ khác để phân tích offline. Đây là một phương pháp hiệu quả để làm định hướng cấu trúc bài viết tốt hơn.
Tích hợp dữ liệu Custom Extraction vào quy trình SEO của bạn
Dữ liệu thô từ Custom Extraction chỉ là bước khởi đầu. Giá trị thực sự nằm ở khả năng tích hợp và phân tích dữ liệu này trong quy trình SEO tổng thể của bạn.
Phân tích dữ liệu trong Google Sheets/Excel
Đây là cách phổ biến và dễ tiếp cận nhất. Sau khi xuất dữ liệu Custom Extraction ra file CSV, bạn có thể nhập nó vào Google Sheets hoặc Excel.
Sắp xếp và lọc: Sử dụng các tính năng sắp xếp và lọc để nhanh chóng xác định các vấn đề hoặc xu hướng. Công thức: Áp dụng các công thức để tính toán, đếm, hoặc điều kiện hóa dữ liệu. Ví dụ: đếm số trang thiếu H1, tính trung bình giá sản phẩm, xác định các trang có nội dung trùng lặp. Conditional Formatting: Tô màu các ô hoặc hàng dựa trên các điều kiện nhất định để dễ dàng phát hiện các bất thường. Pivot Tables: Sử dụng bảng Pivot để tổng hợp và phân tích dữ liệu theo các chiều khác nhau, như nhóm theo loại sản phẩm hoặc tình trạng tồn kho.
Gửi dữ liệu vào Google Analytics 4 (Custom Dimensions) qua GTM (tùy chọn)
Đối với các nhà làm SEO nâng cao, việc tích hợp dữ liệu trích xuất vào Google Analytics 4 (GA4) có thể cung cấp ngữ cảnh phong phú hơn cho phân tích hành vi người dùng.

Xác định dữ liệu cần gửi: Ví dụ, bạn có thể trích xuất “loại bài viết”, “tác giả”, “phiên bản sản phẩm” bằng Custom Extraction. Thiết lập Custom Dimensions trong GA4: Tạo các Custom Dimensions tương ứng trong giao diện GA4 (Admin > Data Display > Custom Definitions). Sử dụng Google Tag Manager (GTM):
- Datalayer: Cần một cách để đưa dữ liệu trích xuất vào datalayer của trang. Điều này thường yêu cầu phát triển viên đưa dữ liệu vào datalayer ở phía server hoặc sử dụng JavaScript để đẩy dữ liệu vào datalayer khi trang tải.
- Biến Datalayer: Trong GTM, tạo các biến Datalayer để truy cập dữ liệu đã đẩy vào.
- Tag GA4 Event: Cấu hình một tag GA4 Event (ví dụ: page_view hoặc custom_event) để gửi các Custom Dimensions này cùng với sự kiện đó.
Xuất dữ liệu vào BigQuery để phân tích sâu (tùy chọn)
Đối với các dự án lớn hoặc nhu cầu phân tích dữ liệu chuyên sâu, việc xuất dữ liệu Custom Extraction vào Google BigQuery mang lại khả năng mở rộng và hiệu suất vượt trội.
Xuất dữ liệu CSV: Xuất dữ liệu Custom Extraction từ Screaming Frog thành các file CSV. Tải lên BigQuery: Sử dụng giao diện BigQuery hoặc công cụ dòng lệnh bq để tạo bảng và tải các file CSV này lên BigQuery. Kết hợp dữ liệu: Trong BigQuery, bạn có thể kết hợp dữ liệu này với các tập dữ liệu khác (ví dụ: dữ liệu GA4, Search Console) để thực hiện các truy vấn SQL phức tạp và khám phá mối quan hệ giữa các yếu tố.
Các lỗi cần tránh và mẹo Pro khi dùng Custom Extraction
Việc sử dụng Custom Extraction đòi hỏi sự chính xác và tư duy logic. Tránh các lỗi phổ biến và áp dụng các mẹo chuyên nghiệp sẽ giúp bạn đạt được hiệu quả cao hơn.
| Hạng mục | Chi tiết thực hiện | Mức độ ưu tiên |
| Kiểm tra biểu thức Regex/XPath/CSS | Luôn kiểm tra biểu thức của bạn trên một vài URL mẫu bằng chức năng “Test” trong Screaming Frog trước khi chạy crawl toàn bộ. | Cao |
| Hiểu cấu trúc DOM | Luôn kiểm tra mã nguồn (View Page Source) và Inspect Element để hiểu rõ cấu trúc HTML mà bạn đang cố gắng trích xuất. | Cao |
| Lựa chọn phương pháp phù hợp | Không phải lúc nào Regex cũng tốt nhất. Cân nhắc XPath cho cấu trúc, CSS Path cho sự đơn giản và Regex cho mẫu ký tự. | Trung bình |
| Tối ưu hóa hiệu suất | Giới hạn số lượng extractions và tối ưu hóa các biểu thức để tránh làm chậm Screaming Frog. | Trung bình |
| Lưu trữ dữ liệu thô | Cân nhắc sử dụng tùy chọn “Save HTML” để bạn có thể quay lại và trích xuất thêm dữ liệu sau này mà không cần crawl lại. | Thấp |
| Đặt tên Extractions rõ ràng | Sử dụng các tên mô tả để dễ dàng nhận biết dữ liệu trong báo cáo. | Thấp |
| Cẩn trọng với JavaScript | Nếu nội dung được render bằng JavaScript, hãy đảm bảo bật chế độ JavaScript Rendering trong Screaming Frog. | Cao |
| Xử lý khoảng trắng/ký tự đặc biệt | Cẩn thận với khoảng trắng thừa, ký tự xuống dòng hoặc các ký tự đặc biệt có thể ảnh hưởng đến kết quả trích xuất. | Trung bình |
Kết luận và tài nguyên học thêm
Custom Extraction trong Screaming Frog là một tính năng vô cùng mạnh mẽ, biến công cụ này thành một trợ thủ đắc lực trong mọi dự án SEO từ cơ bản đến nâng cao. Bằng cách làm chủ Regex, XPath và CSS Path, bạn có thể khai thác sâu hơn vào dữ liệu website, phát hiện các vấn đề tiềm ẩn và đưa ra những quyết định tối ưu hóa dựa trên thông tin chính xác.

Đừng ngần ngại thử nghiệm và thực hành thường xuyên với Custom Extraction. Càng sử dụng, bạn càng hiểu rõ hơn về tiềm năng của nó. Để tiếp tục hành trình học hỏi, hãy tham khảo các tài liệu chính thức của Screaming Frog và các diễn đàn SEO chuyên ngành.
Bài viết liên quan
https://v4seowebsite.vn/kha-nang-phat-hien-link-trong-js-la-gi