Phân tích cohort là gì: Hướng dẫn GA4, BigQuery chuyên sâu & ứng dụng

Trong bối cảnh dữ liệu số bùng nổ như hiện nay, việc thấu hiểu hành vi khách hàng theo thời gian là yếu tố then chốt giúp doanh nghiệp đưa ra các quyết sách chiến lược. Tuy nhiên, nhìn vào tổng thể dữ liệu thường gây nhiễu, khiến ta khó nhận diện các xu hướng thực sự. Đây chính là lúc phân tích cohort là gì trở thành một công cụ mạnh mẽ, cho phép bạn chia nhỏ người dùng thành các nhóm dựa trên hành vi hoặc thời điểm chung, từ đó phát hiện các insight sâu sắc về retention, engagement và LTV. Tại V4SEO, chúng tôi nhận thấy nhiều doanh nghiệp Việt Nam còn bỏ lỡ tiềm năng của phương pháp này, đặc biệt khi sử dụng kết hợp với các công cụ chuyên sâu như Google Analytics 4 (GA4) và Google BigQuery.

Bài viết này sẽ cung cấp một hướng dẫn toàn diện, từ định nghĩa cơ bản đến các kỹ thuật phân tích nâng cao trên GA4 và BigQuery, cùng với các kịch bản ứng dụng thực tế và cách xử lý các lỗi thường gặp. Mục tiêu là trang bị cho bạn kiến thức và công cụ cần thiết để không chỉ hiểu mà còn chủ động thực hiện phân tích cohort hiệu quả, biến dữ liệu thô thành lợi thế cạnh tranh bền vững.

Phân tích Cohort là gì? Tại sao quan trọng trong kỷ nguyên dữ liệu hiện nay?

Phân tích cohort là một phương pháp phân tích hành vi người dùng bằng cách nhóm họ lại thành các “cohort” (tập hợp) dựa trên một đặc điểm chung hoặc một sự kiện cụ thể trong cùng một khoảng thời gian. Phương pháp này quan trọng vì nó cho phép doanh nghiệp vượt qua việc chỉ nhìn vào các chỉ số tổng hợp, vốn có thể che giấu những xu hướng và vấn đề quan trọng của các nhóm người dùng cụ thể.

Định nghĩa Cohort và Cohort Analysis

Một cohort là một nhóm người dùng chia sẻ một đặc điểm hoặc trải nghiệm chung trong một khoảng thời gian xác định. Ví dụ, tất cả người dùng đăng ký ứng dụng của bạn trong tháng 7 là một cohort. Cohort Analysis (Phân tích Cohort) là quá trình nghiên cứu hành vi của các nhóm người dùng này theo thời gian để nhận diện các xu hướng, hành vi và các vấn đề tiềm ẩn.

Các loại Cohort phổ biến và ví dụ

Có nhiều cách để định nghĩa cohort, tùy thuộc vào mục tiêu phân tích.

 

Bố cục ba khối minh họa các loại Cohort phổ biến với biểu tượng thời gian, hành vi, phân khúc và nhóm người dùng
Bố cục ba khối minh họa các loại Cohort phổ biến với biểu tượng thời gian, hành vi, phân khúc và nhóm người dùng

 

Cohort theo thời gian (Time-based Cohort): Đây là loại phổ biến nhất, nhóm người dùng dựa trên thời điểm họ thực hiện hành động đầu tiên (ví dụ: đăng ký, cài đặt ứng dụng, truy cập lần đầu).

  • Ví dụ: Nhóm người dùng cài đặt ứng dụng vào tháng 1 năm 2023, nhóm người dùng đăng ký tài khoản vào tuần đầu tiên của tháng 6.

Cohort theo hành vi (Behavior-based Cohort): Nhóm người dùng dựa trên hành vi cụ thể họ đã thực hiện (hoặc không thực hiện).

  • Ví dụ: Nhóm người dùng đã hoàn tất giao dịch mua hàng đầu tiên, nhóm người dùng đã xem một video cụ thể, nhóm người dùng đã thêm sản phẩm vào giỏ hàng nhưng không mua.

Cohort theo phân khúc (Segment-based Cohort): Nhóm người dùng dựa trên các đặc điểm nhân khẩu học, nguồn gốc lưu lượng truy cập, hoặc các phân khúc tùy chỉnh khác.

  • Ví dụ: Nhóm khách hàng đến từ chiến dịch quảng cáo Facebook, nhóm người dùng từ quốc gia X, nhóm người dùng thuộc độ tuổi 25-34.

Lợi ích chiến lược của phân tích Cohort trong kinh doanh và marketing

Phân tích cohort mang lại nhiều lợi ích chiến lược giúp doanh nghiệp tối ưu hóa hoạt động.

Thấu hiểu hành vi khách hàng theo chu kỳ: Nó giúp bạn biết được hành vi của một nhóm người dùng thay đổi như thế nào sau một sự kiện nhất định (ví dụ: sau khi đăng ký), từ đó điều chỉnh các chiến lược marketing phù hợp.

Cải thiện tỷ lệ giữ chân (Retention) và giảm tỷ lệ rời bỏ (Churn): Bằng cách xác định các cohort có tỷ lệ giữ chân thấp, bạn có thể điều tra nguyên nhân và triển khai các biện pháp can thiệp sớm để cải thiện tình hình.

Tối ưu hóa giá trị vòng đời khách hàng (LTV): Phân tích cohort cho phép bạn ước tính LTV của các nhóm người dùng khác nhau, giúp phân bổ ngân sách marketing hiệu quả hơn cho các cohort có giá trị cao.

Đánh giá hiệu quả chiến dịch marketing: Bạn có thể so sánh hành vi của các cohort đến từ các chiến dịch hoặc kênh khác nhau để đánh giá ROI thực sự của từng chiến dịch.

Phát hiện sớm vấn đề và cơ hội: Các sự thay đổi đột ngột trong hành vi của một cohort có thể là dấu hiệu của một vấn đề cần khắc phục hoặc một cơ hội mới để khai thác.

Cấu trúc và Các chỉ số chính trong Báo cáo Cohort

Việc hiểu rõ cấu trúc và các chỉ số trong báo cáo cohort là nền tảng để trích xuất insight giá trị. Báo cáo này thường được trình bày dưới dạng ma trận, cho thấy hành vi của từng cohort qua các khoảng thời gian kế tiếp.

Các trục (Dimension) và Chỉ số (Metric) cần theo dõi chi tiết

Báo cáo cohort thường xoay quanh một số trục và chỉ số chính.

Trục (Dimension) Chi tiết Ghi chú
Cohort Dimension Tiêu chí để nhóm người dùng (ví dụ: ngày truy cập đầu tiên, sự kiện đăng ký, nguồn lưu lượng). Phổ biến nhất là theo thời gian.
Granularity Khoảng thời gian mà cohort được xác định (ví dụ: ngày, tuần, tháng). Lựa chọn tùy thuộc vào chu kỳ hành vi của sản phẩm/dịch vụ.
Return Nth (Này Thứ N) Khoảng thời gian sau sự kiện tạo cohort (ví dụ: Ngày 1, Tuần 2, Tháng 3). Đại diện cho cột trong ma trận cohort, thể hiện hành vi sau thời điểm tạo cohort.
Chỉ số (Metric) Mô tả Ghi chú
Retention Rate Tỷ lệ phần trăm người dùng trong một cohort quay lại và tương tác sau một khoảng thời gian nhất định. Rất quan trọng để đo lường khả năng giữ chân.
Engagement Rate Tỷ lệ người dùng trong cohort thực hiện một hành động tương tác cụ thể (ví dụ: đọc bài viết, xem video) sau một khoảng thời gian. Giúp hiểu mức độ tích cực của người dùng.
Conversion Rate Tỷ lệ người dùng trong cohort hoàn tất một mục tiêu chuyển đổi (ví dụ: mua hàng, đăng ký) sau một khoảng thời gian. Đo lường hiệu quả của cohort trong việc đạt được mục tiêu kinh doanh.
Average LTV Giá trị trung bình mà một người dùng trong cohort mang lại trong suốt vòng đời của họ. Chỉ số định hướng chiến lược.
Average Revenue per User (ARPU) Doanh thu trung bình tạo ra bởi mỗi người dùng trong cohort trong một khoảng thời gian nhất định. Hữu ích để theo dõi giá trị tức thời của các cohort.

Cách đọc hiểu biểu đồ và bảng Cohort để đưa ra quyết định

Biểu đồ và bảng cohort thường có các hàng đại diện cho các cohort riêng lẻ và các cột đại diện cho các khoảng thời gian sau khi cohort được tạo.

 

Bố cục lưới 2x2 trình bày cấu trúc và các chỉ số chính báo cáo Cohort qua biểu tượng, gồm đọc hàng, đọc cột, xu hướng và điểm dừng
Bố cục lưới 2×2 trình bày cấu trúc và các chỉ số chính báo cáo Cohort qua biểu tượng, gồm đọc hàng, đọc cột, xu hướng và điểm dừng

 

Đọc theo hàng: Theo dõi một hàng cụ thể cho thấy hành vi của một cohort duy nhất theo thời gian. Ví dụ, bạn có thể thấy tỷ lệ giữ chân của cohort tháng 1 giảm dần như thế nào qua các tháng 2, 3, 4.

Đọc theo cột: Nhìn xuống một cột cho thấy hành vi của tất cả các cohort tại cùng một điểm trong vòng đời của chúng. Ví dụ, cột “Tháng 3” sẽ hiển thị tỷ lệ giữ chân của cohort tháng 1 vào tháng thứ 3, cohort tháng 2 vào tháng thứ 2, v.v. Điều này giúp so sánh hiệu suất tương đối của các cohort.

Phát hiện xu hướng:

  • Xu hướng giảm đều: Là bình thường, nhưng nếu giảm quá nhanh hoặc giảm mạnh đột ngột, đó là dấu hiệu của vấn đề.
  • Sự khác biệt giữa các cohort: Nếu cohort tháng 3 có tỷ lệ giữ chân cao hơn đáng kể so với các cohort trước đó, hãy phân tích xem điều gì đã thay đổi trong tháng 3 (chiến dịch, tính năng sản phẩm, v.v.).
  • Điểm dừng (Plateau): Khi tỷ lệ giữ chân ổn định ở một mức nào đó, đó là nhóm người dùng trung thành.

Hướng dẫn Phân tích Cohort chuyên sâu với Google Analytics 4 (GA4)

GA4 đã cải tiến khả năng phân tích cohort, cho phép tùy chỉnh linh hoạt hơn so với phiên bản Universal Analytics. Dưới đây là cách bạn có thể khai thác tối đa tính năng này.

 

Dòng chảy 6 khối minh họa phân tích Cohort, biểu tượng, mũi tên, các bước Tạo Báo Cáo và Trực Quan Xu Hướng
Dòng chảy 6 khối minh họa phân tích Cohort, biểu tượng, mũi tên, các bước Tạo Báo Cáo và Trực Quan Xu Hướng

 

Tạo báo cáo Cohort trong giao diện GA4 (với hình ảnh mới nhất và chi tiết từng bước)

Để tạo báo cáo cohort trong GA4, bạn sẽ sử dụng phần “Khám phá” (Explorations).

Bước 1: Truy cập “Khám phá” Trong giao diện GA4, điều hướng đến Báo cáo (Reports) > Khám phá (Explorations).

Bước 2: Chọn “Phân tích nhóm” Nhấn vào biểu tượng dấu cộng + để tạo báo cáo khám phá mới, sau đó chọn loại Phân tích nhóm (Cohort exploration).

Bước 3: Cấu hình báo cáo Cohort Bạn sẽ thấy một bảng điều khiển ở bên trái với các tùy chọn cấu hình:

  • Tiêu chí tạo nhóm (Cohort definition): Chọn cách người dùng được nhóm vào cohort.
  • Bao gồm (Inclusion criterion): Hành động đầu tiên mà người dùng phải thực hiện để được đưa vào một cohort (ví dụ: first_open, session_start, purchase). Đây là sự kiện xác định “thời điểm 0” của cohort.
  • Tiêu chí quay lại (Return criterion): Hành động mà bạn muốn theo dõi sau khi người dùng thuộc cohort (ví dụ: session_start để đo retention, purchase để đo tỷ lệ mua lại).
  • Khoảng thời gian tạo nhóm (Granularity): Chọn đơn vị thời gian cho cohort (hàng ngày, hàng tuần, hàng tháng).
  • Khoảng thời gian duy trì (Retention metric): Chọn chỉ số bạn muốn theo dõi (ví dụ: Số người dùng hoạt động, Tổng số người dùng, Tổng doanh thu).
  • Kích thước nhóm tối đa (Max cohort size): Điều chỉnh để hiển thị số lượng cohort mong muốn.

Bước 4: Thêm Phân đoạn (Segments) và Giá trị chỉ số (Metrics)

  • Phân đoạn (Segments): Kéo thả các phân đoạn người dùng từ tab “Biến” (Variables) vào phần “Phân đoạn” (Segments) để so sánh các cohort con (ví dụ: khách hàng từ kênh quảng cáo A so với kênh B).
  • Giá trị chỉ số (Metrics): Kéo thả các chỉ số khác từ tab “Biến” vào phần “Giá trị” (Values) để xem nhiều thông tin hơn (ví dụ: Doanh thu, Lượt xem trang).

Bước 5: Phân tích kết quả Báo cáo sẽ hiển thị dưới dạng bảng, với các hàng là các cohort và các cột là các khoảng thời gian sau khi cohort được tạo. Các ô trong bảng sẽ hiển thị giá trị của chỉ số bạn đã chọn. Sử dụng heatmap để trực quan hóa nhanh các xu hướng.

Tùy chỉnh Cohort nâng cao (Tiêu chí bao gồm, Tiêu chí quay lại, Giá trị chỉ số, linh hoạt các điều kiện)

GA4 cho phép bạn đi sâu hơn với các tùy chỉnh.

Sử dụng các sự kiện tùy chỉnh: Thay vì chỉ dùng các sự kiện mặc định như first_open hoặc session_start, bạn có thể sử dụng các sự kiện tùy chỉnh được gửi từ website/ứng dụng (ví dụ: dang_ky_khoa_hoc, hoan_thanh_level). Điều này giúp phân tích các cohort dựa trên hành vi nghiệp vụ cụ thể.

Kết hợp nhiều điều kiện: Khi định nghĩa tiêu chí bao gồm hoặc quay lại, bạn có thể thêm các điều kiện dựa trên thông số sự kiện (event parameters) hoặc thuộc tính người dùng (user properties).

  • Ví dụ: Cohort người dùng đã purchase (bao gồm) với item_category là “Thời trang” VÀ sau đó session_start (quay lại) từ traffic_source là “Organic Search”.

Điều kiện linh hoạt: Bạn có thể định nghĩa các tiêu chí “Bao gồm” và “Quay lại” độc lập, cho phép các kịch bản phân tích phức tạp. Ví dụ: Tạo cohort những người đã “thêm vào giỏ hàng” và xem tỷ lệ những người trong số đó “hoàn tất thanh toán” trong 7 ngày tiếp theo.

Sử dụng phân đoạn (Segments) và đối tượng (Audiences) nâng cao trong Cohort Analysis

Phân đoạn và đối tượng là công cụ mạnh mẽ để thêm lớp ngữ cảnh vào phân tích cohort.

Phân đoạn (Segments):

  • So sánh hiệu suất giữa các phân khúc: Kéo nhiều phân đoạn vào báo cáo cohort để so sánh tỷ lệ giữ chân hoặc các chỉ số khác giữa các nhóm người dùng khác nhau (ví dụ: người dùng đến từ thiết bị di động so với máy tính để bàn, người dùng trả tiền so với người dùng miễn phí).
  • Phân tích sâu hơn: Khi bạn thấy một cohort có hiệu suất bất thường, bạn có thể áp dụng các phân đoạn để tìm ra nhóm con nào đang thúc đẩy xu hướng đó.

Đối tượng (Audiences): Mặc dù không trực tiếp là một phần của báo cáo Cohort trong “Khám phá”, bạn có thể tạo các đối tượng dựa trên hành vi cohort (ví dụ: “Người dùng bỏ qua sau tuần 1”) và sau đó sử dụng các đối tượng này trong các báo cáo khác hoặc để nhắm mục tiêu lại.

Phân tích Cohort dựa trên sự kiện (Event-based Cohort Analysis) và các ví dụ thực tế

Phân tích cohort dựa trên sự kiện là cốt lõi của GA4, cho phép bạn hiểu sâu sắc hành trình người dùng.

Ví dụ 1: Retention người dùng mới theo cài đặt ứng dụng

  • Tiêu chí bao gồm: first_open
  • Tiêu chí quay lại: session_start
  • Mục tiêu: Xem tỷ lệ người dùng mở lại ứng dụng sau khi cài đặt.

Ví dụ 2: Tỷ lệ mua lại của khách hàng

  • Tiêu chí bao gồm: purchase (lần đầu)
  • Tiêu chí quay lại: purchase (bất kỳ)
  • Mục tiêu: Xem bao nhiêu phần trăm khách hàng đã mua hàng lần đầu sẽ mua lại trong các tuần/tháng tiếp theo.

Ví dụ 3: Sự tương tác với tính năng mới

  • Tiêu chí bao gồm: new_feature_used (sự kiện tùy chỉnh)
  • Tiêu chí quay lại: new_feature_used
  • Mục tiêu: Đánh giá mức độ giữ chân và tương tác với một tính năng sản phẩm mới.

So sánh và ghép nối các Cohort khác nhau trong GA4 để tìm insight

GA4 cho phép bạn trực quan so sánh tối đa 4 phân đoạn (kể cả phân đoạn mặc định) trong cùng một báo cáo cohort.

Cách thực hiện: Tạo các phân đoạn dựa trên các tiêu chí bạn muốn so sánh (ví dụ: nguồn lưu lượng, thiết bị, quốc gia). Kéo từng phân đoạn vào mục “Phân đoạn” trong giao diện “Khám phá”. Bảng cohort sẽ tự động hiển thị dữ liệu cho từng phân đoạn, giúp bạn dễ dàng so sánh các chỉ số như tỷ lệ giữ chân.

  • Insight tiềm năng: Nếu cohort từ “Quảng cáo A” có tỷ lệ giữ chân ngày 7 cao hơn đáng kể so với “Quảng cáo B”, bạn có thể phân tích sâu hơn về nội dung quảng cáo, trang đích, hoặc đối tượng mục tiêu của “Quảng cáo A”.

Khắc phục sự cố thường gặp khi tạo báo cáo Cohort trong GA4

Khi làm việc với GA4, bạn có thể gặp một số vấn đề khiến báo cáo cohort không hiển thị như mong muốn.

Lỗi Dấu hiệu Nguyên nhân Cách khắc phục Mức độ ưu tiên
Dữ liệu trống hoặc không đầy đủ Bảng cohort không hiển thị dữ liệu hoặc chỉ có rất ít số liệu. – Sự kiện inclusion criterion hoặc return criterion không được gửi đúng cách.

– Khoảng thời gian phân tích quá ngắn, không đủ để hình thành cohort.

– Lọc dữ liệu quá chặt chẽ (ví dụ: sử dụng phân đoạn loại trừ quá nhiều người dùng).

– Kiểm tra cài đặt sự kiện trong GTM/code trang web để đảm bảo sự kiện được kích hoạt và gửi lên GA4 chính xác.

– Đảm bảo rằng sự kiện inclusion criterion có đủ lượng dữ liệu trong phạm vi ngày đã chọn.

– Mở rộng khoảng thời gian báo cáo để thu thập đủ dữ liệu.

– Kiểm tra lại các điều kiện lọc hoặc phân đoạn đã áp dụng.

Cao
Dữ liệu bị sai lệch/không hợp lý Tỷ lệ giữ chân cao bất thường ở các giai đoạn sau, hoặc tăng giảm thất thường. – Sự kiện inclusion criterion hoặc return criterion được định nghĩa sai, dẫn đến việc đếm lặp hoặc loại trừ nhầm.

– Lỗi trong việc đo lường thời gian giữa các sự kiện.

– Dữ liệu bot/spam làm nhiễu.

– Đảm bảo rằng inclusion criterion là sự kiện DUY NHẤT mà người dùng thực hiện lần đầu (ví dụ: first_open thay vì session_start nếu muốn đo retention người dùng mới).

– Kiểm tra trùng lặp sự kiện trong báo cáo DebugView của GA4.

– Xác định và lọc bỏ lưu lượng truy cập bot/spam trong cài đặt GA4 hoặc bằng cách tạo phân đoạn loại trừ.

Trung bình
Không tạo được các nhóm Cohort mong muốn GA4 không cho phép tùy chỉnh cohort theo một chiều kích cụ thể (ví dụ: nhóm người dùng theo nguồn chiến dịch quảng cáo). Tính năng “Phân tích nhóm” trong GA4 hiện tại chủ yếu tập trung vào cohort theo thời gian và sự kiện. Không hỗ trợ trực tiếp việc tạo cohort dựa trên các chiều kích như nguồn/phương tiện. Để tạo cohort dựa trên các chiều kích phức tạp hơn (ví dụ: nguồn traffic, phân khúc khách hàng), bạn cần sử dụng các phương pháp thay thế như:

1. Tạo phân đoạn (Segment) trước, sau đó áp dụng phân đoạn đó vào báo cáo cohort.

2. Sử dụng BigQuery để tự viết SQL query tạo cohort hoàn toàn tùy chỉnh (như sẽ trình bày ở phần sau).

Trung bình
Khó khăn trong việc diễn giải biểu đồ Cohort Biểu đồ màu sắc không rõ ràng, các giá trị khó so sánh. – Số lượng cohort hoặc khoảng thời gian quá lớn, làm biểu đồ trở nên phức tạp.

– Màu sắc mặc định không phù hợp với thị giác.

– Điều chỉnh số lượng cohort hiển thị và khoảng thời gian phân tích để tập trung vào các giai đoạn quan trọng.

– Sử dụng tính năng “Kiểu biểu thị” (Visualization type) trong GA4 để chọn chế độ xem phù hợp hơn (ví dụ: chế độ bảng với giá trị cụ thể).

– Tập trung vào các hàng và cột quan trọng, tìm kiếm các điểm khác biệt rõ rệt.

Thấp

Phân tích Cohort với Google BigQuery (cho dữ liệu lớn và tùy chỉnh chuyên sâu)

Đối với các kịch bản phân tích cohort phức tạp, cần kết hợp nhiều nguồn dữ liệu, hoặc yêu cầu kiểm soát tuyệt đối định nghĩa cohort, Google BigQuery là công cụ không thể thiếu.

 

Chuỗi khối nội dung mô tả quy trình phân tích Cohort với BigQuery, gồm kết nối GA4, viết SQL, phân tích đa nguồn và trực quan hóa dữ liệu
Chuỗi khối nội dung mô tả quy trình phân tích Cohort với BigQuery, gồm kết nối GA4, viết SQL, phân tích đa nguồn và trực quan hóa dữ liệu

 

Export dữ liệu GA4 sang BigQuery: Các bảng liên quan và cấu trúc dữ liệu

Để phân tích cohort trong BigQuery, bạn cần kết nối GA4 với BigQuery và đảm bảo dữ liệu được xuất chính xác.

Các bước cơ bản để kết nối:

  1. Đảm bảo bạn có quyền truy cập vào GA4 property và một dự án Google Cloud Platform.
  2. Trong GA4, điều hướng đến Admin > Product Links > BigQuery Links.
  3. Làm theo hướng dẫn để kết nối tài sản GA4 của bạn với dự án BigQuery.

Cấu trúc dữ liệu GA4 trong BigQuery: Khi dữ liệu GA4 được xuất sang BigQuery, nó sẽ nằm trong một tập dữ liệu (dataset) với các bảng được đặt tên theo ngày (ví dụ: events_20240730). Mỗi hàng trong bảng này đại diện cho một sự kiện (event) mà người dùng đã thực hiện. Các cột chính quan trọng cho phân tích cohort bao gồm:

  • event_timestamp: Thời gian xảy ra sự kiện (ở dạng micro giây Unix).
  • user_pseudo_id: ID duy nhất cho mỗi người dùng (để xác định một cohort).
  • event_name: Tên của sự kiện (ví dụ: session_start, page_view, purchase).
  • event_params: Một mảng các tham số sự kiện, chứa các chi tiết bổ sung (ví dụ: page_location, traffic_source).
  • user_properties: Một mảng các thuộc tính người dùng.

Để truy vấn, bạn sẽ cần hiểu cách “unnnest” các mảng event_params và user_properties để truy cập các giá trị bên trong chúng.

Viết SQL query mẫu để tạo Cohort Analysis tùy chỉnh trong BigQuery (cho các kịch bản phức tạp)

Dưới đây là một ví dụ SQL query cơ bản để tạo phân tích cohort, đo lường tỷ lệ giữ chân hàng tuần của người dùng mới dựa trên sự kiện first_open.

WITH
UserFirstEvent AS (
SELECT
user_pseudo_id,
MIN(PARSE_DATE(‘%Y%m%d’, event_date)) AS first_event_date — Ngày đầu tiên người dùng xuất hiện
FROM
`your_project_id.analytics_XXXXX.events_*` — Thay your_project_id và analytics_XXXXX bằng thông tin của bạn
WHERE
event_name = ‘first_open’ — Sự kiện xác định người dùng mới
GROUP BY
user_pseudo_id
),
UserWeeklyActivity AS (
SELECT
user_pseudo_id,
PARSE_DATE(‘%Y%m%d’, event_date) AS event_date
FROM
`your_project_id.analytics_XXXXX.events_*`
WHERE
event_name = ‘session_start’ — Sự kiện để đo hoạt động quay lại
GROUP BY
user_pseudo_id,
event_date
)
SELECT
FORMAT_DATE(‘%Y-%W’, first_event_date) AS cohort_week,
COUNT(DISTINCT T1.user_pseudo_id) AS cohort_size,
COUNT(DISTINCT IF(DATE_DIFF(T2.event_date, T1.first_event_date, WEEK) = 0, T1.user_pseudo_id, NULL)) AS week_0_users,
COUNT(DISTINCT IF(DATE_DIFF(T2.event_date, T1.first_event_date, WEEK) = 1, T1.user_pseudo_id, NULL)) AS week_1_users,
COUNT(DISTINCT IF(DATE_DIFF(T2.event_date, T1.first_event_date, WEEK) = 2, T1.user_pseudo_id, NULL)) AS week_2_users,
COUNT(DISTINCT IF(DATE_DIFF(T2.event_date, T1.first_event_date, WEEK) = 3, T1.user_pseudo_id, NULL)) AS week_3_users,
COUNT(DISTINCT IF(DATE_DIFF(T2.event_date, T1.first_event_date, WEEK) = 4, T1.user_pseudo_id, NULL)) AS week_4_users,
SAFE_DIVIDE(COUNT(DISTINCT IF(DATE_DIFF(T2.event_date, T1.first_event_date, WEEK) = 1, T1.user_pseudo_id, NULL)), COUNT(DISTINCT T1.user_pseudo_id)) AS retention_week_1,
SAFE_DIVIDE(COUNT(DISTINCT IF(DATE_DIFF(T2.event_date, T1.first_event_date, WEEK) = 2, T1.user_pseudo_id, NULL)), COUNT(DISTINCT T1.user_pseudo_id)) AS retention_week_2,
SAFE_DIVIDE(COUNT(DISTINCT IF(DATE_DIFF(T2.event_date, T1.first_event_date, WEEK) = 3, T1.user_pseudo_id, NULL)), COUNT(DISTINCT T1.user_pseudo_id)) AS retention_week_3,
SAFE_DIVIDE(COUNT(DISTINCT IF(DATE_DIFF(T2.event_date, T1.first_event_date, WEEK) = 4, T1.user_pseudo_id, NULL)), COUNT(DISTINCT T1.user_pseudo_id)) AS retention_week_4
FROM
UserFirstEvent AS T1
LEFT JOIN
UserWeeklyActivity AS T2
ON T1.user_pseudo_id = T2.user_pseudo_id
GROUP BY
cohort_week
ORDER BY
cohort_week

Lưu ý: Thay your_project_id.analytics_XXXXX.events_* bằng ID dự án và ID tài sản GA4 của bạn. events_* là cú pháp để truy vấn tất cả các bảng events_YYYYMMDD trong tập dữ liệu.

Xây dựng các kịch bản Cohort phức tạp (ví dụ: chu kỳ khách hàng, giá trị vòng đời thực tế)

BigQuery cho phép bạn vượt ra ngoài các sự kiện cơ bản, kết hợp dữ liệu từ nhiều nguồn.

Kịch bản 1: Chu kỳ khách hàng theo phân khúc giá trị: Bạn có thể kết hợp dữ liệu GA4 với dữ liệu CRM hoặc ERP (qua các ID người dùng chung) để nhóm người dùng thành các cohort dựa trên giá trị đơn hàng đầu tiên (ví dụ: cohort “mua hàng < 500k”, cohort “mua hàng > 2M”). Sau đó, phân tích hành vi mua lại và LTV của từng cohort này.

Kịch bản 2: Phân tích Cohort đa kênh: Xác định cohort dựa trên kênh thu hút ban đầu (từ event_params.traffic_source trong GA4) và sau đó theo dõi hành trình chuyển đổi, tương tác của họ qua các kênh khác (ví dụ: email marketing, push notification) mà không giới hạn chỉ trong GA4.

Trực quan hóa dữ liệu Cohort từ BigQuery với Looker Studio (dashboard mẫu)

Sau khi có dữ liệu cohort từ BigQuery, Looker Studio là công cụ lý tưởng để trực quan hóa và tạo dashboard tương tác.

Các bước cơ bản:

  1. Kết nối nguồn dữ liệu: Trong Looker Studio, tạo nguồn dữ liệu mới và chọn Google BigQuery. Chọn dự án, tập dữ liệu và bảng chứa kết quả SQL query cohort của bạn.
  2. Tạo biểu đồ bảng: Kéo cohort_week vào hàng (Row), và các chỉ số retention_week_1, retention_week_2, … vào cột (Column). Sử dụng định dạng có điều kiện (conditional formatting) để tạo heatmap trực quan, giúp dễ dàng nhìn thấy các xu hướng giữ chân giảm dần.
  3. Thêm các biểu đồ khác:
  • Biểu đồ đường (Line chart): Để so sánh tỷ lệ giữ chân của các cohort khác nhau qua thời gian.
  • Biểu đồ cột chồng (Stacked bar chart): Để hiển thị cơ cấu các sự kiện quay lại cho mỗi cohort.
  • Thêm bộ lọc (Filters): Cho phép người dùng dashboard lọc theo cohort_week hoặc các chiều kích khác (nếu có trong dữ liệu BigQuery của bạn) để tập trung vào các giai đoạn cụ thể.

Ứng dụng Phân tích Cohort trong các chiến lược Marketing & Kinh doanh hiệu quả

Phân tích cohort không chỉ là một công cụ kỹ thuật, mà là nền tảng để đưa ra các quyết định chiến lược có tác động lớn.

 

Sơ đồ Phân tích Cohort, với khối trung tâm và sáu ứng dụng qua biểu tượng: ngân sách, rời bỏ, giá trị, sản phẩm.
Sơ đồ Phân tích Cohort, với khối trung tâm và sáu ứng dụng qua biểu tượng: ngân sách, rời bỏ, giá trị, sản phẩm.

 

Tối ưu hóa chiến dịch thu hút khách hàng (acquisition) dựa trên dữ liệu Cohort

Bằng cách phân tích hiệu suất giữ chân và LTV của các cohort đến từ các kênh và chiến dịch khác nhau, bạn có thể phân bổ ngân sách hiệu quả hơn.

  • Ví dụ: Nếu cohort từ chiến dịch quảng cáo A có LTV cao gấp đôi chiến dịch B, nhưng chi phí thu hút tương đương, bạn nên tăng cường đầu tư vào chiến dịch A.
  • Bạn cũng có thể phân tích SERP để hiểu rõ hơn về đối thủ và cơ hội thu hút khách hàng tiềm năng.

Cải thiện khả năng giữ chân khách hàng (retention) và giảm tỷ lệ rời bỏ (churn) thực tế

Phân tích cohort giúp xác định chính xác thời điểm và nguyên nhân khách hàng có xu hướng rời bỏ.

  • Can thiệp sớm: Nếu bạn thấy tỷ lệ giữ chân giảm mạnh sau tuần thứ 2 đối với một cohort cụ thể, đó là lúc bạn cần kích hoạt các chiến dịch email re-engagement, push notification, hoặc ưu đãi đặc biệt để giữ chân họ.
  • Tùy chỉnh trải nghiệm: Dựa trên hành vi của các cohort, bạn có thể điều chỉnh trải nghiệm onboarding cho người dùng mới hoặc cá nhân hóa các đề xuất sản phẩm.

Phân tích giá trị vòng đời khách hàng (LTV) theo Cohort và dự đoán

LTV là một chỉ số quan trọng, và phân tích cohort cung cấp cái nhìn sâu sắc hơn về LTV của từng nhóm người dùng.

Xác định LTV thực tế: Bằng cách theo dõi doanh thu tích lũy của từng cohort theo thời gian, bạn có thể tính toán LTV thực tế và sử dụng nó để dự đoán giá trị trong tương lai.

Dự đoán LTV: Các cohort sớm có thể được dùng làm “hình mẫu” để dự đoán LTV của các cohort mới hơn, giúp bạn đánh giá tiềm năng tăng trưởng và điều chỉnh chiến lược kịp thời.

Xác định hành vi người dùng theo từng nhóm, cá nhân hóa trải nghiệm và chiến dịch

Phân tích cohort làm nổi bật sự khác biệt về hành vi giữa các nhóm người dùng.

Cá nhân hóa nội dung: Nếu cohort đến từ kênh A thường tương tác với nội dung giáo dục, trong khi cohort từ kênh B quan tâm đến các chương trình giảm giá, bạn có thể tối ưu trải nghiệm đọc bằng cách điều chỉnh thông điệp và nội dung cho phù hợp với từng nhóm.

Chiến lược sản phẩm: Hiểu được tính năng nào thu hút và giữ chân các cohort giá trị nhất có thể định hướng phát triển sản phẩm, tập trung vào các tính năng được yêu thích bởi nhóm khách hàng trung thành.

Các lỗi thường gặp và Cách tránh khi Phân tích Cohort để đảm bảo chính xác

Để phân tích cohort mang lại giá trị thực, bạn cần tránh các lỗi phổ biến có thể làm sai lệch kết quả.

Lỗi Nguyên nhân chính Cách tránh và xử lý
Hiểu sai về tiêu chí nhóm Cohort – Chọn sự kiện tạo cohort không chính xác (ví dụ: session_start thay vì first_open khi muốn đo người dùng mới).

– Nhầm lẫn giữa “thời điểm tham gia cohort” và “thời điểm bắt đầu hoạt động”.

– Luôn xác định rõ ràng mục tiêu phân tích: Bạn muốn nhóm người dùng theo sự kiện nào?

– Đảm bảo sự kiện inclusion criterion trong GA4 hoặc trong SQL query là sự kiện ĐẦU TIÊN mà người dùng thực hiện, đại diện cho “sự kiện sinh ra” của cohort.

– Tham khảo thêm về cách phân tích link gap trong Google để tránh những sai lầm khi định nghĩa các nhóm khách hàng.

Vấn đề về chất lượng dữ liệu – Dữ liệu không nhất quán (ví dụ: user_pseudo_id thay đổi).

– Thiếu dữ liệu hoặc dữ liệu bị trùng lặp.

– Dữ liệu bot/spam làm nhiễu.

– Đảm bảo triển khai đo lường (tracking) nhất quán trên tất cả các nền tảng và thiết bị.

– Vệ sinh dữ liệu trước khi phân tích (ví dụ: loại bỏ bot/spam traffic).

– Sử dụng các user_id nếu có để có định danh người dùng chính xác hơn user_pseudo_id.

Sai lầm trong diễn giải kết quả – Đánh đồng tỷ lệ giữ chân thấp với hiệu suất kém mà không xem xét ngữ cảnh.

– Không tính đến các yếu tố bên ngoài có thể ảnh hưởng đến hành vi cohort (ví dụ: mùa vụ, chiến dịch của đối thủ).

– Luôn so sánh hiệu suất cohort với các cohort trước đó, hoặc với các ngành/điểm chuẩn liên quan.

– Xem xét các yếu tố vĩ mô và vi mô xảy ra trong khoảng thời gian của cohort.

– Đừng chỉ nhìn vào số liệu, hãy tìm kiếm lý do tại sao các số liệu đó lại như vậy.

Bỏ qua ý nghĩa thống kê Đưa ra kết luận dựa trên các biến động nhỏ trong dữ liệu hoặc từ các cohort có kích thước quá nhỏ. – Đảm bảo kích thước cohort đủ lớn để có ý nghĩa thống kê.

– Tập trung vào các xu hướng rõ ràng và bền vững, không phải những biến động ngẫu nhiên.

– Nếu có thể, sử dụng các phương pháp thống kê để xác định xem sự khác biệt có đáng kể hay không.

Checklist: Các bước để thực hiện một Phân tích Cohort hiệu quả từ A-Z

Thực hiện phân tích cohort có hệ thống giúp bạn đảm bảo tính chính xác và hiệu quả.

Hạng mục Chi tiết thực hiện Mức độ ưu tiên
1. Xác định mục tiêu Bạn muốn trả lời câu hỏi nào? (Ví dụ: Tại sao tỷ lệ giữ chân người dùng giảm sau 3 tuần? Chiến dịch A có thu hút người dùng chất lượng hơn không?). Cao
2. Định nghĩa Cohort rõ ràng Tiêu chí tạo nhóm: Sự kiện nào xác định việc người dùng tham gia cohort (ví dụ: first_open, first_purchase)?

Đơn vị thời gian: Hàng ngày, hàng tuần, hay hàng tháng?

Khoảng thời gian phân tích: Bạn muốn theo dõi cohort trong bao lâu (ví dụ: 12 tuần, 6 tháng)?

Cao
3. Lựa chọn công cụ GA4 “Khám phá – Phân tích nhóm”: Cho các phân tích cơ bản và tùy chỉnh theo sự kiện.

Google BigQuery: Cho phân tích dữ liệu lớn, tùy chỉnh phức tạp, kết hợp dữ liệu đa nguồn.

Trung bình
4. Chuẩn bị và làm sạch dữ liệu – Đảm bảo các sự kiện được gửi đúng và đủ lên GA4 (qua GTM hoặc code).

– Nếu dùng BigQuery: Kiểm tra tính nhất quán của user_pseudo_id, lọc bỏ dữ liệu bot/spam, đảm bảo tất cả các trường cần thiết đều có dữ liệu.

Cao
5. Thực hiện phân tích Trong GA4: Tạo báo cáo “Phân tích nhóm”, thiết lập tiêu chí bao gồm/quay lại, thêm các chỉ số và phân đoạn liên quan.

Trong BigQuery: Viết SQL query để tạo bảng cohort, tính toán các chỉ số retention/engagement/LTV theo thời gian.

Cao
6. Trực quan hóa kết quả – Sử dụng biểu đồ nhiệt (heatmap) trong GA4 hoặc Looker Studio để dễ dàng nhận biết xu hướng.

– Tạo các biểu đồ đường để so sánh hiệu suất giữa các cohort.

Trung bình
7. Diễn giải và rút ra Insight – Tìm kiếm các xu hướng (giảm dần, ổn định, tăng đột biến).

– So sánh các cohort khác nhau.

– Xác định các điểm suy yếu hoặc cơ hội.

– Đặt câu hỏi “Tại sao?” cho mọi xu hướng bất thường.

Cao
8. Đề xuất hành động Dựa trên insight, đưa ra các khuyến nghị cụ thể cho marketing, sản phẩm, hoặc trải nghiệm người dùng. (Ví dụ: Ra mắt chiến dịch re-engagement cho cohort X vào tuần thứ 3, cải thiện quy trình onboarding). Cao
9. Theo dõi và Lặp lại Thực hiện các hành động đề xuất và sau đó theo dõi lại hiệu suất của các cohort mới để xem liệu các cải tiến có hiệu quả hay không. Phân tích cohort là một quá trình liên tục. Cao

Advanced/Insider Tip: Tận dụng Regex để định nghĩa Cohort nâng cao

Trong một số trường hợp, bạn có thể muốn tạo cohort dựa trên các URL hoặc UTM parameter phức tạp. Regex (Regular Expression) là một công cụ cực kỳ mạnh mẽ để làm điều này. Mặc dù GA4 UI có thể không hỗ trợ Regex trực tiếp cho inclusion criterion hay return criterion, bạn hoàn toàn có thể sử dụng nó khi xuất dữ liệu GA4 sang BigQuery.

 

Chuỗi khối nội dung 5 bước tận dụng Regex định nghĩa Cohort: URL phức tạp, BigQuery, lọc REGEXP_CONTAINS, linh hoạt, insight
Chuỗi khối nội dung 5 bước tận dụng Regex định nghĩa Cohort: URL phức tạp, BigQuery, lọc REGEXP_CONTAINS, linh hoạt, insight

 

Ví dụ thực tế: Bạn muốn tạo cohort những người dùng truy cập các bài viết trong một chuyên mục cụ thể trên blog của mình, có cấu trúc URL https://yourwebsite.com/blog/chuyen-muc-x/ten-bai-viet-y.

Trong BigQuery, bạn có thể sử dụng Regex trong mệnh đề WHERE để lọc các sự kiện page_view từ chuyên mục này:

SELECT
user_pseudo_id,
MIN(PARSE_DATE(‘%Y%m%d’, event_date)) AS cohort_entry_date
FROM
`your_project_id.analytics_XXXXX.events_*`
CROSS JOIN
UNNEST(event_params) AS ep
WHERE
event_name = ‘page_view’
AND ep.key = ‘page_location’
AND REGEXP_CONTAINS(ep.value.string_value, r’yourwebsite\.com/blog/chuyen-muc-x/.*’) — Regex ở đây
GROUP BY
user_pseudo_id

Regex r’yourwebsite\.com/blog/chuyen-muc-x/.*’ sẽ khớp với bất kỳ URL nào bắt đầu bằng yourwebsite.com/blog/chuyen-muc-x/. .* khớp với bất kỳ ký tự nào không hoặc nhiều lần. Dấu chấm . phải được escape bằng \ vì nó là một ký tự đặc biệt trong Regex.

Việc tận dụng Regex trong BigQuery mang lại sự linh hoạt tối đa, cho phép bạn định nghĩa các cohort siêu cụ thể dựa trên bất kỳ chuỗi ký tự nào trong dữ liệu sự kiện hoặc thuộc tính người dùng, mở ra cánh cửa cho các insight độc đáo mà giao diện GA4 khó có thể cung cấp.

Câu hỏi thường gặp về Phân tích Cohort (FAQ)

Phân tích cohort có thể phức tạp, và một số câu hỏi thường gặp có thể giúp làm rõ các khái niệm.

Phân tích Cohort khác gì so với phân tích phân khúc?

Phân tích cohort và phân tích phân khúc đều nhằm mục đích chia nhỏ dữ liệu người dùng, nhưng chúng có mục đích và cách tiếp cận khác nhau. Phân tích phân khúc (segmentation) nhóm người dùng dựa trên các đặc điểm hoặc hành vi tĩnh tại một thời điểm nhất định (ví dụ: người dùng từ Hà Nội, người dùng đã mua hàng). Ngược lại, phân tích cohort tập trung vào việc nhóm người dùng dựa trên một điểm chung về THỜI GIAN hoặc SỰ KIỆN KHỞI ĐẦU, sau đó theo dõi hành vi của họ qua THỜI GIAN. Phân tích cohort giúp hiểu sự tiến triển hành vi, trong khi phân tích phân khúc cung cấp cái nhìn tổng quan về các nhóm tại một thời điểm.

Tần suất nên thực hiện phân tích Cohort là bao lâu?

Tần suất thực hiện phân tích cohort phụ thuộc vào chu kỳ kinh doanh và tốc độ thay đổi hành vi người dùng của bạn. Đối với các sản phẩm/dịch vụ có chu kỳ ngắn (ví dụ: ứng dụng di động, trang web tin tức), phân tích hàng ngày hoặc hàng tuần có thể phù hợp để phát hiện xu hướng nhanh chóng. Đối với các sản phẩm/dịch vụ có chu kỳ dài hơn (ví dụ: các gói đăng ký dài hạn, sản phẩm giá trị cao), phân tích hàng tháng hoặc hàng quý có thể đủ. Điều quan trọng là thực hiện đủ thường xuyên để phát hiện các vấn đề và cơ hội kịp thời, nhưng không quá thường xuyên đến mức gây ra nhiễu hoặc tốn quá nhiều nguồn lực.

Phân tích cohort là một kỹ thuật mạnh mẽ giúp doanh nghiệp thấu hiểu sâu sắc hành vi người dùng, từ đó tối ưu hóa chiến lược giữ chân khách hàng, tăng cường tương tác và nâng cao giá trị vòng đời khách hàng. Bằng cách kết hợp linh hoạt các tính năng của Google Analytics 4 và khả năng tùy chỉnh vô hạn của Google BigQuery, bạn có thể không chỉ bắt kịp mà còn vượt xa các đối thủ trên thị trường.

Bài viết liên quan

https://v4seowebsite.vn/phan-tich-log-server-la-gi

https://v4seowebsite.vn/phan-tich-keyword-gap-la-gi

https://v4seowebsite.vn/phan-tich-backlink-doi-thu-la-gi

Facebook
X
LinkedIn
Tumblr
Threads
logo_v4seowebsite

V4SEO là đội ngũ SEO & Web xuất phát từ Nha Trang, triển khai dự án cho doanh nghiệp trên toàn quốc. Chúng tôi cung cấp Dịch vụ SEO Nha Trang theo chuẩn Google, kết hợp kỹ thuật, nội dung và entity để tăng trưởng bền vững. Song song, Dịch vụ thiết kế website Nha Trang tối ưu UX, tốc độ và Core Web Vitals nhằm tối đa chuyển đổi; báo cáo minh bạch, hỗ trợ dài hạn.

Nội dung được sự cố vấn của chuyên gia SEO - Võ Quang Vinh
author-founder-v4seowebsite

Võ Quang Vinh – Chuyên gia SEO với hơn 10 năm kinh nghiệm triển khai hàng trăm dự án SEO tổng thể, từ thương mại điện tử đến dịch vụ địa phương. Từng đảm nhiệm vai trò SEO và là Keymember tại Gobranding và dân dắt đội SEO BachhoaXanh.com, anh là người đứng sau nhiều chiến dịch tăng trưởng traffic vượt bậc. Hiện tại, Vinh là người sáng lập và điều hành V4SEO, cung cấp giải pháp SEO & thiết kế website chuẩn UX/UI giúp doanh nghiệp bứt phá thứ hạng Google và tối ưu chuyển đổi. 

Bài viết liên quan
ĐĂNG KÝ V4SEO NGAY HÔM NAY KHUYẾN MÃI 15% TẤT CẢ DỊCH VỤ ÁP DỤNG TỚI HẾT THÁNG 2/2026

Nhận tư vấn từ V4SEO Đăng ký ngay hôm nay Bứt phá trong mai sau