Lấy mẫu dữ liệu là gì
Lấy mẫu dữ liệu là hoạt động phân tích dữ liệu trong đó một nhóm nhỏ dữ liệu sẽ được phân tích để tìm ra thông tin có ý nghĩa trong một tập dữ liệu lớn hơn. Hoạt động này giúp bạn truy xuất dữ liệu nhanh hơn mà không gây ảnh hưởng lớn đến chất lượng dữ liệu.
Ví dụ: nếu muốn ước tính số cây trong một khu vực rộng 100 mẫu với số cây được phân bổ khá đồng đều, bạn có thể đếm số cây trong 1 mẫu rồi nhân với 100, hoặc đếm số cây trong 1/2 mẫu rồi nhân với 200 để có được kết quả đại diện chính xác trong toàn bộ 100 mẫu.
Lý do khiến bạn thấy hoạt động lấy mẫu dữ liệu
Trong Google Analytics, hoạt động lấy mẫu dữ liệu có thể xảy ra khi số lượng sự kiện được dùng để tạo báo cáo, dữ liệu khám phá hoặc yêu cầu vượt quá hạn mức cho tài sản của bạn. Khi điều này xảy ra, Analytics sẽ sử dụng một phần dữ liệu rồi nhân rộng quy mô để cung cấp kết quả chính xác đại diện cho tất cả dữ liệu của bạn.
Khi kết quả của bạn có sử dụng hoạt động lấy mẫu, thì kết quả đó sẽ được thể hiện trong biểu tượng chất lượng dữ liệu cùng với tỷ lệ phần trăm dữ liệu được dùng để tạo kết quả. Quy mô mẫu càng lớn, thì kết quả càng chính xác.
Có những hạn mức nào
Hạn mức cho các truy vấn cấp sự kiện là 10 triệu sự kiện đối với tài sản Google Analytics chuẩn và tối đa 1 tỷ sự kiện đối với tài sản Google Analytics 360.
Tài sản Google Analytics 360 có hạn mức mặc định ban đầu là 100 triệu sự kiện trên mỗi truy vấn, nhằm cung cấp kết quả chính xác nhanh hơn cho bạn. Khi cần tăng độ chính xác, bạn có thể chọn "kết quả chi tiết hơn" thông qua biểu tượng chất lượng dữ liệu để sử dụng giới hạn lấy mẫu cao hơn trong công cụ Khám phá.
Còn dữ liệu chưa được lấy mẫu thì sao?
Đối với báo cáo chưa được lấy mẫu, Google Analytics sử dụng HyperLogLog++ (HLL++) để ước tính số lượng riêng biệt chính xác cho các chỉ số thường dùng nhất, chẳng hạn như Số người dùng đang hoạt động và Số phiên. Việc sử dụng HLL++ đảm bảo hiệu suất tốt hơn, độ chính xác cao hơn cho dữ liệu ước tính và giới hạn lỗi thấp hơn. Bạn cũng có thể sử dụng HLL++ với dữ liệu Google Analytics trong BigQuery. Tìm hiểu thêm về Phương pháp ước tính số lượng riêng biệt trong Google Analytics.