Cách dữ liệu được lưu trữ và hiển thị

Giới thiệu về phương thức lấy mẫu dữ liệu

Lấy mẫu dữ liệu là gì

Lấy mẫu dữ liệu là hoạt động phân tích dữ liệu trong đó một nhóm nhỏ dữ liệu sẽ được phân tích để tìm ra thông tin có ý nghĩa trong một tập dữ liệu lớn hơn. Hoạt động này giúp bạn truy xuất dữ liệu nhanh hơn mà không gây ảnh hưởng lớn đến chất lượng dữ liệu.

Ví dụ: nếu muốn ước tính số cây trong một khu vực rộng 100 mẫu với số cây được phân bổ khá đồng đều, bạn có thể đếm số cây trong 1 mẫu rồi nhân với 100, hoặc đếm số cây trong 1/2 mẫu rồi nhân với 200 để có được kết quả đại diện chính xác trong toàn bộ 100 mẫu.

Lý do khiến bạn thấy hoạt động lấy mẫu dữ liệu

Trong Google Analytics, hoạt động lấy mẫu dữ liệu có thể xảy ra khi số lượng sự kiện được dùng để tạo báo cáo, dữ liệu khám phá hoặc yêu cầu vượt quá hạn mức cho tài sản của bạn. Khi điều này xảy ra, Analytics sẽ sử dụng một phần dữ liệu rồi nhân rộng quy mô để cung cấp kết quả chính xác đại diện cho tất cả dữ liệu của bạn.

Khi kết quả của bạn có sử dụng hoạt động lấy mẫu, thì kết quả đó sẽ được thể hiện trong biểu tượng chất lượng dữ liệu cùng với tỷ lệ phần trăm dữ liệu được dùng để tạo kết quả. Quy mô mẫu càng lớn, thì kết quả càng chính xác.

Có những hạn mức nào

Hạn mức cho các truy vấn cấp sự kiện là 10 triệu sự kiện đối với tài sản Google Analytics chuẩn và tối đa 1 tỷ sự kiện đối với tài sản Google Analytics 360.

Tài sản Google Analytics 360 có hạn mức mặc định ban đầu là 100 triệu sự kiện trên mỗi truy vấn, nhằm cung cấp kết quả chính xác nhanh hơn cho bạn. Khi cần tăng độ chính xác, bạn có thể chọn "kết quả chi tiết hơn" thông qua biểu tượng chất lượng dữ liệu để sử dụng giới hạn lấy mẫu cao hơn trong công cụ Khám phá.

Lưu ý: Việc lọc các tập dữ liệu lớn theo quốc gia có thể dẫn đến việc lấy mẫu dữ liệu trong báo cáo chuẩn và công cụ Khám phá của Google Analytics, ngay cả khi bạn sử dụng yêu cầu dữ liệu mở rộng. Điều này xảy ra vì việc lọc sẽ kích hoạt các phương thức xử lý dữ liệu khác nhau. Các phương thức này có nhiều khả năng dẫn đến việc lấy mẫu khi xử lý các tập dữ liệu vượt quá 100 triệu sự kiện. Để giảm thiểu việc lấy mẫu, hãy cân nhắc giảm phạm vi ngày của báo cáo hoặc sử dụng các phương pháp phân tích thay thế (nếu cần).

Còn dữ liệu chưa được lấy mẫu thì sao?

Đối với báo cáo chưa được lấy mẫu, Google Analytics sử dụng HyperLogLog++ (HLL++) để ước tính số lượng riêng biệt chính xác cho các chỉ số thường dùng nhất, chẳng hạn như số người dùng và số phiên. Việc sử dụng HLL++ đảm bảo hiệu suất tốt hơn, độ chính xác cao hơn cho dữ liệu ước tính và giới hạn lỗi thấp hơn. Bạn cũng có thể sử dụng HLL++ với dữ liệu Google Analytics trong BigQuery. Tìm hiểu thêm về Phương pháp ước tính số lượng riêng biệt trong Google Analytics.

Lưu ý: Trong hầu hết các trường hợp, tỷ lệ chênh lệch dưới 1%, nhưng tỷ lệ này có thể cao hơn, đặc biệt là khi kết hợp nhiều chỉ số HLL++. Google Analytics sử dụng bản phác thảo HLL++ 14. Tìm hiểu thêm về các bản phác thảo HLL++.

Thông tin này có hữu ích không?

Chúng tôi có thể cải thiện trang này bằng cách nào?
Tìm kiếm
Xóa nội dung tìm kiếm
Đóng tìm kiếm
Trình đơn chính
10324860638977058604
true
Tìm kiếm trong Trung tâm trợ giúp
false
true
true
true
true
true
69256
false
false
false
false
false