데이터 샘플링이란
데이터 샘플링은 대규모 데이터 세트에서 의미 있는 정보를 찾기 위해 데이터 하위 집합을 분석하는 데이터 분석 방법입니다. 이 같은 방법으로 데이터 품질에 미치는 영향을 최소화하면서 데이터를 더 빠르게 검색할 수 있습니다.
예를 들어 나무가 균일하게 분포되어 있는 100에이커의 땅에 나무가 몇 그루 있는지 계산하려면, 1에이커에 있는 나무의 수를 세고 100을 곱하거나 1/2에이커에 있는 나무의 수를 세고 200을 곱하는 방법을 사용하여 전체 100에이커에 몇 그루의 나무가 있는지 정확하게 파악할 수 있습니다.
데이터 샘플링이 표시되는 이유
Google 애널리틱스에서 보고서, 탐색 분석 또는 요청을 만드는 데 사용된 이벤트 수가 속성의 할당량 한도를 초과하면 데이터 샘플링이 발생할 수 있습니다. 이 경우 애널리틱스에서 데이터의 일부를 사용한 다음 이를 확장하여 모든 데이터를 대표하는 정확한 결과를 제공합니다.
결과에 샘플링이 사용되는 경우, 결과를 생성하는 데 사용된 데이터의 비율이 데이터 품질 아이콘에 표시됩니다. 사용된 샘플 크기가 클수록 결과가 더 정확합니다.
제한사항
이벤트 수준 쿼리의 할당량 한도는 표준 Google 애널리틱스 속성의 경우 이벤트 1,000만 개, Google 애널리틱스 360 속성의 경우 최대 10억 개입니다.
Google 애널리틱스 360 속성은 기본적으로 쿼리당 1억 개의 이벤트를 처리해 정확한 결과를 더 빨리 제공합니다. 정확성을 높여야 하는 경우 데이터 품질 아이콘을 통해 '세부 결과'를 선택하여 '탐색'에서 더 높은 샘플링 한도를 이용할 수 있습니다.
샘플링되지 않은 데이터의 경우
샘플링되지 않은 보고서의 경우 Google 애널리틱스에서는 HyperLogLog++(HLL++)를 사용하여 활성 사용자 수 및 세션수와 같이 가장 자주 사용되는 측정항목의 정확한 고유 개수를 추정합니다. HLL++를 사용하면 성능이 향상되고 추정 정확도가 높아지며 오류 범위가 좁아집니다. BigQuery에서 Google 애널리틱스 데이터와 함께 HLL++를 사용할 수도 있습니다. Google 애널리틱스의 고유 개수 근사값에 대해 자세히 알아보세요.