データ サンプリングとは
データ サンプリングは、大規模なデータセットから有意な情報を得るため、一部のデータを抽出して分析する手法です。データ サンプリングにより、データ品質への影響を最小限に抑えながら、より迅速にデータを取得できます。
たとえば、100 エーカーの範囲に自生している木の本数を推定する場合、木の分布が均一であれば、1 エーカーの本数を数えて 100 を掛けるか、0.5 エーカーの本数を数えて 200 を掛ければ、全体の本数を的確に予測できます。
データ サンプリングが表示される理由
Google アナリティクスでは、レポート、データ探索、リクエストの作成に使用されたイベントの数がプロパティの割り当て上限を超えると、データ サンプリングが発生する可能性があります。その場合、アナリティクスはデータの一部を使用し、それをスケールアップして、すべてのデータが反映されたおおむね正確な結果を提供します。
結果にサンプリングが適用された場合、結果の作成に使用されたデータの割合がデータ品質アイコンに表示されます。使用するサンプルサイズが大きいほど、結果は正確になります。
上限とは
イベントレベルのクエリの割り当て上限は、標準の Google アナリティクス プロパティでイベント 1,000 万件、Google アナリティクス 360 プロパティで最大 10 億件です。
Google アナリティクス 360 プロパティでは、初期デフォルトでクエリあたり 1 億件のイベントが設定されており、おおむね正確な結果をより迅速に取得できます。精度を上げる必要がある場合は、データ探索にあるデータ品質アイコンから [精度の高い結果] を選択すると、サンプリングの上限を緩和できます。
非サンプリング データについて
非サンプリング レポートの場合、Google アナリティクスは HyperLogLog++(HLL++)を使用して、アクティブ ユーザー数やセッション数など、最もよく使用される指標の正確な個別カウントを推定します。HLL++ を使用すると、推定の精度が向上して誤差の範囲が小さくなるため、パフォーマンスが向上します。BigQuery で Google アナリティクス データに HLL++ を使用することもできます。詳しくは、Google アナリティクスにおけるユニーク カウントの近似値をご覧ください。