データの保存方法と表示方法

データのサンプリングについて

データ サンプリングとは

データ サンプリングは、大規模なデータセットから有意な情報を得るため、一部のデータを抽出して分析する手法です。データ サンプリングにより、データ品質への影響を最小限に抑えながら、より迅速にデータを取得できます。

たとえば、100 エーカーの範囲に自生している木の本数を推定する場合、木の分布が均一であれば、1 エーカーの本数を数えて 100 を掛けるか、0.5 エーカーの本数を数えて 200 を掛ければ、全体の本数を的確に予測できます。

データ サンプリングが表示される理由

Google アナリティクスでは、レポート、データ探索、リクエストの作成に使用されたイベントの数がプロパティの割り当て上限を超えると、データ サンプリングが発生する可能性があります。その場合、アナリティクスはデータの一部を使用し、それをスケールアップして、すべてのデータが反映されたおおむね正確な結果を提供します。

結果にサンプリングが適用された場合、結果の作成に使用されたデータの割合がデータ品質アイコンに表示されます。使用するサンプルサイズが大きいほど、結果は正確になります。

上限とは

イベントレベルのクエリの割り当て上限は、標準の Google アナリティクス プロパティでイベント 1,000 万件、Google アナリティクス 360 プロパティで最大 10 億件です。

Google アナリティクス 360 プロパティでは、初期デフォルトでクエリあたり 1 億件のイベントが設定されており、おおむね正確な結果をより迅速に取得できます。精度を上げる必要がある場合は、データ探索にあるデータ品質アイコンから [精度の高い結果] を選択すると、サンプリングの上限を緩和できます。

: 大規模なデータセットを国でフィルタすると、拡張データ リクエストを使用している場合でも、標準の Google アナリティクス レポートとデータ探索でデータ サンプリングが発生することがあります。これは、フィルタリングによって異なるデータ処理方法が有効になるためです。1 億件を超えるイベントを含むデータセットを処理する場合、サンプリングが発生する可能性が高くなります。サンプリングを最小限に抑えるには、必要に応じてレポートの期間を狭くするか、別の分析方法を使用することを検討してください。

非サンプリング データについて

非サンプリング レポートの場合、Google アナリティクスは HyperLogLog++(HLL++)を使用して、ユーザー数やセッション数など、最もよく使用される指標の正確な個別カウントを推定します。HLL++ を使用すると、推定の精度が向上して誤差の範囲が小さくなるため、パフォーマンスが向上します。BigQuery で Google アナリティクス データに HLL++ を使用することもできます。詳しくは、Google アナリティクスにおけるユニーク カウントの近似値をご覧ください。

: ほとんどの場合、差異率は 1% 未満ですが、特に複数の HLL++ 指標を組み合わせると、差異率はより高くなる可能性があります。Google アナリティクスでは HLL++ スケッチ 14 が使用されます。詳しくは、HLL++ スケッチに関する説明をご覧ください。

この情報は役に立ちましたか?

改善できる点がありましたらお聞かせください。
検索
検索をクリア
検索を終了
Google アプリ
メインメニュー
3369723738825838012
true
ヘルプセンターを検索
false
true
true
true
true
true
69256
false
false
false
false