データのサンプリングについて

データ分析の分野では、大規模なデータセットの中から有意な情報を得るために、すべてのデータの一部を抽出することをサンプリングと言います。たとえば、100 エーカーの範囲に自生している木の本数を推定する場合、木の分布が均一であるなら、1 エーカーの本数を数えて 100 を掛けるか、0.5 エーカーの本数を数えて 200 倍すれば、全体の本数を正確に割り出すことができます。

この記事では、レポートに正確なデータをすぐに表示するために、アナリティクスがセッションのサンプリングを行うケースについて説明します。

 

この記事の内容:

サンプリングのしきい値

デフォルトのレポートでサンプリングは行われません。

アドホック データクエリでサンプリングを行うかどうかは、次のしきい値で判断されます。

  • 標準のアナリティクス: 選択した期間でプロパティ単位のセッション数が 50 万件
  • アナリティクス 360: 選択した期間でビュー単位のセッション数が 1 億件

    アナリティクス 360 のしきい値は、クエリの設定方法によって変動します。詳しくは 360 のサポートチームにお問い合わせください。

サンプリングが行われるケース

以降では、どのようなケースでアナリティクスのレポートでセッションのサンプリングが行われる可能性があるのかについて説明します。

デフォルトのレポート

アナリティクス管理画面の左側のパネルでは、[ユーザー]、[集客]、[行動]、[コンバージョン] からデフォルトのレポートを選択できます。

アナリティクスのアカウントでは、フィルタを適用していない完全なデータセットがプロパティごとに 1 つ作成されます。また、プロパティのレポートビュー単位では、フィルタを適用していない完全なデータのディメンションと指標を集計した表が作成されます。デフォルトのレポートを作成する際には、集計データの表にクエリが発行され、サンプリングしていない結果が迅速に表示されます。

アナリティクスでは新しいレポートが定期的に追加され、指標の計算方法に変更が加えられることがあります。レポートの対象期間に、新しいレポートが追加される前、または指標の計算方法が変更される前の期間が含まれる場合、アナリティクスはアドホック クエリを発行してデータをサンプリングすることがあります。

「ユーザー数」指標と「アクティブ ユーザー」指標を含むレポートに 2016 年 9 月以前のデータが含まれている場合は、データのサンプリングが行われます。詳細

デフォルトのレポートは、アナリティクス スタンダードでもアナリティクス 360 でもサンプリングは行われません。ただし、UTM オーバーライド機能を使った場合、一部の AdWords レポートでサンプリングが発生することがあります。

アドホック レポート

セグメントやフィルタ、セカンダリ ディメンションを適用してデフォルトのレポートを変更した場合や、デフォルトのレポートにはないディメンションや指標を組み合わせてカスタム レポートを作成した場合は、アナリティクス データのアドホック クエリが生成されます。

アナリティクスは最初に集計データの表を参照し、アドホック クエリでリクエストされたデータが揃っているかどうかを確認します。必要な情報がない場合は、フィルタを適用していない完全なデータセットにクエリを発行して、リクエストに対応します。

アドホック クエリは、選択した期間内にセッション数が該当するタイプのプロパティのしきい値を超えると、サンプリングが行われます。

サンプリング アルゴリズムは、選択した期間におけるプロパティの日別のセッション分布に合わせて、完全なデータからサンプルを抽出します。たとえば、5 日間のセッションが 25% のレートでサンプリングされる場合、サンプルには各日のセッションの 25% が含まれることになります。

  月曜日 Tuesday Wednesday Thursday 金曜日
総セッション数 200,000 100,000 200,000 300,000 200,000
サンプル数(25%) 50,000 25,000 50,000 75,000 50,000

 

クエリのサンプリング レートは、ビューの対象期間に発生したセッション数によって異なります。

データのサンプリングが行われている場合は、レポートの上部に [このレポートは N% のセッションに基づいて作成されています。] というメッセージが表示されます。

このメッセージの右側で、サンプル数を調整する 2 つのオプションを選択できます。

  • 精度優先: サンプル数を最大にして、完全なデータセットのサンプルとして最も精度が高いデータを表示します。
  • 速度優先: サンプル数を減らし、データ表示を高速化します。
Sampling controls: Greater precision or Faster response
サンプリングの調整。

その他のレポート

以下のレポートで実施されるサンプリングの動作は、デフォルトのレポートやアドホック クエリの場合とは異なります。

マルチチャネル レポートとアトリビューション レポート

デフォルトのレポートの場合と同じように、レポートに変更を加えなければ、サンプリングは実施されません。たとえば、ルックバック ウィンドウの変更、集計するコンバージョンの変更、セグメントやセカンダリ ディメンションの追加などを行った場合に、サンプリングが実施されます。レポートになんらかの変更を加えると、最大で 100 万件のコンバージョンがサンプルとして返されます。

ビジュアル フロー レポート

ビジュアル フロー レポート(ユーザーフロー、行動フロー、イベントフロー、ゴールフロー)は、選択した期間の最大 10 万件のセッションを使って作成されます。

閲覧開始率、離脱率、コンバージョン率などの指標が表示されるビジュアル フロー レポートは、サンプルの内容が異なるデフォルトの行動レポートやコンバージョン レポートとは結果が異なる場合があります。

フィルタとセグメント

標準のアナリティクスとアナリティクス 360 では、ビューフィルタが適用された後に、ビュー単位でセッション データがサンプリングされます。たとえば、ビューフィルタでセッションが追加、除外される場合は、そのフィルタが適用された後のセッションからサンプルが抽出されます。

標準のアナリティクスとアナリティクス 360 は両方とも、レポートのフィルタを適用した後やサンプリングを実施した後にセグメントを適用します。つまり、サンプル全体のセッション数より、セグメントのセッション数の方が少なくなる可能性があります。

サンプル数の調整

サンプル数を最大化してレポートの精度を上げる設定と、サンプル数を少なくしてクエリに迅速に対応する設定のいずれかを選ぶことができます。

サンプリングを実施したくない場合は、セッション数がサンプリングのしきい値を下回るよう、レポートの対象期間を短縮するという方法もあります。ただし、その場合はデータ量が減ってしまう点にご注意ください。

Google アナリティクス 360 をご利用の場合は、次の 2 通りの方法でもサンプリングを回避できます。

この記事は役に立ちましたか?
改善できる点がありましたらお聞かせください。