Vault の書き出しの仕組み

必要なメールやファイルを Vault で検索したら、分析を進めるために検索結果を書き出すことができます。Google Vault の書き出し機能を使用すると、次のデータを得られます。

  • 検索条件に一致するすべてのデータが 1 つのファイルにまとまったコピー。
  • 書き出したデータをドメイン内の個々のユーザーとリンクするためのメタデータ。
  • 書き出したデータが Google のサーバーに保存されているデータと一致することを証明するために必要な確認情報。

Gmail、チャット、Google グループのエクスポート データ

Vault の書き出し処理が完了したら、次のデータをダウンロードできます。

  • PST または mbox を含む ZIP ファイル - これらのファイルには、書き出されたメッセージの詳細とコンテンツが含まれています。ZIP ファイルを解凍したら、次の方法でファイルを開けます。

    • PST - Microsoft Outlook。複数のアカウントのメッセージが含まれている書き出しやファイルサイズが 1 GB を超える書き出しの場合は、複数の PST ファイルが作成される可能性があります。

      注: Gmail でメールの分類に使用されているラベルは、Microsoft Outlook ではサポートされていません。Outlook で PST ファイルを開くと、すべてのメールが受信トレイに表示されます。
    • mbox - Mozilla Thunderbird またはテキスト エディタ。複数のアカウントのメッセージが含まれている書き出しやファイルサイズが 10 GB を超える書き出しの場合は、複数の mbox ファイルが作成される可能性があります。

    • 一部の訴訟サポート システム。訴訟サポート システムの中には PST を開けるものや、mbox ファイルのメール変換ツールが付属しているものがあります。

注: Google は、サードパーティ製品の設定に関する技術サポートを提供しておらず、サードパーティ製品に関する一切の責任を負いません。設定とサポートに関する最新情報については、該当する製品のウェブサイトをご参照ください。

  • XML ファイル - メッセージのメタデータが Google サーバーに存在するものと同じ状態で保存されます。このファイルをテキスト エディタで開くと、メッセージのメタデータを PST ファイルまたは mbox ファイルのメッセージのコンテンツと対応させることができます。
  • CSV ファイル - 書き出したファイルに含まれるメールの送信者アドレスと各ユーザーの送信メールの件数が保存されます。
  • エラーがある場合は、エラーレポートも保存されます。
  • チェックサム ファイル - 上記のファイルの Message Digest 5(MD5)ハッシュ値が保存されます。
メール クライアントでのメッセージの確認

Gmail のメールおよびチャット メッセージを Microsoft Outlook(PST)または Mozilla Thunderbird(mbox)で確認できます。この方法は、テキスト エディタでは表示できない HTML メッセージおよび添付ファイルを表示するのに便利です。

PST ファイルと mbox ファイルには、書き出された Gmail のメールおよびチャット メッセージの詳細データがすべて含まれています。Vault XML ファイルには、Google が記録したメッセージのメタデータが反映されています。これらのファイルをあわせて使用することで、Google サーバーに格納されているメッセージと Vault から書き出したデータをリンクさせることができます。

  1. メール アプリケーションでメッセージを読み込んで確認します。
  2. 案件にとって重要なメッセージについて、ヘッダーを確認します。
    • Outlook - 使用しているバージョンによって異なります。メッセージ ヘッダーの確認について詳しくは、Microsoft のドキュメントをご覧ください。
    • Thunderbird - 各メッセージのヘッダーを表示するには、[View] > [Headers] > [All] をクリックします。
  3. 各ヘッダーにはメッセージ ID が含まれています。メッセージ ID と XML ファイル内のメタデータを比較することで、メッセージを Google のサーバーに保存されているデータと関連付けられます。
テキスト エディタでの mbox ファイルの確認

mbox ファイルはメッセージを格納するための標準形式です。これには、メッセージの本文や添付ファイルなど、書き出されたメッセージのすべての詳細が含まれます。Vault XML ファイルは、Google で記録されたメッセージのメタデータを反映しています。これらのファイルをあわせて使用することで、Google サーバーに格納されているメッセージと Vault から書き出したデータをリンクさせることができます。

書き出し後、Vault XML ファイル内のメールのパラメータを使用して、mbox ファイル内の対応するメールを見つけます。まず、テキスト エディタで XML ファイルを開いて、次のような FileName のパラメータを探します。

<ExternalFile FileName='1463030154355209614-d7f2c19a-73f3-40e4-a17a-130b90c37aac.mbox'

このパラメータには一意の識別子が含まれています。この識別子は、mbox ファイル内の From_ 行のエントリに対応しています。From_ 行には、同じ識別子と、Google がそのメッセージを受信した日付と時刻(UTC 表記)が格納されています。たとえば、次のようになります。

From 1463030154355209614-d7f2c19a-73f3-40e4-a17a-130b90c37aac.mbox@xxx Wed Mar 19 06:38:02 2014

From_ 行は、mbox ファイルに含まれる各メッセージの先頭のエントリです。新しい From_ 行に到達したら、そこからは次のメッセージが始まります。

Vault XML ファイル内の Gmail とチャットのパラメータ

エクスポート データに含まれる Vault XML ファイルには、以下のメタデータが記載されています。

Gmail の各メールに含まれる

  • #From
  • #To
  • #CC
  • #BCC
  • #Subject
  • #DateSent
  • #DateReceived

各チャット メッセージに含まれる

  • #SubjectAtStart(従来のハングアウトのみ)
  • #SubjectAtEnd(従来のハングアウトのみ)
  • #DateFirstMessageSent
  • #DateLastMessageSent
  • #DateFirstMessageReceived
  • #DateLastMessageReceived

Gmail のメールとチャット メッセージの両方に含まれる

  • Labels - Gmail によって付けられた ^INBOX、^TRASH、^DELETED などのラベルを示します。さらに、ユーザーがメッセージに付けたラベルを示します。
  • FileName - メッセージ識別子を示します。書き出した PST ファイルや mbox ファイルのメッセージ ID とこのメッセージ識別子を比較します。

Hangouts Chat のメッセージに含まれる

  • RoomID - 会話が行われたチャットルームまたは DM の識別子を示します。
  • Participants - 会話に参加したすべてのユーザーのメールアドレスを示します。
  • roomName – チャットルームの名前、または DM に参加したアカウントのカンマ区切りのリストを示します。
  • conversationType - チャットルームまたは DM のどちらで会話が行われたかを示します。

書き出し全体のクエリ パラメータ

  • UserQuery - 書き出しに含まれるメッセージの取得に使用された、Vault ユーザーからのクエリを示します。
  • TimeZone - 日付ベースの検索に使用されたタイムゾーンを示します。
  • Custodians - 検索対象となったユーザー アカウントのメールアドレスを示します。個々のユーザー アカウントではなくコンテンツを検索した場合は、ここには何も含まれません。

ドライブの書き出し

Vault の書き出し処理が完了したら、次のデータをダウンロードできます。

  • 圧縮ファイル - 検索で見つかったすべてのファイルを含みます。10 GB までのデータが 1 つの圧縮ファイルにまとめられます。10 GB を超えるデータを書き出す場合は、複数のファイルが作成されます。
  • XML file - 以下の情報などのメタデータを含みます。
    • ドキュメント ID(注: これらの ID はドライブ ファイルの ID ではありません。CSV ファイル内の値に対応しています)
    • ユーザーのメールアドレス
    • 各ファイルの作成日と更新日
    • ドキュメントの種類とタイトル
  • ドキュメント ID と対応するユーザー アカウントが記載された CSV ファイル。この情報から、書き出したファイルにアクセスできるユーザーがわかります。
  • エラーがある場合は、エラーレポートも保存されます。
  • 上記のファイルの MD5 値を含むチェックサム ファイル。

書き出されたファイルの名前は、元のファイル名の後にアンダースコア(_)とドライブ ファイルの ID を付けたものになります。

書き出すと、ファイル形式が次のように変換されます。

ドライブのファイル形式 書き出し後の形式
Google ドキュメント .docx
Google スプレッドシート .xlsx
Google フォーム .zip(.html と .csv)
Google スライド .pptx
Google 図形描画 .pdf
Google 以外のファイル 形式は変更されない

 

Vault XML ファイル内のファイル パラメータ

書き出したデータに含まれる XML ファイルには、次のメタデータが記載されています。

各ファイルに含まれる

  • #Author - ドライブ内のファイルを所有するユーザーのメールアドレスを示します。共有ドライブのファイルの場合は、共有ドライブの名前を示します。
  • Collaborators - ファイルを編集したりコメントを追加したりする直接的な権限のあるアカウントやグループを示します。書き出し時のオプション選択によっては、ファイルに対して間接的なアクセス権のあるユーザーも含まれます。
  • Viewers - ファイルを表示する直接的な権限のあるアカウントやグループを示します。書き出し時のオプション選択によっては、ファイルに対して間接的なアクセス権のあるユーザーも含まれます。
  • Others - 書き出し時にアクセスレベル情報を除外するオプションを選択した場合、クエリ結果のファイルに対して間接的な権限を持つアカウントを示します。書き出しの時点で権限レベルを特定できないユーザーが含まれることもあります。
  • #DateCreated - ドライブでの Google 形式のファイルの作成日を示します。Google 以外の形式のファイルの場合は、ドライブへのファイルのアップロード日を示します。
  • #DateModified - ファイルの最終更新日を示します。
  • #Title - ユーザーが割り当てたファイル名を示します。一部のオペレーティング システムでは長いファイル名を持つ zip ファイルを展開できないため、Vault では書き出し時にファイル名が 128 文字に切り捨てられます。#Title タグで示された値は切り捨てられません。
  • DocumentType - Google のファイルの種類を表すもので、DOCUMENT、SPREADSHEET、PRESENTATION、FORM、DRAWING などの値を示します。
  • SharedDriveID - ファイルを格納している共有ドライブの識別子を示します(該当する場合)。
  • SourceHash - ファイルの各版に対する一意のハッシュ値です。ファイルの重複書き出しを排除したり、書き出されたファイルがソースファイルの完全なコピーであることを確認したりするのに使用できます。Google ドキュメント、スプレッドシート、スライドのファイルでのみサポートされています。

書き出し全体のクエリ パラメータ

  • UserQuery - 書き出しに含まれるメッセージの取得に使用された、Vault ユーザーからのクエリを示します。
  • TimeZone - 日付ベースの検索に使用されたタイムゾーンを示します。
  • Custodians - 検索対象となったユーザー アカウントのメールアドレスを示します。個々のユーザー アカウントではなくコンテンツを検索した場合は、ここには何も含まれません。
ファイルへの間接的権限を持つユーザーのアクセスレベル情報の書き出し

ドメイン内のユーザーが、検索条件に一致するファイルに対して間接的な権限を持ち、そのファイルを開いたことがある場合は、ドライブからファイルを書き出す際に、このようなユーザーのメタデータも含まれることがあります。

ユーザーが間接的な権限を持つのは、ファイルや、ファイルを含むフォルダの共有設定が次のようになっている場合です。

  • ユーザーが属するグループと共有
  • ドメインと共有
  • 一般公開で共有

このような情報をメタデータ出力に含めるかどうかは、書き出し時に選択できます。

  • ドメイン内のユーザーがファイルに対して持っている間接的な権限レベルを特定するには、エクスポート ダイアログで該当するチェックボックスをオンにします。XML ファイルでは、それぞれのユーザーが次のカテゴリのいずれかに表示されます。

    • Collaborators - ファイルを編集またはコメントを追加する間接的権限を持つユーザー。

    • Viewers - ファイルを閲覧する間接的権限を持つユーザー。

    • Others - 場合により、書き出しの時点でユーザーの権限を特定できないことがあります。たとえば、ファイルがグループと共有されていて、その後にグループからユーザーが削除された場合は、この状況に該当することがあります。

    このようなユーザーが持つ権限を特定するには時間がかかるため、このオプションをオンにすると、ファイルのダウンロードの準備ができるまで時間がかかることがあります。

  • ドメイン内のユーザーがファイルに対して持っている間接的な権限のアクセスレベル情報を含めない場合は、エクスポート ダイアログで該当するチェックボックスを(デフォルトのまま)オフにします。このようなユーザーは、XML ファイルの Others のカテゴリに表示されます。

エラーレポート

Vault で Gmail のメール メッセージやドライブのファイルを書き出せず、エラーレポートが生成される場合があります。.csv ファイル形式のこのレポートには、書き出しエラーの項目ごとに詳細情報とメタデータが記載されます。エラーには次の 2 つの種類があります。

  • 一時的なエラー - バックエンド サーバーでメールまたはファイルを取得できませんでした。通常、後で検索すると書き出すことができます。
  • 一時的でないエラー - 一時的なエラーと明示的に表示されていないエラーは、修正できない問題が原因で発生したエラーです。通常、メッセージの添付ファイルまたはファイルが削除されている場合や、書き出し機能でサポートされていない場合、指定した形式に変換できない場合に発生します。

問題が一時的な問題かそうでないかを調べるには、Google スプレッドシート(または同様のスプレッドシート アプリケーション)で .csv ファイルを開き、[エラーの説明] 列を確認します。

一時的なエラーのメール メッセージがエラーレポートに含まれる場合は、再検索する際に各メッセージの RFC 822 ID を使用すると、特定のメッセージを見つけることができます。検索演算子の形式は、rfc822msgid:identifier です。

はじめに:

検索結果の書き出し

この情報は役に立ちましたか?
改善できる点がありましたらお聞かせください。