保险柜导出功能的工作原理

使用保险柜搜索所需数据后,您可以将其导出以供进一步分析。Google 保险柜的导出功能可为您提供以下内容:

  • 所有符合搜索条件的数据的完整副本。
  • 您将导出的数据关联到网域中个别用户所需的元数据。
  • 必要的验证信息,证明所导出的数据与 Google 服务器上存储的数据相匹配。

了解如何处理支持的服务导出的内容:

Gmail、Chat 和网上论坛的导出内容

保险柜完成导出后,您可以下载以下内容:

  • 包含 PSTmbox 文件的 zip 文件 - 这些文件包含已导出的邮件/消息的详细信息和内容。解压 zip 文件后,您可以通过以下方式打开邮件/消息:

    • PST - Microsoft Outlook。如果导出内容包含多个帐号的邮件/消息,或者文件大小超过 1 GB,您可能会获得多个 PST 文件。

    • mbox - Mozilla Thunderbird 或文本编辑器。如果导出内容包含多个帐号的邮件/消息,或者文件大小超过 10 GB,您可能会获得多个 mbox 文件。

    • 某些诉讼支持系统。其中有部分系统可以打开 PST 文件,或者包含针对 mbox 文件的电子邮件转换工具。  

注意:Google 不会针对第三方产品的配置提供技术支持服务,也不对第三方产品负责。请参阅相关产品网站,获取最新的配置和支持信息。

  • XML 文件 - 包含与 Google 服务器上相同的邮件元数据。请在文本编辑器中打开此文件,用以关联邮件元数据和 mbox 文件中的邮件内容。PST 文件内容无法与 XML 文件元数据相关联。
  • CSV 文件 - 包含导出项中邮件所有者的地址以及各个用户所拥有的邮件数量。
  • 错误报告 - 只有出现错误时才包含此内容。
  • 校验和文件 - 包含上述文件的 Message Digest 5 (MD5) 哈希值。
在电子邮件客户端中查看邮件

您可以在 Microsoft Outlook (PST) 或 Mozilla Thunderbird (mbox) 中查看 Gmail 邮件和 Chat 消息。如果您要查看文本编辑器无法显示的 HTML 邮件和附件,这种方法就十分有用。

PST 和 mbox 文件包含已导出的 Gmail 邮件和 Chat 消息的详细信息。保险柜 XML 文件所反映的邮件元数据与 Google 记录的邮件元数据相同。您可以关联 mbox 内容和邮件元数据,从而在 Google 服务器中存储的邮件和您从保险柜导出的数据之间建立关联。

注意:Gmail 中用于对邮件进行分类的标签不会转换为邮箱文件夹。您在电子邮件客户端中打开 PST 或 mbox 文件时,所有邮件都会显示在同一个文件夹中。

要在电子邮件客户端中查看导出的邮件,请执行以下操作:

  1. 在电子邮件应用中导入和查看邮件。
  2. 如果是对于诉讼或调查至关重要的邮件,请查看其标头:
    • Outlook - 具体取决于您使用的版本。请参阅 Microsoft 有关查看邮件标头的文档。  
    • Thunderbird - 点击查看 > 标头 > 全部以查看每封邮件的标头:
  3. 在 Thunderbird 中,每个标头都包含一个邮件 ID。要关联邮件和存储在 Google 服务器上的数据,请对比邮件 ID 和 XML 文件中的元数据。
在文本编辑器中查看 mbox 文件

mbox 文件是一种存储邮件的标准格式。这类文件包含已导出的邮件的所有详细信息(包括邮件文本及其附件)。保险柜 XML 文件所反映的邮件元数据与 Google 记录的邮件元数据相同。这些文件共同在 Google 服务器中存储的邮件和您从保险柜导出的数据之间建立了关联。

导出后,您可以使用保险柜 XML 文件中的邮件参数找到 mbox 文件中对应的邮件。具体方法是在文本编辑器中打开 XML 文件,然后查找 FileName 参数;例如:

<ExternalFile FileName='1463030154355209614-d7f2c19a-73f3-40e4-a17a-130b90c37aac.mbox'

此参数包含唯一标识符,与 mbox 文件中名为“From_ 行”的相似条目对应。From_ 行包含相同的标识符,以及 Google 收到相应邮件的日期和时间(以世界协调时间格式显示),例如:

From 1463030154355209614-d7f2c19a-73f3-40e4-a17a-130b90c37aac.mbox@xxx Wed Mar 19 06:38:02 2014

mbox 文件中每封邮件的首个条目都是 From_ 行。如果您看到新的 From_ 行,说明您已经在阅读另一封邮件了。

保险柜 XML 文件中的 Gmail 邮件和 Chat 消息参数

导出内容中包含的保险柜 XML 文件会捕获以下元数据:

每封 Gmail 邮件包含的信息

  • #From
  • #To
  • #CC
  • #BCC
  • #Subject
  • #DateSent
  • #DateReceived

每条 Chat 消息包含的信息

  • #SubjectAtStart -(仅适用于传统版 Hangouts)
  • #SubjectAtEnd -(仅适用于传统版环聊)
  • #DateFirstMessageSent
  • #DateLastMessageSent
  • #DateFirstMessageReceived
  • #DateLastMessageReceived

Gmail 邮件和 Chat 消息均包含的信息

  • Labels - 显示 Gmail 应用的标签,例如 ^INBOX、^TRASH 和 ^DELETED,还会显示用户为邮件应用的任何标签。
  • FileName - 显示邮件标识符。请将此值与导出的 PST 或 mbox 文件中显示的邮件 ID 关联。

Google Chat 消息中包含的信息

  • RoomID - 显示话题所属的聊天室或直接消息的标识符。
  • Participants - 显示所有话题参与者的电子邮件地址。
  • roomName - 显示聊天室的名称,或是参与了直接消息的帐号的逗号分隔列表。
  • conversationType - 显示对话来自聊天室还是直接消息。

整个导出操作的查询参数

  • UserQuery - 显示保险柜用户在检索导出内容中的邮件时提交的查询。
  • TimeZone - 显示基于日期的搜索内容使用的时区。
  • Custodians - 显示帐号在搜索范围内的用户的电子邮件地址。如果您搜索内容(而不是个别用户帐号),系统就不会列出任何“Custodians”值。

云端硬盘的导出内容

保险柜完成导出后,您可以下载以下文件:

  • 压缩文件 - 包含搜索到的所有文件。保险柜最多可以将 10 GB 数据导出到一个压缩文件中。如果您导出的数据超过 10 GB,保险柜就会创建多个文件。
  • XML 文件 - 包含元数据,包括:
    • 文档 ID(注意:这些 ID 不是云端硬盘文件 ID。它们对应的是 CSV 文件中的值。)
    • 用户电子邮件地址
    • 每个文件的创建和修改日期
    • 文档类型和标题
  • CSV 文件 - 将文档 ID 映射到用户帐号。使用此信息可判断哪些用户能访问导出的文件。
  • 错误报告(如果出现错误)。
  • 校验和文件 - 包含上述文件的 MD5 值。

系统会通过以下方式命名导出的文件:在相应文件的原始名称后面加上下划线(“_”)和云端硬盘文件 ID。

导出的文件将按照以下形式转换:

云端硬盘文件类型 导出格式
Google 文档 .docx
Google 表格 .xlsx
Google 表单 .zip(.html 和 .csv)
Google 幻灯片 .pptx
Google 绘图 .pdf
非 Google 文件 无格式变化

 

保险柜 XML 文件中的文件参数

导出内容中包含的 XML 文件会捕获以下元数据:

每个文件包含的信息

  • #Author - 显示云端硬盘中文件的所有者的电子邮件地址。对于共享云端硬盘文件,则显示共享云端硬盘名称。
  • Collaborators - 显示拥有文件直接编辑权限或添加评论权限的帐号和群组。如果您在执行导出操作时选择此选项,那么系统也会导出拥有文件间接访问权限的用户。
  • Viewers - 显示拥有文件直接查看权限的帐号和群组。如果您在执行导出操作时选择此选项,那么系统也会导出拥有文件间接访问权限的用户。
  • Others - 如果您选择在导出数据时排除访问权限级别信息,则显示查询中拥有文件间接访问权限的帐号。其中可能会包含保险柜在执行导出操作时无法确定权限级别的用户。
  • #DateCreated - 显示云端硬盘中 Google 文件的创建日期。对于非 Google 文件,系统显示的是文件上传到云端硬盘的时间。
  • #DateModified - 显示上次修改文件的日期。
  • #Title - 显示用户指定的文件名。由于部分操作系统无法解压文件名非常长的 zip 文件,因此保险柜会在导出期间将文件名截短至 128 个字符以内,但 #Title 标记中显示的值是未被截短的完整名称。
  • DocumentType - 指明 Google 文件的类型。可能的值包括 DOCUMENT、SPREADSHEET、PRESENTATION、FORM 和 DRAWING。
  • SharedDriveID - 显示包含此文件的共享云端硬盘的标识符(若适用)。
  • SourceHash - 文件每个版本的唯一哈希值,可用于复制导出的文件内容,并验证导出的文件是源文件的精确副本。仅支持 Google 文档、表格和幻灯片文件。

整个导出操作的查询参数

  • UserQuery - 显示保险柜用户在检索导出内容中的文件时提交的查询。
  • TimeZone - 显示基于日期的搜索内容使用的时区。
  • Custodians - 显示帐号在搜索范围内的用户的电子邮件地址。如果您搜索内容(而不是个别用户帐号),系统就不会列出任何“Custodians”值。
导出拥有文件间接访问权限用户的访问权限级别信息

当您从云端硬盘导出文件时,保险柜可能会提供针对以下用户的元数据:网域中拥有间接访问权限,且曾打开过符合搜索条件的文件的用户。

如果相应文件或包含相应文件的文件夹属于以下情况,用户就可以拥有间接访问权限:

  • 已与用户所属的群组共享
  • 与网域共享的文件
  • 已公开共享

导出期间,您可以选择要包含在元数据输出中的信息:

  • 在导出对话框中选中相应复选框,以允许保险柜确定网域中拥有文件间接访问权限用户的权限级别。当您打开 XML 文件时,每位符合条件的用户都会被纳入以下一个类别:

    • Collaborators - 拥有文件间接编辑权限或添加评论权限的用户。

    • Viewers - 拥有文件间接查看权限的用户。

    • Others - 在某些情况下,保险柜无法在执行导出操作时确定用户的访问权限类型。例如,如果相应文件已与群组共享,但用户之后被从群组中移除,那么就可能发生这种情况。

    保险柜需要时间来确定这类用户的权限,因此如果您选择此选项,准备下载文件的时间可能就会延长。

  • 在导出对话框中,如果您将相应复选框保持为未选中状态(默认),保险柜就会排除网域中拥有文件间接访问权限用户的访问权限级别信息。这些用户在 XML 文件中会列为 Others

Google Voice 的导出内容

在保险柜完成 Google Voice 数据的导出后,您可以下载以下内容:

  • 系统会为每个帐号生成一个 zip 文件,其中包含短信交流内容、通话记录、语音信息 MP3 音频文件和语音信息转录内容的 PST 或 mbox 文件。
  • XML 文件:包含与 Google 服务器上相同的元数据。
  • 校验和文件:包含导出的所有文件的 Message Digest 5 (MD5) 哈希值。
  • 错误报告(如出现错误)。错误报告为 CSV 文件,其中包含以下两列内容:
    1. 帐号 - 未导出某些数据的帐号的电子邮件地址。
    2. 失败的对话数 - 未导出的对话数。如果数值未知,则值为“Unknown Failure Count”(失败次数未知)。

注意:与其他服务不同,Voice 的导出内容不包含计数文件。

保险柜 XML 文件中的 Voice 数据参数

导出内容中的保险柜 XML 文件包含以下元数据:

有关每个文件的信息

  • DocID - 文件的唯一标识符。
  • #Author - 在云端硬盘中拥有该文件的帐号的电子邮件地址。
  • #DateFirstMessageSent - 第一条消息的发送日期(针对短信交流内容)。注意:此字段和以下 3 个字段与语音信息和通话记录条目中的字段相同。
  • #DateLastMessageSent - 上次发送消息的日期(针对短信交流内容)。
  • #DateFirstMessageReceived - 收到第一条消息的日期(针对短信交流内容)。
  • #DateLastMessageReceived - 收到上一条消息的日期(针对短信交流内容)。
  • ConversationType - 数据类型:
    • TEXT_MESSAGE - 短信。
    • VOICEMAIL - 语音信息。
    • INCOMING_CALL - 来电的通话记录。
    • OUTGOING_CALL - 去电的通话记录。
    • MISSED_CALL - 未接来电的通话记录。
  • ParticipantPhoneNumbers - 参与者的电话号码。
  • OwnerPhoneNumbers - 如果用户的号码发生更改,该值可能包括多个电话号码。
  • Labels - 对话中的所有标签。例如,已删除的对话会带有“DELETED”标签。
  • ExternalFile FileName - 文件标识符,与 PST 或 mbox 文件中的“主题”相关联。

整个导出操作的查询参数

  • UserQuery - 保险柜管理员提交的查询。
  • TimeZone - 查询的时区
  • Custodians - 所搜索帐号的电子邮件地址。

错误报告

保险柜有时无法从 Gmail 中导出电子邮件,或者从云端硬盘中导出文件,此时系统会生成错误报告。此类报告为 .csv 文件格式,会列出存在导出错误的项以及其他详细信息和元数据。错误分为以下两种类型:

  • 暂时性错误 - 后端服务器无法检索电子邮件或文件。稍后再次搜索相应项时,您应该可以导出该项。
  • 非暂时性错误 - 任何未明确标为暂时性的错误都是由系统无法修正的问题引起的。一般情况下,当邮件附件或文件遭到删除、不支持导出或无法转换成要求的格式时,会出现此类错误。

要判断某问题是暂时性的还是非暂时性的,请使用 Google 表格(或类似的电子表格应用)打开 CSV 文件,找到错误说明列。

如果错误报告包括出现暂时性错误的电子邮件,当您再次搜索时,请使用每封邮件的 RFC 822 标识符找出具体的邮件。搜索运算符的格式为 rfc822msgid:<标识符>

准备好开始了吗?

导出搜索结果

该内容对您有帮助吗?
您有什么改进建议?