使用 Google 保险柜搜索所需数据后,您可以将其导出以供进一步分析(了解操作方法)。导出文件中包含以下信息:
- 符合搜索条件的数据的完整副本。
- 在将导出的数据关联到单位中的具体用户时所需用到的元数据。
- 必要的验证信息,证明所导出的数据与 Google 服务器上存储的数据相符。
Gmail、Chat 和网上论坛的导出文件
导出内容信息 | 文件名 | 说明 |
---|---|---|
邮件/帖子/消息内容 | 导出文件名-N.zip |
包含 PST 或 mbox 文件的 ZIP 文件。这些文件包含所导出的邮件/帖子/消息的内容和详细信息。对于 Google Chat 消息,详细信息包括发送者编辑或删除消息的时间。 了解查看 PST 和 mbox 文件的方式。 在以下情况下,您可能会获得多个 zip 文件:
文件名会以递增数字结尾,以进行区分。 |
使用 Google 网上论坛创建的群组的成员资格信息 | 导出文件名-group-membership.csv |
一个 CSV 文件,其中列有每个群组成员的下列信息:
|
邮件元数据 | 导出文件名-metadata.xml |
一个 XML 文件,其中包含 Google 服务器上存在的邮件/消息元数据。在文本编辑器中可以打开此文件,使用它可以将邮件/消息元数据与 mbox 文件中的邮件/消息内容关联起来。 注意:PST 文件内容无法与 XML 文件元数据相关联。 |
帐号和邮件/消息/帖子数量 | 导出文件名-results-count.csv | 一个 CSV 文件,其中列有纳入到导出范围内的邮件/消息/帖子所有者的帐号,以及各个帐号所拥有的邮件/消息/帖子数量。 |
错误报告 |
error.csv 导出文件名-account-exceptions.csv(Gmail 导出文件) 导出文件名-failed-group-membership-lookups.csv(网上论坛导出文件) |
只有在导出过程中遇到错误时才会包含错误报告。
|
文件校验和 | File checksums | 该文件列出纳入到导出范围内的所有文件的 Message Digest 5 (MD5) 哈希值。 |
元数据文件包含以下信息:
每封 Gmail 邮件和每个网上论坛帖子包含的内容
#From
- 发件人的电子邮件帐号#To
- 所有收件人的电子邮件帐号#CC
- 所有抄送收件人的电子邮件帐号#BCC
- 所有密送收件人的电子邮件帐号#Subject
- 邮件/帖子主题#DateSent
- 发出邮件/帖子时的时间戳#DateReceived
- 收到邮件/帖子时的时间戳
每条传统版 Hangouts 和 Chat 消息包含的内容
#SubjectAtStart
-(仅限传统版 Hangouts)发送第一条消息时话题的主题#SubjectAtEnd
-(仅限传统版 Hangouts)发送最后一条消息时话题的主题#DateFirstMessageSent
- 发送话题中第一条消息时的时间戳#DateLastMessageSent
- 发送话题中最后一条消息时的时间戳#DateFirstMessageReceived
- 收到话题中第一条消息时的时间戳#DateLastMessageReceived
- 收到话题中最后一条消息时的时间戳
所有邮件/帖子/消息(Gmail、网上论坛和 Chat)包含的内容
Labels
- Gmail 或 Chat 应用的所有标签,例如 ^INBOX、^TRASH 和 ^DELETED,还会显示用户为邮件/消息应用的任何标签。FileName
- 邮件/帖子/消息标识符。您可以使用这个值,将元数据与电子邮件客户端或文本编辑器中对应的邮件/帖子/消息相关联。FileSize
- 邮件/帖子/消息的大小(以字节为单位)。Hash
- 邮件/帖子/消息的 MD5 哈希。
Chat(非传统版 Hangouts)消息包含的内容
RoomID
- 消息所属的聊天室、群聊或直接消息的标识符。Participants
- 所有话题参与者的电子邮件地址。RoomName
- 该值取决于消息类型:- 对于聊天室,该值为聊天室的名称。
- 对于在 2020 年 12 月初之后创建的群聊,该值为
Group chat
。 - 对于直接消息以及在 2020 年 12 月初之前创建的群聊,该值为:参与了群聊或直接消息的帐号的逗号分隔列表。
ConversationType
- 消息类型:- 对于聊天室或在 2020 年 12 月初之后创建的群聊,该值为
Room
。 - 对于在 2020 年 12 月之前创建的群聊,该值为
Group Direct Message
。 - 对于直接消息,该值为
1:1 Direct Message
。
- 对于聊天室或在 2020 年 12 月初之后创建的群聊,该值为
整个导出操作的查询参数
UserQuery
- 保险柜用户在检索导出内容中的邮件时提交的查询。TimeZone
- 基于日期的搜索内容使用的时区。Custodians
- 帐号在搜索范围内的用户的电子邮件地址。如果您搜索内容(而不是个别用户帐号),系统就不会列出任何“Custodians”值。
云端硬盘的导出文件
导出内容信息 | 文件名 | 说明 |
---|---|---|
文件 | 导出文件名_N.zip |
包含搜索到的所有文件。保险柜最多可以将 10 GB 数据导出到一个压缩文件中。如果您导出的数据超过 10 GB,保险柜就会创建多个文件。 系统会通过以下方式命名导出的文件:在相应文件的原始名称后面加上下划线(“_”)和云端硬盘文件 ID。 导出的 Google 文件将按照以下形式转换:
|
文件元数据 | 导出文件名-metadata.xml |
包含以下元数据:
|
帐号和文档 ID | 导出文件名-custodian-docid.csv | 列有用户帐号及其关联的文档 ID。使用此信息可判断哪些用户能访问导出的文件。 |
错误报告 |
error.csv 导出文件名-incomplete-accounts.csv |
只有在导出过程中遇到错误时才会包含错误报告。
|
文件校验和 | File checksums | 该文件列出纳入到导出范围内的所有文件的 Message Digest 5 (MD5) 哈希值。 |
导出内容中包含的元数据文件会捕获以下元数据:
每个文件包含的信息
#Author
- 云端硬盘中文件所有者的电子邮件地址。对于共享云端硬盘文件,则显示共享云端硬盘名称。Collaborators
- 拥有文件直接编辑权限或添加评论权限的帐号和群组。如果您在执行导出操作时选择此选项,那么系统也会导出拥有文件间接访问权限的用户。Viewers
- 拥有文件直接查看权限的帐号和群组。如果您在执行导出操作时选择此选项,那么系统也会导出拥有文件间接访问权限的用户。Others
- 如果您选择在导出数据时排除访问权限级别信息,则为查询中拥有文件间接访问权限的帐号。其中可能会包含保险柜在执行导出操作时无法确定权限级别的用户。#DateCreated
- 云端硬盘中 Google 文件的创建日期。对于非 Google 文件,该值为将该文件上传到云端硬盘的日期。#DateModified
- 上次修改文件的日期。#Title
- 用户指定的文件名。由于部分操作系统无法解压文件名非常长的 ZIP 文件,因此保险柜会在导出期间将文件名截短至 128 个字符以内,但#Title
标记中显示的值是未被截短的完整名称。DocumentType
- Google 文件的类型。可能的值包括 DOCUMENT、SPREADSHEET、PRESENTATION、FORM 和 DRAWING。SharedDriveID
- 包含此文件的共享云端硬盘的标识符(若适用)。SourceHash
- 文件每个版本的唯一哈希值,可用于复制导出的文件内容,并验证导出的文件是源文件的精确副本。仅支持 Google 文档、表格和幻灯片文件。
整个导出操作的查询参数
UserQuery
- 保险柜用户在检索导出内容中的文件时提交的查询。TimeZone
- 基于日期的搜索内容使用的时区。Custodians
- 帐号在搜索范围内的用户的电子邮件地址。如果您搜索内容(而不是个别用户帐号),系统就不会列出任何“Custodians”值。
当您从云端硬盘导出文件时,元数据文件中可能包含针对以下用户的信息:贵单位中拥有间接访问权限,且曾打开过符合搜索条件的文件的用户。
如果相应文件或包含相应文件的文件夹属于以下情况,用户就可以拥有间接访问权限:
- 已与用户所属的群组共享
- 已与网域共享
- 已公开共享
在导出期间,您可以选择要包含在元数据输出中的信息:
-
在导出对话框中勾选相应复选框,以允许保险柜确定网域中拥有文件间接访问权限用户的权限级别。当您打开元数据文件时,每位符合条件的用户都会被纳入以下一个类别:
Collaborators
- 拥有文件间接编辑权限或添加评论权限的用户。Viewers
- 拥有文件间接查看权限的用户。Others
- 在某些情况下,保险柜无法在执行导出操作时确定用户的访问权限类型。例如,如果相应文件已与群组共享,但用户之后被从群组中移除,那么就可能发生这种情况。
保险柜需要时间来确定这类用户的权限,因此如果您选择此选项,准备下载文件的时间可能就会延长。
-
在导出对话框中,如果您将相应复选框保持为未选中状态(默认),保险柜就会排除网域中拥有文件间接访问权限用户的访问权限级别信息。这些用户在元数据文件中会列为
Others
。
Google Voice 的导出文件
导出内容信息 | 文件名 | 说明 |
---|---|---|
Voice 数据文件 | 导出文件名-N.zip | 系统会为每个帐号生成一个 ZIP 文件,其中包含短信交流内容、通话记录、语音信息 MP3 音频文件和语音信息转录内容的 PST 或 mbox 文件。 |
文件元数据 | 导出文件名-metadata.xml | XML 文件:包含与 Google 服务器上相同的元数据。 |
文件校验和 | File checksums | 一个校验和文件,其中包含纳入到导出范围内的所有文件的 Message Digest 5 (MD5) 哈希值。 |
错误报告 |
error.csv |
只有导出遇到错误时才包含错误报告。了解详情 |
注意:与其他服务不同,Voice 的导出内容不包含计数文件。
元数据文件包含以下信息:
有关每个文件的信息
DocID
- 文件的唯一标识符。#Author
- 在云端硬盘中拥有该文件的帐号的电子邮件地址。#DateFirstMessageSent
- 第一条消息的发送日期(针对短信交流内容)。注意:此字段和以下 3 个字段与语音信息和通话记录条目中的字段相同。#DateLastMessageSent
- 上次发送消息的日期(针对短信交流内容)。#DateFirstMessageReceived
- 收到第一条消息的日期(针对短信交流内容)。#DateLastMessageReceived
- 收到上一条消息的日期(针对短信交流内容)。ConversationType
- 数据类型:TEXT_MESSAGE
- 短信。VOICEMAIL
- 语音信息。INCOMING_CALL
- 来电的通话记录。OUTGOING_CALL
- 去电的通话记录。MISSED_CALL
- 未接来电的通话记录。
ParticipantPhoneNumbers
- 参与者的电话号码。OwnerPhoneNumbers
- 如果用户的号码发生更改,该值可能包括多个电话号码。Labels
- 对话中的所有标签。例如,已删除的对话会带有“DELETED”标签。ExternalFile FileName
- 文件标识符,与 PST 或 mbox 文件中的“主题”相关联。
整个导出操作的查询参数
UserQuery
- 保险柜管理员提交的查询。TimeZone
- 查询的时区Custodians
- 所搜索帐号的电子邮件地址。
查看导出的邮件/消息
将 Gmail 或 Chat 的导出内容解压缩 ZIP 文件后,您查看和处理邮件/消息的方式取决于文件类型:
-
PST - Microsoft Outlook 或某些诉讼支持系统。
-
mbox - Mozilla Thunderbird、文本编辑器或某些诉讼支持系统(包含适用于 mbox 文件的电子邮件转换工具)。
注意:Google 不会针对第三方产品提供技术支持服务,也不对第三方产品负责。请参阅相关产品网站,获取最新的配置和支持信息。
在电子邮件客户端中查看邮件/消息您可以在 Microsoft Outlook (PST) 或 Mozilla Thunderbird (mbox) 中查看 Gmail 邮件和 Chat 消息。如果您要查看文本编辑器无法显示的 HTML 邮件和附件,这种方法就十分有用。
PST 和 mbox 文件包含所导出的邮件/消息的详细信息。元数据文件则反映了 Google 记录的邮件/消息元数据。您可以将 mbox 内容与邮件/消息元数据关联起来,从而在 Google 服务器中存储的邮件/消息与您从保险柜导出的数据之间建立联系。
要在电子邮件客户端中查看导出的邮件,请执行以下操作:
- 在电子邮件应用中导入和查看邮件。
- 如果是对于诉讼或调查至关重要的邮件,请查看其标头:
- Outlook - 查看 Microsoft 文档,了解如何查看您版本的邮件标头。
- Thunderbird - 点击查看 > 标头 > 全部以查看每封邮件的标头:
- 在 Thunderbird 中,每个标头都包含一个邮件 ID。要关联邮件和存储在 Google 服务器上的数据,请对比邮件 ID 和元数据文件。
mbox 文件是一种存储邮件的标准格式。这类文件包含已导出的邮件的所有详细信息(包括邮件文本及其附件)。元数据文件则反映了 Google 记录的邮件/消息元数据。这些文件共同在 Google 服务器中存储的邮件和您从保险柜导出的数据之间建立了关联。
导出后,您可以使用元数据文件中的邮件参数找到 mbox 文件中对应的邮件。具体方法是在文本编辑器中打开元数据文件,然后查找 FileName
参数;例如:
<ExternalFile FileName='1463030154355209614-d7f2c19a-73f3-40e4-a17a-130b90c37aac.mbox'
此参数包含唯一标识符,与 mbox 文件中名为“From_
行”的相似条目对应。From_
行包含相同的标识符,以及 Google 收到相应邮件的日期和时间(以世界协调时间格式显示),例如:
From 1463030154355209614-d7f2c19a-73f3-40e4-a17a-130b90c37aac.mbox@xxx Wed Mar 19 06:38:02 2014
mbox 文件中每封邮件的首个条目都是 From_
行。如果您看到新的 From_
行,说明您已经在阅读另一封邮件了。
错误报告
当保险柜无法从服务中导出数据时,保险柜会生成错误报告。该报告会列出存在导出错误的项以及其他详细信息和元数据。
保险柜会报告以下两种类型的错误:
- 暂时性错误 - 后端服务器无法检索电子邮件或文件。稍后再次搜索相应项时,您应该可以导出该项。
- 非暂时性错误 - 任何未明确标为暂时性的错误都是由系统无法修正的问题引起的。一般情况下,当邮件附件或文件遭到删除、不支持导出或无法转换成要求的格式时,会出现此类错误。
要判断某问题是暂时性的还是非暂时性的,请使用 Google 表格或其他电子表格应用打开 CSV 文件,找到错误说明列(注意:Voice 导出内容中不提供错误说明)。
从暂时性错误中恢复
您可以使用邮件和文件详细信息搜索并导出由于暂时性错误而未能导出的数据:
- 如果错误报告包括出现暂时性错误的电子邮件,当您再次搜索时,请使用每封邮件的 RFC 822 标识符找出具体的邮件。搜索字词的格式为 rfc822msgid:<标识符>。
- 如果错误报告包括出现暂时性错误的云端硬盘文件,当您再次搜索时,请使用每个文件的标题找出具体的文件。搜索字词的格式为 title:"<文件标题>"。
错误报告内容
针对 Gmail 和网上论坛的错误报告内容错误报告包含每封邮件的下列字段。如果数据不可用或不适用于邮件,则字段为空。
字段 |
说明 |
---|---|
Document ID |
文件的唯一标识符 |
Document type |
文档类型。值为 mail 。 |
File type |
文件类型。值为 |
Attachments count |
邮件的附件数量 |
Attachment names |
附件的文件名 |
Subject |
邮件主题 |
Size |
邮件大小 |
From |
发件人电子邮件帐号 |
To |
所有收件人的电子邮件帐号 |
Cc |
所有抄送收件人的电子邮件帐号 |
Sent time |
发出邮件时的时间戳 |
Source account |
搜索查询中包含的帐号 |
Error description |
错误的说明 |
RFC 822 Message-ID |
邮件服务器为邮件添加的唯一标识符 例如: |
错误报告包含每条消息的下列字段。如果数据不可用或不适用于邮件,则字段为空。
字段 |
说明 |
---|---|
Document ID |
文件的唯一标识符 |
Filename |
文档类型。值为 mail 。 |
Conversation Type |
消息类型。值为 |
Room Name |
聊天室名称 |
Error description |
错误的说明 |
错误报告包含每个文件的下列字段。如果数据不可用或不适用于文件,则字段为空。
字段 | 说明 |
---|---|
Document ID |
文件的唯一标识符 |
Document type |
指明 Google 文件的类型。可能的值包括 DOCUMENT、SPREADSHEET、PRESENTATION、FORM 和 DRAWING。 |
File type |
文件格式,例如 PDF 或 XLSX |
Title |
用户指定的文件名 |
Size |
文件大小 |
Creator |
云端硬盘中文件所有者的电子邮件地址。对于共享云端硬盘文件,则显示共享云端硬盘名称。 |
Collaborators |
拥有文件直接编辑权限或添加评论权限的帐号和群组。如果您在执行导出操作时选择此选项,那么系统也会导出拥有文件间接访问权限的用户。 |
Viewers |
拥有文件直接查看权限的帐号和群组。如果您在执行导出操作时选择此选项,那么系统也会导出拥有文件间接访问权限的用户。 |
Others |
如果您选择在导出数据时排除访问权限级别信息,则为查询中拥有文件间接访问权限的帐号。其中可能会包含保险柜在执行导出操作时无法确定权限级别的用户。 |
Creation time |
云端硬盘中 Google 文件的创建日期。对于非 Google 文件,系统显示的是文件上传到云端硬盘的时间。 |
Last modified time |
上次修改文件的日期 |
Error description |
错误的说明 |
Drive Document ID |
云端硬盘中文件的唯一标识符 |
错误报告列有已搜索但未导出所有匹配文件的帐号。
字段 | 说明 |
---|---|
Account |
未导出某些数据的帐号的电子邮件地址。 |
Failed Conversation Count |
未导出的对话数。如果数量未知,则值为 Unknown Failure Count (失败次数未知)。 |