Extract Structured Data Using Google's Pinpoint
Pinpoint を使用すると、同じような形式でデジタル化またはスキャンされた PDF ドキュメントのコレクションから、構造化データを一連のスプレッドシートに抽出できます。
この機能は、これらの属性を備えたコレクションに使用するときに最も効果を発揮します。
- 同じテンプレートを共有している
- 同じ読み取り順序(「左から右」または「右から左」のみ)を共有している
- フォームのような形式か、表形式、または両方を組み合わせて使用している
たとえば、同様のフォームが使用された自動車事故の報告書を 1 万件スキャン済みの場合、その報告書をインポートし、スプレッドシートとしてエクスポートできます。これにより、ソース ドキュメントで提供されている項目(日付や自動車メーカーなど)で事故をグループ化、並べ替え、またはフィルタできるようになります。
Pinpoint のコレクションを準備する
- 構造化データを抽出したいドキュメントが含まれているコレクションに移動します。
- 処理するコレクションが Pinpoint にない場合は、構造化データを抽出したいドキュメントが含まれている新しいコレクションを作成します。
- コレクションについては、Pinpoint で処理を完了しておく必要があります。ファイルのサイズや数によって、処理には最長で 24 時間かかることがあります。
- コレクション ビューの左下にある [構造化データを抽出] のリンクをクリックします。
- [コレクションを処理] ボタンをクリックします。コレクションのサイズによって、処理には数秒から数時間かかることがあります。
- 処理が完了したら、[コレクションにアノテーションを付ける] をクリックします。
ドキュメントを処理済みの Pinpoint コレクションに追加する場合は、コレクションを再処理する必要があります。詳しくは、アノテーション付きのコレクションを再処理するをご覧ください。
サンプル ドキュメントを選択する
[構造化データを抽出] ツールを開くと、アノテーション エディタのページが表示され、サンプル ドキュメントが自動的に選択されます。この 1 つのドキュメントで、同じコレクション内のすべてのドキュメントに適用するアノテーションのテンプレートを作成します。
選択されたサンプル ドキュメントがアノテーション用として最適でないと思われる場合は、コレクション内の別のドキュメントと差し替えることができます。サンプル ドキュメントを差し替えるをご覧ください。
コレクション内のドキュメントのテンプレートにオプション フィールドが多数ある場合は、オプション フィールドが最も多いドキュメントをサンプル ドキュメントとして選択することをおすすめします。これにより、コレクション内のすべてのドキュメントに対して最も高い適合性を確保できます。
まれに、1 つのサンプル ドキュメントで目的のフィールドをすべてカバーできない場合があります。その場合はサンプル ドキュメントを追加して、さらなるオプション フィールドに対応できます。サンプル ドキュメントを追加するをご覧ください。
コレクションにアノテーションを付ける
アノテーション エディタ ページは、次の 4 つの主要なセクションに分かれています。
- メインエディタ
これはページの主要部分で、ここでドキュメントのアノテーションを付けます。このセクションには、サンプル ドキュメントと追加したアノテーションが表示されます。 - ツールバー
このセクションはページの上部にあります。アノテーション エディタ ページのすべての操作メニュー(作業中のサンプル ドキュメントの名前を含む)を確認できます。 - アノテーション リスト
このセクションはページの右側にあります。サンプル ドキュメントで作成したアノテーションのリストが表示されます。 - プレビュー表
このセクションはページの下部にあります。コレクションの中からランダムに選択された 10 のドキュメントから抽出されたフィールドの値をプレビューできます。
現在、このツールはテキストまたはチェックボックス(ブール値)への抽出のみをサポートしています。そのため、すべての数値はテキストまたは文字列に変換されます。
Key-Value
このツールは、コレクションから 1 つのラベル付けされた値を抽出するのに最適です。[Key-Value] アノテーションの結果の例として、キーが「国」、値が「米国」の場合が挙げられます。
このアノテーションを使用してドキュメントにアノテーションを付けるには、次の手順を行います。
- アノテーション エディタ ページの上部にある [Key-Value] アノテーション ツールを選択します。
- 抽出する値を長方形で囲みます。他のドキュメントで文字数の多い値があった場合に対応できるよう、長方形を長くする必要があります。
- 選択した値のキーが自動的に選択されてマークされます。このマーカーをドラッグして編集することで、正確なアノテーションを付けることができます。
- 抽出されたデータの列ヘッダーの名前を変更するには、ウィンドウの右側にある [アノテーション] セクション内のキーパラメータの名前を編集します。
- ドキュメントのコレクションから抽出したいすべての Key-Value ペアについて、この手順を繰り返します。
各アノテーションは、ツールがコレクション内のすべてのドキュメントからデータを抽出できるようにするための、おおよそのマーカーです。
ドキュメント内のグリッドやマーカーを利用できる場合は、それらに沿って使用できます。グリッドやマーカーを利用できない場合は、文字数の多い値が収まるようにしてください。
繰り返しセクション
このツールは、Key-Value ペアが繰り返し登場するセクションを抽出するのに最適です。このアノテーションにより、複数のページにまたがる連続した繰り返しセクションに、数に関係なく対応できます。
[繰り返しセクション] アノテーションを使用してドキュメントにアノテーションを付けるには、次の手順を行います。
- アノテーション エディタ ページの上部にある [繰り返しセクション] アノテーション ツールを選択します。
- セクションの最初の繰り返しインスタンスの高さが収まる範囲をマークします。
- マークしたインスタンスのほぼ下に、自動的に線が作成されます。アノテーションを付けたいセクション全体がハイライト表示されるまで、線をドラッグします。
- [繰り返しセクションの名前] のポップアップに、セクションの名前を入力します。
- [セクションを保存] をクリックします。
- アノテーション エディタ ページの上部にある [Key-Value] アノテーション ツールを選択します。
- 最初の繰り返しインスタンスの範囲内で、抽出するすべての Key-Value ペアに対して、Key-Value アノテーションの手順を行います。
表
このツールは、表形式で保存されているデータを抽出するのに最適です。ドキュメントで抽出する各表にアノテーションを付ける必要が出てくるためです。なお、このツールは複数のページにまたがる表(繰り返しヘッダーなど)で動作します。
コレクションのすべてのドキュメントで、アノテーションを付けられた表の水平寸法、形式、ヘッダーが同じ場合、ツールは最適に動作します。
[表] アノテーションを使用してドキュメントにアノテーションを付けるには、次の手順を行います。
- アノテーション エディタ ページの上部にある [表] アノテーション ツールを選択します。
- データを抽出したい表の範囲を長方形で囲みます。表が複数のページにまたがっている場合は、表の最初のページのみをハイライト表示するだけでかまいません。
- 表がおおまかな精度で検出されますが、検出結果が実際の表とあまりにかけ離れている場合は、ハイライト表示のステップを繰り返してください。
- 表示された枠線を、表の枠線に一致するように調整します。表のすべての部分(繰り返しヘッダーや、以降のページに表示された部分を含む)がハイライト表示されるように、下側の線をドラッグします。
- ポップアップ ボックスにテーブルの名前を入力します。
- ポップアップ ボックスの切り替えボタンを使用して、表にヘッダーを含めるかどうかを指定します。
- ヘッダーと列の区切り線を、表の書式に一致するように調整します。これにより、ドキュメント内の列の幅と表のヘッダーをはっきりと示すことができます。列の区切り線を右クリックすることで、列の区切り線の追加と削除を行えます。
- [表を保存] をクリックします。
データを抽出してダウンロードする
プレビュー表で結果を確認し、問題がなければ、アノテーション エディタ ページの右上にある [抽出] ボタンをクリックし、データを抽出できます。この抽出は、現在のアノテーション セットにのみ適用されます。後日コレクションのアノテーションを編集した場合は、この抽出プロセスをやり直す必要があります。
抽出が完了したら、[ダウンロード] をクリックしてデータをダウンロードできます。ダウンロードした ZIP ファイルには、CSV ファイル(プレビュー表のタブごとに 1 つと、コレクション内のすべてのドキュメントの概要ファイルが 1 つ)が格納されています。
概要ファイルに記載されたドキュメントのリンクをクリックすることで、そのドキュメントの抽出結果を確認できます。抽出結果を確認するをご覧ください。
抽出結果を確認する
アノテーションを付けたコレクションを管理する
アノテーションを付けたコレクションを再処理する
[構造化データを抽出] ツールがコレクションに対して実行する処理をやり直すには、次の手順を行います。
- コレクションのアノテーション エディタ ページに移動します。
- アノテーション エディタ ページで、
(その他メニュー)をクリックします。
- [コレクションを再処理] を選択します。
- サンプル ドキュメントの選択とコレクションへのアノテーション付けを続行します。
サンプル ドキュメントを管理する
サンプル ドキュメントを差し替える
サンプル ドキュメントを別のドキュメントに差し替えるには、次の手順を行います。
- コレクションのアノテーション エディタ ページに移動します。
- アノテーション エディタ ページで、
(その他メニュー)をクリックします。
- [サンプル ドキュメントを差し替え] を選択します。
- サンプルセットからお好みのサンプル ドキュメントを選択し、[OK] をクリックします。
- ドキュメントの確認ページで、右上の [サンプルとして設定] をクリックします。
- [既存のサンプル ドキュメントを差し替え] を選択し、[OK] をクリックします。
次のステップは、以前アノテーションを付けたサンプル ドキュメントがコレクションに存在するかどうかによって異なります。
- 存在する場合は、アノテーションの移行をご覧ください。
- 存在しない場合は、サンプル ドキュメントへのアノテーション付けを開始してください。
サンプル ドキュメントを追加する
抽出結果を確認しているときに、サンプル ドキュメントを追加して、ドキュメント テンプレートと追加のオプション フィールドのわずかな違いに対応し、一部のドキュメントにアノテーションを付けることができます。
手順は次のとおりです。
- サンプルセットのプレビュー表、またはダウンロード可能なメインの概要 CSV でリンクされているドキュメント確認ページに移動します。
- 右上にある [サンプルとして設定] をクリックします。
- [新しいサンプル ドキュメントを追加] を選択し、[OK] をクリックします。
追加のサンプル ドキュメントのアノテーション プロセスは、通常のアノテーションとは異なります。詳しくは、アノテーションの移行をご覧ください。
セットからサンプル ドキュメントを削除する
- アノテーション エディタ ページの上部にあるファイル名のプルダウンから、サンプル ドキュメントの名前を選択します。
- 同じプルダウンで、[サンプル ドキュメントのセットから削除] を選択します。
- 次に表示されるプロンプトで [削除] をクリックし、アクションを承認します。
アノテーションの移行
新しいサンプル ドキュメントをセットに追加するか、既存のアノテーション付きのサンプル ドキュメントを差し替えると、ツールは既存のアノテーションを新しいサンプル ドキュメントにおおまかに一致させます。
以前アノテーションが付けられていたフィールドを新しいサンプル ドキュメントに一致させることができない場合、そのフィールドは、アノテーション エディタ ページの右側にある [アノテーション] セクションで [要確認] とマークされます。
これを解決するには、次のいずれかの手順を行います。
- 新しいサンプル ドキュメントでそのフィールドを実際に利用できる場合
- そのフィールドのアノテーションを追加します。
- プロンプト ウィンドウで、[「要確認」の Key-Value を解決] を選択します。
- プルダウンからフィールドの名前を選択します。
- [OK] をクリックします。
- 新しいサンプル ドキュメントでそのフィールドを利用できない場合
- [アノテーション] セクションで確認が必要なフィールド ボックスを選択します。
をクリックして、そのフィールドを、新しいサンプル ドキュメントからのみ消えているものとしてマークします。
新しいサンプル ドキュメントのデータのうち、[アノテーション] セクションで利用できないデータがある場合は、データに手動でアノテーションを付けて、それらのデータを新しいサンプル ドキュメントにのみ追加できます。
アノテーションを編集する
フィールドの名前またはタイプを変更する
- アノテーション エディタ ページの右側にある [アノテーション] セクションのフィールド ボックスを選択します。
- フィールド ボックスで、フィールドの名前またはタイプを直接編集します。
- 次のプロンプトで [OK] をクリックします。
[Key-Value] アノテーションを調整する
- 調整する値のアノテーション ボックスをクリックします。
- 選択したボックスをドラッグして移動するか、端を動かして寸法を調整します。
- 現在編集中のサンプル ドキュメントにのみ適用されます。
[繰り返しセクション] アノテーションを調整する
- 調整する [繰り返しセクション] アノテーションの任意の場所をクリックします。
- 区切り線を縦方向に動かしてセクションの寸法を調整します。
- 現在編集中のサンプル ドキュメントにのみ適用されます。
[表] アノテーションを調整する
- 調整する [表] アノテーションの任意の場所をクリックします。
- ボックス内の線をドラッグして移動し、寸法、列の幅、ヘッダー行を調整します。
- 現在編集中のサンプル ドキュメントにのみ適用されます。
アノテーションを削除する
すべてのサンプル ドキュメントからアノテーションを削除するには、次の手順を行います。
- アノテーション エディタ ページの右側にある [アノテーション] セクションのフィールドを選択します。
をクリックし、すべてのサンプル ドキュメントからフィールドを削除することを確認します。