Как извлечь структурированные данные из коллекции

Эта функция работает в режиме бета-тестирования. Сейчас мы оцениваем ее качество и удобство использования. Отправить отзыв о функции можно по адресу pinpoint-support@google.com.

С помощью Pinpoint вы можете извлекать структурированные данные из оцифрованных или отсканированных документов PDF, отформатированных похожим образом, и загружать эти сведения в таблицы.

Функция лучше всего подходит для работы с коллекциями, документы в которых имеют один:

  • шаблон;
  • порядок чтения (например, только слева направо);
  • формат (таблица, форма или и тот и другой).

Например, вы можете выгрузить в таблицы данные из десяти тысяч отчетов об авариях. Это позволит вам легко группировать сведения, сортировать и фильтровать их по дате, производителю автомобиля или другим полям из исходных документов.

Использовать эту функцию могут только пользователи с полным доступом к Pinpoint. Чтобы получить его, подайте запрос через эту форму.

 

Как подготовить коллекцию Pinpoint к извлечению данных

  • Откройте нужную коллекцию.
  • Если она не создана, сделайте это и добавьте документы.
  • Убедитесь, что коллекция полностью обработана в Pinpoint. В зависимости от размера и количества файлов на это может уйти до 24 часов.
  • Перейдите по ссылке "Извлечь структурированные данные" в левом нижнем углу экрана.
  • Нажмите "Обработать коллекцию". В зависимости от размера коллекции обработка может занять от пары секунд до нескольких часов.
  • Когда она завершится, нажмите "Добавить аннотации".

Если загрузить документы в уже обработанную коллекцию, вам потребуется повторить процесс снова. Дополнительная информация об этом приведена в разделе Как заново обработать коллекцию с аннотациями.

Как выбрать основной документ

Добавлять аннотации можно на специальной странице. Когда вы откроете ее, из коллекции будет автоматически выбран основной документ. В нем вы сможете создать шаблон, который будет применен ко всем документам в коллекции.

Если выбранный документ вам не подходит, его можно заменить другим файлом из коллекции. О том, как это сделать, читайте в разделе Как заменить основной документ.

Если в шаблоне много дополнительных полей, рекомендуем сделать основным тот документ, в котором их больше всего. Таким образом вы максимально снизите число ошибок при сопоставлении данных из всех документов коллекции.

В редких случаях, когда в основном документе нет некоторых нужных полей, вы можете назначить основными и другие файлы. Информация об этом есть в разделе Как добавить другие основные документы.

Как добавлять аннотации

Страница с аннотациями поделена на четыре раздела:

  1. Редактор
    Занимает наибольшую часть экрана. Здесь вы можете добавлять и просматривать аннотации, а также основной документ.
     
  2. Панель инструментов
    Находится вверху страницы. На панели расположено меню действий и указано название текущего основного документа.
     
  3. Список аннотаций
    Можно найти справа. В нем появляются аннотации из основного документа.
     
  4. Таблица предпросмотра
    Расположена внизу страницы. Здесь показываются извлеченные значения из десяти случайных документов в коллекции.

Пока в инструменте поддерживается экспорт данных только в виде текста и полей с флажками (логическими значениями). Все численные значения будут преобразованы в текст (строки).

Ключ/значение

Эта функция подходит для извлечения значений с одним ярлыком. Пример аннотации: ключ "Страна" со значением "Соединенные Штаты Америки".

Чтобы добавить аннотацию с помощью этого инструмента, сделайте следующее:

  • Выберите его вверху страницы с аннотациями.
  • Выделите нужное значение прямоугольником. Постарайтесь нарисовать достаточно большую фигуру, чтобы охватить более длинные значения из других документов.
  • Ключ для выбранного значения будет помечен автоматически. При необходимости отметку можно перетащить или изменить.
  • Чтобы указать другой заголовок столбца, измените параметр ключа в разделе с аннотациями справа.
  • Повторите эти действия для всех пар "ключ-значение", которые нужно извлечь.

Аннотации обозначают примерные области, из которых инструмент извлечет данные во всех файлах коллекции.

Добавляя аннотации, вы можете использовать линии сетки и маркеры в документе. Если таких вспомогательных элементов нет, учитывайте длину значений из других документов.

Повторяющийся раздел

Используйте этот инструмент, чтобы извлекать наборы пар "ключ-значение", встречающихся неоднократно. Такая аннотация будет применена ко всем повторяющимся разделам на нескольких страницах.

Чтобы добавить ее, сделайте следующее:

  • Выберите этот инструмент вверху страницы с аннотациями.
  • Оставьте отметку над первым совпадением в разделе.
  • Под выделенным фрагментом автоматически появится линия. Перетащите ее так, чтобы нужная область была выделена целиком.
  • Во всплывающем окне укажите название повторяющегося раздела.
  • Нажмите "Сохранить раздел".
  • Выберите инструмент "Ключ/значение" вверху страницы с аннотациями.
  • Примените его к нужным парам в диапазоне первого повторяющегося фрагмента, следуя инструкции из раздела "Ключ/значение".

Таблицы

Инструмент подходит для извлечения данных, представленных в виде таблиц. Вам потребуется добавить аннотации ко всем нужным таблицам в документе. Функция также работает с таблицами, которые продолжаются на другой странице, и при этом учитываются повторяющиеся заголовки.

Желательно, чтобы таблицы во всех документах были одного и того же формата и горизонтального размера, а также имели одинаковый заголовок.

Чтобы добавить аннотацию с помощью этого инструмента, сделайте следующее:

  • Выберите его вверху страницы с аннотациями.
  • Обведите нужную таблицу с помощью прямоугольника. Если она находится на нескольких страницах, можно выделить данные только на первой.
  • Таблица будет определена автоматически. Если результат вас не устроит, обведите ее снова.
  • Соотнесите контуры таблицы. Перетащите нижний так, чтобы были выделены все элементы, включая повторяющиеся заголовки и поля на следующих страницах.
  • Укажите название таблицы во всплывающем окне.
  • Здесь же отметьте, есть ли у нее заголовок.
  • Чтобы сохранить ширину столбцов и обозначить заголовки, перенесите разделительные линии туда, где они расположены в таблице. Для добавления или удаления разделителя нажмите на него правой кнопкой мыши.
  • Нажмите "Сохранить таблицу".

Как извлечь и скачать данные

Когда вы закончите подготавливать данные, проверьте, как они выглядят в таблице предпросмотра, и нажмите кнопку "Извлечь" в правом верхнем углу страницы с аннотациями. После этого будут извлечены данные из текущих аннотаций. Если вы измените аннотации в будущем, сведения потребуется извлечь заново.

Когда данные будут готовы, вы сможете скачать их в виде ZIP-архива. В нем содержатся файлы CSV (по одному для каждой вкладки в таблице предпросмотра) и сводный файл.

Чтобы посмотреть данные, извлеченные из определенного документа, нажмите на ссылку с его названием в сводном файле. Подробную информацию читайте в разделе ниже.

Как посмотреть извлеченные данные

Когда процесс завершится, убедитесь, что полученные значения соответствуют данным из документов в коллекции.
Чтобы посмотреть данные, извлеченные из определенного документа, нажмите на ссылку с его названием в сводном CSV-файле, который вы скачали, или на ссылку в таблице предпросмотра.
После этого откроется страница, на которой можно проверить и подтвердить полученный результат.
Если выбрать аннотацию в документе, на панели справа появятся данные. И наоборот: нажав на значение на панели, вы будете автоматически перенаправлены к аннотации.

 

Как управлять коллекцией с аннотациями

Как заново обработать коллекцию с аннотациями

Обратите внимание, что во время повторной обработки все аннотации будут удалены.

Вот как это сделать:

Как управлять основными документами

Как заменить основной документ

Чтобы выбрать другой основной документ, сделайте следующее:

  • Откройте страницу с аннотациями из коллекции.
  • Нажмите на значок меню в виде трех точек .
  • Выберите "Заменить основной документ".
  • Выберите документ и нажмите "ОК".
  • Нажмите "Сделать основным" в правом верхнем углу на странице просмотра.
  • Выберите "Заменить текущий основной документ", а затем "ОК".

Если вы добавляли аннотации к предыдущему основному документу, выполните первый шаг ниже, а если нет – второй.

Как добавить другие основные документы

Это можно сделать на странице для просмотра извлеченных данных, если шаблоны документов немного отличаются или нужно добавить аннотации к дополнительным полям.

Чтобы выбрать ещё один основной документ:

  • Перейдите на страницу просмотра нужного документа. Для этого нажмите на ссылку в таблице предпросмотра или скачанном сводном CSV-файле.
  • Нажмите "Сделать основным" в правом верхнем углу страницы.
  • Выберите "Добавить новый основной документ", а затем "ОК".

Аннотации к новым основным документам нужно добавлять иначе. Подробную информацию об этом вы найдете в разделе Как перенести аннотации.

Как удалить один из основных документов

  • Выберите название нужного документа в раскрывающемся списке вверху страницы с аннотациями.
  • Нажмите "Удалить из основных документов".
  • Выберите "Удалить".

Как перенести аннотации

Когда вы добавите ещё один основной документ или замените текущий, инструмент автоматически применит предыдущие аннотации к новому документу.

Если Pinpoint не сможет соотнести какое-либо поле в новом документе, то в списке с аннотациями в правой части страницы появится статус "Требуется действие" рядом с этим полем.

В таком случае нужно выполнить одно из указанных ниже действий.

  • Если поле есть в новом основном документе:
    1. Добавьте аннотацию к полю.
    2. Нажмите "Убрать сообщение об ошибке" в окне запроса.
    3. Выберите название поля в раскрывающемся списке.
    4. Нажмите "ОК".
  • Если поля нет в новом документе:
    1. Выберите поле с ошибкой из списка аннотаций.
    2. Нажмите на значок , чтобы не учитывать поле в новом документе.

Если какие-либо данные из нового основного документа не показываются в списке, вы можете добавить к ним аннотации самостоятельно. Они появятся только в новом документе.

Как изменить аннотацию

Как изменить название или тип поля

  • Выберите поле в списке аннотаций справа.
  • Укажите название или тип прямо в поле.
  • Нажмите "ОК".
Изменение будет применено ко всем основным документам в коллекции.

Как изменить аннотацию к паре "ключ-значение"

  • Нажмите на поле с аннотацией.
  • Перетащите его или измените размеры, переместив края.
  • Изменения будут применены только к текущему основному документу.

Как изменить аннотацию к повторяющимся разделам

  • Нажмите на любое место в аннотации.
  • Сделайте раздел больше или меньше, переместив разделители по вертикали.
  • Изменения будут применены только к текущему основному документу.

Как изменить аннотацию к таблице

  • Нажмите на любое место в аннотации.
  • Задайте размер поля, ширину столбца или обозначьте заголовок строки, перетащив разделители.
  • Изменения будут применены только к текущему основному документу.

Как удалить аннотацию

Чтобы удалить аннотацию из всех основных документов, сделайте следующее:

  • Выберите поле в списке аннотаций справа.
  • Нажмите на значок и подтвердите удаление этого поля.
Главное меню
6365361812356255095
true
Поиск по Справочному центру
true
true
true
false
false