С помощью Pinpoint вы можете извлекать структурированные данные из оцифрованных или отсканированных документов PDF, отформатированных похожим образом, и загружать эти сведения в таблицы.
Функция лучше всего подходит для работы с коллекциями, документы в которых имеют один:
- шаблон;
- порядок чтения (например, только слева направо);
- формат (таблица, форма или и тот и другой).
Например, вы можете выгрузить в таблицы данные из десяти тысяч отчетов об авариях. Это позволит вам легко группировать сведения, сортировать и фильтровать их по дате, производителю автомобиля или другим полям из исходных документов.
Использовать эту функцию могут только пользователи с полным доступом к Pinpoint. Чтобы получить его, подайте запрос через эту форму.
Как подготовить коллекцию Pinpoint к извлечению данных
- Откройте нужную коллекцию.
- Если она не создана, сделайте это и добавьте документы.
- Убедитесь, что коллекция полностью обработана в Pinpoint. В зависимости от размера и количества файлов на это может уйти до 24 часов.
- Перейдите по ссылке "Извлечь структурированные данные" в левом нижнем углу экрана.
- Нажмите "Обработать коллекцию". В зависимости от размера коллекции обработка может занять от пары секунд до нескольких часов.
- Когда она завершится, нажмите "Добавить аннотации".
Если загрузить документы в уже обработанную коллекцию, вам потребуется повторить процесс снова. Дополнительная информация об этом приведена в разделе Как заново обработать коллекцию с аннотациями.
Как выбрать основной документ
Добавлять аннотации можно на специальной странице. Когда вы откроете ее, из коллекции будет автоматически выбран основной документ. В нем вы сможете создать шаблон, который будет применен ко всем документам в коллекции.
Если выбранный документ вам не подходит, его можно заменить другим файлом из коллекции. О том, как это сделать, читайте в разделе Как заменить основной документ.
Если в шаблоне много дополнительных полей, рекомендуем сделать основным тот документ, в котором их больше всего. Таким образом вы максимально снизите число ошибок при сопоставлении данных из всех документов коллекции.
В редких случаях, когда в основном документе нет некоторых нужных полей, вы можете назначить основными и другие файлы. Информация об этом есть в разделе Как добавить другие основные документы.
Как добавлять аннотации
Страница с аннотациями поделена на четыре раздела:
- Редактор
Занимает наибольшую часть экрана. Здесь вы можете добавлять и просматривать аннотации, а также основной документ.
- Панель инструментов
Находится вверху страницы. На панели расположено меню действий и указано название текущего основного документа.
- Список аннотаций
Можно найти справа. В нем появляются аннотации из основного документа.
- Таблица предпросмотра
Расположена внизу страницы. Здесь показываются извлеченные значения из десяти случайных документов в коллекции.
Пока в инструменте поддерживается экспорт данных только в виде текста и полей с флажками (логическими значениями). Все численные значения будут преобразованы в текст (строки).
Ключ/значение
Эта функция подходит для извлечения значений с одним ярлыком. Пример аннотации: ключ "Страна" со значением "Соединенные Штаты Америки".
Чтобы добавить аннотацию с помощью этого инструмента, сделайте следующее:
- Выберите его вверху страницы с аннотациями.
- Выделите нужное значение прямоугольником. Постарайтесь нарисовать достаточно большую фигуру, чтобы охватить более длинные значения из других документов.
- Ключ для выбранного значения будет помечен автоматически. При необходимости отметку можно перетащить или изменить.
- Чтобы указать другой заголовок столбца, измените параметр ключа в разделе с аннотациями справа.
- Повторите эти действия для всех пар "ключ-значение", которые нужно извлечь.
Аннотации обозначают примерные области, из которых инструмент извлечет данные во всех файлах коллекции.
Добавляя аннотации, вы можете использовать линии сетки и маркеры в документе. Если таких вспомогательных элементов нет, учитывайте длину значений из других документов.
Повторяющийся раздел
Используйте этот инструмент, чтобы извлекать наборы пар "ключ-значение", встречающихся неоднократно. Такая аннотация будет применена ко всем повторяющимся разделам на нескольких страницах.
Чтобы добавить ее, сделайте следующее:
- Выберите этот инструмент вверху страницы с аннотациями.
- Оставьте отметку над первым совпадением в разделе.
- Под выделенным фрагментом автоматически появится линия. Перетащите ее так, чтобы нужная область была выделена целиком.
- Во всплывающем окне укажите название повторяющегося раздела.
- Нажмите "Сохранить раздел".
- Выберите инструмент "Ключ/значение" вверху страницы с аннотациями.
- Примените его к нужным парам в диапазоне первого повторяющегося фрагмента, следуя инструкции из раздела "Ключ/значение".
Таблицы
Инструмент подходит для извлечения данных, представленных в виде таблиц. Вам потребуется добавить аннотации ко всем нужным таблицам в документе. Функция также работает с таблицами, которые продолжаются на другой странице, и при этом учитываются повторяющиеся заголовки.
Желательно, чтобы таблицы во всех документах были одного и того же формата и горизонтального размера, а также имели одинаковый заголовок.
Чтобы добавить аннотацию с помощью этого инструмента, сделайте следующее:
- Выберите его вверху страницы с аннотациями.
- Обведите нужную таблицу с помощью прямоугольника. Если она находится на нескольких страницах, можно выделить данные только на первой.
- Таблица будет определена автоматически. Если результат вас не устроит, обведите ее снова.
- Соотнесите контуры таблицы. Перетащите нижний так, чтобы были выделены все элементы, включая повторяющиеся заголовки и поля на следующих страницах.
- Укажите название таблицы во всплывающем окне.
- Здесь же отметьте, есть ли у нее заголовок.
- Чтобы сохранить ширину столбцов и обозначить заголовки, перенесите разделительные линии туда, где они расположены в таблице. Для добавления или удаления разделителя нажмите на него правой кнопкой мыши.
- Нажмите "Сохранить таблицу".
Как извлечь и скачать данные
Когда вы закончите подготавливать данные, проверьте, как они выглядят в таблице предпросмотра, и нажмите кнопку "Извлечь" в правом верхнем углу страницы с аннотациями. После этого будут извлечены данные из текущих аннотаций. Если вы измените аннотации в будущем, сведения потребуется извлечь заново.
Когда данные будут готовы, вы сможете скачать их в виде ZIP-архива. В нем содержатся файлы CSV (по одному для каждой вкладки в таблице предпросмотра) и сводный файл.
Чтобы посмотреть данные, извлеченные из определенного документа, нажмите на ссылку с его названием в сводном файле. Подробную информацию читайте в разделе ниже.
Как посмотреть извлеченные данные
Как управлять коллекцией с аннотациями
Как заново обработать коллекцию с аннотациями
Вот как это сделать:
- Откройте страницу с аннотациями из коллекции.
- Нажмите на значок меню в виде трех точек .
- Выберите "Обработать снова".
- Выберите основной документ и добавьте аннотации.
Как управлять основными документами
Как заменить основной документ
Чтобы выбрать другой основной документ, сделайте следующее:
- Откройте страницу с аннотациями из коллекции.
- Нажмите на значок меню в виде трех точек .
- Выберите "Заменить основной документ".
- Выберите документ и нажмите "ОК".
- Нажмите "Сделать основным" в правом верхнем углу на странице просмотра.
- Выберите "Заменить текущий основной документ", а затем "ОК".
Если вы добавляли аннотации к предыдущему основному документу, выполните первый шаг ниже, а если нет – второй.
- Перенесите аннотации, следуя инструкции.
- Создайте аннотации в новом документе.
Как добавить другие основные документы
Это можно сделать на странице для просмотра извлеченных данных, если шаблоны документов немного отличаются или нужно добавить аннотации к дополнительным полям.
Чтобы выбрать ещё один основной документ:
- Перейдите на страницу просмотра нужного документа. Для этого нажмите на ссылку в таблице предпросмотра или скачанном сводном CSV-файле.
- Нажмите "Сделать основным" в правом верхнем углу страницы.
- Выберите "Добавить новый основной документ", а затем "ОК".
Аннотации к новым основным документам нужно добавлять иначе. Подробную информацию об этом вы найдете в разделе Как перенести аннотации.
Как удалить один из основных документов
- Выберите название нужного документа в раскрывающемся списке вверху страницы с аннотациями.
- Нажмите "Удалить из основных документов".
- Выберите "Удалить".
Как перенести аннотации
Когда вы добавите ещё один основной документ или замените текущий, инструмент автоматически применит предыдущие аннотации к новому документу.
Если Pinpoint не сможет соотнести какое-либо поле в новом документе, то в списке с аннотациями в правой части страницы появится статус "Требуется действие" рядом с этим полем.
В таком случае нужно выполнить одно из указанных ниже действий.
- Если поле есть в новом основном документе:
- Добавьте аннотацию к полю.
- Нажмите "Убрать сообщение об ошибке" в окне запроса.
- Выберите название поля в раскрывающемся списке.
- Нажмите "ОК".
- Если поля нет в новом документе:
- Выберите поле с ошибкой из списка аннотаций.
- Нажмите на значок , чтобы не учитывать поле в новом документе.
Если какие-либо данные из нового основного документа не показываются в списке, вы можете добавить к ним аннотации самостоятельно. Они появятся только в новом документе.
Как изменить аннотацию
Как изменить название или тип поля
- Выберите поле в списке аннотаций справа.
- Укажите название или тип прямо в поле.
- Нажмите "ОК".
Как изменить аннотацию к паре "ключ-значение"
- Нажмите на поле с аннотацией.
- Перетащите его или измените размеры, переместив края.
- Изменения будут применены только к текущему основному документу.
Как изменить аннотацию к повторяющимся разделам
- Нажмите на любое место в аннотации.
- Сделайте раздел больше или меньше, переместив разделители по вертикали.
- Изменения будут применены только к текущему основному документу.
Как изменить аннотацию к таблице
- Нажмите на любое место в аннотации.
- Задайте размер поля, ширину столбца или обозначьте заголовок строки, перетащив разделители.
- Изменения будут применены только к текущему основному документу.
Как удалить аннотацию
Чтобы удалить аннотацию из всех основных документов, сделайте следующее:
- Выберите поле в списке аннотаций справа.
- Нажмите на значок и подтвердите удаление этого поля.