Extrair dados estruturados da sua coleção

Este recurso está na versão Beta. Estamos avaliando a usabilidade e a qualidade dele. Envie seu feedback pelo e-mail pinpoint-support@google.com.

Você pode usar o Pinpoint para extrair dados estruturados de uma coleção de documentos PDF escaneados ou digitalizados em formato semelhante para um conjunto de planilhas.

Esse recurso funciona melhor com coleções que têm estes atributos (link em inglês): 

  • Compartilham o mesmo modelo
  • Compartilham a mesma ordem de leitura (somente da esquerda para a direita ou da direita para a esquerda)
  • Usam um formato tabular ou de formulário ou uma combinação dos dois

Por exemplo, se você tiver 10.000 relatórios digitalizados de acidentes automotivos que usam um formulário semelhante, será possível importar as digitalizações e exportar uma planilha que permite agrupar, ordenar ou filtrar acidentes por data, fabricante do automóvel ou qualquer outro campo fornecido em documentos de origem.

Você precisa ter acesso total ao Pinpoint para usar esse recurso. Se não tiver esse tipo de acesso, use este formulário para solicitar.

 

Preparar a coleção do Pinpoint

  • Navegue até a coleção que contém os documentos dos quais você quer extrair dados estruturados.
  • Se você não tiver uma coleção no Pinpoint para processamento, crie uma com os documentos dos quais você quer extrair dados estruturados.
  • Verifique se a sua coleção foi totalmente processada pelo Pinpoint. Isso pode levar até 24 horas, conforme o tamanho e o número de arquivos.
  • Clique no link "Extrair dados estruturados" no canto inferior esquerdo da visualização da coleção.
  • Clique no botão "Processar coleção". O processamento pode levar de segundos a horas, dependendo do tamanho da sua coleção.
  • Quando o processamento for concluído, clique em "Fazer anotações na coleção".

Se você adicionar documentos à coleção Pinpoint processada, um reprocessamento será necessário. Consulte Reprocessar coleção anotada para mais detalhes.

Escolher o documento exemplar

A ferramenta para extrair dados estruturados vai direcionar você à página do editor de anotações e selecionar automaticamente um documento "exemplar". Esse é um documento único em que você cria um modelo de anotação para ser aplicado a todos os documentos na mesma coleção.

Se você acredita que o documento exemplar selecionado não é o mais adequado para anotação, substitua-o por outro na coleção. Consulte Substituir documento exemplar

Se o modelo de documento na sua coleção tiver muitos campos opcionais, recomendamos escolher o documento com mais campos opcionais disponíveis como o exemplar para garantir maior compatibilidade de correspondência com todos os documentos na coleção.

No caso raro em que nem todos os campos desejados estejam em um único documento exemplar, é possível adicionar mais desses documentos para acomodar outros campos opcionais. Consulte Adicionar documento exemplar.

Anotar uma coleção

A página do editor de anotações é dividida em quatro seções principais:

  1. Editor principal
    Essa é a parte dominante da página em que você vai fazer as anotações do documento. O documento exemplar e as anotações adicionadas serão mostradas nessa seção.
     
  2. Barra de ferramentas
    Essa seção fica na parte de cima da página, onde você encontra o menu de ações da página do editor de anotações, incluindo o nome do documento exemplar em que você está trabalhando.
     
  3. Lista de anotações
    Essa seção fica no lado direito da página, onde a lista de anotações criadas no documento exemplar é mostrada.
     
  4. Tabela de visualização
    Essa seção fica na parte de baixo da página, onde aparecem os valores dos campos extraídos de 10 documentos selecionados aleatoriamente na sua coleção.

Atualmente, a ferramenta só tem suporte à extração para texto ou caixa de seleção (booleano). Todos os valores numéricos serão convertidos em texto/string.

Chave-valor

O melhor uso para essa ferramenta é na extração de um único valor rotulado da sua coleção. Um exemplo do resultado dessa anotação é "País" como chave e "Estados Unidos da América" como o valor.

Para usar uma anotação de chave-valor no seu documento, siga estas etapas:

  • Selecione a ferramenta de anotação de chave-valor na parte de cima da página do editor de anotações.
  • Desenhe um retângulo ao redor do valor que você quer extrair. Deixe o retângulo mais longo para acomodar valores com mais caracteres em outros documentos.
  • A ferramenta vai selecionar e marcar automaticamente uma chave para o valor selecionado. Você pode arrastar e editar esse marcador para anotações precisas.
  • Para mudar o nome do cabeçalho da coluna nos dados extraídos, edite o nome do parâmetro da chave na seção "Anotações" no lado direito da janela.
  • Repita as etapas para todos os pares de chave-valor que você quiser extrair da sua coleção de documentos.

Cada anotação é um marcador aproximado para que a ferramenta extraia os dados de todos os documentos na sua coleção.

Quando disponível, você pode seguir grades ou marcadores no documento. Caso contrário, acomode valores mais longos.

Seção repetida

O melhor uso para essa ferramenta é na extração de uma seção com pares de chave-valor repetidos. A anotação poderá cobrir qualquer número de seções repetidas contínuas em várias páginas.

Para anotar seu documento usando a anotação de seção repetida, siga estas etapas:

  • Selecione a ferramenta de anotação de seção repetida na parte de cima da página do editor de anotações.
  • Marque a altura da primeira instância repetida da seção.
  • A ferramenta vai criar de forma automática uma linha aproximadamente abaixo da instância marcada. Arraste a linha até que a seção inteira que você quer anotar seja destacada.
  • Insira o nome da seção na janela pop-up "Nome da seção repetida".
  • Clique em "Salvar seção".
  • Selecione a ferramenta de anotação de chave-valor na parte de cima da página do editor de anotações.
  • Na faixa da primeira instância repetida, siga as etapas de anotação de chave-valor para todos os pares de chave-valor que você quer extrair.

Mesas

O melhor uso para essa ferramenta é na extração de dados armazenados no formato tabular. Você precisará anotar cada tabela que quiser extrair no documento. Observe que a ferramenta vai funcionar para uma tabela que abrange várias páginas, incluindo cabeçalhos repetidos.

Ela funcionará melhor se a tabela anotada tiver o mesmo formato, cabeçalhos e dimensão horizontal em todos os documentos na coleção.

Para incluir uma anotação de tabelas no seu documento, siga estas etapas:

  • Selecione a ferramenta de anotação de tabelas na parte de cima da página do editor de anotações.
  • Desenhe um retângulo sobre a tabela da qual você quer extrair dados. Caso ela tenha várias páginas, você pode destacar apenas a primeira.
  • A ferramenta tentará detectar a tabela de forma aproximada. Se isso não a cobrir, repita a etapa de destaque.
  • Ajuste o contorno para que ele fique ao redor da tabela. Arraste a linha inferior para destacar todas as partes da tabela, inclusive cabeçalhos repetidos e partes que estejam nas páginas seguintes.  
  • Insira o nome da tabela na caixa pop-up.
  • Indique se a tabela tem um cabeçalho usando o botão na caixa pop-up.
  • Ajuste as linhas do cabeçalho e do separador de coluna de acordo com a formatação da tabela, marcando claramente as larguras das colunas e a representação dos cabeçalhos da tabela no documento. Você pode adicionar ou excluir separadores de coluna clicando com o botão direito do mouse no separador.
  • Clique em "Salvar tabela".

Extrair e fazer o download dos seus dados

Quando o resultado disponível na tabela de visualização estiver do seu agrado, você poderá extrair os dados clicando no botão "Extrair" no canto superior direito da página do editor de anotações. Essa extração só é aplicável ao conjunto atual de anotações. Se você editar as anotações da sua coleção posteriormente, será necessário refazer o processo de extração.

Quando a extração for concluída, você poderá fazer o download dos dados clicando em "Download". Você vai receber um arquivo ZIP com arquivos CSV, um para cada guia na tabela de visualização e um arquivo de resumo para todos os documentos na coleção.

Para revisar o resultado da extração de um documento, clique no link correspondente ao documento fornecido no arquivo de resumo. Consulte Analisar o resultado da extração.

Revisar resultado da extração

Depois de extrair alguns campos da sua coleção, verifique os valores extraídos e confira se eles correspondem ao que aparece no documento.
Para revisar os resultados da extração de cada documento na coleção, clique no link do documento fornecido no arquivo CSV de resumo que você transferiu por download ou no fornecido na tabela de visualização.
A página com resultados de extração de documentos permite consultar e validar todos os valores extraídos para um único documento.
A seleção de qualquer caixa de anotação no documento mostra o resultado extraído no painel à direita e vice-versa. Ao selecionar um valor no painel à direita, o documento irá para a caixa de anotação correspondente.

 

Gerenciar coleção anotada

Reprocessar coleção anotada

O reprocessamento de uma coleção com anotações remove todas as anotações feitas anteriormente.

Para refazer o processamento que a ferramenta de extração de dados estruturados executa na sua coleção, siga estas etapas: 

Gerenciar documentos exemplares

Substituir um documento exemplar

Para substituir um documento exemplar por outro, siga estas etapas: 

  • Navegue até a página do editor de anotações da sua coleção.
  • Na página do editor de anotações, clique no menu de três pontos .
  • Selecione "Substituir documento exemplar".
  • Selecione o documento exemplar de sua preferência no conjunto de amostras e clique em "OK".
  • Na página de revisão do documento, clique em "Definir como exemplar" no canto superior direito.
  • Selecione "Substituir um documento exemplar já existente" e clique em "OK".

A próxima etapa depende de se a coleção tem um documento exemplar previamente anotado:

Adicionar um documento exemplar

Ao analisar os resultados da extração, é possível adicionar mais documentos exemplares para acomodar pequenas diferenças no modelo de documento e outros campos opcionais para anotar em alguns documentos.

Para fazer isso, siga estas etapas: 

  • Navegue até a página de revisão do documento vinculada à tabela de visualização do conjunto de amostras ou ao CSV principal de resumo disponível para download.
  • Clique em "Definir como exemplar" no canto superior direito.
  • Selecione "Adicionar um documento exemplar" e clique em "OK".

O processo de anotação de documentos exemplares extras é diferente da anotação normal. Consulte Transferência de anotações para mais detalhes.

Remover um documento exemplar do conjunto

  • Selecione o nome do documento exemplar no menu suspenso de nome de arquivo na parte de cima da página do editor de anotações.
  • No mesmo menu suspenso, selecione "Remover do conjunto de documentos exemplares".
  • Clique em "Excluir" no comando seguinte para aprovar a ação.

Transferência de anotação

Após a adição de um novo documento exemplar ao conjunto ou substituição de um documento exemplar anotado, a ferramenta fará a correspondência aproximada da anotação já existente com o novo documento exemplar. 

Se a ferramenta não conseguir fazer a correspondência do campo anotado com o novo documento exemplar, o campo será marcado com "Requer atenção" na seção "Anotações" à direita da página do editor de anotações. 

Para resolver isso, siga uma destas etapas:

  • Se o campo estiver disponível no novo documento exemplar
    1. Adicione a anotação para esse campo.
    2. Selecione “Resolver uma chave-valor que requer atenção” na janela do comando.
    3. Selecione o nome do campo no menu suspenso.
    4. Clique em "OK".
  • Se o campo não estiver disponível no novo documento exemplar
    1. Selecione a caixa de campo que requer atenção na seção "Anotações".
    2. Clique em para marcar o campo como ausente apenas no novo documento exemplar. 

Se houver dados do novo documento exemplar que não estejam disponíveis na seção "Anotações", você poderá anotar os dados manualmente para que eles só sejam adicionados ao novo documento.

Editar anotação

Mudar o nome ou tipo do campo

  • Selecione a caixa de campo na seção "Anotações" no lado direito da página do editor de anotações.
  • Edite o nome do campo ou digite diretamente na caixa dele.
  • Clique em “OK” no comando seguinte.
A mudança do nome ou tipo do campo será aplicada de forma global a todos os documentos exemplares da coleção.

Ajustar anotação de chave-valor

  • Clique na caixa de anotação de valor que você quer ajustar.
  • Arraste e mova a caixa selecionada ou ajuste a dimensão movendo as bordas.
  • Isso se aplica apenas ao documento exemplar editado atualmente.

Ajustar anotação de seção repetida

  • Clique em qualquer lugar da anotação de seção repetida que você quer ajustar.
  • Ajuste a dimensão das seções movendo verticalmente as linhas do separador.
  • Isso se aplica apenas ao documento exemplar editado atualmente. 

Ajustar anotação da tabela

  • Clique em qualquer lugar na caixa de anotação da tabela que você quer ajustar.
  • Arraste e mova as linhas dentro da caixa para ajustar a dimensão, a largura da coluna e a linha do cabeçalho.
  • Isso se aplica apenas ao documento exemplar editado atualmente.

Excluir anotação

Para excluir qualquer anotação de todos os documentos exemplares, siga estas etapas:

  • Selecione um campo na seção "Anotações" no lado direito da página do editor de anotações.
  • Clique em e confirme que você quer excluir o campo de todos os documentos exemplares.
Menu principal
4574220692118798880
true
Pesquisar na Central de Ajuda
true
true
true
false
false