Extraia dados estruturados da sua coleção

Esta funcionalidade está na versão beta. Estamos a avaliar ativamente a capacidade de utilização e a qualidade desta funcionalidade. Partilhe o seu feedback sobre a mesma através de pinpoint-support@google.com.

Pode usar o Pinpoint para extrair dados estruturados de uma coleção de documentos PDF digitalizados ou com formato semelhante para um conjunto de folhas de cálculo.

Esta funcionalidade funciona melhor com coleções com estes atributos

  • Partilhe o mesmo modelo
  • Partilhe a mesma ordem de leitura (apenas da esquerda para a direita ou da direita para a esquerda)
  • Utilizar o formato tipo ou tabular ou a combinação de ambos

Por exemplo, se tiver dez mil relatórios de acidentes de automóvel digitalizados que usem um formulário semelhante, pode importar as digitalizações e exportar uma folha de cálculo que lhe permita agrupar, ordenar ou filtrar acidentes por data, fabricante do setor automóvel ou quaisquer outros campos fornecidos nos documentos de origem.

Tem de ter acesso total ao Pinpoint para usar esta funcionalidade. Se não tiver acesso total, pode pedi-lo através deste formulário.

 

Prepare a sua coleção do Pinpoint

  • Navegue até à sua coleção que contenha os documentos a partir dos quais pretende extrair dados estruturados
  • Se não tiver uma coleção no Pinpoint para processamento, crie uma nova coleção com os documentos dos quais quer extrair dados estruturados
  • Confirme que a sua coleção foi totalmente processada pelo Pinpoint. Consoante o tamanho e o número de ficheiros, o processamento pode demorar até 24 horas
  • Clique no link "Extrair dados estruturados" no canto inferior esquerdo da vista da coleção
  • Clique no botão "Processar coleção". O processamento pode demorar de segundos a horas, consoante o tamanho da sua coleção
  • Após a conclusão do processamento, clique em "Anotar coleção"

Se adicionar documentos à coleção do Pinpoint processada, tem de voltar a processar a coleção. Consulte "Reprocessar coleção anotada" para obter mais detalhes.

Escolher documento dourado

A ferramenta Extrair dados estruturados direciona-o para a página do editor de anotações e seleciona automaticamente um documento "dourado" para si. Trata-se de um único documento no qual cria um modelo de anotação para aplicar a todos os documentos na mesma coleção.

Se considerar que o documento dourado selecionado não é o mais adequado para anotação, pode substituí-lo por outro documento na coleção. Consulte "Substituir o documento dourado"

Se o modelo de documento na sua coleção tiver muitos campos opcionais, recomendamos que escolha o documento com mais campos opcionais disponíveis como o documento dourado, de modo a garantir a compatibilidade mais elevada com todos os documentos na sua coleção.

No caso raro de nem todos os campos pretendidos serem abrangidos por um único documento dourado, pode adicionar mais documentos dourados para incluir mais campos opcionais. Consulte "Adicionar documento dourado".

Anotar coleção

A página do editor de anotações está dividida em quatro secções principais:

  1. Editor principal
    Esta é a parte dominante da página onde vai fazer anotações de documentos. Verá o seu documento dourado e as suas anotações adicionadas nesta secção.
     
  2. Barra de ferramentas
    Esta secção encontra-se na parte superior da página, onde pode encontrar todos os menus de ações da página do editor de anotações, incluindo o nome do documento dourado em que está a trabalhar.
     
  3. Lista de anotações
    Esta secção está no lado direito da página, onde irá ver a lista de anotações que criou no documento dourado.
     
  4. Tabela de pré-visualização
    Esta secção está na parte inferior da página , onde pode encontrar a pré-visualização dos valores dos campos extraídos de 10 documentos selecionados aleatoriamente na sua coleção.

Atualmente, a ferramenta só suporta a extração de texto ou caixa de verificação (booleano). Todos os valores numéricos serão convertidos em texto/string.

Chave/valor

Esta ferramenta é mais adequada para extrair um valor único da sua coleção. Um exemplo do resultado desta anotação é "País" como a chave e "Estados Unidos da América" como o valor.

Para anotar o seu documento através da anotação da chave/valor, siga estes passos:

  • Selecione a ferramenta de anotação/chave na parte superior da página do editor de notas
  • Desenhe um retângulo em torno do valor que pretende extrair. Deve aumentar o retângulo para acomodar valores com mais carateres noutros documentos
  • A ferramenta irá selecionar e marcar automaticamente uma chave para o valor que selecionou. Pode arrastar e editar este marcador para obter uma anotação exata
  • Para alterar o nome do cabeçalho da coluna nos dados extraídos, pode editar o nome do parâmetro da chave na secção Anotações no lado direito da janela
  • Repita os passos para todos os pares de chave-valor que pretende extrair da coleção de documentos

Cada anotação é um marcador aproximado para a ferramenta extrair os dados de todos os documentos da sua coleção.

Quando disponível, pode seguir grelhas ou marcadores no documento. Caso contrário, certifique-se de que aloja os valores mais longos.

Secção repetida

Esta ferramenta é mais adequada para extrair uma secção com pares de chave-valor com repetição. A anotação conseguirá cobrir qualquer número de secções repetidas contínuas em várias páginas.

Para anotar o seu documento através da anotação da secção repetida, siga estes passos:

  • Selecione a ferramenta de anotação da secção repetida na parte superior da página do editor de anotações
  • Marcar ao longo da altura da primeira ocorrência repetida da secção
  • A ferramenta cria automaticamente uma linha aproximadamente abaixo da instância marcada. Arraste a linha até que toda a secção que quer anotar esteja realçada
  • Introduza o nome da secção no pop-up "Nome da secção repetido".
  • Clique em "Guardar secção"
  • Selecione a ferramenta de anotação/chave na parte superior da página do editor de notas
  • No intervalo da primeira instância repetida, siga os passos de anotação da chave/valor para todos os pares de chave-valor que pretende extrair

Mesas

Esta ferramenta é mais adequada para extrair dados armazenados em formato de tabela. Terá de anotar cada tabela que quer extrair no documento. Tenha em atenção que a ferramenta funcionará para uma tabela que abranja várias páginas, incluindo cabeçalhos repetidos.

A ferramenta funciona melhor se a tabela anotada tiver a mesma dimensão, formato e cabeçalhos horizontais em todos os documentos da coleção.

Para anotar o seu documento através da anotação das tabelas, siga estes passos:

  • Selecione a ferramenta de anotação do Tables no topo da página do editor de anotações
  • Desenhe um retângulo sobre a tabela a partir da qual quer extrair os seus dados. Se a tabela possuir várias páginas, pode realçar apenas a primeira página da tabela
  • A ferramenta tentará detetar aproximadamente a tabela. Se este procedimento não abranger aproximadamente a tabela, repita o passo de realce
  • Ajuste o tópico para corresponder ao tópico da tabela. Arraste a linha inferior para que todas as partes da tabela sejam realçadas, incluindo cabeçalhos e partes repetidos que se encontram em páginas seguintes 
  • Introduza o nome da tabela dentro da caixa de pop-up
  • Indicar se a tabela tem um cabeçalho através do botão ativar/desativar na caixa de pop-up
  • Ajuste as linhas do separador de cabeçalho e de coluna para que correspondam à formatação da tabela, marcando claramente a largura das colunas e a representação dos cabeçalhos das tabelas no documento. Pode adicionar ou eliminar separadores de colunas ao clicar com o botão direito do rato no separador de colunas
  • Clique em "Guardar tabela"

Extrair e transferir os seus dados

Quando estiver satisfeito com o resultado disponível na tabela de pré-visualização, pode extrair os dados ao clicar no botão "Extrair" no canto superior direito da página do editor de notas. Esta extração é aplicável apenas ao conjunto de anotações atual. Se editar anotações para a sua coleção posteriormente, terá de refazer este processo de extração.

Assim que a extração estiver concluída, pode transferir os dados ao clicar em "Transferir". Irá obter um ficheiro ZIP com ficheiros CSV, um para cada separador da tabela de pré-visualização e um ficheiro de resumo para todos os documentos na coleção.

Pode rever o resultado de extração de um documento ao clicar no link correspondente a esse documento fornecido no ficheiro de resumo. Consulte "Rever o resultado da extração".

Rever resultado da extração

Depois de extrair alguns campos da sua coleção, pode pretender verificar alguns dos valores extraídos e ver se correspondem ao que vê no documento.
Pode rever os resultados da extração para cada documento na sua coleção ao clicar no link correspondente a esse documento fornecido no ficheiro CSV de resumo que transferiu ou ao clicar no link do documento fornecido na tabela de pré-visualização.
A página de resultados de extração de documentos permite-lhe ver todos os valores extraídos de um único documento e validá-los manualmente
Ao selecionar qualquer caixa de anotações no documento, é apresentado o resultado extraído no painel do lado direito e vice-versa quando selecionar um valor no painel do lado direito, o documento irá navegar para a caixa de anotações correspondente.

 

Gerir coleção anotada

Reprocessar coleção anotada

Reprocessar uma coleção anotada irá remover todas as anotações que tenha criado anteriormente

Para refazer o processamento que a ferramenta Extrair Dados Estruturados executa na sua coleção, siga estes passos: 

Gerir documentos universais

Substituir documento dourado

Para substituir um documento dourado por outro, siga estes passos: 

  • Navegue para a página do editor de anotações da sua coleção
  • Na página do editor de anotações, clique no menu (três pontos)
  • Selecione "Substituir documento dourado"
  • Selecione o documento principal preferencial no conjunto de amostras e clique em "OK".
  • Na página de revisão do documento, clique em "Definir como dourado" no canto superior direito
  • Selecione "Substituir um documento dourado existente", clique em "OK"

O passo seguinte depende de se a coleção tem um documento dourado anotado anteriormente:

Adicionar documento dourado

Ao analisar os resultados de extração, pode adicionar mais documentos dourados para incluir pequenas diferenças no modelo de documentos e campos opcionais adicionais para anotar em alguns documentos.

Pode fazê-lo seguindo os seguintes passos: 

  • Navegue para a página de revisão de documentos associada na tabela de pré-visualização de amostra ou o CSV de resumo principal transferível
  • Clique em "Definir como dourado" no canto superior direito
  • Selecione "Adicionar um novo documento dourado", clique em "OK"

O processo de anotação de documentos dourados adicionais é diferente da anotação normal. Consulte "Transferência da anotação" para obter detalhes.

Remova um documento dourado do conjunto

  • Selecione o nome do documento dourado no menu pendente do nome do ficheiro na parte superior da página do editor de anotações
  • No mesmo menu pendente, selecione "Remover do conjunto de documentos dourados"
  • Clique em "Eliminar" na mensagem seguinte para aprovar a ação

Transferência de anotação

Depois de adicionar um novo documento dourado ao conjunto ou de substituir um documento dourado anotado existente, a ferramenta faz corresponder aproximadamente a nota existente ao novo documento dourado. 

Se a ferramenta não conseguir corresponder o campo anotado anteriormente ao novo documento dourado, o campo será marcado como "Requer atenção" na secção Anotações no lado direito da página do editor de anotações. 

Para resolver este problema, pode seguir um dos passos abaixo:

  • Se o campo estiver realmente disponível no novo documento dourado
    1. Adicione uma anotação para esse campo
    2. Selecione "Resolver um valor/chave «Requer atenção» na janela de pedido
    3. Selecione o nome do campo no menu pendente
    4. Clique em "OK
  • Se o campo não estiver disponível no novo documento dourado
    1. Selecione a caixa do campo que requer atenção na secção Anotações
    2. Clique em para marcar o campo como em falta apenas do novo documento dourado 

Se existirem dados do novo documento dourado que não estejam disponíveis na secção Anotações, pode anotar manualmente os dados para os adicionar apenas ao novo documento dourado.

Edite a anotação

Altere o nome ou o tipo do campo

  • Selecione a caixa do campo na secção Anotações no lado direito da página do editor de anotações
  • Edite o nome ou o tipo do campo diretamente na caixa do campo
  • Clique em "OK" na mensagem seguinte
A alteração do nome ou do tipo de campo é aplicada globalmente a todos os documentos de ouro na coleção

Ajustar a anotação da chave/valor

  • Clique na caixa anotação do valor que pretende ajustar
  • Arraste e mova a caixa selecionada ou ajuste a dimensão ao mover as extremidades
  • Só se aplica ao documento dourado atualmente editado

Ajustar anotação de secções repetidas

  • Clique em qualquer parte da anotação da secção repetida que pretenda ajustar
  • Ajuste a dimensão das secções ao mover as linhas do separador verticalmente
  • Só se aplica ao documento dourado atualmente editado 

Ajustar anotação de tabelas

  • Clique em qualquer local na caixa da anotação da tabela que quer ajustar
  • Arraste e mova linhas dentro da caixa para ajustar a dimensão, a largura da coluna e a linha de cabeçalho
  • Só se aplica ao documento dourado atualmente editado

Eliminar anotação

Para eliminar uma anotação de todos os documentos dourados, siga estes passos:

  • Selecione um campo na secção Anotações no lado direito da página do editor de anotações
  • Clique em e confirme que quer eliminar o campo de todos os documentos dourados
Menu principal
10472929517322599197
true
Pesquisar no Centro de ajuda
true
true
true
false
false