Extraer datos estructurados de tu colección

Esta función está en beta. Estamos evaluando activamente la usabilidad y la calidad de esta función. Envíanos tus comentarios al respecto a la dirección pinpoint-support@google.com.

Con Pinpoint, puedes extraer datos estructurados de una colección de documentos PDF digitalizados o escaneados con un formato similar a un conjunto de hojas de cálculo.

Esta función rinde mejor con las colecciones que tienen estos atributos

  • Compartir la misma plantilla
  • Compartir el mismo orden de lectura (solo de izquierda a derecha o de derecha a izquierda)
  • Utilizar un formato tabular o de formulario, o una combinación de ambos

Por ejemplo, si tienes escaneados 10.000 informes sobre accidentes automovilísticos con un formato similar, puedes importarlos y exportar una hoja de cálculo que te permita agrupar, ordenar o filtrar los accidentes por fecha, fabricante del automóvil o cualquier otro campo proporcionado en los documentos de origen.

Debes tener acceso completo a Pinpoint para usar esta función. Si no lo tienes, puedes solicitarlo a través de este formulario.

 

Preparar tu colección de Pinpoint

  • Desplázate a la colección con los documentos de los que quieras extraer datos estructurados.
  • Si no tienes ninguna colección en Pinpoint para procesar, crea una con los documentos de los que quieras extraer datos estructurados.
  • Asegúrate de que Pinpoint haya procesado completamente tu colección. En función del número de archivos y del tamaño, esto puede tardar hasta 24 horas.
  • Haz clic en el enlace "Extraer datos estructurados" situado en la parte inferior izquierda de la vista de la colección.
  • Haz clic en el botón "Procesar colección". El procesamiento puede tardar desde unos segundos hasta horas, en función del tamaño de la colección.
  • Cuando se haya completado el procesamiento, haz clic en "Anotar colección".

Si añades documentos a la colección procesada de Pinpoint, tendrás que volver a procesarla. Consulta Volver a procesar una colección anotada para obtener más información.

Elegir un documento maestro

La herramienta para extraer datos estructurados te dirigirá a la página del editor de anotaciones y seleccionará automáticamente un documento "maestro". Se trata de un único documento en el que creas una plantilla de anotaciones que se aplicará a todos los documentos de la misma colección.

Si crees que el documento maestro seleccionado no es el más adecuado para la anotación, puedes sustituirlo por otro documento de la colección. Consulta el artículo Sustituir el documento maestro

Si el documento de la plantilla de la colección tiene muchos campos opcionales, te recomendamos que elijas el documento con el mayor número de campos opcionales como documento maestro para conseguir la máxima compatibilidad con todos los documentos de la colección.

En el caso poco habitual de que no todos los campos deseados se incluyan en un único documento maestro, puedes añadir más documentos maestros para incluir campos opcionales adicionales. Consulta Añadir un documento maestro.

Anotar una colección

La página del editor de anotaciones se divide en cuatro secciones principales:

  1. Editor principal
    Esta es la parte dominante de la página donde se realizarán las anotaciones del documento. Verás el documento maestro y las anotaciones añadidas en esta sección.
     
  2. Barra de herramientas
    Esta sección se encuentra en la parte superior de la página, donde puedes encontrar todo el menú de acciones de la página del editor de anotaciones, incluido el nombre del documento maestro en el que estás trabajando.
     
  3. Lista de anotaciones
    Esta sección se encuentra en la parte derecha de la página, donde verás la lista de anotaciones que has creado en el documento maestro.
     
  4. Tabla de vista previa
    Esta sección se encuentra en la parte inferior de la página, donde puedes consultar una vista previa de los valores de campos extraídos de 10 documentos de tu colección seleccionados al azar.

Actualmente, la herramienta solo admite la extracción en texto o en casilla (booleana). Todos los valores numéricos se convertirán en texto o cadena.

Clave-valor

Se recomienda usar esta herramienta para extraer un único valor etiquetado de la colección. Un ejemplo del resultado de esta anotación sería "País" como clave y "España" como valor.

Para añadir anotaciones en el documento con la anotación Clave-valor, sigue estos pasos:

  • Selecciona la herramienta Clave-valor en la parte superior de la página del editor de anotaciones.
  • Dibuja un rectángulo alrededor del valor que quieras extraer. Debes hacer el rectángulo más largo para dar cabida a valores con más caracteres en otros documentos.
  • La herramienta seleccionará y marcará automáticamente una clave para el valor que hayas seleccionado. Puedes arrastrar y editar este marcador para conseguir una anotación precisa.
  • Para cambiar el nombre del encabezado de columna en los datos extraídos, puede editar el nombre del parámetro clave en la sección Anotaciones, en la parte derecha de la ventana.
  • Repite los pasos para todos los pares clave-valor que quieras extraer de tu colección de documentos.

Cada anotación es un marcador aproximado para que la herramienta extraiga los datos de todos los documentos de tu colección.

Si están disponibles, puedes seguir las cuadrículas o marcadores del documento. Si no es así, asegúrate de dar cabida a valores más largos.

Sección repetida

Esta herramienta se recomienda para extraer una sección con pares clave-valor que se repitan. La anotación podrá cubrir un número ilimitado de secciones continuas repetidas en varias páginas.

Para añadir anotaciones en el documento con la anotación Sección repetida, sigue estos pasos:

  • Selecciona la herramienta de anotación Sección repetida en la parte superior de la página del editor de anotaciones.
  • Marca a lo largo de la altura de la primera repetición de la sección.
  • La herramienta creará automáticamente una línea aproximadamente por debajo de la instancia marcada. Arrastra la línea hasta que toda la sección que quieras anotar aparezca resaltada.
  • Escribe el nombre de la sección en la ventana emergente "Nombre de sección repetido".
  • Haz clic en "Guardar sección".
  • Selecciona la herramienta Clave-valor en la parte superior de la página del editor de anotaciones.
  • Dentro del intervalo de la primera instancia repetida, sigue los pasos de anotación de clave-valor de todos los pares clave-valor que quieras extraer.

Tablas

Se recomienda usar esta herramienta para extraer datos almacenados en formato tabular. Tendrás que anotar todas las tablas que quieras extraer del documento. Ten en cuenta que la herramienta funcionará en una tabla que abarque varias páginas, que pueden incluir cabeceras repetidas.

La herramienta funcionará mejor si la tabla con anotaciones tiene la misma dimensión horizontal, el mismo formato y los mismos encabezados en todos los documentos de la colección.

Para añadir anotaciones en el documento con la anotación Tablas, sigue estos pasos:

  • Selecciona la herramienta Anotaciones en la parte superior de la página del editor de anotaciones.
  • Dibuja un rectángulo sobre la tabla de la que quieras extraer los datos. Si la tabla abarca varias páginas, puedes destacar solo la primera página de la tabla.
  • La herramienta intentará detectar la tabla de forma aproximada. Si no cubre la tabla aproximadamente, repite el paso de resaltado.
  • Ajusta el contorno para que coincida con el de la tabla. Arrastra la línea inferior para destacar todas las partes de la tabla, incluidos los encabezados y las partes repetidos que aparecen en las siguientes páginas.
  • Introduce el nombre de la tabla en el cuadro emergente.
  • Indica si la tabla tiene un encabezado con el interruptor del cuadro emergente.
  • Ajusta las líneas de separación de los encabezados y de las columnas para que coincidan con el formato de la tabla. Para ello, marca claramente el ancho de las columnas y la representación de los encabezados de las tablas del documento. Puedes añadir o eliminar separadores de columnas haciendo clic con el botón derecho en el separador de columnas.
  • Haz clic en "Guardar tabla".

Extraer y descargar tus datos

Cuando estés conforme con el resultado disponible en la tabla de vista previa, podrás extraer los datos haciendo clic en el botón "Extraer" situado en la esquina superior derecha de la página del editor de anotaciones. Esta extracción solo se puede aplicar al conjunto de anotaciones actual. Si editas las anotaciones de tu colección más adelante, tendrás que repetir el proceso de extracción.

Una vez completada la extracción, puedes descargar los datos haciendo clic en "Descargar". Obtendrás un archivo zip que contiene archivos CSV, uno para cada pestaña de la tabla de vista previa y un archivo de resumen para todos los documentos de la colección.

Para consultar el resultado de la extracción de un documento, haz clic en el enlace correspondiente al documento que se proporciona en el archivo de resumen. Tienes más información en la sección Consultar el resultado de la extracción.

Consultar el resultado de la extracción

Después de extraer algunos campos de tu colección, es posible que quieras verificar parte del valor extraído y comprobar si coincide con lo que aparece en el documento.
Puedes revisar los resultados de la extracción de cada documento de tu colección haciendo clic en el enlace correspondiente del documento que se proporciona en el archivo CSV de resumen que has descargado o haciendo clic en el enlace del documento proporcionado en la tabla de vista previa.
La página de resultados de la extracción de documentos te permite ver todos los valores extraídos de un solo documento para validarlos.
Al seleccionar cualquier cuadro de anotación en el documento, el resultado extraído aparecerá en el panel de la derecha, y viceversa: al seleccionar un valor en el panel de la derecha, el documento se desplazará al cuadro de anotación correspondiente.

 

Gestionar una colección anotada

Volver a procesar una colección anotada

Si vuelves a procesar una colección anotada, se eliminarán las anotaciones que hayas hecho

Para que la herramienta para extraer datos estructurados vuelva a procesar tu colección, sigue estos pasos: 

Gestionar documentos maestros

Sustituir un documento maestro

Para sustituir un documento maestro por otro, sigue estos pasos: 

  • Ve a la página del editor de anotaciones de tu colección.
  • En la página del editor de anotaciones, haz clic en el menú de tres puntos .
  • Selecciona "Sustituir el documento maestro".
  • Selecciona el documento maestro que prefieras del conjunto de muestra y haz clic en Aceptar.
  • En la página de revisión de documentos, haz clic en "Establecer como maestro" en la esquina superior derecha.
  • Selecciona "Sustituir un documento maestro" y haz clic en "Aceptar".

El siguiente paso dependerá de si la colección tiene un documento maestro anotado o no:

Añadir un documento maestro

Cuando revises los resultados de la extracción, puedes añadir más documentos maestros para dar cabida a pequeñas diferencias en la plantilla de documentos y campos opcionales para añadir anotaciones en algunos documentos.

Para ello, sigue estos pasos:

  • Ve a la página de revisión de documentos enlazada en la tabla de vista previa del conjunto de muestra o al CSV principal de resumen descargable.
  • Haz clic en "Establecer como maestro" en la esquina superior derecha.
  • Selecciona "Añadir un documento maestro" y haz clic en "Aceptar".

El proceso de anotación de documentos maestros adicionales es diferente al de la anotación normal. Consulta Transferir anotaciones para obtener más información.

Eliminar un documento maestro del conjunto

  • Selecciona el nombre del documento maestro en el menú desplegable de nombres de archivo situado en la parte superior de la página del editor de anotaciones.
  • En el mismo menú desplegable, selecciona "Eliminar del conjunto de documentos maestros".
  • Haz clic en "Eliminar" en el siguiente mensaje para aprobar la acción.

Transferir anotaciones

Después de añadir un nuevo documento maestro al conjunto o de sustituir un documento maestro anotado, la herramienta hará coincidir aproximadamente las anotaciones anteriores con el nuevo documento maestro. 

Si la herramienta no puede hacer coincidir el campo anotado anterior en el nuevo documento maestro, el campo se marcará como "Requiere atención" en la sección Anotaciones, en la parte derecha de la página del editor de anotaciones. 

Para solucionar este problema, puedes seguir uno de estos pasos:

  • Si el campo está disponible en el nuevo documento maestro:
    1. Añade la anotación para ese campo.
    2. Selecciona "Resolver un par clave-valor que requiere atención" en la ventana del mensaje.
    3. Selecciona el nombre del campo en el menú desplegable.
    4. Haz clic en Aceptar.
  • Si el campo no está disponible en el nuevo documento maestro
    1. Selecciona el cuadro del campo que necesita revisión en la sección Anotaciones.
    2. Haz clic en para marcar el campo como que solo falta en el nuevo documento maestro 

Si hay datos del nuevo documento maestro que no están disponibles en la sección Anotaciones, puedes anotar manualmente los datos para añadirlos solo al nuevo documento maestro.

Editar una anotación

Cambiar el nombre o el tipo de un campo

  • Selecciona el cuadro del campo en la sección Anotaciones en la parte derecha de la página del editor de anotaciones.
  • Edita el nombre del campo o escribe directamente en el cuadro del campo.
  • Haz clic en "Aceptar" en el siguiente mensaje.
El cambio del nombre o del tipo de campo se aplicará de forma global a todos los documentos maestros de la colección.

Ajustar la anotación de pares clave/valor

  • Haz clic en el cuadro de anotación del valor que quieras ajustar.
  • Arrastra y mueve el cuadro seleccionado o ajusta las dimensiones moviendo los bordes.
  • Solo se aplica al documento maestro editado actual.

Ajustar anotación de sección repetida

  • Haz clic en cualquier parte de la anotación de sección repetida que quieras ajustar.
  • Mueve de forma vertical los separadores de líneas para ajustar la dimensión de las secciones.
  • Solo se aplica al documento maestro editado actual. 

Ajustar anotación de una tabla

  • Haz clic en cualquier parte del cuadro de anotación de tabla que quieras ajustar.
  • Arrastra y mueve líneas dentro del cuadro para ajustar la dimensión, el ancho de columna y la fila de encabezado.
  • Solo se aplica al documento maestro editado actual.

Eliminar una anotación

Para eliminar cualquier anotación de todos los documentos maestros, sigue estos pasos:

  • Selecciona un campo en la sección Anotaciones en la parte derecha de la página del editor de anotaciones.
  • Haz clic en y confirma que quieres eliminar el campo de todos los documentos maestros.
Menú principal
17556157621928138983
true
Buscar en el Centro de ayuda
true
true
true
false
false