Extraire les données structurées de votre collection

Cette fonctionnalité est disponible en version bêta. Nous évaluons activement la facilité d'utilisation et la qualité de cette fonctionnalité. Faites-nous part de vos commentaires à l'adresse pinpoint-support@google.com.

Vous pouvez utiliser Pinpoint pour extraire des données structurées d'une collection de documents PDF au format similaire numérisés ou scannés dans un ensemble de feuilles de calcul.

Cette fonctionnalité fonctionne mieux avec les collections présentant ces attributs : 

  • Partagent le même modèle
  • Partagent le même ordre de lecture (de gauche à droite ou de droite à gauche uniquement)
  • Utilisent un format de formulaire ou tabulaire, ou la combinaison des deux

Par exemple, si vous avez scanné 10 000 rapports d'accident de voiture dans un formulaire similaire, vous pouvez importer les numérisations et exporter une feuille de calcul pour regrouper, trier ou filtrer les accidents par date, constructeur automobile ou tout autre champ présent dans les documents sources.

Vous devez disposer d'un accès complet à Pinpoint pour utiliser cette fonctionnalité. Si vous ne disposez pas d'un accès complet, vous pouvez en faire la demande avec ce formulaire.

 

Préparer votre collection Pinpoint

  • Accédez à votre collection composée des documents dont vous souhaitez extraire les données structurées.
  • Si vous ne disposez d'aucune collection à traiter dans Pinpoint, créez une collection avec les documents à partir desquels vous souhaitez extraire les données structurées.
  • Assurez-vous que votre collection a été entièrement traitée par Pinpoint. Le traitement peut durer jusqu'à 24 heures selon le nombre de fichiers et leur taille.
  • Cliquez sur le lien "Extraire les données structurées" en bas à gauche de la vue de collection.
  • Cliquez sur le bouton "Traiter la collection". Le traitement peut prendre de quelques secondes à plusieurs heures, selon la taille de votre collection.
  • Une fois le traitement terminé, cliquez sur "Annoter la collection".

Si vous ajoutez des documents à la collection Pinpoint traitée, vous devrez traiter la collection à nouveau. Pour en savoir plus, consultez Traiter à nouveau la collection annotée.

Choisir le document de référence

L'outil d'extraction des données structurées vous redirigera vers la page de l'éditeur d'annotations et sélectionnera automatiquement un document de référence. Il s'agit d'un document unique dans lequel vous créez un modèle d'annotation à appliquer à tous les documents de la même collection.

Si vous pensez que le document de référence sélectionné n'est pas le plus adapté à l'annotation, vous pouvez le remplacer par un autre document de la collection. Consultez Remplacer le document de référence

Si le modèle de document de votre collection contient de nombreux champs facultatifs, nous vous recommandons de choisir le document contenant le plus de champs facultatifs disponibles comme document de référence, afin d'assurer une compatibilité optimale avec tous les documents de la collection.

Dans les rares cas où tous les champs souhaités ne sont pas couverts dans un seul document de référence, vous pouvez ensuite ajouter d'autres documents de référence pour accueillir des champs facultatifs supplémentaires. Consultez Ajouter un document de référence.

Annoter la collection

La page de l'éditeur d'annotations est divisée en quatre sections principales :

  1. Éditeur principal
    Il s'agit de la partie principale de la page où vous allez insérer des annotations de documents. Le document de référence et les annotations ajoutées s'affichent dans cette section.
     
  2. Barre d'outils
    Cette section se trouve en haut de la page. Elle contient le menu d'actions de la page de l'éditeur d'annotations, y compris le nom du document de référence sur lequel vous travaillez.
     
  3. Liste d'annotations
    Cette section se trouve à droite de la page. Elle contient la liste des annotations que vous avez créées dans le document de référence.
     
  4. Aperçu du tableau
    Cette section se trouve en bas de la page , où vous pouvez prévisualiser les valeurs des champs extraits de 10 documents sélectionnés aléatoirement dans votre collection.

Actuellement, l'outil ne permet d'extraire que du texte ou des cases à cocher (booléen). Toutes les valeurs numériques seront converties en texte/chaîne.

Paire clé-valeur

Il est préférable d'utiliser cet outil pour extraire une valeur étiquetée unique de votre collection. Exemple de résultat de cette annotation : "Pays" comme clé et "États-Unis d'Amérique" comme valeur.

Pour annoter votre document à l'aide de l'annotation clé-valeur, procédez ainsi :

  • Sélectionnez l'outil Annotation de clés-valeurs en haut de la page de l'éditeur d'annotations.
  • Dessinez un rectangle autour de la valeur que vous souhaitez extraire. Vous devez agrandir le rectangle afin qu'il puisse accueillir des valeurs contenant davantage de caractères dans les autres documents.
  • L'outil sélectionne et marque automatiquement une clé pour la valeur que vous avez sélectionnée. Vous pouvez faire glisser ce repère et le modifier pour obtenir des annotations précises.
  • Pour modifier le nom de l'en-tête de colonne dans les données extraites, vous pouvez modifier le nom du paramètre de clé dans la section "Annotations" à droite de la fenêtre.
  • Répétez la procédure pour toutes les paires clé-valeur que vous souhaitez extraire de la collection de documents.

Chaque annotation est un repère approximatif permettant à l'outil d'extraire les données de tous les documents de votre collection.

Le cas échéant, vous pouvez suivre des grilles ou des repères dans votre document. Sinon, assurez-vous d'avoir assez de place pour les valeurs plus longues.

Section répétée

Cet outil convient mieux pour extraire une section comportant des paires clé-valeur récurrentes. L'annotation peut couvrir un nombre illimité de sections répétées en continu sur plusieurs pages.

Pour annoter un document à l'aide de l'annotation "Section répétée", procédez comme suit :

  • Sélectionnez l'outil Annotation de sections répétées en haut de la page de l'éditeur d'annotations.
  • Marquez toute la hauteur de la première occurrence répétée de la section.
  • L'outil crée automatiquement une ligne à un endroit approximatif en dessous de l'instance marquée. Faites glisser la ligne jusqu'à ce que toute la section à annoter soit mise en surbrillance.
  • Saisissez le nom de la section dans le pop-up "Nom de la section répétée".
  • Cliquez sur "Enregistrer la section".
  • Sélectionnez l'outil Annotation de clés-valeurs en haut de la page de l'éditeur d'annotations.
  • Dans la plage de la première instance répétée, suivez les étapes d'annotation clé/valeur pour toutes les paires clé-valeur que vous souhaitez extraire

Tables

Cet outil est particulièrement adapté pour extraire les données stockées sous forme de tableau. Vous devrez annoter chaque tableau que vous souhaitez extraire dans le document. Notez que cet outil fonctionne pour un tableau qui couvre plusieurs pages, en incluant des en-têtes répétés.

L'outil fonctionnera mieux si le tableau annoté comporte la même dimension horizontale, le même format et les mêmes en-têtes pour tous les documents de la collection.

Pour annoter un document à l'aide de l'annotation Tables, procédez comme suit :

  • Sélectionnez l'outil Annotation de tables en haut de la page de l'éditeur d'annotations.
  • Dessinez un rectangle sur la table à partir de laquelle vous souhaitez extraire vos données. Si le tableau s'étend sur plusieurs pages, vous ne pouvez mettre en surbrillance que la première page.
  • L'outil tente de détecter approximativement la table. Si le tableau n'est pas détecté dans son ensemble, veuillez répéter l'étape de mise en surbrillance.
  • Ajustez les contours pour qu'ils correspondent à ceux du tableau. Faites glisser la ligne du bas pour mettre en surbrillance toutes les parties du tableau, y compris les en-têtes et les parties répétés des pages suivantes.  
  • Saisissez le nom de la table dans la fenêtre pop-up.
  • Indiquez si la table comporte un en-tête à l'aide du bouton d'activation dans la fenêtre pop-up.
  • Ajustez les lignes de séparation d'en-tête et de colonne pour qu'elles correspondent à la mise en forme du tableau, en marquant clairement la largeur des colonnes et la représentation des en-têtes dans le document. Vous pouvez ajouter ou supprimer des séparateurs de colonnes en effectuant un clic droit sur le séparateur.
  • Cliquez sur "Enregistrer le tableau".

Extraire et télécharger vos données

Une fois que vous êtes satisfait du résultat disponible dans le tableau de prévisualisation, vous pouvez extraire vos données en cliquant sur le bouton "Extraire" en haut à droite de la page de l'éditeur d'annotations. Cette extraction ne s'applique qu'à l'ensemble d'annotations actuel. Si vous modifiez les annotations de votre collection ultérieurement, vous devrez recommencer ce processus d'extraction.

Une fois l'extraction terminée, vous pouvez télécharger les données en cliquant sur "Télécharger". Vous obtiendrez un fichier ZIP contenant un ou plusieurs fichiers CSV, un pour chaque onglet du tableau d'aperçu et un fichier récapitulatif pour tous les documents de la collection.

Vous pouvez consulter le résultat d'une extraction en cliquant sur le lien correspondant dans le fichier récapitulatif. Consultez Examiner le résultat d'extraction.

Examiner le résultat de l'extraction

Une fois que vous avez extrait certains champs de votre collection, vous pouvez vérifier une partie de la valeur extraite et vérifier qu'elle correspond à ce que vous voyez dans le document.
Vous pouvez consulter les résultats d'extraction de chaque document de votre collection en cliquant sur le lien correspondant au document fourni dans le fichier CSV récapitulatif que vous avez téléchargé ou en cliquant sur le lien du document fourni dans le tableau d'aperçu.
La page de résultats d'extraction du document vous permet d'afficher toutes les valeurs extraites pour un seul document et de les valider vous-même.
Lorsque vous sélectionnez une zone d'annotation dans le document, le résultat extrait s'affiche dans le panneau de droite et inversement lorsque vous sélectionnez une valeur dans le panneau de droite. Le document accède à la zone d'annotation correspondante.

 

Gérer la collection annotée

Traiter à nouveau la collection annotée

Le retraitement d'une collection annotée supprime toutes les annotations que vous avez créées précédemment.

Pour répéter le traitement de l'outil Extraire les données structurées sur votre collection, procédez comme suit : 

Gérer les documents de référence

Remplacer le document de référence

Pour remplacer un document de référence par un autre, procédez comme suit : 

  • Accédez à la page de l'éditeur d'annotations de votre collection.
  • Sur la page de l'éditeur d'annotations, cliquez sur le menu (trois points).
  • Sélectionnez "Remplacer le document de référence".
  • Sélectionnez le document de votre choix, puis cliquez sur "OK"
  • Sur la page d'examen du document, cliquez sur "Définir comme document de référence" en haut à droite.
  • Sélectionnez "Remplacer un document de référence existant" et cliquez sur "OK".

L'étape suivante varie selon que la collection comporte ou non un document de référence précédemment annoté :

Ajouter un document de référence

Lorsque vous examinez les résultats de l'extraction, vous pouvez ajouter d'autres documents de référence pour tenir compte des légères différences dans le modèle de document et d'autres champs facultatifs pour annoter certains documents.

Pour ce faire, procédez comme suit : 

  • Accédez à la page d'examen des documents via le lien de l'exemple de tableau d'aperçu de l'ensemble ou dans le CSV récapitulatif principal téléchargeable.
  • Cliquez sur "Définir comme référence" en haut à droite.
  • Sélectionnez "Ajouter un document de référence", puis cliquez sur "OK".

Le processus d'annotation des documents de référence supplémentaires est différent de l'annotation standard. Pour en savoir plus, consultez Transfert d'annotations.

Supprimer un document de référence de l'ensemble

  • Sélectionnez le nom du document de référence dans la liste déroulante en haut de la page de l'éditeur d'annotations.
  • Dans le même menu déroulant, sélectionnez "Supprimer de l'ensemble de documents de référence".
  • Cliquez sur "Supprimer" dans l'invite suivante pour approuver l'action.

Transfert d'annotations

Une fois que vous avez ajouté un document de référence à l'ensemble ou remplacé un document de référence annoté existant, l'outil met en correspondance approximativement l'annotation précédente avec le nouveau document de référence. 

Si l'outil ne parvient pas à faire correspondre le champ précédemment annoté avec le nouveau document de référence, le champ est marqué comme "Attention requise" dans la section "Annotations" à droite de la page de l'éditeur d'annotations. 

Pour résoudre ce problème, vous pouvez procéder de l'une des façons suivantes :

  • Si le champ est disponible dans le nouveau document de référence :
    1. Ajoutez l'annotation pour ce champ
    2. Sélectionnez la clé-valeur "Résoudre un problème nécessitant votre attention" dans la fenêtre de l'invite.
    3. Sélectionnez le nom du champ dans la liste déroulante.
    4. Cliquez sur OK.
  • Si le champ n'est pas disponible dans le nouveau document de référence :
    1. Dans la section "Annotations", sélectionnez le champ qui requiert votre attention.
    2. Cliquez sur pour marquer le champ comme étant manquant dans le nouveau document de référence. 

Si des données du nouveau document de référence ne sont pas disponibles dans la section "Annotations", vous pouvez annoter manuellement les données pour les ajouter uniquement au nouveau document de référence.

Modifier l'annotation

Modifier le nom ou le type d'un champ

  • Cochez la case de champ dans la section Annotations à droite de la page de l'éditeur d'annotations.
  • Modifiez le nom ou le type de champ directement dans la zone de champ.
  • Cliquez sur "OK" dans l'invite suivante.
La modification du nom ou du type de champ s'applique globalement à tous les documents de référence de la collection.

Ajuster l'annotation clé-valeur

  • Cliquez sur la zone d'annotation de valeur à ajuster.
  • Faites glisser et déplacez la zone sélectionnée ou ajustez la dimension en déplaçant les bords.
  • S'applique uniquement au document de référence modifié.

Ajuster les annotations de section répétée

  • Cliquez n'importe où sur l'annotation de section répétée que vous souhaitez ajuster.
  • Ajustez la dimension des sections en déplaçant les lignes de séparation verticalement.
  • S'applique uniquement au document de référence modifié. 

Ajuster l'annotation de table

  • Cliquez n'importe où sur la zone d'annotation du tableau que vous souhaitez ajuster.
  • Faites glisser et déplacez les lignes dans la zone pour ajuster la dimension, la largeur des colonnes et la ligne d'en-tête.
  • S'applique uniquement au document de référence modifié.

Supprimer une annotation

Pour supprimer une annotation de tous les documents de référence, procédez comme suit :

  • Sélectionnez un champ dans la section "Annotations" à droite de la page de l'éditeur d'annotations.
  • Cliquez sur et confirmez que vous souhaitez supprimer le champ de tous les documents de référence.
Menu principal
7536071236650204719
true
Rechercher dans le centre d'aide
true
true
true
false
false