Extraire des données structurées de votre collection

Cette fonctionnalité est disponible en version bêta. Nous évaluons activement la facilité d'utilisation et la qualité de cette fonctionnalité. Faites-nous part de vos commentaires depuis la page Obtenir de l'aide avec Pinpoint.

Extract Structured Data Using Google's Pinpoint

Vous pouvez utiliser Pinpoint pour extraire des données structurées d'une collection de documents PDF au format similaire numérisés ou scannés dans un ensemble de feuilles de calcul.

Cette fonctionnalité fournit de meilleurs résultats avec les collections présentant ces attributs :

  • Même modèle
  • Même ordre de lecture (de gauche à droite ou de droite à gauche uniquement)
  • Format de formulaire ou tabulaire, ou une combinaison des deux

Par exemple, si vous avez scanné 10 000 rapports d'accident de voiture dans un formulaire similaire, vous pouvez importer les numérisations et exporter une feuille de calcul pour regrouper, trier ou filtrer les accidents par date, constructeur automobile ou tout autre champ présent dans les documents sources.

Préparer votre collection Pinpoint

  • Accédez à la collection contenant les documents à partir desquels vous souhaitez extraire les données structurées.
  • Si vous ne disposez d'aucune collection à traiter dans Pinpoint, créez une collection avec les documents à partir desquels vous souhaitez extraire les données structurées.
  • Assurez-vous que votre collection a été entièrement traitée par Pinpoint. Le traitement peut durer jusqu'à 24 heures selon le nombre de fichiers et leur taille.
  • Cliquez sur le lien "Extraire les données structurées" en bas à gauche de la vue "Collection".
  • Cliquez sur le bouton "Traiter la collection". Le traitement peut prendre de quelques secondes à plusieurs heures, selon la taille de votre collection.
  • Une fois le traitement terminé, cliquez sur "Annoter la collection".

Si vous ajoutez des documents à la collection Pinpoint traitée, vous devrez la traiter à nouveau. Pour en savoir plus, consultez Traiter à nouveau une collection annotée.

Choisir le document de référence

L'outil d'extraction de données structurées vous redirige vers la page de l'éditeur d'annotations et sélectionne automatiquement un document de référence pour vous. Il s'agit d'un document unique dans lequel vous créez un modèle d'annotation à appliquer à tous les documents de la même collection.

Si vous pensez que le document de référence sélectionné n'est pas le plus adapté à l'annotation, vous pouvez le remplacer par un autre document de la collection. Consultez Remplacer le document de référence.

Si le modèle de document de votre collection contient de nombreux champs facultatifs, nous vous recommandons de choisir le document contenant le plus de champs facultatifs disponibles comme document de référence, afin d'assurer une compatibilité optimale avec tous les documents de la collection.

Dans les rares cas où tous les champs souhaités ne sont pas couverts dans un seul document de référence, vous pouvez ensuite ajouter d'autres documents de référence pour couvrir des champs facultatifs supplémentaires. Consultez Ajouter un document de référence.

Annoter une collection

La page de l'éditeur d'annotations est divisée en quatre sections principales :

  1. Éditeur principal
    Il s'agit de la section principale de la page, dans laquelle vous allez annoter des documents. Le document de référence et les annotations ajoutées s'affichent dans cette section.
  2. Barre d'outils
    Cette section se trouve en haut de la page. Elle contient le menu d'actions de la page de l'éditeur d'annotations, y compris le nom du document de référence sur lequel vous travaillez.
  3. Liste d'annotations
    Cette section se trouve à droite de la page. Elle contient la liste des annotations que vous avez créées dans le document de référence.
  4. Aperçu du tableau
    Cette section se trouve en bas de la page . Vous pouvez y prévisualiser les valeurs des champs extraits de 10 documents sélectionnés aléatoirement dans votre collection.

Actuellement, l'outil ne prend en charge que l'extraction au format texte ou case à cocher (booléen). Toutes les valeurs numériques seront converties en texte/chaîne.

Paire clé-valeur

Cet outil est idéal pour extraire une seule valeur libellée de votre collection. Exemple de résultat pour cette annotation : "Pays" comme clé et "États-Unis" comme valeur.

Pour annoter votre document à l'aide de l'annotation "Paire clé-valeur", procédez ainsi :

  • Sélectionnez l'outil "Annotation de paire clé-valeur" en haut de la page de l'éditeur d'annotations.
  • Dessinez un rectangle autour de la valeur que vous souhaitez extraire. Vous devez agrandir le rectangle afin qu'il puisse accueillir des valeurs contenant davantage de caractères dans les autres documents.
  • L'outil sélectionne et marque automatiquement une clé pour la valeur que vous avez sélectionnée. Vous pouvez faire glisser ce repère et le modifier pour obtenir des annotations précises.
  • Pour modifier le nom de l'en-tête de colonne dans les données extraites, vous pouvez modifier le nom du paramètre de clé dans la section "Annotations" à droite de la fenêtre.
  • Répétez la procédure pour toutes les paires clé-valeur que vous souhaitez extraire de votre collection de documents.

Chaque annotation est un repère approximatif permettant à l'outil d'extraire les données de tous les documents de votre collection.

Lorsque des repères ou des grilles sont disponibles, vous pouvez les suivre dans votre document. Sinon, assurez-vous d'avoir assez de place pour les valeurs plus longues.

Section répétée

Cet outil est idéal pour extraire une section contenant une ou plusieurs paires clé-valeur répétées. L'annotation pourra couvrir un nombre illimité de sections répétées continues sur plusieurs pages.

Pour annoter un document à l'aide de l'annotation "Section répétée", procédez comme suit :

  • Sélectionnez l'outil "Annotation de section répétée" en haut de la page de l'éditeur d'annotations.
  • Marquez la hauteur de la première instance répétée de la section.
  • L'outil crée automatiquement une ligne à un endroit approximatif en dessous de l'instance marquée. Faites glisser la ligne jusqu'à ce que toute la section que vous souhaitez annoter soit mise en surbrillance.
  • Saisissez le nom de la section dans le pop-up "Nom de la section répétée".
  • Cliquez sur "Enregistrer la section".
  • Sélectionnez l'outil "Annotation de paire clé-valeur" en haut de la page de l'éditeur d'annotations.
  • Dans la plage de la première instance répétée, suivez les étapes d'annotation des paires clé-valeur pour toutes les paires que vous souhaitez extraire.

Tableaux

Cet outil est idéal pour extraire des données stockées au format tabulaire. Vous devrez annoter chaque tableau que vous souhaitez extraire dans le document. Notez que l'outil fonctionne pour un tableau qui s'étend sur plusieurs pages, y compris avec des en-têtes répétés.

L'outil fonctionnera mieux si le tableau annoté présente les mêmes dimensions horizontales, le même format et les mêmes en-têtes dans tous les documents de la collection.

Pour annoter un document à l'aide de l'annotation "Tableaux", procédez comme suit :

  • Sélectionnez l'outil "Annotation de tableaux" en haut de la page de l'éditeur d'annotations.
  • Dessinez un rectangle sur le tableau à partir duquel vous souhaitez extraire vos données. S'il s'étend sur plusieurs pages, vous ne pouvez mettre en surbrillance que la première page.
  • L'outil tente de détecter approximativement le tableau. S'il n'est pas détecté dans son ensemble, veuillez répéter l'étape de mise en surbrillance.
  • Ajustez le contour pour qu'il corresponde à celui du tableau. Faites glisser la ligne du bas pour mettre en surbrillance toutes les parties du tableau, y compris les en-têtes et les parties répétés des pages suivantes.
  • Saisissez le nom du tableau dans la fenêtre pop-up.
  • Indiquez si le tableau comporte un en-tête à l'aide du bouton bascule dans la fenêtre pop-up.
  • Ajustez les lignes de séparation d'en-tête et de colonne pour qu'elles correspondent à la mise en forme du tableau, en marquant clairement la largeur des colonnes et la représentation des en-têtes dans le document. Vous pouvez ajouter ou supprimer des séparateurs de colonnes en effectuant un clic droit sur le séparateur.
  • Cliquez sur "Enregistrer le tableau".

Extraire et télécharger vos données

Une fois que vous êtes satisfait du résultat affiché dans l'aperçu du tableau, vous pouvez extraire vos données en cliquant sur le bouton "Extraire" en haut à droite de la page de l'éditeur d'annotations. Cette extraction ne s'applique qu'à l'ensemble d'annotations actuel. Si vous modifiez ultérieurement les annotations de votre collection, vous devrez répéter ce processus d'extraction.

Une fois l'extraction terminée, vous pouvez télécharger les données en cliquant sur "Télécharger". Vous obtiendrez un fichier ZIP contenant un ou plusieurs fichiers CSV (un pour chaque onglet de l'aperçu du tableau) et un fichier récapitulatif pour tous les documents de la collection.

Pour examiner le résultat de l'extraction d'un document, cliquez sur le lien correspondant à ce document dans le fichier récapitulatif. Consultez Examiner le résultat de l'extraction.

Examiner le résultat de l'extraction

Après avoir extrait certains champs de votre collection, vous pouvez vérifier certaines des valeurs extraites et voir si elles correspondent à ce que vous voyez dans le document.
Vous pouvez consulter les résultats de l'extraction pour chaque document de votre collection en cliquant sur le lien correspondant dans le fichier CSV récapitulatif que vous avez téléchargé ou sur le lien du document dans l'aperçu du tableau.
La page de résultats d'extraction du document vous permet d'afficher toutes les valeurs extraites pour un seul document et de les valider vous-même.
Si vous sélectionnez une zone d'annotation dans le document, le résultat extrait s'affiche dans le panneau latéral de droite. Inversement, si vous sélectionnez une valeur dans le panneau latéral de droite, le document accède à la zone d'annotation correspondante.

Gérer une collection annotée

Traiter à nouveau une collection annotée

Si vous retraitez une collection annotée, toutes les annotations que vous avez ajoutées précédemment seront supprimées.

Pour répéter le traitement de l'outil "Extraire les données structurées" sur votre collection, procédez comme suit :

Gérer les documents de référence

Remplacer le document de référence

Pour remplacer un document de référence par un autre, procédez comme suit :

  • Accédez à la page de l'éditeur d'annotations pour votre collection.
  • Sur la page de l'éditeur d'annotations, cliquez sur le menu à trois points .
  • Sélectionnez "Remplacer le document de référence".
  • Sélectionnez le document de votre choix, puis cliquez sur "OK".
  • Sur la page de vérification du document, cliquez sur "Définir comme document de référence" en haut à droite.
  • Sélectionnez "Remplacer un document de référence existant" et cliquez sur "OK".

L'étape suivante varie selon que la collection comporte ou non un document de référence précédemment annoté :

Ajouter un document de référence

Lorsque vous examinez les résultats de l'extraction, vous pouvez ajouter d'autres documents de référence pour tenir compte des légères différences dans le modèle de document et d'autres champs facultatifs afin d'annoter certains documents.

Pour ce faire, procédez comme suit :

  • Accédez à la page de vérification des documents dont le lien figure dans l'aperçu du tableau de l'ensemble d'échantillons ou dans le fichier CSV récapitulatif principal téléchargeable.
  • Cliquez sur "Définir comme document de référence" en haut à droite.
  • Sélectionnez "Ajouter un document de référence", puis cliquez sur "OK".

Le processus d'annotation des documents de référence supplémentaires est différent de l'annotation standard. Pour en savoir plus, consultez Transfert d'annotations.

Supprimer un document de référence de l'ensemble

  • Sélectionnez le nom du document de référence dans la liste déroulante en haut de la page de l'éditeur d'annotations.
  • Dans le même menu déroulant, sélectionnez "Supprimer de l'ensemble de documents de référence".
  • Cliquez sur "Supprimer" dans l'invite de commande suivante pour approuver l'action.

Transfert d'annotations

Une fois que vous avez ajouté un document de référence à l'ensemble ou remplacé un document de référence annoté existant, l'outil met approximativement en correspondance l'annotation précédente avec le nouveau document de référence.

Si l'outil ne parvient pas à faire correspondre le champ précédemment annoté avec le nouveau document de référence, le champ est marqué comme "Attention requise" dans la section "Annotations" à droite de la page de l'éditeur d'annotations.

Pour résoudre ce problème, vous pouvez procéder de l'une des façons suivantes :

  • Si le champ est disponible dans le nouveau document de référence :
    1. Ajoutez l'annotation pour ce champ.
    2. Sélectionnez "Résoudre un problème de type Attention requise pour une paire clé-valeur" dans la fenêtre de l'invite.
    3. Sélectionnez le nom du champ dans le menu déroulant.
    4. Cliquez sur "OK".
  • Si le champ n'est pas disponible dans le nouveau document de référence :
    1. Sélectionnez la zone de champ qui nécessite votre attention dans la section "Annotations".
    2. Cliquez sur pour marquer le champ comme étant manquant dans le nouveau document de référence.

Si des données du nouveau document de référence ne sont pas disponibles dans la section "Annotations", vous pouvez annoter manuellement les données pour les ajouter uniquement au nouveau document de référence.

Modifier une annotation

Modifier le nom ou le type d'un champ

  • Sélectionnez la zone de champ dans la section "Annotations" à droite de la page de l'éditeur d'annotations.
  • Modifiez le nom ou le type de champ directement dans la zone de champ.
  • Cliquez sur "OK" dans l'invite suivante.
La modification du nom ou du type de champ s'applique à tous les documents de référence de la collection.

Ajuster une annotation de paire clé-valeur

  • Cliquez sur la zone d'annotation de valeur que vous souhaitez ajuster.
  • Faites glisser et déplacez la zone sélectionnée ou ajustez les dimensions en déplaçant les bords.
  • Le changement s'applique uniquement au document de référence en cours de modification.

Ajuster une annotation de section répétée

  • Cliquez n'importe où sur l'annotation de section répétée que vous souhaitez ajuster.
  • Ajustez les dimensions des sections en déplaçant les lignes de séparation verticalement.
  • Le changement s'applique uniquement au document de référence en cours de modification.

Ajuster une annotation de tableau

  • Cliquez n'importe où dans la zone de l'annotation de tableau que vous souhaitez ajuster.
  • Faites glisser et déplacez les lignes dans la zone pour ajuster les dimensions, la largeur des colonnes et la ligne d'en-tête.
  • Le changement s'applique uniquement au document de référence en cours de modification.

Supprimer une annotation

Pour supprimer une annotation de tous les documents de référence, procédez comme suit :

  • Sélectionnez un champ dans la section "Annotations" à droite de la page de l'éditeur d'annotations.
  • Cliquez sur et confirmez que vous souhaitez supprimer le champ de tous les documents de référence.
Applications Google
Menu principal
8262976526327944226
true
Rechercher dans le centre d'aide
false
true
true
true
false
false
false
false