Extract Structured Data Using Google's Pinpoint
Vous pouvez utiliser Pinpoint pour extraire des données structurées d'une collection de documents PDF au format similaire numérisés ou scannés dans un ensemble de feuilles de calcul.
Cette fonctionnalité fournit de meilleurs résultats avec les collections présentant ces attributs :
- Même modèle
- Même ordre de lecture (de gauche à droite ou de droite à gauche uniquement)
- Format de formulaire ou tabulaire, ou une combinaison des deux
Par exemple, si vous avez scanné 10 000 rapports d'accident de voiture dans un formulaire similaire, vous pouvez importer les numérisations et exporter une feuille de calcul pour regrouper, trier ou filtrer les accidents par date, constructeur automobile ou tout autre champ présent dans les documents sources.
Préparer votre collection Pinpoint
- Accédez à la collection contenant les documents à partir desquels vous souhaitez extraire les données structurées.
- Si vous ne disposez d'aucune collection à traiter dans Pinpoint, créez une collection avec les documents à partir desquels vous souhaitez extraire les données structurées.
- Assurez-vous que votre collection a été entièrement traitée par Pinpoint. Le traitement peut durer jusqu'à 24 heures selon le nombre de fichiers et leur taille.
- Cliquez sur le lien "Extraire les données structurées" en bas à gauche de la vue "Collection".
- Cliquez sur le bouton "Traiter la collection". Le traitement peut prendre de quelques secondes à plusieurs heures, selon la taille de votre collection.
- Une fois le traitement terminé, cliquez sur "Annoter la collection".
Si vous ajoutez des documents à la collection Pinpoint traitée, vous devrez la traiter à nouveau. Pour en savoir plus, consultez Traiter à nouveau une collection annotée.
Choisir le document de référence
L'outil d'extraction de données structurées vous redirige vers la page de l'éditeur d'annotations et sélectionne automatiquement un document de référence pour vous. Il s'agit d'un document unique dans lequel vous créez un modèle d'annotation à appliquer à tous les documents de la même collection.
Si vous pensez que le document de référence sélectionné n'est pas le plus adapté à l'annotation, vous pouvez le remplacer par un autre document de la collection. Consultez Remplacer le document de référence.
Si le modèle de document de votre collection contient de nombreux champs facultatifs, nous vous recommandons de choisir le document contenant le plus de champs facultatifs disponibles comme document de référence, afin d'assurer une compatibilité optimale avec tous les documents de la collection.
Dans les rares cas où tous les champs souhaités ne sont pas couverts dans un seul document de référence, vous pouvez ensuite ajouter d'autres documents de référence pour couvrir des champs facultatifs supplémentaires. Consultez Ajouter un document de référence.
Annoter une collection
La page de l'éditeur d'annotations est divisée en quatre sections principales :
- Éditeur principal
Il s'agit de la section principale de la page, dans laquelle vous allez annoter des documents. Le document de référence et les annotations ajoutées s'affichent dans cette section. - Barre d'outils
Cette section se trouve en haut de la page. Elle contient le menu d'actions de la page de l'éditeur d'annotations, y compris le nom du document de référence sur lequel vous travaillez. - Liste d'annotations
Cette section se trouve à droite de la page. Elle contient la liste des annotations que vous avez créées dans le document de référence. - Aperçu du tableau
Cette section se trouve en bas de la page . Vous pouvez y prévisualiser les valeurs des champs extraits de 10 documents sélectionnés aléatoirement dans votre collection.
Actuellement, l'outil ne prend en charge que l'extraction au format texte ou case à cocher (booléen). Toutes les valeurs numériques seront converties en texte/chaîne.
Paire clé-valeur
Cet outil est idéal pour extraire une seule valeur libellée de votre collection. Exemple de résultat pour cette annotation : "Pays" comme clé et "États-Unis" comme valeur.
Pour annoter votre document à l'aide de l'annotation "Paire clé-valeur", procédez ainsi :
- Sélectionnez l'outil "Annotation de paire clé-valeur" en haut de la page de l'éditeur d'annotations.
- Dessinez un rectangle autour de la valeur que vous souhaitez extraire. Vous devez agrandir le rectangle afin qu'il puisse accueillir des valeurs contenant davantage de caractères dans les autres documents.
- L'outil sélectionne et marque automatiquement une clé pour la valeur que vous avez sélectionnée. Vous pouvez faire glisser ce repère et le modifier pour obtenir des annotations précises.
- Pour modifier le nom de l'en-tête de colonne dans les données extraites, vous pouvez modifier le nom du paramètre de clé dans la section "Annotations" à droite de la fenêtre.
- Répétez la procédure pour toutes les paires clé-valeur que vous souhaitez extraire de votre collection de documents.
Chaque annotation est un repère approximatif permettant à l'outil d'extraire les données de tous les documents de votre collection.
Lorsque des repères ou des grilles sont disponibles, vous pouvez les suivre dans votre document. Sinon, assurez-vous d'avoir assez de place pour les valeurs plus longues.
Section répétée
Cet outil est idéal pour extraire une section contenant une ou plusieurs paires clé-valeur répétées. L'annotation pourra couvrir un nombre illimité de sections répétées continues sur plusieurs pages.
Pour annoter un document à l'aide de l'annotation "Section répétée", procédez comme suit :
- Sélectionnez l'outil "Annotation de section répétée" en haut de la page de l'éditeur d'annotations.
- Marquez la hauteur de la première instance répétée de la section.
- L'outil crée automatiquement une ligne à un endroit approximatif en dessous de l'instance marquée. Faites glisser la ligne jusqu'à ce que toute la section que vous souhaitez annoter soit mise en surbrillance.
- Saisissez le nom de la section dans le pop-up "Nom de la section répétée".
- Cliquez sur "Enregistrer la section".
- Sélectionnez l'outil "Annotation de paire clé-valeur" en haut de la page de l'éditeur d'annotations.
- Dans la plage de la première instance répétée, suivez les étapes d'annotation des paires clé-valeur pour toutes les paires que vous souhaitez extraire.
Tableaux
Cet outil est idéal pour extraire des données stockées au format tabulaire. Vous devrez annoter chaque tableau que vous souhaitez extraire dans le document. Notez que l'outil fonctionne pour un tableau qui s'étend sur plusieurs pages, y compris avec des en-têtes répétés.
L'outil fonctionnera mieux si le tableau annoté présente les mêmes dimensions horizontales, le même format et les mêmes en-têtes dans tous les documents de la collection.
Pour annoter un document à l'aide de l'annotation "Tableaux", procédez comme suit :
- Sélectionnez l'outil "Annotation de tableaux" en haut de la page de l'éditeur d'annotations.
- Dessinez un rectangle sur le tableau à partir duquel vous souhaitez extraire vos données. S'il s'étend sur plusieurs pages, vous ne pouvez mettre en surbrillance que la première page.
- L'outil tente de détecter approximativement le tableau. S'il n'est pas détecté dans son ensemble, veuillez répéter l'étape de mise en surbrillance.
- Ajustez le contour pour qu'il corresponde à celui du tableau. Faites glisser la ligne du bas pour mettre en surbrillance toutes les parties du tableau, y compris les en-têtes et les parties répétés des pages suivantes.
- Saisissez le nom du tableau dans la fenêtre pop-up.
- Indiquez si le tableau comporte un en-tête à l'aide du bouton bascule dans la fenêtre pop-up.
- Ajustez les lignes de séparation d'en-tête et de colonne pour qu'elles correspondent à la mise en forme du tableau, en marquant clairement la largeur des colonnes et la représentation des en-têtes dans le document. Vous pouvez ajouter ou supprimer des séparateurs de colonnes en effectuant un clic droit sur le séparateur.
- Cliquez sur "Enregistrer le tableau".
Extraire et télécharger vos données
Une fois que vous êtes satisfait du résultat affiché dans l'aperçu du tableau, vous pouvez extraire vos données en cliquant sur le bouton "Extraire" en haut à droite de la page de l'éditeur d'annotations. Cette extraction ne s'applique qu'à l'ensemble d'annotations actuel. Si vous modifiez ultérieurement les annotations de votre collection, vous devrez répéter ce processus d'extraction.
Une fois l'extraction terminée, vous pouvez télécharger les données en cliquant sur "Télécharger". Vous obtiendrez un fichier ZIP contenant un ou plusieurs fichiers CSV (un pour chaque onglet de l'aperçu du tableau) et un fichier récapitulatif pour tous les documents de la collection.
Pour examiner le résultat de l'extraction d'un document, cliquez sur le lien correspondant à ce document dans le fichier récapitulatif. Consultez Examiner le résultat de l'extraction.
Examiner le résultat de l'extraction
Gérer une collection annotée
Traiter à nouveau une collection annotée
Pour répéter le traitement de l'outil "Extraire les données structurées" sur votre collection, procédez comme suit :
- Accédez à la page de l'éditeur d'annotations pour votre collection.
- Sur la page de l'éditeur d'annotations, cliquez sur le menu à trois points
.
- Sélectionnez "Retraiter la collection".
- Ensuite, choisissez le ou les documents de référence, puis annotez votre collection.
Gérer les documents de référence
Remplacer le document de référence
Pour remplacer un document de référence par un autre, procédez comme suit :
- Accédez à la page de l'éditeur d'annotations pour votre collection.
- Sur la page de l'éditeur d'annotations, cliquez sur le menu à trois points
.
- Sélectionnez "Remplacer le document de référence".
- Sélectionnez le document de votre choix, puis cliquez sur "OK".
- Sur la page de vérification du document, cliquez sur "Définir comme document de référence" en haut à droite.
- Sélectionnez "Remplacer un document de référence existant" et cliquez sur "OK".
L'étape suivante varie selon que la collection comporte ou non un document de référence précédemment annoté :
- Si c'est le cas, consultez Transfert d'annotations.
- Si ce n'est pas le cas, commencez à annoter votre document de référence.
Ajouter un document de référence
Lorsque vous examinez les résultats de l'extraction, vous pouvez ajouter d'autres documents de référence pour tenir compte des légères différences dans le modèle de document et d'autres champs facultatifs afin d'annoter certains documents.
Pour ce faire, procédez comme suit :
- Accédez à la page de vérification des documents dont le lien figure dans l'aperçu du tableau de l'ensemble d'échantillons ou dans le fichier CSV récapitulatif principal téléchargeable.
- Cliquez sur "Définir comme document de référence" en haut à droite.
- Sélectionnez "Ajouter un document de référence", puis cliquez sur "OK".
Le processus d'annotation des documents de référence supplémentaires est différent de l'annotation standard. Pour en savoir plus, consultez Transfert d'annotations.
Supprimer un document de référence de l'ensemble
- Sélectionnez le nom du document de référence dans la liste déroulante en haut de la page de l'éditeur d'annotations.
- Dans le même menu déroulant, sélectionnez "Supprimer de l'ensemble de documents de référence".
- Cliquez sur "Supprimer" dans l'invite de commande suivante pour approuver l'action.
Transfert d'annotations
Une fois que vous avez ajouté un document de référence à l'ensemble ou remplacé un document de référence annoté existant, l'outil met approximativement en correspondance l'annotation précédente avec le nouveau document de référence.
Si l'outil ne parvient pas à faire correspondre le champ précédemment annoté avec le nouveau document de référence, le champ est marqué comme "Attention requise" dans la section "Annotations" à droite de la page de l'éditeur d'annotations.
Pour résoudre ce problème, vous pouvez procéder de l'une des façons suivantes :
- Si le champ est disponible dans le nouveau document de référence :
- Ajoutez l'annotation pour ce champ.
- Sélectionnez "Résoudre un problème de type Attention requise pour une paire clé-valeur" dans la fenêtre de l'invite.
- Sélectionnez le nom du champ dans le menu déroulant.
- Cliquez sur "OK".
- Si le champ n'est pas disponible dans le nouveau document de référence :
- Sélectionnez la zone de champ qui nécessite votre attention dans la section "Annotations".
- Cliquez sur
pour marquer le champ comme étant manquant dans le nouveau document de référence.
Si des données du nouveau document de référence ne sont pas disponibles dans la section "Annotations", vous pouvez annoter manuellement les données pour les ajouter uniquement au nouveau document de référence.
Modifier une annotation
Modifier le nom ou le type d'un champ
- Sélectionnez la zone de champ dans la section "Annotations" à droite de la page de l'éditeur d'annotations.
- Modifiez le nom ou le type de champ directement dans la zone de champ.
- Cliquez sur "OK" dans l'invite suivante.
Ajuster une annotation de paire clé-valeur
- Cliquez sur la zone d'annotation de valeur que vous souhaitez ajuster.
- Faites glisser et déplacez la zone sélectionnée ou ajustez les dimensions en déplaçant les bords.
- Le changement s'applique uniquement au document de référence en cours de modification.
Ajuster une annotation de section répétée
- Cliquez n'importe où sur l'annotation de section répétée que vous souhaitez ajuster.
- Ajustez les dimensions des sections en déplaçant les lignes de séparation verticalement.
- Le changement s'applique uniquement au document de référence en cours de modification.
Ajuster une annotation de tableau
- Cliquez n'importe où dans la zone de l'annotation de tableau que vous souhaitez ajuster.
- Faites glisser et déplacez les lignes dans la zone pour ajuster les dimensions, la largeur des colonnes et la ligne d'en-tête.
- Le changement s'applique uniquement au document de référence en cours de modification.
Supprimer une annotation
Pour supprimer une annotation de tous les documents de référence, procédez comme suit :
- Sélectionnez un champ dans la section "Annotations" à droite de la page de l'éditeur d'annotations.
- Cliquez sur
et confirmez que vous souhaitez supprimer le champ de tous les documents de référence.