Estrarre i dati strutturati da una raccolta

Questa funzionalità è in versione beta. Stiamo esaminando attivamente l'usabilità e la qualità di questa funzionalità. Invia il tuo feedback all'indirizzo pinpoint-support@google.com.

Puoi usare Pinpoint per estrarre i dati strutturati da una raccolta di documenti PDF sottoposti a scansione o digitalizzati in formato simile in un insieme di fogli di lavoro.

Questa funzionalità funziona al meglio con le raccolte che presentano questi attributi

  • Condividono lo stesso modello.
  • Condividono lo stesso ordine di lettura (solo da sinistra a destra o da destra a sinistra).
  • Utilizzano un formato tabulare o tipo modulo oppure la combinazione di entrambi.

Ad esempio, se hai 10.000 report sugli incidenti automobilistici sottoposti a scansione che utilizzano un modulo simile, puoi importare le scansioni ed esportare un foglio di lavoro che ti consente di raggruppare, ordinare o filtrare gli incidenti per data, casa automobilistica o qualsiasi altro campo fornito nei documenti di origine.

Per usare questa funzionalità devi avere l'accesso completo a Pinpoint. Se non hai l'accesso completo, puoi richiederlo usando questo modulo.

 

Preparare la raccolta di Pinpoint

  • Vai alla raccolta composta dai documenti da cui vuoi estrarre i dati strutturati.
  • Se in Pinpoint non hai una raccolta per l'elaborazione, crea una nuova raccolta con i documenti da cui vuoi estrarre i dati strutturati.
  • Assicurati che la raccolta sia stata completamente elaborata da Pinpoint. A seconda delle dimensioni e del numero di file, l'elaborazione può richiedere fino a 24 ore.
  • Fai clic sul link "Estrai i dati strutturati" in basso a sinistra nella visualizzazione della raccolta.
  • Fai clic sul pulsante "Elabora la raccolta". L'elaborazione può richiedere da pochi secondi a diverse ore, a seconda delle dimensioni della raccolta.
  • Al termine dell'elaborazione, fai clic su "Annota la raccolta"

Se aggiungi documenti alla raccolta di Pinpoint che hai elaborato, dovrai rielaborarla. Per maggiori dettagli, consulta la sezione "Rielaborare una raccolta con annotazioni".

Scegliere un documento dorato

Lo strumento Estrai dati strutturati ti reindirizzerà alla pagina dell'editor delle annotazioni e selezionerà automaticamente un documento "dorato". Si tratta di un documento singolo in cui crei un modello di annotazione da applicare a tutti i documenti della stessa raccolta.

Se ritieni che il documento dorato selezionato non sia il più adatto per l'annotazione, puoi sostituirlo con un altro documento della raccolta. Consulta la sezione "Sostituire un documento dorato"

Se il modello di documento nella raccolta contiene molti campi facoltativi, ti consigliamo di scegliere il documento con il maggior numero di campi facoltativi disponibile come documento dorato per garantire la massima compatibilità corrispondente con tutti i documenti della raccolta.

Nel raro caso in cui non tutti i campi desiderati siano contenuti in un unico documento dorato, puoi aggiungere altri documenti dorati per inserire altri campi facoltativi. Vedi "Aggiungere un documento dorato".

Annotare una raccolta

La pagina dell'editor delle annotazioni è suddivisa in quattro sezioni principali:

  1. Editor principale
    Questa è la parte più importante della pagina in cui aggiungerai le annotazioni al documento. In questa sezione vedrai il documento dorato e le annotazioni che hai aggiunto.
     
  2. Barra degli strumenti
    Questa sezione si trova nella parte superiore della pagina, dove puoi trovare tutti i menu Azioni per la pagina dell'editor delle annotazioni, incluso il nome del documento dorato su cui stai lavorando.
     
  3. Elenco annotazioni
    Questa sezione si trova sul lato destro della pagina. Qui vedi l'elenco delle annotazioni che hai creato nel documento dorato.
     
  4. Tabella di anteprima
    Questa sezione si trova nella parte inferiore della pagina. Qui vedi l'anteprima dei valori dei campi estratti da 10 documenti selezionati casualmente nella raccolta.

Attualmente, lo strumento supporta solo l'estrazione in testo o casella di controllo (booleana). Tutti i valori numerici verranno convertiti in testo/stringa.

Coppia chiave-valore

Questo strumento è ideale per estrarre un singolo valore etichettato dalla raccolta. Un esempio di risultato di questa annotazione è "Paese" come chiave e "Stati Uniti d'America" come valore.

Per annotare il documento usando l'annotazione della coppia chiave-valore:

  • Seleziona lo strumento di annotazione Coppia chiave/valore nella parte superiore della pagina dell'editor delle annotazioni.
  • Disegna un rettangolo attorno al valore che vuoi estrarre. Il rettangolo dovrebbe essere più lungo per inserire valori con più caratteri in altri documenti.
  • Lo strumento seleziona e contrassegna automaticamente una chiave per il valore selezionato. Puoi trascinare e modificare questo indicatore per ottenere un'annotazione precisa.
  • Per cambiare il nome dell'intestazione della colonna nei dati estratti, puoi modificare il nome del parametro della chiave nella sezione Annotazioni sul lato destro della finestra.
  • Ripeti i passaggi per tutte le coppie chiave-valore che vuoi estrarre dalla raccolta di documenti.

Ogni annotazione è un indicatore approssimativo dello strumento che consente di estrarre i dati da tutti i documenti della raccolta.

Se disponibili, puoi seguire le griglie o gli indicatori nel documento. In caso contrario, assicurati di consentire valori più lunghi.

Sezione ripetuta

Questo strumento è ideale per estrarre una sezione con coppie chiave-valore ripetute. L'annotazione potrà coprire un numero qualsiasi di sezioni ripetute continue su più pagine.

Per annotare il documento usando l'annotazione Sezione ripetuta:

  • Seleziona lo strumento di annotazione Sezione ripetuta nella parte superiore della pagina dell'editor delle annotazioni.
  • Contrassegna l'altezza della prima istanza ripetuta della sezione.
  • Lo strumento creerà automaticamente una riga approssimativamente sotto l'istanza contrassegnata. Trascina la riga finché non viene evidenziata l'intera sezione a cui vuoi aggiungere un'annotazione.
  • Inserisci il nome della sezione nel popup "Nome della sezione ripetuta".
  • Fai clic su "Salva sezione".
  • Seleziona lo strumento di annotazione Coppia chiave/valore nella parte superiore della pagina dell'editor delle annotazioni.
  • Nell'intervallo della prima istanza ripetuta, segui i passaggi relativi alle annotazioni della coppia chiave/valore per tutte le coppie chiave-valore che vuoi estrarre.

Tabelle

Questo strumento è ideale per estrarre i dati archiviati in formato tabulare. Dovrai annotare ogni tabella che vuoi estrarre nel documento. Tieni presente che lo strumento funziona con le tabelle estese su più pagine, comprese le intestazioni ripetute.

Lo strumento funzionerà al meglio se la tabella con le annotazioni ha la stessa dimensione orizzontale, lo stesso formato e le stesse intestazioni in tutti i documenti all'interno della raccolta.

Per aggiungere annotazioni al documento utilizzando l'annotazione Tabelle:

  • Seleziona lo strumento di annotazione Tabelle nella parte superiore della pagina dell'editor delle annotazioni.
  • Disegna un rettangolo sulla tabella da cui vuoi estrarre i dati. Se la tabella si estende su più pagine, puoi evidenziare solo la prima pagina della tabella.
  • Lo strumento proverà a rilevare approssimativamente la tabella. Se la tabella non viene grossomodo rilevata, ripeti il passaggio dell'evidenziazione.
  • Regola il contorno in modo che corrisponda a quello della tabella. Trascina la riga inferiore in modo che tutte le parti della tabella siano evidenziate, comprese le intestazioni ripetute e le parti che si trovano nelle pagine successive.  
  • Digita il nome della tabella nella finestra popup.
  • Indica se la tabella ha un'intestazione usando il pulsante di attivazione/disattivazione nella finestra popup.
  • Regola le linee che separano le intestazioni e le colonne in modo che corrispondano alla formattazione della tabella, contrassegnando in modo chiaro la rappresentazione della larghezza delle colonne e delle intestazioni delle tabelle nel documento. Puoi aggiungere o eliminare i separatori delle colonne selezionandoli e facendo clic con il pulsante destro del mouse.
  • Fai clic su "Salva tabella".

Estrarre e scaricare i dati

Quando il risultato disponibile nella tabella di anteprima ti soddisfa, puoi estrarre i dati facendo clic sul pulsante "Estrai" nell'angolo in alto a destra della pagina dell'editor delle annotazioni. Questa estrazione è possibile solo per l'insieme corrente di annotazioni. Se in un secondo momento modifichi le annotazioni della raccolta, devi ripetere il processo di estrazione.

Una volta completata l'estrazione, puoi scaricare i dati facendo clic su "Scarica". Riceverai un file ZIP contenente i file CSV, uno per ogni scheda nella tabella di anteprima e un file di riepilogo per tutti i documenti nella raccolta.

Puoi esaminare il risultato dell'estrazione di un documento facendo clic sul link corrispondente al documento fornito nel file di riepilogo. Consulta la sezione "Esaminare il risultato dell'estrazione".

Esaminare il risultato dell'estrazione

Dopo aver estratto alcuni campi dalla raccolta, ti consigliamo di esaminare alcuni dei valori estratti e verificare se corrispondono a quelli visualizzati nel documento.
Puoi esaminare i risultati dell'estrazione per ogni documento nella raccolta facendo clic sul link corrispondente al documento fornito nel file CSV di riepilogo che hai scaricato o facendo clic sul link del documento fornito nella tabella di anteprima.
La pagina dei risultati dell'estrazione dei documenti ti consente di visualizzare tutti i valori estratti da un singolo documento e convalidarli autonomamente.
Se selezioni la casella di un'annotazione all'interno del documento, il risultato estratto verrà visualizzato nel pannello a destra e, viceversa, quando selezioni un valore all'interno del pannello laterale a destra, il documento si sposterà sulla casella dell'annotazione corrispondente.

 

Gestire una raccolta con annotazioni

Rielaborare una raccolta con annotazioni

La rielaborazione di una raccolta con annotazioni rimuoverà tutte le annotazioni create in precedenza.

Per ripetere l'elaborazione dello strumento Estrai dati strutturati sulla raccolta: 

Gestire i documenti d'oro

Sostituire un documento dorato

Per sostituire un documento dorato con un altro: 

  • Vai alla pagina dell'editor delle annotazioni della raccolta.
  • Nella pagina dell'editor delle annotazioni, fai clic sul menu con tre puntini.
  • Seleziona "Sostituisci documento dorato".
  • Seleziona il documento dorato preferito dall'insieme di esempio e fai clic su "OK".
  • Nella pagina per la revisione del documento, fai clic su "Imposta come dorato" nell'angolo in alto a destra.
  • Seleziona "Sostituisci un documento dorato esistente" e fai clic su "OK".

Il passaggio successivo varia a seconda che la raccolta abbia o meno un documento dorato a cui in precedenza sono state aggiunte annotazioni:

Aggiungere un documento dorato

Durante la revisione dei risultati dell'estrazione, puoi aggiungere più documenti dorati per tenere conto di lievi differenze nel modello del documento e campi facoltativi per aggiungere annotazioni in alcuni documenti.

Per farlo: 

  • Vai alla pagina di revisione del documento collegata tramite un link nella tabella di anteprima dell'insieme di esempio o al file CSV di riepilogo principale scaricabile.
  • Fai clic su "Imposta come dorato" nell'angolo in alto a destra.
  • Seleziona "Aggiungi un nuovo documento dorato" e fai clic su "OK".

Il processo di annotazione di documenti dorati aggiuntivi è diverso dall'annotazione normale. Per maggiori dettagli, consulta la sezione "Trasferire le annotazioni".

Rimuovere un documento dorato dall'insieme

  • Seleziona il nome del documento dorato dal menu a discesa del nome del file nella parte superiore della pagina dell'editor delle annotazioni.
  • Nello stesso menu a discesa, seleziona "Rimuovi dall'insieme di documenti dorati".
  • Fai clic su "Elimina" nella richiesta seguente per approvare l'azione.

Trasferire le annotazioni

Dopo che hai aggiunto un nuovo documento dorato all'insieme o sostituito un documento dorato con annotazioni esistente, lo strumento abbinerà approssimativamente le annotazioni esistenti precedenti a quelle del nuovo documento dorato. 

Se lo strumento non riesce ad abbinare il precedente campo con annotazioni a quello del nuovo documento dorato, il campo verrà contrassegnato come "Richiede attenzione" nella sezione Annotazioni sul lato destro della pagina dell'editor delle annotazioni. 

Per risolvere il problema, puoi procedere in uno dei seguenti modi:

  • Se il campo è effettivamente disponibile nel nuovo documento dorato:
    1. Aggiungi l'annotazione al campo in questione
    2. Seleziona "Risolvi il problema di una coppia chiave-valore che richiede attenzione" nella finestra della richiesta.
    3. Seleziona il nome del campo nel menu a discesa
    4. Fai clic su "OK".
  • Se il campo non è disponibile nel nuovo documento dorato
    1. Seleziona la casella del campo che richiede attenzione nella sezione Annotazioni.
    2. Fai clic su per contrassegnare il campo come mancante solo nel nuovo documento dorato. 

Se nel nuovo documento dorato sono presenti dati non disponibili nella sezione "Annotazioni", puoi annotare manualmente i dati per aggiungerli solo al nuovo documento dorato.

Modificare un'annotazione

Modificare il nome o il tipo di campo

  • Seleziona la casella del campo nella sezione Annotazioni sul lato destro della pagina dell'editor delle annotazioni.
  • Modifica il nome o il tipo di campo direttamente nella casella del campo.
  • Fai clic su "OK" nella richiesta seguente.
La modifica del nome o del tipo di campo verrà applicata a livello globale a tutti i documenti dorati nella raccolta.

Regolare l'annotazione di una coppia chiave/valore

  • Fai clic sulla casella dell'annotazione del valore che vuoi regolare.
  • Trascina e sposta la casella selezionata o regolane le dimensioni spostando i bordi.
  • Queste istruzioni si applicano solo al documento dorato attualmente modificato.

Regolare l'annotazione di una sezione ripetuta

  • Fai clic su un punto qualsiasi dell'annotazione della sezione ripetuta che vuoi modificare.
  • Regola la dimensione delle sezioni spostando le linee di separazione in senso verticale.
  • Queste istruzioni si applicano solo al documento dorato attualmente modificato. 

Regolare l'annotazione della tabella

  • Fai clic in un punto qualsiasi della casella dell'annotazione della tabella che vuoi regolare.
  • Trascina e sposta le linee all'interno della casella per regolare le dimensioni, la larghezza della colonna e la riga di intestazione.
  • Queste istruzioni si applicano solo al documento dorato attualmente modificato.

Eliminare un'annotazione

Per eliminare le annotazioni da tutti i documenti dorati:

  • Seleziona un campo nella sezione Annotazioni sul lato destro della pagina dell'editor delle annotazioni.
  • Fai clic su e conferma di voler eliminare il campo da tutti i documenti dorati.
Menu principale
11173717713237191261
true
Cerca nel Centro assistenza
true
true
true
false
false