Gestructureerde gegevens extraheren uit je collectie

Deze functie bevindt zich in de bètafase. We zijn actief bezig de bruikbaarheid en kwaliteit van deze functie te evalueren. Deel je feedback over deze functie via pinpoint-support@google.com.

Je kunt Pinpoint gebruiken om gestructureerde gegevens te extraheren uit een collectie van op dezelfde manier gedigitaliseerde of gescande pdf-documenten in een set spreadsheets.

Deze functie werkt het beste met collecties met deze kenmerken

  • Documenten met dezelfde template
  • Documenten met dezelfde leesrichting (alleen van links naar rechts of alleen van rechts naar links)
  • Documenten met een formulier- of tabelindeling of een combinatie van beide

Als je bijvoorbeeld 10.000 rapporten voor auto-ongelukken hebt die een vergelijkbaar formulier gebruiken, kun je de scans importeren en een spreadsheet exporteren waarin je ongelukken kunt groeperen, sorteren of filteren op datum, autofabrikant of andere velden in de brondocumenten.

Je moet volledige toegang tot Pinpoint hebben om deze functie te gebruiken. Als je geen volledige toegang hebt, kun je volledige toegang aanvragen via dit formulier.

 

Je Pinpoint-collectie voorbereiden

  • Ga naar je collectie met de documenten waaruit je gestructureerde gegevens wilt extraheren.
  • Als je geen collectie in Pinpoint hebt om te verwerken, maak je een nieuwe collectie met de documenten waaruit je gestructureerde gegevens wilt extraheren.
  • Zorg dat je collectie volledig is verwerkt door Pinpoint. Afhankelijk van de grootte en het aantal bestanden kan de verwerking tot 24 uur duren.
  • Klik op de link Gestructureerde gegevens extraheren linksonder in de collectieweergave.
  • Klik op de knop Collectie verwerken. De verwerking kan enkele seconden tot uren duren, afhankelijk van de grootte van je collectie
  • Zodra de verwerking is afgerond, klik je op Collectie annoteren.

Als je documenten toevoegt aan de verwerkte Pinpoint-collectie, moet je de collectie opnieuw verwerken. Zie Geannoteerde collectie opnieuw verwerken voor meer informatie.

Gouden document kiezen

De tool voor het extraheren van gestructureerde gegevens brengt je naar de annotatie-editorpagina en selecteert automatisch een 'gouden' document. Dit is een afzonderlijk document waarin je een annotatietemplate maakt die je toepast op alle documenten in dezelfde collectie.

Als je denkt dat het geselecteerde gouden document niet het meest geschikt is voor annotatie, kun je het vervangen door een ander document uit de collectie. Zie Gouden document vervangen

Als de documenttemplate in je collectie veel optievelden bevat, raden we je aan het document met de meeste optievelden te kiezen als het gouden document om te zorgen voor zoveel mogelijk overlap met de andere documenten in je collectie.

In het zeldzame geval dat niet alle gewenste velden in één gouden document worden behandeld, kun je meer gouden documenten toevoegen voor aanvullende optievelden. Zie Gouden document toevoegen.

Collectie annoteren

De annotatie-editorpagina is onderverdeeld in vier hoofdgedeelten:

  1. Hoofdeditor
    Dit is het belangrijkste gedeelte van de pagina waarop je documentannotaties uitvoert. In dit gedeelte staan je gouden document en toegevoegde annotaties.
     
  2. Werkbalk
    Dit gedeelte staat bovenaan de pagina. Hier vind je alle actiemenu's voor de annotatie-editorpagina, inclusief de naam van het gouden document waaraan je werkt.
     
  3. Lijst met annotaties
    Dit gedeelte is te vinden aan de rechterkant van de pagina. Hier vind je de lijst met annotaties die je in het gouden document hebt gemaakt.
     
  4. Voorbeeldtabel
    Dit gedeelte vind je onderaan de pagina. Hier vind je een voorbeeld van de waarden van geëxtraheerde velden uit 10 willekeurig geselecteerde documenten in je collectie.

Momenteel ondersteunt de tool alleen extractie naar tekst of selectievakjes (Booleaans). Alle numerieke waarden worden geconverteerd naar tekst/tekenreeks.

Sleutel/waarde

Deze tool kan het best worden gebruikt om één gelabelde waarde uit je collectie te extraheren. Een voorbeeld van het resultaat van deze annotatie is Land als sleutel en Nederland als waarde.

Volg deze stappen om je document te annoteren met de annotatie Sleutel/waarde:

  • Selecteer de annotatietool Sleutel/waarde bovenaan de annotatie-editorpagina.
  • Teken een rechthoek rond de waarde die je wilt ophalen. Je moet de rechthoek langer maken zodat hij groot genoeg is voor waarden met meer tekens in andere documenten.
  • De tool selecteert en markeert automatisch een sleutel voor de geselecteerde waarde. Je kunt deze markering slepen en bewerken voor een nauwkeurige annotatie.
  • Als je de naam van de kolomkop in de geëxtraheerde gegevens wilt wijzigen, kun je de naam van de sleutelparameter bewerken in het gedeelte Annotaties aan de rechterkant van het venster.
  • Herhaal de stappen voor alle sleutel/waarde-paren die je uit je documentverzameling wilt extraheren.

Elke annotatie is een globale markering waarmee de tool de gegevens uit alle documenten in je collectie kan ophalen.

Indien aanwezig, kun je rasters of markeringen in het document volgen. Als die er niet zijn, zorg dan dat je genoeg ruimte openhoudt voor langere waarden.

Herhaald gedeelte

Deze tool kan het best worden gebruikt om een sectie met herhaalde sleutel/waarde-paren te extraheren. De annotatie kan een onbeperkt aantal herhaalde gedeelten op meerdere pagina's dekken.

Volg deze stappen om je document te annoteren met de annotatie Herhaald gedeelte:

  • Selecteer de annotatietool Herhaald gedeelte bovenaan de annotatie-editorpagina.
  • Markeer de eerste instantie van het herhaalde gedeelte.
  • De tool maakt dan automatisch een regel onder het gemarkeerde gedeelte. Sleep de lijn totdat alles wat je wilt annoteren gemarkeerd is.
  • Geef de naam van de sectie op in de pop-up Naam herhaalde gedeeltes.
  • Klik op Sectie opslaan.
  • Selecteer de annotatietool Sleutel/waarde bovenaan de annotatie-editorpagina.
  • Volg binnen het bereik van de eerste herhaalde instantie de stappen voor sleutel/waarde-annotatie voor alle sleutel/waarde-paren die je wilt extraheren.

Tabellen

Deze tool kan het best worden gebruikt om gegevens uit tabellen te extraheren. Je moet elke tabel die je in het document wilt extraheren annoteren. De tool werkt voor een tabel die meerdere pagina's beslaat, ook met herhaalde koppen.

De tool werkt het best als de geannoteerde tabel in alle documenten in de collectie dezelfde horizontale afmeting, indeling en koppen heeft.

Volg deze stappen om je document te annoteren met de annotatie Tabellen:

  • Selecteer de annotatietool Tabellen bovenaan de annotatie-editorpagina.
  • Teken een rechthoek op de tabel waaruit je gegevens wilt extraheren. Als de tabel meerdere pagina's beslaat, is het genoeg om alleen de eerste pagina van de tabel te markeren.
  • De tool probeert de randen van de tabel te vinden. Als dit niet goed genoeg lukt, teken je nogmaals een rechthoek over de tabel.
  • Pas de omtrek aan zodat deze overeenkomt met de omtrek van de tabel. Sleep de onderste regel zodat alle delen van de tabel zijn gemarkeerd, inclusief herhaalde koppen en delen op de volgende pagina's.
  • Geef de naam van de tabel op in het pop-upvenster.
  • Geef aan of de tabel een kop heeft met de schakelaar in het pop-upvenster.
  • Pas de kop- en kolomscheidingslijnen aan zodat ze overeenkomen met de opmaak van de tabel en markeer duidelijk de kolombreedten en de weergave van de tabelkoppen in het document. Je kunt kolomscheidingslijnen toevoegen of verwijderen door met de rechtermuisknop op de scheidingslijn te klikken.
  • Klik op Tabel opslaan.

Je gegevens extraheren en downloaden

Als je tevreden bent met het resultaat in de voorbeeldtabel, kun je je gegevens extraheren door rechtsboven op de annotatie-editorpagina op de knop Extraheren te klikken. Deze extractie is alleen van toepassing op de huidige set annotaties. Als je later de annotaties voor je collectie bewerkt, moet je dit extractieproces opnieuw uitvoeren.

Zodra de gegevens zijn geëxtraheerd, kun je de gegevens downloaden door op Downloaden te klikken. Je krijgt een zip-bestand met csv-bestand(en), één voor elk tabblad in de voorbeeldtabel en één overzichtsbestand voor alle documenten in de collectie.

Je kunt het extractieresultaat voor een document bekijken door te klikken op de link van het document in het overzichtsbestand. Zie Extractieresultaat bekijken.

Extractieresultaat bekijken

Nadat je een aantal velden uit je collectie hebt geëxtraheerd, kun je een deel van de opgehaalde waardes controleren om te zien of ze overeenkomen met wat je ziet in het document.
Je kunt de extractieresultaten van de documenten uit je collectie bekijken door op een documentlink te klikken in het csv-overzichtsbestand dat je hebt gedownload of door op de documentlink in de voorbeeldtabel te klikken.
Op de pagina met resultaten van documentextractie kun je alle geëxtraheerde waarden voor één document bekijken en ze zelf valideren.
Als je een annotatievak in het document selecteert, wordt het geëxtraheerde resultaat in het venster rechts getoond en andersom: als je een waarde in het rechtervenster selecteert, brengt het document je naar het overeenkomstige annotatievak.

 

Geannoteerde collectie beheren

Geannoteerde collectie opnieuw verwerken

Als je een geannoteerde collectie opnieuw verwerkt, worden de annotaties die je eerder hebt gemaakt verwijderd.

Als je wilt dat de tool voor het extraheren van gestructureerde gegevens je collectie opnieuw verwerkt, volg je deze stappen : 

Gouden documenten beheren

Gouden document vervangen

Volg deze stappen om een gouden document door een ander document te vervangen: 

  • Ga naar de annotatie-editorpagina voor je collectie
  • Klik op de annotatie-editorpagina op het menu met 3 stippen
  • Selecteer Gouden document vervangen
  • Selecteer het gewenste gouden document uit de voorbeeldset en klik op OK
  • Klik rechtsboven op de pagina waar je de documenten kunt bekijken op Instellen als gouden document
  • Selecteer Een bestaand gouden document vervangen en klik op OK

De volgende stap is afhankelijk van of de collectie een gouden document heeft dat al eerder is geannoteerd:

Gouden document toevoegen

Als je de extractieresultaten bekijkt, kun je meer gouden documenten toevoegen om rekening te kunnen houden met kleine verschillen in de documenttemplates en aanvullende optievelden voor annotatie in bepaalde documenten.

Je kunt dit als volgt doen:

  • Ga naar de pagina waar je de documenten kunt bekijken via de link in de voorbeeldtabel of naar het downloadbare csv-hoofdoverzicht
  • Klik rechtsboven op Instellen als gouden document
  • Selecteer Een nieuw gouden document toevoegen en klik op OK

Het annotatieproces voor extra gouden documenten verschilt van het normale annotatieproces. Zie Annotatieoverdracht voor meer informatie.

Een gouden document uit de set verwijderen

  • Selecteer de naam van het gouden document in het dropdownmenu met bestandsnamen bovenaan de annotatie-editorpagina
  • Selecteer in hetzelfde dropdownmenu de optie Verwijderen uit gouden documentenset
  • Klik op Verwijderen in de volgende prompt om de actie goed te keuren

Annotatieoverdracht

Nadat je een nieuw gouden document aan de set hebt toegevoegd of een bestaand gouden document met annotaties hebt vervangen, vergelijkt de tool de eerder bestaande annotatie met het nieuwe gouden document. 

Als de tool het eerder geannoteerde veld niet kan koppelen aan het nieuwe gouden document, wordt het veld gemarkeerd als Vereist aandacht in het gedeelte Annotaties aan de rechterkant van de annotatie-editorpagina. 

Voer een van de volgende stappen uit om dit op te lossen:

  • Als het veld wel in het nieuwe gouden document voorkomt
    1. Annotatie voor dat veld toevoegen
    2. Selecteer Sleutel/waarde die aandacht vereist oplossen in het promptvenster
    3. Selecteer de naam van het veld in het dropdownmenu
    4. Klik op OK
  • Als het veld niet in het nieuwe gouden document voorkomt
    1. Selecteer het veld dat je aandacht vereist in het gedeelte Annotaties
    2. Klik op  om aan te geven dat het veld alleen ontbreekt in het nieuwe gouden document

Als er gegevens uit het nieuwe gouden document zijn die niet beschikbaar zijn in het gedeelte Annotaties, kun je de gegevens handmatig annoteren om ze alleen aan het nieuwe gouden document toe te voegen.

Annotatie bewerken

Veldnaam of -type wijzigen

  • Selecteer het veld in het gedeelte Annotaties aan de rechterkant van de annotatie-editorpagina
  • Bewerk de veldnaam of typ rechtstreeks in het veld
  • Klik op OK in de volgende prompt
Als je de veldnaam of het veldtype wijzigt, wordt dit toegepast op alle gouden documenten in de collectie.

Sleutel/waarde-annotatie aanpassen

  • Klik op het annotatieveld van de waarde die je wilt aanpassen
  • Sleep het geselecteerde vak en pas het aan door de randen te verplaatsen
  • Dit is alleen van toepassing op het gouden document dat je momenteel bewerkt

Annotatie van herhaalde gedeeltes aanpassen

  • Klik op de annotatie van het herhaalde gedeelte dat je wilt aanpassen
  • Pas de afmeting van secties aan door de scheidingslijnen verticaal te verplaatsen
  • Dit is alleen van toepassing op het gouden document dat je momenteel bewerkt

Tabelannotatie aanpassen

  • Klik in het annotatievak van de tabel die je wilt aanpassen
  • Sleep lijnen binnen het vak om de afmeting, kolombreedte en koprij aan te passen
  • Dit is alleen van toepassing op het gouden document dat je momenteel bewerkt

Annotatie verwijderen

Volg deze stappen om annotaties uit alle gouden documenten te verwijderen:

  • Selecteer een veld in het gedeelte Annotaties aan de rechterkant van de annotatie-editorpagina
  • Klik op en bevestig dat je het veld uit alle gouden documenten wilt verwijderen
Hoofdmenu
18349490807189119708
true
Zoeken in het Helpcentrum
true
true
true
false
false