Optical Character Recognition in Google Drive


Optical Character Recognition in het kort

Met Optical Character Recognition (OCR, optische tekenherkenning) kunt u afbeeldingen van tekst omzetten in tekstdocumenten. Voor het omzetten wordt gebruikgemaakt van geautomatiseerde computeralgoritmen. Afbeeldingen kunnen afzonderlijk worden verwerkt (JPG-, PNG- en GIF-bestanden) of in pdf-documenten (.pdf) met meerdere pagina's. Bestanden die geschikt zijn voor OCR:

  • Afbeeldings- of pdf-bestanden die via flatbedscanners zijn verkregen
  • Foto's die zijn gemaakt met digitale camera's of mobiele telefoons

OCR in Google Drive gebruiken

In Google Documenten worden de door u geüploade afbeeldingen of pdf-bestanden gescand en worden computeralgoritmes gebruikt om het bestand te converteren naar een Google-document.

Voor optimale resultaten moeten de afbeeldings- of pdf-bestanden aan bepaalde vereisten voldoen:

  • Resolutie: bestanden met een hoge resolutie geven de beste resultaten. Houd als vuistregel aan dat elke tekstregel in een document minstens 10 pixels hoog moet zijn.
  • Afdrukstand: alleen documenten die met de juiste zijde omhoog zijn gescand of vastgelegd, worden herkend. Als u per ongeluk een document in een andere afdrukstand heeft gescand of vastgelegd, kunt u een programma voor afbeeldingsbewerking gebruiken om de afbeeldingen te draaien voordat u ze uploadt naar Google Drive.
  • Talen, lettertypen en tekensets: onze OCR-engine ondersteunt een brede verscheidenheid aan tekensets en detecteert de taal van het document automatisch. De OCR-functie herkent talen die van links naar rechts worden geschreven, talen die van rechts naar links worden geschreven, alsmede tekst die verticaal wordt geschreven voor talen waarin dit gebruikelijk is (Chinees, Japans, Koreaans). Afbeeldingen van tekst in een veelgebruikt lettertype, zoals Arial en Times New Roman, leveren de beste resultaten op.
  • Afbeeldingskwaliteit: scherpe afbeeldingen met een gelijkmatige belichting en scherpe contrasten werken het beste. Bewegingsvervaging of onscherp beeld hebben een negatieve invloed op de kwaliteit van de gedetecteerde tekst.

Beperkingen bestandsgrootte

De maximale grootte voor afbeeldingen (.jpg, .gif, .png) en pdf-bestanden (.pdf) is 2 MB. Bij pdf-bestanden wordt alleen naar de eerste 10 pagina's gekeken bij het zoeken naar tekst om te extraheren.

Tekstopmaak behouden

Bij het verwerken van documenten proberen we de basistekstopmaak te behouden, zoals vet en cursief, lettertype, tekengrootte en regeleinden. Het detecteren van deze elementen is echter lastig en het resultaat is mogelijk niet altijd juist. Andere elementen voor de tekstopmaak en -structuur, zoals lijsten met opsommingstekens, genummerde lijsten, tabellen, tekstkolommen en voetnoten of eindnoten gaan waarschijnlijk verloren.

OCR kan langer duren dan andere uploads in Google Drive. Afbeeldingsbestanden (.jpg, .gif, .png) kunnen 30 seconden duren en pdf-bestanden (.pdf) kunnen een minuut duren.

Ondersteunde talen

Lijst met ondersteunde talen voor OCR

Atjehs, Acholi, Adangme, Afrikaans, Akan, Albanees, Algonkisch, Amhaars, Oudgrieks, Arabisch (modern standaard), Araucanisch/Mapuche, Armeens, Assamers, Asturisch, Athabaskisch, Aymara, Azerbeidzjaans, Azerbeidzjaans (Cyrillisch; oude spelling), Balinees, Bambara, Bantoe, Bashkir, Baskisch, Batak, Wit-Russisch, Bemba, Bengaals, Bicol, Bislama, Bosnisch, Bretons, Bulgaars, Birmaans, Catalaans, Cebuano, Tsjetsjeens, Cherokee, Chinees (Mandarijn; Hongkong), Chinees (vereenvoudigd; Mandarijns), Chinees (traditioneel; Mandarijns), Choctaw, Tsjoevasjisch, Cree, Creek, Krim-Tataars, Kroatisch, Tsjechisch, Dakota, Deens, Divehi, Douala, Nederlands, Dzonkha, Efik, Engels (Amerikaans), Engels (Brits), Esperanto, Estlands, Ewe, Faeröers, Fijisch, Filipijns, Fins, Fon, Frans (Canadees), Frans (Europees), Fula, Ga, Galicisch, Luganda, Gajo, Georgisch, Duits, Kiribatisch, Gotisch, Grieks, Guarani, Gujarati, Haïtiaans Creools, Hausa, Hawaïaans, Hebreeuws, Herero, Hiligaynon, Hindi, Hongaars, Iban, IJslands, Igbo, Iloko, Indonesisch, Iers, Italiaans, Japans, Javaans, Kabylisch, Kachin, Kalaallisut, Kamba, Kannada, Kanuri, Karakalpaks, Kazaks, Khasi, Khmer, Gikuyu, Kinyarwanda, Kirgizisch, Komi, Kongo, Koreaans, Kosraeaans, Kwanyama, Lao, Latijns, Lets, Lingala, Litouws, Nederduits, Lozi, Luba-Katanga, Luo, Macedonisch, Madoerees, Malagasi, Maleis, Malayalam, Maltees, Mandingo, Manx, Maori, Marathi, Marshallees, Mende, Middelengels, Middelhoogduits, Minangkabau, Mohawk, Mongo, Mongools, Nahuatl, Navajo, Ndonga, Nepalees, Niueaans, Noord-Ndebele, Noord-Sotho, Noors (Bokmål), Nyanja, Nkore, Nyasa Tonga, Nzema, Occitaans, Ojibweg, Oudengels, Oudfrans, Oudhoogduits, Oudnoors, Oudprovençaals, Oriya, Ossetisch, Pampanga, Pangasinan, Papiamento, Pasjtoe, Perzisch, Pools, Portugees (Braziliaans), Portuguees (Europees), Punjabi (Gurmukhi), Quechua, Roemeens, Retoromaans, Romani, Rundi, Russisch, Russisch (oude spelling), Jakoets, Samoaans, Sango, Sanskriet, Schots, Schots Gaelic, Servisch (cyrillisch), Servisch (Latijns), Shona, Singalees, Slowaaks, Sloveens, Songhai, Zuid-Sotho, Spaans (Europees), Spaans (Latijns-Amerikaans), Soendanees, Swahili, Swati, Zweeds, Tahitiaans, Tadzjieks, Tamil, Tataars, Telugu, Temne, Thai, Tibetaans, Tigrinya, Tongaans, Tsonga, Tswana, Turks, Turkmeens, Oedmoerts, Oekraïens, Urdu, Oezbeeks, Oezbeeks (Cyrillisch; oude spelling), Venda, Vietnamees, Wotisch, Welsh, West-Fries, Wolof, Xhosa, Jiddisch, Yoruba, Zapoteeks en Zulu.

Matt is expert op het gebied van Documenten en Drive en auteur van deze Help-pagina. Kies een van de onderstaande opties om hem te laten weten wat u van deze pagina vindt.