Wat is OCR?
Optische tekenherkenning (OCR) is een technologie die afbeeldingen van tekst omzet in machineleesbare, bewerkbare tekst. Wanneer u een papieren document scant, maakt de scanner een foto van elke pagina. OCR-software analyseert die foto, identificeert individuele tekens en levert de bijbehorende tekst.
Het OCR-proces bestaat doorgaans uit meerdere stappen:
- Voorbewerking van de afbeelding: scheve paginas rechtzetten, ruis verwijderen, contrast aanpassen en de afbeelding binariseren (omzetten naar zwart-wit)
- Tekstdetectie: identificeren van gebieden in de afbeelding die tekst bevatten ten opzichte van afbeeldingen, randen of lege ruimte
- Tekenherkenning: analyse van individuele tekenvormen en vergelijking met bekende letterpatronen
- Nabewerking: toepassen van woordenboekherkenning en taalregels om veelvoorkomende herkenningsfouten te corrigeren
Gescande vs native PDFs
Het verschil begrijpen tussen gescande en native PDFs is cruciaal om de juiste conversieaanpak te kiezen:
| Kenmerk | Native (digitale) PDF | Gescande PDF |
|---|---|---|
| Gemaakt door | Export vanuit Word, browserprint enz. | Scanner, camera, faxapparaat |
| Inhoud | Gestructureerde tekstgegevens | Afbeeldingen van paginas |
| Tekst selecteerbaar? | Ja | Nee |
| Doorzoekbaar? | Ja | Nee (zonder OCR) |
| OCR nodig? | Nee — tekst direct geextraheerd | Ja — vereist voor tekstextractie |
| Conversienauwkeurigheid | Zeer hoog (95-100 %) | Afhankelijk van scankwaliteit (85-99 %) |
Snelle test: open de PDF en probeer tekst met de muis te selecteren. Als u afzonderlijke woorden kunt markeren, is het een native PDF. Als klikken de hele pagina als een enkele afbeelding selecteert, is het een gescande PDF die OCR nodig heeft.
Factoren die de OCR-nauwkeurigheid beinvloeden
OCR-nauwkeurigheid varieert sterk afhankelijk van de invoerkwaliteit. Dit zijn de belangrijkste factoren:
Scanresolutie (DPI)
Resolutie is de belangrijkste individuele factor. Hogere DPI betekent meer pixelinformatie waarmee de OCR-engine kan werken:
- 150 DPI: minimum voor OCR. Werkt bij grote, heldere lettertypes. Verwachte nauwkeurigheid 85–92 %.
- 300 DPI: aanbevolen standaard. Goede balans tussen bestandsgrootte en nauwkeurigheid. Verwachte nauwkeurigheid 95–98 % op schone tekst.
- 600 DPI: beste voor kleine tekst, dichte documenten en maximale nauwkeurigheid. Verwachte nauwkeurigheid 97–99 %. Grotere bestanden, tragere verwerking.
Beeldkwaliteit
Naast resolutie beinvloeden verschillende kwaliteitsfactoren de OCR-resultaten:
- Contrast: hoog contrast tussen tekst en achtergrond levert de beste resultaten. Vervaagde tekst op verouderd papier is moeilijker te herkennen.
- Uitlijning: rechte, goed uitgelijnde paginas leveren betere resultaten dan scheve of geroteerde scans. De meeste OCR-engines bevatten deskewing, maar recht beginnen is beter.
- Ruis: spikkels, vegen, koffievlekken en scanartefacten verlagen de nauwkeurigheid. Schone originelen scannen beter.
- Schaduwen: boekruggen veroorzaken schaduwen in de bindmarge. Flatbed-scannen of een documentcamera gebruiken vermindert dit probleem.
Lettertype- en tekstkenmerken
Niet alle tekst is gelijkwaardig voor OCR-doeleinden:
- Standaardlettertypes (Times New Roman, Arial, Helvetica) — hoogste nauwkeurigheid
- Decoratieve lettertypes (script, ornamenteel) — lagere nauwkeurigheid
- Kleine tekst (onder 8 pt) — heeft hogere DPI nodig als compensatie
- Vette tekst — over het algemeen goed; zeer zware gewichten kunnen tekens samenvoegen
- Gekleurde tekst op gekleurde achtergrond — lager contrast verlaagt de nauwkeurigheid
OCR-resultaten verbeteren
Als uw initiele OCR-resultaten onbevredigend zijn, probeer dan deze voorbewerkingsstappen voor de conversie:
- Opnieuw scannen op hogere DPI: als u toegang hebt tot het originele document, scan opnieuw op 300 of 600 DPI.
- Scheve paginas rechtzetten: gebruik de auto-deskew-functie van uw scanner of zet afbeeldingen recht voor OCR.
- Contrast verhogen: als het origineel vervaagd is, pas dan helderheid en contrast van de scanner aan om de tekst donkerder en de achtergrond lichter te maken.
- Ruis verwijderen: gebruik despeckle-filters om scanartefacten en papierstructuur op te schonen.
- Marges bijsnijden: het verwijderen van grote lege marges, bindgaten en randartefacten helpt de OCR-engine zich te concentreren op de daadwerkelijke inhoud.
Beste werkwijze: scan documenten in kleur op 300+ DPI, zelfs als het origineel zwart-wit is. Kleurenscans behouden meer informatie voor de voorbewerkingsfase, ook al werkt OCR uiteindelijk op de gebinariseerde afbeelding.
Meertalige OCR
Moderne OCR-engines ondersteunen tientallen talen, inclusief die met niet-Latijnse schriften (Chinees, Japans, Koreaans, Arabisch, Cyrillisch, Devanagari). Belangrijke overwegingen voor meertalige documenten:
- Taalselectie: de juiste taal opgeven verbetert de nauwkeurigheid met 5 tot 15 %, omdat de OCR-engine taalspecifieke woordenboeken en tekensets gebruikt.
- Meertalige documenten: documenten met meerdere talen (gebruikelijk in academische papers) hebben mogelijk meerdere OCR-doorgangen of een meertalige configuratie nodig.
- Rechts-naar-links-schriften: Arabisch en Hebreeuws vereisen OCR-engines met goede ondersteuning voor bidirectionele tekst.
- CJK-tekens: Chinees, Japans en Koreaans hebben duizenden tekens met subtiele verschillen, wat gespecialiseerde herkenningsmodellen vereist.
Beperkingen van handschriftherkenning
Hoewel OCR-technologie aanzienlijk is verbeterd, blijft handschriftherkenning een uitdaging:
- Blokletters: nette, gescheiden blokletters kunnen 60 tot 80 % nauwkeurigheid bereiken.
- Cursief handschrift: verbonden letters zijn extreem moeilijk voor OCR. De nauwkeurigheid zakt onder 50 % voor de meeste cursieve stijlen.
- Individuele variatie: anders dan machinegedrukte tekst is ieders handschrift uniek, waardoor patroonherkenning onbetrouwbaar is.
- Gemengde inhoud: documenten met zowel gedrukte tekst als handgeschreven aantekeningen kunnen het best in twee stappen worden verwerkt — OCR op de gedrukte tekst en daarna handmatig transcriberen van het handschrift.