OCR (Optical Character Recognition) is een technologie die afbeeldingen van tekst analyseert en ze omzet in machineleesbare, bewerkbare tekst. Het herkent lettervormen, woorden en zinnen in gescande documenten of fotos.

Hoe nauwkeurig is OCR voor gescande documenten?

Moderne OCR haalt 95 tot 99 % nauwkeurigheid op schone, hoogresolutie-scans van gedrukte tekst. De nauwkeurigheid hangt af van scankwaliteit, letterduidelijkheid, taal en documentconditie. Handgeschreven tekst en verslechterde documenten leveren lagere nauwkeurigheid.

Beinvloedt de scankwaliteit de OCR-resultaten?

Ja, aanzienlijk. Scannen op 300 DPI of hoger, met goed contrast en rechte uitlijning, levert de beste OCR-resultaten op. Lage-resolutiescans, scheve paginas en slecht contrast verminderen allemaal de nauwkeurigheid.

Kan OCR handschrift lezen?

OCR heeft beperkte mogelijkheden voor handschriftherkenning. Net geschreven blokletters kunnen deels worden herkend, maar cursief of slordig handschrift levert onbetrouwbare resultaten op. OCR werkt het beste met machinegedrukte tekst.

OCR voor gescande PDFs: van afbeelding naar bewerkbare tekst

Wat is OCR?

Optische tekenherkenning (OCR) is een technologie die afbeeldingen van tekst omzet in machineleesbare, bewerkbare tekst. Wanneer u een papieren document scant, maakt de scanner een foto van elke pagina. OCR-software analyseert die foto, identificeert individuele tekens en levert de bijbehorende tekst.

Het OCR-proces bestaat doorgaans uit meerdere stappen:

Voorbewerking van de afbeelding: scheve paginas rechtzetten, ruis verwijderen, contrast aanpassen en de afbeelding binariseren (omzetten naar zwart-wit)
Tekstdetectie: identificeren van gebieden in de afbeelding die tekst bevatten ten opzichte van afbeeldingen, randen of lege ruimte
Tekenherkenning: analyse van individuele tekenvormen en vergelijking met bekende letterpatronen
Nabewerking: toepassen van woordenboekherkenning en taalregels om veelvoorkomende herkenningsfouten te corrigeren

Gescande vs native PDFs

Het verschil begrijpen tussen gescande en native PDFs is cruciaal om de juiste conversieaanpak te kiezen:

Kenmerk	Native (digitale) PDF	Gescande PDF
Gemaakt door	Export vanuit Word, browserprint enz.	Scanner, camera, faxapparaat
Inhoud	Gestructureerde tekstgegevens	Afbeeldingen van paginas
Tekst selecteerbaar?	Ja	Nee
Doorzoekbaar?	Ja	Nee (zonder OCR)
OCR nodig?	Nee — tekst direct geextraheerd	Ja — vereist voor tekstextractie
Conversienauwkeurigheid	Zeer hoog (95-100 %)	Afhankelijk van scankwaliteit (85-99 %)

Snelle test: open de PDF en probeer tekst met de muis te selecteren. Als u afzonderlijke woorden kunt markeren, is het een native PDF. Als klikken de hele pagina als een enkele afbeelding selecteert, is het een gescande PDF die OCR nodig heeft.

Factoren die de OCR-nauwkeurigheid beinvloeden

OCR-nauwkeurigheid varieert sterk afhankelijk van de invoerkwaliteit. Dit zijn de belangrijkste factoren:

Scanresolutie (DPI)

Resolutie is de belangrijkste individuele factor. Hogere DPI betekent meer pixelinformatie waarmee de OCR-engine kan werken:

150 DPI: minimum voor OCR. Werkt bij grote, heldere lettertypes. Verwachte nauwkeurigheid 85–92 %.
300 DPI: aanbevolen standaard. Goede balans tussen bestandsgrootte en nauwkeurigheid. Verwachte nauwkeurigheid 95–98 % op schone tekst.
600 DPI: beste voor kleine tekst, dichte documenten en maximale nauwkeurigheid. Verwachte nauwkeurigheid 97–99 %. Grotere bestanden, tragere verwerking.

Beeldkwaliteit

Naast resolutie beinvloeden verschillende kwaliteitsfactoren de OCR-resultaten:

Contrast: hoog contrast tussen tekst en achtergrond levert de beste resultaten. Vervaagde tekst op verouderd papier is moeilijker te herkennen.
Uitlijning: rechte, goed uitgelijnde paginas leveren betere resultaten dan scheve of geroteerde scans. De meeste OCR-engines bevatten deskewing, maar recht beginnen is beter.
Ruis: spikkels, vegen, koffievlekken en scanartefacten verlagen de nauwkeurigheid. Schone originelen scannen beter.
Schaduwen: boekruggen veroorzaken schaduwen in de bindmarge. Flatbed-scannen of een documentcamera gebruiken vermindert dit probleem.

Lettertype- en tekstkenmerken

Niet alle tekst is gelijkwaardig voor OCR-doeleinden:

Standaardlettertypes (Times New Roman, Arial, Helvetica) — hoogste nauwkeurigheid
Decoratieve lettertypes (script, ornamenteel) — lagere nauwkeurigheid
Kleine tekst (onder 8 pt) — heeft hogere DPI nodig als compensatie
Vette tekst — over het algemeen goed; zeer zware gewichten kunnen tekens samenvoegen
Gekleurde tekst op gekleurde achtergrond — lager contrast verlaagt de nauwkeurigheid

OCR-resultaten verbeteren

Als uw initiele OCR-resultaten onbevredigend zijn, probeer dan deze voorbewerkingsstappen voor de conversie:

Opnieuw scannen op hogere DPI: als u toegang hebt tot het originele document, scan opnieuw op 300 of 600 DPI.
Scheve paginas rechtzetten: gebruik de auto-deskew-functie van uw scanner of zet afbeeldingen recht voor OCR.
Contrast verhogen: als het origineel vervaagd is, pas dan helderheid en contrast van de scanner aan om de tekst donkerder en de achtergrond lichter te maken.
Ruis verwijderen: gebruik despeckle-filters om scanartefacten en papierstructuur op te schonen.
Marges bijsnijden: het verwijderen van grote lege marges, bindgaten en randartefacten helpt de OCR-engine zich te concentreren op de daadwerkelijke inhoud.

Beste werkwijze: scan documenten in kleur op 300+ DPI, zelfs als het origineel zwart-wit is. Kleurenscans behouden meer informatie voor de voorbewerkingsfase, ook al werkt OCR uiteindelijk op de gebinariseerde afbeelding.

Meertalige OCR

Moderne OCR-engines ondersteunen tientallen talen, inclusief die met niet-Latijnse schriften (Chinees, Japans, Koreaans, Arabisch, Cyrillisch, Devanagari). Belangrijke overwegingen voor meertalige documenten:

Taalselectie: de juiste taal opgeven verbetert de nauwkeurigheid met 5 tot 15 %, omdat de OCR-engine taalspecifieke woordenboeken en tekensets gebruikt.
Meertalige documenten: documenten met meerdere talen (gebruikelijk in academische papers) hebben mogelijk meerdere OCR-doorgangen of een meertalige configuratie nodig.
Rechts-naar-links-schriften: Arabisch en Hebreeuws vereisen OCR-engines met goede ondersteuning voor bidirectionele tekst.
CJK-tekens: Chinees, Japans en Koreaans hebben duizenden tekens met subtiele verschillen, wat gespecialiseerde herkenningsmodellen vereist.

Beperkingen van handschriftherkenning

Hoewel OCR-technologie aanzienlijk is verbeterd, blijft handschriftherkenning een uitdaging:

Blokletters: nette, gescheiden blokletters kunnen 60 tot 80 % nauwkeurigheid bereiken.
Cursief handschrift: verbonden letters zijn extreem moeilijk voor OCR. De nauwkeurigheid zakt onder 50 % voor de meeste cursieve stijlen.
Individuele variatie: anders dan machinegedrukte tekst is ieders handschrift uniek, waardoor patroonherkenning onbetrouwbaar is.
Gemengde inhoud: documenten met zowel gedrukte tekst als handgeschreven aantekeningen kunnen het best in twee stappen worden verwerkt — OCR op de gedrukte tekst en daarna handmatig transcriberen van het handschrift.

OCR voor gescande PDFs: van afbeelding
naar bewerkbare tekst

PDF naar DOCX converteren

Converteren...

Conversie voltooid!

Wat is OCR?

Gescande vs native PDFs

Factoren die de OCR-nauwkeurigheid beinvloeden

Scanresolutie (DPI)

Beeldkwaliteit

Lettertype- en tekstkenmerken

OCR-resultaten verbeteren

Meertalige OCR

Beperkingen van handschriftherkenning

Klaar om te converteren?

Converteren...

Conversie voltooid!

Veelgestelde vragen

Meer PDF naar DOCX-handleidingen

OCR voor gescande PDFs: van afbeelding naar bewerkbare tekst

PDF naar DOCX converteren

Converteren...

Conversie voltooid!

Wat is OCR?

Gescande vs native PDFs

Factoren die de OCR-nauwkeurigheid beinvloeden

Scanresolutie (DPI)

Beeldkwaliteit

Lettertype- en tekstkenmerken

OCR-resultaten verbeteren

Meertalige OCR

Beperkingen van handschriftherkenning

Klaar om te converteren?

Converteren...

Conversie voltooid!

Veelgestelde vragen

Meer PDF naar DOCX-handleidingen

Functie aanvragen

OCR voor gescande PDFs: van afbeelding
naar bewerkbare tekst