Was ist OCR?
Die optische Zeichenerkennung (OCR) ist eine Technologie, die Bilder von Text in maschinenlesbaren, bearbeitbaren Text umwandelt. Wenn Sie ein Papierdokument scannen, erstellt der Scanner eine Fotografie jeder Seite. OCR-Software analysiert diese Fotografie, erkennt einzelne Zeichen und gibt den entsprechenden Text aus.
Der OCR-Prozess umfasst in der Regel mehrere Schritte:
- Bildvorverarbeitung: Begradigen schiefer Seiten, Entfernen von Rauschen, Anpassen des Kontrasts und Binarisierung des Bildes (Umwandlung in Schwarz-Weiss)
- Texterkennung: Identifizieren von Bildbereichen mit Text im Gegensatz zu Bildern, Rahmen oder Leerflachen
- Zeichenerkennung: Analyse einzelner Zeichenformen und Abgleich mit bekannten Buchstabenmustern
- Nachbearbeitung: Anwendung von Worterbuchabgleich und Sprachregeln zur Korrektur haufiger Erkennungsfehler
Gescannte vs. native PDFs
Den Unterschied zwischen gescannten und nativen PDFs zu verstehen, ist entscheidend fur die Wahl des richtigen Konvertierungsansatzes:
| Merkmal | Natives (digitales) PDF | Gescanntes PDF |
|---|---|---|
| Erstellt durch | Export aus Word, Browser-Druck usw. | Scanner, Kamera, Faxgerat |
| Inhalt | Strukturierte Textdaten | Bilder der Seiten |
| Text markierbar? | Ja | Nein |
| Durchsuchbar? | Ja | Nein (ohne OCR) |
| OCR erforderlich? | Nein — Text direkt extrahiert | Ja — fur Textextraktion notwendig |
| Konvertierungsgenauigkeit | Sehr hoch (95-100 %) | Abhangig von der Scanqualitat (85-99 %) |
Schnelltest: Offnen Sie das PDF und versuchen Sie, Text mit der Maus zu markieren. Wenn Sie einzelne Worter hervorheben konnen, handelt es sich um ein natives PDF. Wenn beim Klicken die gesamte Seite als ein einziges Bild ausgewahlt wird, ist es ein gescanntes PDF, das OCR benotigt.
Faktoren, die die OCR-Genauigkeit beeinflussen
Die OCR-Genauigkeit variiert erheblich je nach Eingabequalitat. Hier die wichtigsten Faktoren:
Scan-Auflosung (DPI)
Die Auflosung ist der wichtigste einzelne Faktor. Hohere DPI bedeutet mehr Pixelinformationen, mit denen die OCR-Engine arbeiten kann:
- 150 DPI: Minimum fur OCR. Funktioniert bei grossen, klaren Schriften. Erwartete Genauigkeit 85–92 %.
- 300 DPI: Empfohlener Standard. Gute Balance zwischen Dateigrosse und Genauigkeit. Erwartete Genauigkeit 95–98 % bei sauberem Text.
- 600 DPI: Am besten fur kleine Schrift, dichte Dokumente und maximale Genauigkeit. Erwartete Genauigkeit 97–99 %. Grossere Dateien, langsamere Verarbeitung.
Bildqualitat
Neben der Auflosung beeinflussen mehrere Bildqualitatsfaktoren die OCR-Ergebnisse:
- Kontrast: Hoher Kontrast zwischen Text und Hintergrund liefert die besten Ergebnisse. Verblasster Text auf alterndem Papier ist schwerer zu erkennen.
- Ausrichtung: Gerade, korrekt ausgerichtete Seiten liefern bessere Ergebnisse als schiefe oder gedrehte Scans. Die meisten OCR-Engines enthalten eine Entzerrung, aber mit geraden Scans zu beginnen ist besser.
- Rauschen: Flecken, Verschmierungen, Kaffeeflecken und Scanner-Artefakte mindern die Genauigkeit. Saubere Originale scannen besser.
- Schatten: Buchrucken erzeugen Schatten im Bundsteg. Flachbettscannen oder eine Dokumentenkamera reduziert dieses Problem.
Schriftart und Texteigenschaften
Nicht jeder Text ist fur OCR gleich geeignet:
- Standard-Schriften (Times New Roman, Arial, Helvetica) — hochste Genauigkeit
- Dekorative Schriften (Schreibschrift, ornamental) — geringere Genauigkeit
- Kleiner Text (unter 8 pt) — benotigt hoheres DPI zum Ausgleich
- Fetter Text — generell gut; sehr schwere Strichstarken konnen Zeichen verschmelzen
- Farbiger Text auf farbigem Hintergrund — reduzierter Kontrast senkt die Genauigkeit
OCR-Ergebnisse verbessern
Wenn Ihre ersten OCR-Ergebnisse unbefriedigend sind, versuchen Sie diese Vorverarbeitungsschritte vor der Konvertierung:
- Mit hoherem DPI neu scannen: Wenn Sie Zugang zum Originaldokument haben, scannen Sie mit 300 oder 600 DPI neu.
- Schiefe Seiten begradigen: Nutzen Sie die Auto-Deskew-Funktion Ihres Scanners oder begradigen Sie Bilder vor der OCR.
- Kontrast erhohen: Wenn das Original verblasst ist, passen Sie Helligkeit und Kontrast des Scanners an, um den Text zu dunkeln und den Hintergrund aufzuhellen.
- Rauschen entfernen: Verwenden Sie Entsprenkler-Filter, um Scanner-Artefakte und Papierstruktur zu bereinigen.
- Rander beschneiden: Das Entfernen grosser leerer Rander, Lochbindungen und Kantenartefakte hilft der OCR-Engine, sich auf den eigentlichen Inhalt zu konzentrieren.
Bewahrte Praxis: Scannen Sie Dokumente in Farbe mit mindestens 300 DPI, auch wenn das Original schwarz-weiss ist. Farbscans bewahren mehr Informationen fur die Vorverarbeitungsphase, obwohl OCR letztlich auf dem binarisierten Bild arbeitet.
Mehrsprachige OCR
Moderne OCR-Engines unterstutzen Dutzende von Sprachen, einschliesslich solcher mit nicht-lateinischen Schriften (Chinesisch, Japanisch, Koreanisch, Arabisch, Kyrillisch, Devanagari). Wichtige Uberlegungen fur mehrsprachige Dokumente:
- Sprachauswahl: Die Angabe der korrekten Sprache verbessert die Genauigkeit um 5–15 %, da die OCR-Engine sprachspezifische Worterbucher und Zeichensatze verwendet.
- Gemischtsprachige Dokumente: Dokumente mit mehreren Sprachen (haufig in wissenschaftlichen Arbeiten) konnen mehrere OCR-Durchlaufe oder eine Mehrsprachen-Konfiguration erfordern.
- Rechts-nach-links-Schriften: Arabisch und Hebraisch benotigen OCR-Engines mit korrekter Unterstutzung fur bidirektionalen Text.
- CJK-Zeichen: Chinesisch, Japanisch und Koreanisch haben tausende Zeichen mit subtilen Unterschieden, was spezialisierte Erkennungsmodelle erfordert.
Grenzen der Handschrifterkennung
Obwohl die OCR-Technologie erhebliche Fortschritte gemacht hat, bleibt die Handschrifterkennung eine Herausforderung:
- Druckschrift: Saubere, getrennte Druckbuchstaben konnen 60–80 % Genauigkeit erreichen.
- Schreibschrift: Verbundene Buchstaben sind fur OCR extrem schwierig. Die Genauigkeit fallt bei den meisten Schreibschriftstilen unter 50 %.
- Individuelle Variation: Im Gegensatz zu maschinengedrucktem Text ist die Handschrift jedes Menschen einzigartig, was Mustererkennung unzuverlassig macht.
- Gemischte Inhalte: Dokumente mit gedrucktem Text und handschriftlichen Anmerkungen werden am besten in zwei Schritten verarbeitet — OCR des gedruckten Textes, dann manuelle Transkription der Handschrift.