Che cos'e l'OCR?
Il riconoscimento ottico dei caratteri (OCR) e una tecnologia che converte immagini di testo in testo modificabile e leggibile dalla macchina. Quando si scansiona un documento cartaceo, lo scanner crea una fotografia di ogni pagina. Il software OCR analizza tale fotografia, identifica i singoli caratteri e produce il testo corrispondente.
Il processo OCR prevede in genere diverse fasi:
- Preelaborazione dell'immagine: raddrizzamento delle pagine inclinate, rimozione del rumore, regolazione del contrasto e binarizzazione dell'immagine (conversione in bianco e nero)
- Rilevamento del testo: identificazione delle aree dell'immagine che contengono testo rispetto a immagini, bordi o spazi vuoti
- Riconoscimento dei caratteri: analisi della forma di ogni carattere e confronto con schemi di lettere noti
- Postelaborazione: applicazione di corrispondenza con dizionario e regole linguistiche per correggere errori di riconoscimento comuni
PDF scansionati vs PDF nativi
Comprendere la differenza tra PDF scansionati e nativi e fondamentale per scegliere il giusto approccio di conversione:
| Caratteristica | PDF nativo (digitale) | PDF scansionato |
|---|---|---|
| Creato da | Esportazione da Word, stampa del browser ecc. | Scanner, fotocamera, fax |
| Contenuto | Dati di testo strutturati | Immagini delle pagine |
| Testo selezionabile? | Si | No |
| Ricercabile? | Si | No (senza OCR) |
| OCR necessario? | No — testo estratto direttamente | Si — indispensabile per estrarre il testo |
| Precisione di conversione | Molto alta (95-100 %) | Dipende dalla qualita della scansione (85-99 %) |
Test rapido: apri il PDF e prova a selezionare il testo con il mouse. Se puoi evidenziare singole parole, e un PDF nativo. Se il clic seleziona l'intera pagina come unica immagine, e un PDF scansionato che richiede l'OCR.
Fattori che influenzano la precisione dell'OCR
La precisione dell'OCR varia notevolmente in base alla qualita dell'input. Ecco i fattori chiave:
Risoluzione di scansione (DPI)
La risoluzione e il fattore piu importante in assoluto. Piu DPI significa piu informazioni in pixel con cui il motore OCR puo lavorare:
- 150 DPI: minimo per l'OCR. Funziona con caratteri grandi e nitidi. Precisione attesa 85–92 %.
- 300 DPI: standard consigliato. Buon equilibrio tra dimensione del file e precisione. Precisione attesa 95–98 % su testo pulito.
- 600 DPI: ideale per testo piccolo, documenti densi e massima precisione. Precisione attesa 97–99 %. File piu grandi, elaborazione piu lenta.
Qualita dell'immagine
Oltre alla risoluzione, diversi fattori di qualita dell'immagine influenzano i risultati dell'OCR:
- Contrasto: un alto contrasto tra testo e sfondo produce i risultati migliori. Il testo sbiadito su carta invecchiata e piu difficile da riconoscere.
- Allineamento: pagine dritte e ben allineate producono risultati migliori rispetto a scansioni inclinate o ruotate. La maggior parte dei motori OCR include il raddrizzamento, ma partire dritti e meglio.
- Rumore: puntini, sbavature, macchie di caffe e artefatti dello scanner riducono la precisione. Gli originali puliti si scansionano meglio.
- Ombre: il dorso dei libri crea ombre nel margine di rilegatura. La scansione piana o l'uso di una telecamera documentale riducono questo problema.
Caratteristiche di font e testo
Non tutto il testo e uguale ai fini dell'OCR:
- Font standard (Times New Roman, Arial, Helvetica) — precisione massima
- Font decorativi (corsivi, ornamentali) — precisione inferiore
- Testo piccolo (sotto 8 pt) — richiede DPI piu elevati per compensare
- Testo in grassetto — generalmente buono; pesi molto spessi possono fondere i caratteri
- Testo colorato su sfondo colorato — il contrasto ridotto abbassa la precisione
Migliorare i risultati dell'OCR
Se i tuoi risultati OCR iniziali non sono soddisfacenti, prova questi passaggi di preelaborazione prima della conversione:
- Rieseguire la scansione a DPI piu elevati: se hai accesso al documento originale, rieseguine la scansione a 300 o 600 DPI.
- Raddrizzare le pagine inclinate: usa la funzione di raddrizzamento automatico del tuo scanner o raddrizza le immagini prima dell'OCR.
- Aumentare il contrasto: se l'originale e sbiadito, regola la luminosita e il contrasto dello scanner per scurire il testo e schiarire lo sfondo.
- Rimuovere il rumore: usa filtri di despeckle per ripulire gli artefatti dello scanner e la trama della carta.
- Ritagliare i margini: rimuovere ampi margini vuoti, fori di rilegatura e artefatti ai bordi aiuta il motore OCR a concentrarsi sul contenuto effettivo.
Buona prassi: scansiona i documenti a colori a 300 DPI o piu, anche se l'originale e in bianco e nero. Le scansioni a colori conservano piu informazioni per la fase di preelaborazione, anche se l'OCR alla fine lavora sull'immagine binarizzata.
OCR multi-lingua
I motori OCR moderni supportano decine di lingue, comprese quelle con alfabeti non latini (cinese, giapponese, coreano, arabo, cirillico, devanagari). Considerazioni chiave per documenti multilingue:
- Selezione della lingua: specificare la lingua corretta migliora la precisione del 5-15 %, perche il motore OCR utilizza dizionari e set di caratteri specifici per lingua.
- Documenti con lingue miste: i documenti con piu lingue (comuni negli articoli accademici) possono richiedere piu passaggi OCR o una configurazione multi-lingua.
- Alfabeti da destra a sinistra: l'arabo e l'ebraico richiedono motori OCR con supporto adeguato al testo bidirezionale.
- Caratteri CJK: cinese, giapponese e coreano hanno migliaia di caratteri con differenze sottili, richiedendo modelli di riconoscimento specializzati.
Limiti del riconoscimento della scrittura a mano
Sebbene la tecnologia OCR abbia fatto molti progressi, il riconoscimento della scrittura a mano resta una sfida:
- Scrittura in stampatello: lettere stampatello ordinate e separate possono raggiungere il 60–80 % di precisione.
- Scrittura corsiva: le lettere collegate sono estremamente difficili per l'OCR. La precisione scende sotto il 50 % per la maggior parte degli stili corsivi.
- Variazione individuale: a differenza del testo stampato a macchina, la scrittura di ciascuna persona e unica, rendendo il confronto per schemi poco affidabile.
- Contenuti misti: i documenti con testo stampato e annotazioni a mano si elaborano meglio in due passi — OCR del testo stampato, poi trascrizione manuale della scrittura.