Qu'est-ce que l'OCR ?
La reconnaissance optique de caractères (OCR) est une technologie qui convertit les images de texte en texte modifiable et lisible par une machine. Lorsque vous numérisez un document papier, le scanner crée une photographie de chaque page. Le logiciel OCR analyse cette photographie, identifie les caractères individuels et produit le texte correspondant.
Le processus OCR comporte généralement plusieurs étapes :
- Prétraitement de l'image : redressement des pages inclinées, suppression du bruit, ajustement du contraste et binarisation de l'image (conversion en noir et blanc)
- Détection du texte : identification des zones de l'image contenant du texte par rapport aux images, bordures ou espaces vides
- Reconnaissance des caractères : analyse de la forme de chaque caractère et comparaison avec des modèles de lettres connus
- Post-traitement : application d'un dictionnaire et de règles linguistiques pour corriger les erreurs de reconnaissance courantes
PDF scannés vs PDF natifs
Comprendre la différence entre les PDF scannés et les PDF natifs est essentiel pour choisir la bonne approche de conversion :
| Caractéristique | PDF natif (numérique) | PDF scanné |
|---|---|---|
| Créé par | Export depuis Word, impression navigateur, etc. | Scanner, appareil photo, télécopieur |
| Contenu | Données textuelles structurées | Images des pages |
| Texte sélectionnable ? | Oui | Non |
| Recherchable ? | Oui | Non (sans OCR) |
| OCR nécessaire ? | Non — texte extrait directement | Oui — indispensable à l'extraction du texte |
| Précision de conversion | Très élevée (95-100 %) | Dépend de la qualité du scan (85-99 %) |
Test rapide : ouvrez le PDF et essayez de sélectionner du texte avec la souris. Si vous pouvez surligner des mots individuels, il s'agit d'un PDF natif. Si un clic sélectionne toute la page comme une seule image, il s'agit d'un PDF scanné nécessitant l'OCR.
Facteurs influençant la précision de l'OCR
La précision de l'OCR varie considérablement selon la qualité d'entrée. Voici les principaux facteurs :
Résolution de numérisation (DPI)
La résolution est le facteur le plus important. Un DPI plus élevé signifie davantage d'informations en pixels pour le moteur OCR :
- 150 DPI : minimum pour l'OCR. Fonctionne pour les polices grandes et nettes. Précision attendue de 85–92 %.
- 300 DPI : standard recommandé. Bon équilibre entre taille de fichier et précision. Précision attendue de 95–98 % sur un texte propre.
- 600 DPI : idéal pour les petites polices, les documents denses et une précision maximale. Précision attendue de 97–99 %. Fichiers plus volumineux, traitement plus lent.
Qualité d'image
Au-delà de la résolution, plusieurs facteurs de qualité d'image influencent les résultats de l'OCR :
- Contraste : un contraste élevé entre le texte et l'arrière-plan donne les meilleurs résultats. Un texte pâle sur papier vieilli est plus difficile à reconnaître.
- Alignement : des pages droites et bien alignées produisent de meilleurs résultats que des scans inclinés ou pivotés. La plupart des moteurs OCR intègrent un redressement, mais partir d'une image droite reste préférable.
- Bruit : taches, salissures, traces de café et artéfacts de numérisation réduisent la précision. Des originaux propres se numérisent mieux.
- Ombres : le dos des livres crée des ombres dans la marge intérieure. La numérisation à plat ou avec une caméra de document atténue ce problème.
Polices et caractéristiques du texte
Tous les textes ne se valent pas pour l'OCR :
- Polices standard (Times New Roman, Arial, Helvetica) — précision maximale
- Polices décoratives (manuscrites, ornementales) — précision réduite
- Petit texte (inférieur à 8 pt) — nécessite un DPI plus élevé pour compenser
- Texte en gras — généralement bon ; les graisses très lourdes peuvent fusionner les caractères
- Texte coloré sur fond coloré — contraste réduit, précision diminuée
Améliorer les résultats de l'OCR
Si vos premiers résultats OCR sont décevants, essayez ces étapes de prétraitement avant la conversion :
- Rescanner à un DPI plus élevé : si vous avez accès au document original, rescannez-le à 300 ou 600 DPI.
- Redresser les pages inclinées : utilisez la fonction de redressement automatique de votre scanner ou redressez les images avant l'OCR.
- Augmenter le contraste : si l'original est pâle, ajustez la luminosité et le contraste du scanner pour foncer le texte et éclaircir le fond.
- Supprimer le bruit : utilisez des filtres anti-taches pour nettoyer les artéfacts de numérisation et la texture du papier.
- Recadrer les marges : supprimer les grandes marges blanches, les perforations de reliure et les artéfacts de bord aide le moteur OCR à se concentrer sur le contenu réel.
Bonne pratique : numérisez les documents en couleur à 300 DPI ou plus, même si l'original est en noir et blanc. Les scans couleur préservent davantage d'informations pour l'étape de prétraitement, même si l'OCR travaille finalement sur l'image binarisée.
OCR multi-langues
Les moteurs OCR modernes prennent en charge des dizaines de langues, y compris celles utilisant des scripts non latins (chinois, japonais, coréen, arabe, cyrillique, devanagari). Points clés pour les documents multilingues :
- Sélection de la langue : spécifier la bonne langue améliore la précision de 5 à 15 %, car le moteur OCR utilise des dictionnaires et jeux de caractères propres à chaque langue.
- Documents multilingues : les documents comportant plusieurs langues (fréquents dans les publications universitaires) peuvent nécessiter plusieurs passes OCR ou une configuration multi-langues.
- Scripts de droite à gauche : l'arabe et l'hébreu nécessitent des moteurs OCR prenant en charge le texte bidirectionnel.
- Caractères CJK : le chinois, le japonais et le coréen possèdent des milliers de caractères aux différences subtiles, nécessitant des modèles de reconnaissance spécialisés.
Limites de la reconnaissance de l'écriture manuscrite
Bien que la technologie OCR ait considérablement progressé, la reconnaissance de l'écriture manuscrite reste un défi :
- Écriture scripte : des lettres en bâton nettes et séparées peuvent atteindre 60 à 80 % de précision.
- Écriture cursive : les lettres liées sont extrêmement difficiles pour l'OCR. La précision tombe sous 50 % pour la plupart des styles cursifs.
- Variations individuelles : contrairement au texte imprimé, l'écriture de chaque personne est unique, rendant la reconnaissance par modèles peu fiable.
- Contenu mixte : les documents contenant à la fois du texte imprimé et des annotations manuscrites se traitent mieux en deux étapes — OCR du texte imprimé, puis transcription manuelle de l'écriture.