Qu'est-ce que l'OCR ? Un guide en français simple
L'OCR en une phrase
L'OCR, abréviation de reconnaissance optique de caractères, est la technologie qui lit le texte dans une image et le transforme en texte que vous pouvez modifier, copier et rechercher. C'est ce qui permet à un convertisseur d'image en texte comme ocrX de prendre une photo d'une page et de vous restituer les mots réels.
Quel problème résout-elle ?
Une photo ou un scan de texte n'est qu'un ensemble de points colorés pour un ordinateur. Il ne peut pas distinguer un B d'un 8. L'OCR examine ces points, reconnaît les formes comme des lettres et des chiffres, et les écrit sous forme de texte réel. C'est la différence entre une image d'une page et un document avec lequel vous pouvez travailler.
Comment cela fonctionne, en gros
Vous n'avez pas besoin des détails pour l'utiliser, mais l'essentiel est simple. Le logiciel trouve les zones qui contiennent du texte, sépare les lignes et les caractères, et fait correspondre chaque forme à ce qu'il sait des lettres dans une langue donnée. L'OCR moderne utilise l'apprentissage automatique, c'est pourquoi il gère différentes polices, écritures manuscrites et de nombreuses langues bien mieux que les anciens outils.
Où vous l'avez déjà vu
- Votre téléphone qui récupère un numéro de téléphone dans une photo.
- Un scanner qui crée un PDF consultable.
- Une application bancaire qui lit un chèque.
- Une application de traduction qui lit un menu étranger via l'appareil photo.
Ce dans quoi l'OCR est bon et moins bon
Il est excellent avec du texte imprimé clair et bon avec une écriture manuscrite soignée. Il a du mal avec le flou, la faible luminosité, les arrière-plans chargés et l'écriture désordonnée ou cursive. Plus l'image est propre, meilleur est le résultat, à chaque fois.
Essayez par vous-même
La façon la plus simple de comprendre l'OCR est de l'utiliser. Téléchargez une photo de n'importe quel texte sur ocrX, choisissez la langue, et regardez une image fixe devenir des mots que vous pouvez copier.
