¿Qué es el OCR? Una guía en lenguaje sencillo
OCR en una frase
OCR, abreviatura de reconocimiento óptico de caracteres, es la tecnología que lee el texto en una imagen y lo convierte en texto que puedes editar, copiar y buscar. Es lo que permite que un conversor de imagen a texto como ocrX tome una foto de una página y te devuelva las palabras reales.
¿Qué problema resuelve?
Una foto o escaneo de texto son solo puntos de colores para una computadora. No puede distinguir una B de un 8. El OCR observa esos puntos, reconoce las formas como letras y números, y los escribe como texto real. Esa es la diferencia entre una imagen de una página y un documento con el que puedes trabajar.
Cómo funciona, aproximadamente
No necesitas los detalles para usarlo, pero la idea es simple. El software encuentra las áreas que contienen texto, separa las líneas y los caracteres, y compara cada forma con lo que sabe sobre las letras en un idioma determinado. El OCR moderno utiliza aprendizaje automático, por lo que maneja diferentes fuentes, escritura a mano y muchos idiomas mucho mejor que las herramientas antiguas.
Dónde lo has visto ya
- Tu teléfono capturando un número de teléfono de una foto.
- Un escáner creando un PDF que puedes buscar.
- Una aplicación bancaria leyendo un cheque.
- Una aplicación de traducción leyendo un menú extranjero a través de la cámara.
Para qué es bueno y no tan bueno el OCR
Es excelente con texto impreso claro y bueno con escritura a mano ordenada. Tiene dificultades con el desenfoque, la poca luz, los fondos ocupados y la escritura desordenada o cursiva. Cuanto más limpia sea la imagen, mejor será el resultado, siempre.
Pruébalo tú mismo
La forma más fácil de entender el OCR es usarlo. Sube una foto de cualquier texto a ocrX, elige el idioma y observa cómo una imagen plana se convierte en palabras que puedes copiar.
