Cómo obtener texto de un PDF escaneado
Por qué no puedes copiar de un PDF escaneado
Un PDF escaneado es un montón de fotos envueltas en un PDF. Las páginas parecen documentos, pero el texto es una imagen, por lo que no puedes seleccionarlo ni buscarlo. Para obtener texto utilizable, pasas cada página por OCR. Guarda o captura una página como imagen, luego suéltala en el conversor de imagen a texto.
Paso a paso
1. Convierte las páginas del PDF en imágenes
Exporta las páginas como JPG o PNG desde tu visor de PDF, o toma una captura de pantalla clara y de tamaño completo de cada página.
2. Sube a ocrX
Añade la imagen de la página, elige el idioma y extrae.
3. Trabaja con todas las páginas
Hazlas en orden y mantén el texto junto a medida que avanzas.
4. Guarda el resultado
Descarga como TXT, o como PDF o Word si quieres un documento ordenado.
Por qué molestarse
Una vez que el texto es texto real, puedes buscar una cláusula en un contrato, copiar una dirección de una carta antigua o citar un párrafo sin tener que reescribirlo. Un archivo buscable es mejor que una carpeta de imágenes planas.
Consejos
- Exporta las páginas con un tamaño decente. Las miniaturas pequeñas se leen mal.
- Elige el idioma que coincida con el documento.
- Para PDF largos, trabaja en lotes pequeños para no perder el hilo.
En resumen
Un PDF escaneado son solo imágenes hasta que lo lees. ocrX convierte esas páginas de nuevo en texto que puedes buscar, copiar y editar.
