Com Treure Text d'un PDF Escanejat
Per què no pots copiar d'un PDF escanejat
Un PDF escanejat és una pila de fotos en un embolcall PDF. Les pàgines semblen documents, però el text és una imatge, així que no el pots seleccionar ni cercar. Per obtenir text utilitzable, passes cada pàgina per OCR. Desa o captura una pàgina com a imatge, després deixa-la anar al conversor d'imatge a text.
Pas a pas
1. Converteix les pàgines PDF en imatges
Exporta les pàgines com a JPG o PNG des del teu visor de PDF, o fes una captura de pantalla clara i de mida completa de cada pàgina.
2. Puja a ocrX
Afegeix la imatge de la pàgina, tria l'idioma i extreu.
3. Treballa amb les pàgines
Fes-les en ordre i mantén el text junt a mesura que avances.
4. Desa el resultat
Descarrega com a TXT, o com a PDF o Word si vols un document net.
Per què molestar-se
Un cop el text és text real, pots cercar un contracte per una clàusula, copiar una adreça d'una carta antiga o citar un paràgraf sense reescriure'l. Un arxiu cercable supera una carpeta d'imatges planes.
Consells
- Exporta les pàgines amb una mida decent. Les miniatures petites es llegeixen malament.
- Tria l'idioma que coincideixi amb el document.
- Per a PDF llargs, treballa en lots petits per no perdre el fil.
Resum
Un PDF escanejat són només imatges fins que el llegeixes. ocrX converteix aquestes pàgines de nou en text que pots cercar, copiar i editar.
