Comment extraire le texte d'un PDF scanné

Pourquoi vous ne pouvez pas copier depuis un PDF scanné

Un PDF scanné est un ensemble de photos dans une enveloppe PDF. Les pages ressemblent à des documents, mais le texte est une image, vous ne pouvez donc pas le sélectionner ni le rechercher. Pour obtenir du texte utilisable, vous passez chaque page dans l'OCR. Enregistrez ou capturez une page en image, puis déposez-la dans le convertisseur d'image en texte.

Étape par étape

1. Transformez les pages PDF en images

Exportez les pages en JPG ou PNG depuis votre lecteur PDF, ou prenez une capture d'écran claire et en taille réelle de chaque page.

2. Téléchargez sur ocrX

Ajoutez l'image de la page, choisissez la langue, et extrayez.

3. Parcourez les pages

Faites-les dans l'ordre et gardez le texte ensemble au fur et à mesure.

4. Enregistrez le résultat

Téléchargez en TXT, ou en PDF ou Word si vous voulez un document soigné.

Pourquoi se donner cette peine

Une fois que le texte est du vrai texte, vous pouvez rechercher une clause dans un contrat, copier une adresse d'une vieille lettre, ou citer un paragraphe sans le retaper. Une archive consultable bat un dossier d'images fixes.

Conseils

  • Exportez les pages dans une taille correcte. Les minuscules vignettes se lisent mal.
  • Choisissez la langue qui correspond au document.
  • Pour les longs PDF, travaillez par petits lots pour ne pas perdre le fil.

Pour conclure

Un PDF scanné n'est que des images jusqu'à ce que vous le lisiez. ocrX transforme ces pages en texte que vous pouvez rechercher, copier et modifier.

Essayer ocrX

Déposez une photo ou un scan et extrayez le texte en quelques secondes. Gratuit, plus de 100 langues, sans inscription.

Convertisseur d'image en texte

Plus d'articles du blog