Wie man Text aus einem gescannten PDF extrahiert

Warum Sie aus einem gescannten PDF nicht kopieren können

Ein gescanntes PDF ist ein Stapel von Fotos in einer PDF-Hülle. Die Seiten sehen aus wie Dokumente, aber der Text ist ein Bild, sodass Sie ihn weder auswählen noch durchsuchen können. Um brauchbaren Text zu erhalten, führen Sie jede Seite durch OCR. Speichern Sie eine Seite als Bild oder machen Sie einen Screenshot davon und legen Sie sie dann in den Bild-zu-Text-Konverter.

Schritt für Schritt

1. Wandeln Sie die PDF-Seiten in Bilder um

Exportieren Sie die Seiten aus Ihrem PDF-Viewer als JPG oder PNG oder machen Sie einen klaren, vollformatigen Screenshot jeder Seite.

2. Zu ocrX hochladen

Fügen Sie das Seitenbild hinzu, wählen Sie die Sprache und extrahieren Sie.

3. Arbeiten Sie sich durch die Seiten

Erledigen Sie sie der Reihe nach und behalten Sie den Text zusammen, während Sie vorgehen.

4. Speichern Sie das Ergebnis

Laden Sie als TXT oder als PDF- oder Word-Datei herunter, wenn Sie ein ordentliches Dokument wünschen.

Warum sich die Mühe lohnt

Sobald der Text echter Text ist, können Sie einen Vertrag nach einer Klausel durchsuchen, eine Adresse aus einem alten Brief kopieren oder einen Absatz zitieren, ohne ihn abzutippen. Ein durchsuchbares Archiv schlägt einen Ordner mit flachen Bildern.

Tipps

  • Exportieren Sie Seiten in angemessener Größe. Winzige Vorschaubilder lassen sich schlecht lesen.
  • Wählen Sie die Sprache, die zum Dokument passt.
  • Arbeiten Sie bei langen PDFs in kleinen Chargen, damit Sie nicht den Überblick verlieren.

Zusammenfassung

Ein gescanntes PDF sind nur Bilder, bis Sie es lesen. ocrX verwandelt diese Seiten zurück in Text, den Sie durchsuchen, kopieren und bearbeiten können.

ocrX ausprobieren

Laden Sie ein Foto oder einen Scan hoch und extrahieren Sie den Text in Sekundenschnelle. Kostenlos, über 100 Sprachen, keine Anmeldung.

Bild-zu-Text-Konverter

Mehr vom Blog