Wie man Text aus einem gescannten PDF extrahiert
Warum Sie aus einem gescannten PDF nicht kopieren können
Ein gescanntes PDF ist ein Stapel von Fotos in einer PDF-Hülle. Die Seiten sehen aus wie Dokumente, aber der Text ist ein Bild, sodass Sie ihn weder auswählen noch durchsuchen können. Um brauchbaren Text zu erhalten, führen Sie jede Seite durch OCR. Speichern Sie eine Seite als Bild oder machen Sie einen Screenshot davon und legen Sie sie dann in den Bild-zu-Text-Konverter.
Schritt für Schritt
1. Wandeln Sie die PDF-Seiten in Bilder um
Exportieren Sie die Seiten aus Ihrem PDF-Viewer als JPG oder PNG oder machen Sie einen klaren, vollformatigen Screenshot jeder Seite.
2. Zu ocrX hochladen
Fügen Sie das Seitenbild hinzu, wählen Sie die Sprache und extrahieren Sie.
3. Arbeiten Sie sich durch die Seiten
Erledigen Sie sie der Reihe nach und behalten Sie den Text zusammen, während Sie vorgehen.
4. Speichern Sie das Ergebnis
Laden Sie als TXT oder als PDF- oder Word-Datei herunter, wenn Sie ein ordentliches Dokument wünschen.
Warum sich die Mühe lohnt
Sobald der Text echter Text ist, können Sie einen Vertrag nach einer Klausel durchsuchen, eine Adresse aus einem alten Brief kopieren oder einen Absatz zitieren, ohne ihn abzutippen. Ein durchsuchbares Archiv schlägt einen Ordner mit flachen Bildern.
Tipps
- Exportieren Sie Seiten in angemessener Größe. Winzige Vorschaubilder lassen sich schlecht lesen.
- Wählen Sie die Sprache, die zum Dokument passt.
- Arbeiten Sie bei langen PDFs in kleinen Chargen, damit Sie nicht den Überblick verlieren.
Zusammenfassung
Ein gescanntes PDF sind nur Bilder, bis Sie es lesen. ocrX verwandelt diese Seiten zurück in Text, den Sie durchsuchen, kopieren und bearbeiten können.
