Jak wyodrębnić tekst z zeskanowanego PDF

Dlaczego nie możesz kopiować z zeskanowanego PDF

Zeskanowany PDF to stos zdjęć w opakowaniu PDF. Strony wyglądają jak dokumenty, ale tekst jest obrazem, więc nie możesz go zaznaczyć ani przeszukiwać. Aby uzyskać użyteczny tekst, przepuść każdą stronę przez OCR. Zapisz lub zrób zrzut ekranu strony jako obraz, a następnie wrzuć go do konwertera obrazu na tekst.

Krok po kroku

1. Zamień strony PDF na obrazy

Wyeksportuj strony jako JPG lub PNG z przeglądarki PDF lub zrób wyraźny, pełnowymiarowy zrzut ekranu każdej strony.

2. Prześlij do ocrX

Dodaj obraz strony, wybierz język i wyodrębnij.

3. Przerób strony

Rób je po kolei i zbieraj tekst w miarę postępów.

4. Zapisz wynik

Pobierz jako TXT lub jako PDF lub Word, jeśli chcesz mieć schludny dokument.

Po co się fatygować

Gdy tekst jest prawdziwym tekstem, możesz przeszukać umowę w poszukiwaniu klauzuli, skopiować adres ze starego listu lub zacytować akapit bez przepisywania. Przeszukiwalne archiwum pokonuje folder płaskich obrazów.

Wskazówki

  • Eksportuj strony w przyzwoitym rozmiarze. Małe miniatury czytają się słabo.
  • Wybierz język odpowiadający dokumentowi.
  • W przypadku długich PDF-ów pracuj w małych partiach, aby nie zgubić miejsca.

Podsumowanie

Zeskanowany PDF to tylko obrazki, dopóki go nie odczytasz. ocrX zamienia te strony z powrotem w tekst, który możesz przeszukiwać, kopiować i edytować.

Wypróbuj ocrX

Wrzuć zdjęcie lub skan i wydobądź tekst w kilka sekund. Za darmo, ponad 100 języków, bez rejestracji.

Konwerter obrazu na tekst

Więcej z bloga