Jak wyodrębnić tekst z zeskanowanego PDF
Dlaczego nie możesz kopiować z zeskanowanego PDF
Zeskanowany PDF to stos zdjęć w opakowaniu PDF. Strony wyglądają jak dokumenty, ale tekst jest obrazem, więc nie możesz go zaznaczyć ani przeszukiwać. Aby uzyskać użyteczny tekst, przepuść każdą stronę przez OCR. Zapisz lub zrób zrzut ekranu strony jako obraz, a następnie wrzuć go do konwertera obrazu na tekst.
Krok po kroku
1. Zamień strony PDF na obrazy
Wyeksportuj strony jako JPG lub PNG z przeglądarki PDF lub zrób wyraźny, pełnowymiarowy zrzut ekranu każdej strony.
2. Prześlij do ocrX
Dodaj obraz strony, wybierz język i wyodrębnij.
3. Przerób strony
Rób je po kolei i zbieraj tekst w miarę postępów.
4. Zapisz wynik
Pobierz jako TXT lub jako PDF lub Word, jeśli chcesz mieć schludny dokument.
Po co się fatygować
Gdy tekst jest prawdziwym tekstem, możesz przeszukać umowę w poszukiwaniu klauzuli, skopiować adres ze starego listu lub zacytować akapit bez przepisywania. Przeszukiwalne archiwum pokonuje folder płaskich obrazów.
Wskazówki
- Eksportuj strony w przyzwoitym rozmiarze. Małe miniatury czytają się słabo.
- Wybierz język odpowiadający dokumentowi.
- W przypadku długich PDF-ów pracuj w małych partiach, aby nie zgubić miejsca.
Podsumowanie
Zeskanowany PDF to tylko obrazki, dopóki go nie odczytasz. ocrX zamienia te strony z powrotem w tekst, który możesz przeszukiwać, kopiować i edytować.
