Как да извлечете текст от сканиран PDF
Защо не можете да копирате от сканиран PDF
Сканираният PDF е куп снимки в PDF обвивка. Страниците изглеждат като документи, но текстът е изображение, така че не можете да го изберете или търсите. За да получите използваем текст, пускате всяка страница през OCR. Запазете или снимайте страница като изображение, след което я пуснете в конвертор на изображения в текст.
Стъпка по стъпка
1. Превърнете PDF страниците в изображения
Експортирайте страниците като JPG или PNG от вашия PDF четец или направете ясна, пълноразмерна екранна снимка на всяка страница.
2. Качете в ocrX
Добавете изображението на страницата, изберете езика и извлечете.
3. Работете през страниците
Правете ги по ред и събирайте текста заедно, докато напредвате.
4. Запазете резултата
Изтеглете като TXT или като PDF или Word файл, ако искате подреден документ.
Защо си струва
След като текстът е истински текст, можете да търсите в договор за клауза, да копирате адрес от старо писмо или да цитирате абзац, без да го преписвате. Търсим архив побеждава папка с плоски изображения.
Съвети
- Експортирайте страниците с приличен размер. Малките миниатюри се четат лошо.
- Изберете езика, който съответства на документа.
- За дълги PDF-и работете на малки групи, за да не загубите позицията си.
Приключваме
Сканираният PDF е просто картинки, докато не го прочетете. ocrX превръща тези страници обратно в текст, който можете да търсите, копирате и редактирате.
