Как извлечь текст из отсканированного PDF
Почему нельзя копировать из отсканированного PDF
Отсканированный PDF — это набор фото в PDF-обёртке. Страницы выглядят как документы, но текст — это изображение, поэтому его нельзя выделить или найти. Чтобы получить используемый текст, нужно пропустить каждую страницу через OCR. Сохраните или сфотографируйте страницу как изображение, затем загрузите в конвертер изображений в текст.
Шаг за шагом
1. Превратите страницы PDF в изображения
Экспортируйте страницы как JPG или PNG из вашей PDF-программы или сделайте чёткий полноразмерный скриншот каждой страницы.
2. Загрузите в ocrX
Добавьте изображение страницы, выберите язык и извлеките.
3. Обработайте все страницы
Делайте их по порядку и сохраняйте текст вместе по мере продвижения.
4. Сохраните результат
Скачайте как TXT, PDF или Word, если нужен аккуратный документ.
Зачем это нужно
Как только текст станет настоящим текстом, вы сможете искать пункт в договоре, копировать адрес из старого письма или цитировать абзац без перепечатывания. Поисковый архив лучше папки с плоскими изображениями.
Советы
- Экспортируйте страницы в приличном размере. Крошечные миниатюры читаются плохо.
- Выберите язык, соответствующий документу.
- Для длинных PDF работайте небольшими партиями, чтобы не потерять место.
Заключение
Отсканированный PDF — это просто картинки, пока вы его не прочитаете. ocrX превращает эти страницы обратно в текст, который можно искать, копировать и редактировать.
