Назад ко всем записям28 апреля 2026 г.

Как извлечь текст из отсканированного PDF

Почему нельзя копировать из отсканированного PDF

Отсканированный PDF — это набор фото в PDF-обёртке. Страницы выглядят как документы, но текст — это изображение, поэтому его нельзя выделить или найти. Чтобы получить используемый текст, нужно пропустить каждую страницу через OCR. Сохраните или сфотографируйте страницу как изображение, затем загрузите в конвертер изображений в текст.

Шаг за шагом

1. Превратите страницы PDF в изображения

Экспортируйте страницы как JPG или PNG из вашей PDF-программы или сделайте чёткий полноразмерный скриншот каждой страницы.

2. Загрузите в ocrX

Добавьте изображение страницы, выберите язык и извлеките.

3. Обработайте все страницы

Делайте их по порядку и сохраняйте текст вместе по мере продвижения.

4. Сохраните результат

Скачайте как TXT, PDF или Word, если нужен аккуратный документ.

Зачем это нужно

Как только текст станет настоящим текстом, вы сможете искать пункт в договоре, копировать адрес из старого письма или цитировать абзац без перепечатывания. Поисковый архив лучше папки с плоскими изображениями.

Советы

Экспортируйте страницы в приличном размере. Крошечные миниатюры читаются плохо.
Выберите язык, соответствующий документу.
Для длинных PDF работайте небольшими партиями, чтобы не потерять место.

Заключение

Отсканированный PDF — это просто картинки, пока вы его не прочитаете. ocrX превращает эти страницы обратно в текст, который можно искать, копировать и редактировать.

Как извлечь текст из отсканированного PDF

Почему нельзя копировать из отсканированного PDF

Шаг за шагом

1. Превратите страницы PDF в изображения

2. Загрузите в ocrX

3. Обработайте все страницы

4. Сохраните результат

Зачем это нужно

Советы

Заключение

Попробуйте ocrX

Больше из блога

Как извлечь текст из изображения (набор текста не требуется)

Как конвертировать фото в текст на iPhone и Android

Как скопировать текст со скриншота