Как извлечь текст из отсканированного PDF

Почему нельзя копировать из отсканированного PDF

Отсканированный PDF — это набор фото в PDF-обёртке. Страницы выглядят как документы, но текст — это изображение, поэтому его нельзя выделить или найти. Чтобы получить используемый текст, нужно пропустить каждую страницу через OCR. Сохраните или сфотографируйте страницу как изображение, затем загрузите в конвертер изображений в текст.

Шаг за шагом

1. Превратите страницы PDF в изображения

Экспортируйте страницы как JPG или PNG из вашей PDF-программы или сделайте чёткий полноразмерный скриншот каждой страницы.

2. Загрузите в ocrX

Добавьте изображение страницы, выберите язык и извлеките.

3. Обработайте все страницы

Делайте их по порядку и сохраняйте текст вместе по мере продвижения.

4. Сохраните результат

Скачайте как TXT, PDF или Word, если нужен аккуратный документ.

Зачем это нужно

Как только текст станет настоящим текстом, вы сможете искать пункт в договоре, копировать адрес из старого письма или цитировать абзац без перепечатывания. Поисковый архив лучше папки с плоскими изображениями.

Советы

  • Экспортируйте страницы в приличном размере. Крошечные миниатюры читаются плохо.
  • Выберите язык, соответствующий документу.
  • Для длинных PDF работайте небольшими партиями, чтобы не потерять место.

Заключение

Отсканированный PDF — это просто картинки, пока вы его не прочитаете. ocrX превращает эти страницы обратно в текст, который можно искать, копировать и редактировать.

Попробуйте ocrX

Загрузите фото или скан и извлеките текст за секунды. Бесплатно, более 100 языков, без регистрации.

Конвертер изображений в текст

Больше из блога