Як отримати текст зі сканованого PDF

Чому не можна копіювати зі сканованого PDF

Сканований PDF — це набір фото в оболонці PDF. Сторінки виглядають як документи, але текст — це зображення, тому його не можна вибрати або шукати. Щоб отримати текст, потрібно пропустити кожну сторінку через OCR. Збережіть сторінку як зображення або зробіть скріншот, а потім завантажте в конвертер зображень у текст.

Крок за кроком

1. Перетворіть сторінки PDF на зображення

Експортуйте сторінки як JPG або PNG із програми перегляду PDF або зробіть чіткий повнорозмірний скріншот кожної сторінки.

2. Завантажте в ocrX

Додайте зображення сторінки, виберіть мову та отримайте текст.

3. Опрацюйте всі сторінки

Робіть їх по порядку та зберігайте текст разом.

4. Збережіть результат

Завантажте як TXT або як PDF чи Word, якщо потрібен акуратний документ.

Навіщо це робити

Коли текст стає справжнім текстом, ви можете шукати в договорі пункт, копіювати адресу зі старого листа або цитувати абзац без передруковування. Архів, який можна шукати, кращий за папку плоских зображень.

Поради

  • Експортуйте сторінки відповідного розміру. Крихітні мініатюри читаються погано.
  • Виберіть мову, яка відповідає документу.
  • Для довгих PDF працюйте невеликими партіями, щоб не загубити місце.

Підсумок

Сканований PDF — це просто картинки, поки ви його не прочитаєте. ocrX перетворює ці сторінки назад на текст, який можна шукати, копіювати та редагувати.

Спробуйте ocrX

Завантажте фото або скан і отримайте текст за лічені секунди. Безкоштовно, понад 100 мов, без реєстрації.

Конвертер зображень у текст

Більше з блогу