Як отримати текст зі сканованого PDF
Чому не можна копіювати зі сканованого PDF
Сканований PDF — це набір фото в оболонці PDF. Сторінки виглядають як документи, але текст — це зображення, тому його не можна вибрати або шукати. Щоб отримати текст, потрібно пропустити кожну сторінку через OCR. Збережіть сторінку як зображення або зробіть скріншот, а потім завантажте в конвертер зображень у текст.
Крок за кроком
1. Перетворіть сторінки PDF на зображення
Експортуйте сторінки як JPG або PNG із програми перегляду PDF або зробіть чіткий повнорозмірний скріншот кожної сторінки.
2. Завантажте в ocrX
Додайте зображення сторінки, виберіть мову та отримайте текст.
3. Опрацюйте всі сторінки
Робіть їх по порядку та зберігайте текст разом.
4. Збережіть результат
Завантажте як TXT або як PDF чи Word, якщо потрібен акуратний документ.
Навіщо це робити
Коли текст стає справжнім текстом, ви можете шукати в договорі пункт, копіювати адресу зі старого листа або цитувати абзац без передруковування. Архів, який можна шукати, кращий за папку плоских зображень.
Поради
- Експортуйте сторінки відповідного розміру. Крихітні мініатюри читаються погано.
- Виберіть мову, яка відповідає документу.
- Для довгих PDF працюйте невеликими партіями, щоб не загубити місце.
Підсумок
Сканований PDF — це просто картинки, поки ви його не прочитаєте. ocrX перетворює ці сторінки назад на текст, який можна шукати, копіювати та редагувати.
