Что такое OCR? Руководство простым языком
OCR в одном предложении
OCR (расшифровывается как оптическое распознавание символов) — это технология, которая читает текст на картинке и превращает его в текст, который можно редактировать, копировать и искать. Именно это позволяет конвертеру изображений в текст, такому как ocrX, взять фото страницы и выдать вам настоящие слова.
Какую проблему это решает?
Фото или скан текста — это просто цветные точки для компьютера. Он не может отличить букву Б от цифры 8. OCR просматривает эти точки, распознаёт формы как буквы и цифры и записывает их как настоящий текст. В этом разница между картинкой страницы и документом, с которым можно работать.
Как это работает, вкратце
Вам не нужны детали, чтобы использовать это, но суть проста. Программа находит области, содержащие текст, разделяет строки и символы и сопоставляет каждую форму с тем, что она знает о буквах в данном языке. Современный OCR использует машинное обучение, поэтому он работает с разными шрифтами, рукописным текстом и многими языками гораздо лучше, чем старые инструменты.
Где вы уже это видели
- Ваш телефон извлекает номер телефона из фото.
- Сканер создаёт PDF, в котором можно искать.
- Банковское приложение читает чек.
- Приложение-переводчик читает иностранное меню через камеру.
Что OCR умеет хорошо, а что не очень
Отлично работает с чётким печатным текстом и хорошо с аккуратным рукописным. Справляется плохо с размытием, плохим освещением, загруженным фоном и неразборчивым или прописным письмом. Чем чище изображение, тем лучше результат — всегда.
Попробуйте сами
Самый простой способ понять OCR — использовать его. Загрузите фото любого текста в ocrX, выберите язык и наблюдайте, как плоское изображение превращается в слова, которые можно скопировать.
