Сканирование и OCR в делопроизводстве: насколько это надёжно
OCR (Optical Character Recognition, оптическое распознавание текста) — технология, которая превращает картинку с текстом в редактируемый текст. Звучит магически, но на практике в делопроизводстве у неё много ограничений.
Когда OCR работает хорошо:
- Чистый машинописный текст на белом фоне (типографское качество);
- Стандартные шрифты (Times New Roman, Arial и аналоги);
- Высокое разрешение скана (от 300 dpi).
Когда OCR работает плохо:
- Рукописный текст — точность 60–70% даже у лучших нейросетей;
- Сложные таблицы — структура часто разваливается;
- Печати и штампы — пропускаются;
- Многоколоночный текст с сносками — слипается;
- Цветные документы низкого качества — точность падает до 80%.
В типовой администрации входящие письма приходят:
- По email с PDF-вложением (текстовый PDF) — OCR не нужен, текст уже читается;
- По email со сканом письма (графический PDF) — OCR нужен, но плохо работает на печатях;
- На бумаге через почту России — нужно сначала сканировать, потом OCR.
Практический подход: не пытаться полностью автоматизировать через OCR. Электронный журнал хранит и текстовые, и графические PDF — секретарь видит, что внутри, и пишет краткую тему вручную (это всего 10–20 секунд на письмо).
Поиск по содержимому графических PDF можно реализовать отдельно через Yandex.Vision или Tesseract (открытое OCR-решение), но это уже опция Корпоративного тарифа — для большинства администраций избыточно.
Понравилась статья?
Заказывайте платформу ПроРеестр — журнал писем, реестр договоров, проверка контрагентов и учёт работы исполнителей в одной подписке.
Заказать установку