02.06.2026 OCRсканированиеавтоматизация

Сканирование и OCR в делопроизводстве: насколько это надёжно

OCR (Optical Character Recognition, оптическое распознавание текста) — технология, которая превращает картинку с текстом в редактируемый текст. Звучит магически, но на практике в делопроизводстве у неё много ограничений.

Когда OCR работает хорошо:

Чистый машинописный текст на белом фоне (типографское качество);
Стандартные шрифты (Times New Roman, Arial и аналоги);
Высокое разрешение скана (от 300 dpi).

Когда OCR работает плохо:

Рукописный текст — точность 60–70% даже у лучших нейросетей;
Сложные таблицы — структура часто разваливается;
Печати и штампы — пропускаются;
Многоколоночный текст с сносками — слипается;
Цветные документы низкого качества — точность падает до 80%.

В типовой администрации входящие письма приходят:

По email с PDF-вложением (текстовый PDF) — OCR не нужен, текст уже читается;
По email со сканом письма (графический PDF) — OCR нужен, но плохо работает на печатях;
На бумаге через почту России — нужно сначала сканировать, потом OCR.

Практический подход: не пытаться полностью автоматизировать через OCR. Электронный журнал хранит и текстовые, и графические PDF — секретарь видит, что внутри, и пишет краткую тему вручную (это всего 10–20 секунд на письмо).

Поиск по содержимому графических PDF можно реализовать отдельно через Yandex.Vision или Tesseract (открытое OCR-решение), но это уже опция Корпоративного тарифа — для большинства администраций избыточно.

Понравилась статья?

Заказывайте платформу ПроРеестр — журнал писем, реестр договоров, проверка контрагентов и учёт работы исполнителей в одной подписке.

Заказать установку