// оцифровка · поиск · on-premise

Электронный архив научного института

Задача

Научный институт хранит более 55 000 единиц: отчёты, статьи, диссертации — десятилетия работы в бумаге и TIFF-сканах. Найти нужный документ можно было только вручную, по описи. Требование, которое отсекло готовые облачные сервисы: документы не должны покидать организацию.

Решение

Конвейер распознавания: OCR + коррекция локальной языковой моделью. Модель исправляет типовые ошибки распознавания, склеивает переносы, восстанавливает структуру страниц.
Электронный каталог на PostgreSQL с полнотекстовым поиском: морфология («катализатору» находит «катализатор»), нечёткий поиск для опечаток, фильтры по рубрикам.
Интерфейс для сотрудников: окно «положил папку сканов — получил документ в каталоге», поиск с кнопкой «Открыть документ». Без обучения и инструкций на 40 страниц.
Всё on-premise: распознавание, модель, база и поиск работают на серверах института. Наружу не уходит ни одного байта.

Результат

55 000+

единиц хранения в контуре проекта

~99%

точность распознавания машинописного текста

секунды

поиск по всему фонду вместо ручного просмотра описей

Качество измеряем честно: на эталонных страницах, вычитанных человеком, ошибка распознавания — меньше одного знака на сто. Для сложных страниц предусмотрен режим ручной доводки «до идеала».

Похожая задача? Расскажите — разберём бесплатно.

Обсудить задачу