// оцифровка · поиск · on-premise
Электронный архив научного института
Задача
Научный институт хранит более 55 000 единиц: отчёты, статьи, диссертации — десятилетия работы в бумаге и TIFF-сканах. Найти нужный документ можно было только вручную, по описи. Требование, которое отсекло готовые облачные сервисы: документы не должны покидать организацию.
Решение
- Конвейер распознавания: OCR + коррекция локальной языковой моделью. Модель исправляет типовые ошибки распознавания, склеивает переносы, восстанавливает структуру страниц.
- Электронный каталог на PostgreSQL с полнотекстовым поиском: морфология («катализатору» находит «катализатор»), нечёткий поиск для опечаток, фильтры по рубрикам.
- Интерфейс для сотрудников: окно «положил папку сканов — получил документ в каталоге», поиск с кнопкой «Открыть документ». Без обучения и инструкций на 40 страниц.
- Всё on-premise: распознавание, модель, база и поиск работают на серверах института. Наружу не уходит ни одного байта.
Результат
55 000+
единиц хранения в контуре проекта
~99%
точность распознавания машинописного текста
секунды
поиск по всему фонду вместо ручного просмотра описей
Качество измеряем честно: на эталонных страницах, вычитанных человеком, ошибка распознавания — меньше одного знака на сто. Для сложных страниц предусмотрен режим ручной доводки «до идеала».
Похожая задача? Расскажите — разберём бесплатно.
Обсудить задачу