21 апреля 2022 г.

Георгий Зуев

Что представляет из себя оцифровка и интеллектуальная обработка документов, почему государство делает ставку на обработку документов с помощью цифровых помощников и что сегодня происходит на рынке распознавания и анализа в связи с трендом на импортозамещение?

Оцифровка документов как точка входа в мир автоматизации бизнеса

Быстрый перевод входящих документов в цифровой вид и оцифровка накопившихся бумажных архивов — важный тренд цифровой экономики и неизбежный шаг при переходе на электронный документооборот. Ручной перенос данных из документов в информационную систему — слишком долго и чревато ошибками в базе данных. В то же время этот самый ручной труд до сегодняшнего дня очень распространен при проверке комплектов документов и на кредитном конвейере в частном банке, и в госведомстве, которое оказывает услуги населению, и во многих других случаях.

В пиковые периоды нагрузок ручной ввод данных приводит к срыву сроков оказания услуг. Именно по этой причине обработку документов всё чаще автоматизируют, сокращая таким образом расходы на фонд оплаты труда операторов ввода данных, расходы при массовом официальном трудоустройстве, при обработке и хранении больших потоков документов.

Почему автоматическая оцифровка документов важна? Примеры

По итогам масштабного федерального проекта оцифровки архивов ЗАГС, в котором принимал участие и наша компания, Правительство РФ получило в электронном виде информацию о населении России. Благодаря этой базе данных в период пандемии по поручению Президента смоги оперативно провести выплаты гражданам, в том числе пособий на детей.

Другой пример из нашей практики — автоматическая оцифровка документов участников госзакупок. Благодаря применению технологий искусственного интеллекта система может сократить сроки обработки документов в 3-4 раза. Подобный пилотный проект недавно прошёл в Архангельской области.

Кроме того, крупному объединенному центру обработки (ОЦО) документов на базе нашего облачного сервиса удалось сократить время обработки кадровых документов с 40 до 10 минут. Стоимость обработки при этом оказалась, в среднем, в 2,5 раза ниже, чем при ручном вводе. Это существенно снижает затраты при массовом найме сотрудников, когда нужно соблюдать требование по их официальному трудоустройству. Система не только распознаёт данные, но и сразу заносит их в нужные поля электронного архива. При ручной обработке эту работу могут выполнять несколько человек. При полном переходе на электронный кадровый документооборот, также можно существенно сэкономить на логистике — пересылке документов — и полностью отказаться от кадровой бумаги в периметре компании — экономия просто колоссальная.

Что представляет из себя оцифровка? Виды решений

Оцифровка — это перенос данных из бумажного документа, его скан-образа или фото в электронный вид, с автоматическим заполнением нужных полей в информационной системе. Процесс состоит из сканирования, распознавания, определения типа документа и собственно передачи распознанных данных в информационную систему.

Распознать информацию на скане, «понять», куда её определить, компьютер может благодаря специальному ПО. Такой софт разрабатывает и поставляет на рынок ряд отечественных компаний.

Кстати, недавно произошёл казус, заставивший весь рынок говорить о выборе надежного отечественного поставщика. Связано это с тем, что весьма заметный на рынке интеллектуальной обработки документов вендор ABBYY, компания с российскими корнями, вывела свои решения из реестра отечественного ПО и баз данных. Этим компания затронула интересы крупных государственных заказчиков.

В целом рынок не должен почувствовать больших проблем с автоматической обработкой привычных шаблонированных документов — таких как бухгалтерская первичка, накладные, акты, счета. Во-первых, разработка не стоит на месте. Во-вторых, существующие российские аналоги могут стоить на 15-30% дешевле, потому что их бренд не такой раскрученный.

Скажется ли это на качестве распознавания? Если использовать коробочные версии ПО, где ставка полностью сделана на распознавание силами технологий, то в краткосрочной перспективе скажется. Однако принципиальный момент заключается в том, что чистые технологии попросту не дают и в обозримом будущем не дадут 100% качества обработки. Даже для структурированных печатных документов, — например, стандартного счета-фактуры — качество распознавания может находиться на уровне 80-90%. При этом нераспознанные значения в ручном режиме вносятся в базу данных либо операторами внутри компании. Те, кто понимает эти ограничения, но хочет полной автоматизации интеллектуальной обработки документов, использует облачные аутсорсинговые сервисы.

Разработчики таких сервисов честно признались сами себе в отсутствии 100% эффективности чистых технологий и придерживаются тренда на двойное распознавание: когда документ сначала прогоняют через нейросети, а данные, распознанные с низким порогом уверенности отдают на ручную верификацию. Всё это происходит в облаке, заказчик получает готовый результат, то есть полную автоматизацию бизнес-процесса. Автоматизированное распознавание с дополнительной ручной верификацией — самый качественный вариант оцифровки на сегодняшний день. Выбирать такие сервисы стоит, ориентируясь на опыт работы исполнителя с персональными данными, наличие технологий защиты информации и соблюдение всех требований ФЗ-152. Данные должны быть защищены шифрованием и передаваться из периметра не иначе как в «разрезанном» виде — когда по отдельным значениям невозможно определить, к чему они относятся. Само собой, в новых экономических условиях желательно, чтобы под капотом решения был полностью отечественный движок. Поискать таких поставщиков можно, например, в «Сколково», где сегодня активно прорабатывают логику импортозамещения.

Terra Incognita

Где потребность остаётся незакрытой, так это в области разработки «цифровых помощников» — систем распознавания и анализа для обработки неструктурированных документов. Архивные дела, комплекты документов, поступающие в ведомства при оказании госуслуг, при обращениях граждан и т. д. Качественная оцифровка и последущий анализ этих документов — дело для систем более сложных, чем простая «распознавалка». В этой области на нашем рынке ещё никогда не было лидеров. Правда, есть компании, которые уже успешно создали решения в разных нишах. Есть крупные игроки, такие как СБЕР, Яндекс. Есть отраслевые, нищевые — Naumen, и мы — «Биорг», кто занимается кастомными системами распознавания и анализа под конкретные бизнес-процессы.

Зачем нужны цифровые помощники?

Цифровой помощник — нейросетевой комплекс распознавания и анализа, который способен взять на себя большие рутинные процессы, связанны, например, с юридически значимой проверкой документов. В идеале, такая система оставляет за человеком только финальное решение. Запрос цифровых помощников всё больше нарастает в государственном секторе, где ИТ-продукты, на сто процентов должны быть отечественными.

Например, искусственный интеллект может помочь гражданам РФ быстрее получать госуслуги и сократит время их пребывания в МФЦ, автоматически предзаполняя за них заявления, проверяя ошибки и уменьшая вероятность отказа в предоставлении услуги. Такой ИИ ускорит внутри- и межведомственное взаимодействие за счёт машинного анализа документов и в целом сократит время оказания госуслуг, повысив их качество: людям не придётся ждать, чтобы на выходе получить отказ, система сразу предложит исправить все входящие ошибки или предупредит о несостыковках.

Обученный на качественно размеченных наборах данных цифровой помощник сможет автоматизировать не менее 70% проверок, которые сегодня должен вручную проводить специалист госведомства. Объём рутинной нагрузки на чиновника снизится в три раза. Это значит, что увеличения срока обработки заявлений и проверки документов не будет происходить даже в пиковые периоды нагрузок. Не будет срыва сроков по госуслугам, взаимодействие с государством для граждан станет ещё легче и быстрее.

Однако такую цифровую «личность» следует обучать постепенно. Сначала под конкретный бизнес-процесс, после чего решение можно масштабировать на другие госуслуги.

Поручение Президента по оцифровке архивных фондов

Недавно Президент дал поручение Минцифры, РАН и Росархиву подумать, как оцифровать национальные архивные фонды с применением технологий искусственного интеллекта. Фактически это означает перевести в электронный вид феноменальный объём информации — большие данные о нашей стране. Они не только содержат исторические сведения, историческую память о нашем народе, но также информацию о технологиях и разработках за всё время ведения архивов. Архивы — это наше национальное ДНК. Обращаться с этим цифровым массивом нужно крайне осторожно, чтобы не допустить утечек или повреждения данных. Такая масштабная оцифровка — ещё один показатель важности перехода от физических носителей к электронным с соблюдением всех возможных мер информационной безопасности. Каменный век закончился не потому, что к концу подошли камни. От бумажного документоjборота мы будем переходить к электронным носителям и образам, потому что с накопленным объёмом знаний и информации надо работать быстрее и продуктивнее.

Источник: Георгий Зуев, основатель компании «Биорг»