23 октября 2024 г.

Дмитрий Романов

По оценкам аналитиков Gartner, 80-90% данных, хранящихся в организациях, — неструктурированные. Это электронные письма, изображения и другие файлы разных форматов, для обработки которых в автоматизированном режиме требуются специальные технологии. Управляющий директор «Преферентум» компании SL Soft (ГК Softline) Дмитрий Романов — о том, как интеллектуальные инструменты помогают собирать, обрабатывать и анализировать эти данные, в том числе для передачи в BI-системы, повышая скорость и качество управленческих решений.

Роль и место текстовой аналитики в ИТ-инфраструктуре

Как крупные, так и небольшие организации в своей деятельности постоянно сталкиваются с различными документами, поступающими из внешних источников или формируемыми внутренними службами и системами. Примерно в 80% случаев это неструктурированные текстовые файлы, но даже если это изображения или аудио, — для компании в подавляющем большинстве случаев важен содержащийся в них текст. Быстрая и качественная обработка этих документов, индексирование, извлечение из них полезной информации и последующая бизнес-аналитика (BI) — задачи, напрямую влияющие на эффективность бизнеса.

Среди главных трудностей при внедрении BI-решений в организации — низкое качество управления данными и отсутствие автоматизации их ведения в источниках. Специфика работы с неструктурированными данными связана с их огромными объемами, разнообразием типов и форматов, отсутствием четкой типовой структуры. Кроме того, их трудно агрегировать, так как обычно они хранятся разрозненно. Для решения этих проблем компаниям необходимы инструменты, обеспечивающие полный и качественный анализ данных, причем с минимальным участием сотрудников.

Интеллектуальные системы автоматической обработки неструктурированных данных помогают собирать, классифицировать и структурировать информацию из множества источников, формируя единую цифровую среду. Это значительно упрощает дальнейшее использование данных в BI-системах, ускоряя процессы принятия решений и повышая их точность.

Направление аналитики данных, связанное с обработкой текстов, активно развивается в России с 2000-х годов. В частности, специалисты поначалу пробовали работать с соответствующими западными платформами, но вскоре сосредоточились на развитии собственных решений, которые лучшим образом поддерживали бы русский язык и удовлетворяли бы специфическим требованиям бизнеса. Решать многие задачи, связанные с анализом неструктурированных данных, проверкой, классификацией и извлечением информации помогает целый спектр технологий: выделение именованных сущностей (NER, Named Entity Recognition), обработка естественного языка (NLP, Natural Language Processing), малые и большие языковые модели (LM, Language Models и LLM, Large Language Models) и другие. Методы, основанные на машинном обучении, мы комбинируем с различными алгоритмическими подходами, чтобы обеспечить наилучший результат и наиболее качественно решать задачи заказчиков.

Платформа текстовой аналитики в ИТ-инфраструктуре компаний может работать фактически в фоновом режиме — как бэк-сервис. Чаще всего пользователь взаимодействует с ней опосредованно. Например, платформа получает от ERP, ECM, CRM или другой внешней информационной системы документы, проводит соответствующие проверки, извлекает из них данные, формализует, классифицирует и отдает уже в структурированном виде обратно или направляет в BI-систему.

Платформа при этом имеет пользовательский интерфейс, который сотрудники могут использовать для обработки документации: проверки полноты пакетов документов, выявления ошибок и противоречий, сверки соответствия внутренним регламентам, сопоставления версий документов и так далее.

Ниже — несколько примеров применения платформы интеллектуальной обработки и анализа текстовой информации.

Функции текстовой аналитики

Первая функция — выявление смысла и извлечение атрибутов и реквизитов из документов. В неструктурированных данных содержатся имена, фамилии людей и названия организаций, почтовые адреса, банковские реквизиты, ссылки на нормативные правовые акты, упоминания определенных фактов, дат, временных периодов. Платформа позволяет находить такого рода информацию в тексте, выделять и распознавать ее, нормализовывать, объединять, извлекать и передавать во внешние системы. Если данные присланы в виде изображения (например, отсканированный договор) или аудиозаписи, задействуются дополнительные модули, которые распознают текст на картинке и транскрибируют аудио.

Вторая функция — классификация информации с применением моделей машинного обучения. Обучив модель на конкретном датасете, компания получает готовый инструмент для решения задач автоматической классификации: например, определения категории конкретных исполнителей тех или иных документов, ранжирования по важности или срочности документа, определения цели обращения для его маршрутизации на горячую линию. Кроме того, платформа может на основе анализа исторических данных готовить шаблоны ответов на запросы без участия сотрудника. Объем датасета, необходимого для качественного обучения, зависит от объема самих файлов и количества рубрик, по которым система будет классифицировать информацию.

Третья функция — обработка документации. Например, в процессе закупок компания производит сбор ценовых предложений от потенциальных поставщиков и формирует расчет начальной и максимальной цены контракта. Это довольно большой объем данных, причем поставщики присылают предложения в самых разных форматах: таблицей, списком, перечнем через запятую, в виде скана ассортиментной матрицы и т. д. Система позволяет извлекать из любых таких файлов сроки действия, товарные позиции, условия оплаты, стоимости, налоги, реквизиты поставщиков и другие сведения. Эта информация уже может размещаться в карточке соответствующей внешней информационной системы, использоваться для построения отчетов и аналитики.

Текстовая аналитика в действии

Технологии текстовой аналитики так или иначе используются в большинстве проектов. Например, в Россельхозбанке они легли в основу системы автоматической классификации обращений в Service Desk. Использующиеся на первой линии техподдержки, они снимают существенную часть рутины с сотрудников банка, демонстрируют точность маршрутизации 93-95% и время отработки каждой заявки — менее секунды.

Следующий кейс связан с задачами бизнес-аналитики и, в частности, процессом ETL — загрузкой данных из разных источников в единое хранилище. Одному из наших заказчиков нужно было анализировать информацию о различных событиях, организациях, персонах, извлекать ее как из формализованных файлов (таблиц Excel, баз данных), файлов полуструктурированного вида (формата CSV) и большого количества неструктурированных источников (файлов DOCX, RTF, PDF и др.).

Извлеченную информацию требовалось приводить к единообразному виду, загружать в хранилище, и организовать в нем возможность поиска, желательно на естественном языке. Внедренная система понимает, в каких источниках (файлах, колонках, ячейках и т. п.) находится та или иная информация, самостоятельно настраивает процедуру маппинга, выявляет необходимые связи и автоматически проводит процесс загрузки в единое хранилище — достаточно просто предъявить ей нужный набор источников. Для поиска используется поддержка преобразования запроса на естественном языке в SQL-запрос. Соответственно, задать его может в привычном чате любой специалист, даже не имеющий навыков взаимодействия с базами данных.

Третий кейс — создание интеллектуального архива для структурированного размещения информации и поиска в нем. У одного из клиентов из сферы финансов организована единая система хранения электронных и бумажных документов за счет объединения технологии обработки поступающих документов, преобразования запроса на естественном языке в SQL и формирования аналитических дашбордов.

Эти примеры показывают, какое значение имеют инструменты обработки текста в том числе для эффективной бизнес-аналитики: они предоставляют BI-системе единую, доверенную информационную среду, сформированную из качественно собранных и очищенных, разбитых на классы и проиндексированных данных. Причем они готовы аккумулировать информацию из всех доступных источников, обновляя базы данных компании в режиме реального времени.

Преимущества современных систем текстовой аналитики

Платформы текстовой аналитики обладают множество инструментов, способных закрыть практически любую задачу заказчика и упростить жизнь сотрудникам, автоматизировав все типовые процессы обработки и анализа текста. Этому способствуют несколько факторов.

Во-первых, такие системы построены на принципах No-Code/Low-Code, что позволяет скрывать все сложности технологий машинного обучения за простым и понятным интерфейсом. Любой человек, который знаком с основами аналитики, может за несколько кликов настроить программный продукт для выполнения своих специфических задач.

Во-вторых, системы становятся все более интегрированными, что расширяет их функциональность. Например, применяя движки для оптического распознавания OCR, можно «научить» их обрабатывать рукописные документы.

И хотя заложенные в подобные платформы технологии разнообразны и сложны, их внедрение в инфраструктуру организаций и сопровождение чаще всего относительно простое.

Благодаря им компания получает единую информационную среду, возможность обеспечить систему корпоративного поиска, автоматизировать проверку документов и максимально полно и широко использовать функциональность BI-системы даже в условиях огромного объема накапливаемых в компании неструктурированных данных. Точная, оперативная и актуальная информация — залог корректных и грамотных стратегических решений, эффективной повседневной работы сотрудников и контроля за ключевыми бизнес-процессами. Всё это в итоге приводит к осязаемым, измеримым результатам — повышению производительности и росту прибыли.

Источник: Дмитрий Романов, управляющий директор «Преферентум» компании SL Soft (ГК Softline)