18 января 2021 г.

Вот слова Александра Липкина, директора департамента по технологическому развитию и поддержке ключевых заказчиков Microsoft, заимствованные из нашей январской публикации «Новогодняя коллекция 2020. Трансформация года: неожиданные результаты»: «Cовременные технологии помогают по-новому взглянуть на бизнес и благодаря инсайтам, полученным в результате анализа массивов информации, трансформировать его». Из декабрьского интервью Бориса Щербакова: «...Способность анализировать и действовать на основе полученных инсайтов стала огромным конкурентным преимуществом не только для компаний, но и для целых стран...» Из репортажа с online-форума «IT-ОСЬ 2020. Апгрейд»: «Калейдоскоп знаний, новаторских идей, инсайтов и бизнес-хаков... Всё это было одновременно ново, необычно и эмоционально!».

Похоже, слово «инсайт» и использующие его словосочетания у игроков ИТ-рынка входят в моду. В то же время эти конструкции не очень привычны «русскоязычному уху». Ведь в обыденной речи слово insight чаще всего употребляется в значениях понимание, прозрение, прозорливость, проницательность, интуиция. Казалось бы: как можно извлекать из данных понимание, прозрение, прозорливость, проницательность или интуицию?

Однако в новейшей версии «Большого англо-русского толкового словаря по вычислительной технике и информационным технологиям» есть и такое определение термина insight: «проницательность, способность проникновения в суть; понимание причин и следствий на основе установления их взаимосвязи». Более того, Эдуард Пройдаков, один из авторов упомянутого выше словаря, поясняет: «У этого слова есть ещё куча значений, не очень очевидных. Например — новые интересные сведения». Если так, то употребление термина insight вполне уместно. Ведь для любого топ-менеджера очень важно получать «новые интересные сведения» быстро и своевременно. То есть раньше, чем их получат конкуренты.

Однако в официальных документах РФ слово «инсайт» и словосочетание «извлечение инсайтов» ещё не употребляются. В то же время в 11-м разделе нового классификатора «Единого реестра российских программ для электронных вычислительных машин и баз данных» есть класс ПО под номером 11.04 и под названием «Средства интеллектуального анализа данных (Data Mining)», описание которого звучит так: «Программное обеспечение, которое должно отвечать за обнаружение в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретаций знаний, необходимых для принятия решений». То есть, по сути дела, речь идет о cредствах «извлечения инсайтов» из данных.

По ряду причин данный класс пока пуст. Однако это не означает, что среди отечественных программных продуктов нет средств «извлечения инсайтов» из данных. И не означает, что ПО такого рода не востребовано.

Спрос на ПО для «извлечения инсайтов»...

Предлагаем вашему вниманию несколько мнений о том, велик ли спрос на программные продукты, которое в новом Классификаторе Единого реестра отечественного ПО соответствует классу 11.04. Но прежде напомним, что термин Data Mining (DM), упомянутый в приказе Минцифры № 486 от 22.09.2020, ведет свою историю с 1989 г. Его ввел в обращение выпускник кафедры компьютерных наук Нью-Йоркскою университета (NYU) Григорий Пятецкий-Шапиро, защитивший в 1984 г. докторскую диссертацию на тему «Самоорганизующиеся системы управления базами данных» (Self-Organizing Database Systems). В Википедии отмечается, что этот термин пока не имеет устоявшегося перевода на русский язык. А при его переводе обычно используются следующие словосочетания: «просев информации», «добыча данных», «извлечение данных», «интеллектуальный анализ данных». Хотя возможны и другие варианты.

"«Извлечение инсайтов» из данных на основе подходов работы с BigData позволяет компаниям повысить свое конкурентное преимущество на рынке за счет более точного позиционирования продукта, услуги, сокращения издержек на производство и предложения принципиально новых продуктов и решений«,— поясняет директор по производству ЛАНИТ-ТЕРКОМ Вадим Сабашный.

«Анализ данных с помощью Data Mining, как и машинное обучение, очень востребован и входит в состав множества прикладных решений во многих областях бизнеса. Данный подход применяется в генной инженерии, медтехе, ритейле для оптимизации продаж, производстве и исследованиях в сельском хозяйстве, в чат-ботах, IoT-устройствах и инструментах распознавания речи. Решения, использующие или основанные на Data Mining, исчисляются десятками тысяч по всему миру, в том числе и в России», — добавляет генеральный директор TAD Development Тарас Фёдоров.

«Популярный случай — встраивание инструментов анализа данных непосредственно в информационную систему (CRM, ERP, ECM и прочие, причем как готовые продукты, так и заказные). Специализированным продуктом класса Data Mining это сложно назвать, так как сама система классифицируется иначе, но при этом анализ данных проводится, и пользователи получают новые знания по тем данным, которые они вводят в систему. А это — конкурентные преимущества. Здесь, я думаю, каждая крупная компания ИТ-разработчик уже пробовала внедрять такие инструменты в свои продукты. В наше время направление Data Science очень популярно. Поэтому сейчас много соискателей проходят различные курсы, позволяющие практически „с нуля“ научиться работать с массивами данных. Есть и „уже готовые“ специалисты, окончившие лидирующие ВУЗы страны по специальности „Прикладная информатика в экономике“. Они получили прочные фундаментальные знания (бизнес, математика, статистика и т. д.)», — замечает начальник отдела интеллектуального анализа данных консорциума «Кодекс» Анна Михайлова.

... и предложение

Итак, спрос на ПО для «извлечения инсайтов» есть. А велико ли предложение? Руководитель направления Big Data компании КРОК Кристина Проскурина полагает, что в настоящее время в нашей стране десятки компаний либо работают над продуктами для «извлечения инсайтов», либо уже имеют готовые решения. По её мнению, решения Data Mining полезны при формировании прогностических исследований о потенциальных вызовах, трендах, сдвигах, вероятных событиях будущего, возникающих рынках и продуктах. Результаты их работы могут использоваться для прогнозирования сценариев возможных управленческих решений.

Тарас Фёдоров обращает внимание на то, что «Решения для Data Mining узкоспециализированные, в основном это вспомогательные инструменты для программистов и аналитиков данных. Их разрабатывают крупные вендоры, такие как IBM или Oracle, а также университетские и сетевые коммьюнити, среди которых есть и российские. Подобных инструментов действительно очень мало на рынке, поскольку эта область, как класс решений для разработчиков, либо имеет сложную монетизацию, доступную только крупным вендором, либо разрабатывается энтузиастами как open source. Более того, решения для майнинга данных, как правило, уже входят в состав более комплексных платформ, например, отечественных или зарубежных BI-систем».

Аналогичного мнения о количестве потенциальных наполнителей класса 11.04 Единого реестра отечественного ПО придерживается Анна Михайлова: «В наше время направление Data Science очень популярно. Практически каждая IT-компания изучила эту тему. Область знаний перегрета интересом, и сейчас много соискателей проходят различные курсы, позволяющие практически „с нуля“ научиться работать с массивами данных... Организации либо нанимают экспертов со стороны, либо проводят внутреннюю аналитику, и таких организаций сотни, на наш взгляд. Что же касается готовых продуктов класса Data Mining („из коробки“), то их разработчиков в стране, пожалуй, единицы, так как данные у всех разные, и по-настоящему эффект от их анализа можно получить только при работе эксперта с ними напрямую (изучение предметной области, подбор необходимых данных, разные способы очистки, выдвижение и проверка гипотез). Что-то универсальное можно применить только для относительно унифицированных областей. Например, оценка метрик сайта в сети Интернет, быстрый обзор динамики выручки магазина. Но чем более универсальна модель, тем меньше „инсайтов“ из неё можно получить. В этот класс разумно относить именно платформы, облегчающие работу по анализу данных: быстрый подсчет метрик, оценка типов данных и пропущенных значений, быстрая визуализация. Но их в стране немного».

«В категорию DM могут, в принципе, попасть продукты сотен известных ИТ-компаний: от создателей узконаправленных заказных корпоративных систем до разработчиков универсальных решений, — полагает ведущий аналитик «СёрчИнформ» Леонид Чуриков. — Так например, в списке поставщиков DM-решений от Tadviser в числе лидеров такого рода решений перечислены порядка 150 компаний. Профильных российских игроков, которые позиционируют свои отдельные продукты как решения класса Data Mining, не так много, их десятки. Среди них есть как крупные многопрофильные ИТ-вендоры/интеграторы (холдинг «Ланит», Epam, IBS); так и моно-разработчики («Полиматика», Yandex Data Factory, «Алгомост», Glowbyte Consulting, CleverData, AnalyticsHub и др.).

Еще более оптимистичного мнения о количестве потенциальных наполнителей класса 11.04 Единого реестра отечественного ПО придерживается Вадим Сабашный: «Извлечение „инсайтов“ из данных на основе подходов работы с BigData позволяет компаниям повысить свое конкурентное преимущество на рынке за счет более точного позиционирования продукта, услуги, сокращения издержек на производство и предложения принципиально новых продуктов и решений. На рынке представлено большое число зарубежных платформ от ведущих вендоров, позволяющих проводить анализ данных. На мой взгляд, еще больше решений, написанных на Python, R и других языка программирования, которые позволяют решать необходимые задачи, но не оформлены как продукты. Поэтому, если говорить о количестве узких решений, которые можно применить в рамках одной или нескольких схожих компаний, то их может быть несколько тысяч. Если же говорить о платформах, которые могли бы конкурировать со средствами анализа данных от крупнейших зарубежных вендоров, то сразу вспоминается российская разработка Prognoz Platform. Достаточно много стартапов так или иначе позиционируют свои продукты как средства работы с BigData. Определено таких компаний и продуктовых разработок десятки, а может быть и даже сотни. Уверен, что отдельный класс DM-продуктов в Едином реестре российского ПО выделен не зря; в ближайшее время мы увидим там десятки различных решений, как платформенных, так и более узких для применения в конкретных бизнес-отраслях».

Проблемы

Из сказанного выше следует, что ПО для «извлечения инсайтов» есть. Как отечественное, так и зарубежное. Как универсальное, так и специализированное. Как в виде самостоятельных продуктов, так и в составе других средств анализа данных и управления процессами организации. В то же время со спросом на это ПО есть некоторые проблемы.

Генеральный директор и сооснователь компании CraftTalk Денис Петухов полагает, что в Едином реестре отечественного ПО класс "«Средства интеллектуального анализа данных (Data Mining)» пока пустует по вполне прагматичным причинам: «Термин Data Mining у заказчиков со стороны бизнеса, не являющихся ИТ-профессионалами, не очень известный. В то же время сейчас все чаще в принятии решений о внедрении ИТ-проектов участвуют директора по маркетингу, HRD, финансовые директора, логисты, т. е. те, кто будет cоответствующее ПО использовать. И для них данный термин пока мало понятен. Да и само понятие Data Mining в России еще „не раскручено“ и не прижилось. У многих первая ассоциация идет с криптовалютой. А значит, этот класс трудно использовать для продвижения решения у заказчиков или в случае стартапов при получении грантов у фондов развития. DM-решения в стране есть, просто их создатели при внесении своего ПО в Реестр отечественного ПО выбирают другие коды, чтобы показать более прикладное (коммерческое) значение своего продукта для заказчиков, например, BI-система, база знаний, аналитические решения на базе ИИ и так далее...»

Это (непонимание того, что кроется за термином Data Mining), конечно, очень печально. Ведь данный термин, как уже говорилось выше, используется очень давно, с 1998 г. Похоже, маркетологи, пытающиеся донести функционал своих продуктов до широкого круга лиц, принимающих решения, должны, по возможности, избегать терминов с англоязычными корнями, понятных лишь ИТ-профессионалам. Впрочем, о важности нахождения общего языка между заказчиками и участниками ИТ-рынка мы писали много раз: см., например, здесь.

Некоторые термины, используемые в новом Классификаторе Единого реестра отечественного ПО

Раздел 10. Средства обработки и визуализации массивов данных

Классы ПО, входящие в раздел

10.01. Средства обработки Больших Данных (BigData);

10.02. Средства обработки и анализа геологических и геофизических данных;

10.03. Средства математического и имитационного моделирования;

10.04. Средства управления информационными ресурсами и средства

управления основными данными (ЕСМ, MDM).

Раздел 11. Средства анализа данных

Классы ПО, входящие в раздел

11.01. Инструменты извлечения и трансформации данных (ETL);

11.02. Предметноориентированные информационные базы данных (EDW);

11.03. Средства аналитической обработки в реальном времени (OLAP);

11.04. Средства интеллектуального анализа данных (Data Mining);

11.05. Средства поддержки принятия решений (DSS);

11.06. Инструменты обработки, анализа и распознавания изображений.

Источник: Владимир Митин