16 сентября 2020 г.
С
Что такое «большие данные»
Различают два основных типа данных: структурированные и неструктурированные.
Структурированные — это, грубо говоря, таблицы и базы данных (БД). Все данные, которые можно внести в таблицу или структуру БД являются структурированными.
Данные о транзакциях в интернете, персональные данные, детализация телефонных звонков, набор данных с телеметрических датчиков о параметрах узлов и агрегатов — структурированные.
Данные, содержащие аудиозаписи разговоров, видеозаписи с камер наблюдения, фото, код программного обеспечения, файлы офисных приложений — неструктурированные.
Основные задачи анализа данных:
- обеспечивать хранение данных и максимально быстрый доступ к ним;
- определять закономерности, которые позволят улучшить эффективность компании — владельца данных.
О технологиях хранения поговорим ниже. А,что касается примеров использования данных, укажем следующие, хорошо опробованные (в том числе специалистами RAMAX Group) стратегии:
- Выявление закономерностей в работе оборудования, которые позволят предсказывать поведение каждой детали агрегата и исходя из этого обеспечивать так называемое «предиктивное обслуживание и ремонт» (Airbus, Boeing, НЛМК, ММК и пр.).
- Анализ массива данных по транзакциям в интернете позволяет построить модель покупательских предпочтений и на ее основе проводить маркетинговые мероприятия для повышения продаж или рассчитать CLTV (customer lifetime value) для каждого из сотен тысяч (миллионов) клиентов. Это позволит спрогнозировать денежные потоки бизнеса на годы вперед (в основном для сервисных и торговых компаний, банков, сотовых операторов).
- Использование анализа данных для предотвращения оттока абонентов и формирования спецпредложений в телекоме (Мегафон, МТС и Билайн, в частности). Помимо этого, операторы открыты к сотрудничеству со сторонними компаниями, которые платят им за коммуникацию с сегментами пользователей.
- Создание системы антифрода, где используется аналитика данных о транзакциях и инцидентах. Сбербанк, например, таким образом сократил потери от банкоматного фрода до 0. Мало того, обработка данных позволяет банку внедрить совершенно новые сервисы идентификации клиента по голосу и по лицу.
- Apple зарабатывает сотни миллионов долларов, предоставляя пользователям сервисы типа Apple music, хранение фото и видео контента пользователей на своих серверах и продаже информации о сегментах пользователей другим компаниям,
- Анализ видеоизображений, аудиоряда и текстов (в мессенждерах) для решения задач гражданской безопасности (СОРМ, Московский метрополитен, записи с городских камер наблюдения).
- Контроль перемещений и статусов подвижного состава (локомотивы, контейнеры, автомобили) для анализа и определения наилучших логистических маршрутов, расписаний и сервисных периодов (РЖД, Maerck и пр.).
Так, в авиационной отрасли для ПАО «Аэрофлот» была развернута платформа по работе с обращениями клиентов на основе Big Data. Это был первый CRM-проект в мировой авиации, который реализовал глобальный сбор и анализ данных из социальных сетей. В результате за счет оперативного реагирования на наиболее резонансные информационные поводы повысилась лояльность клиентов авиакомпании. Система позволила автоматически определять тональность и маршрутизировать более 40 тыс. обращений в месяц.
Еще один любопытный проект в «Аэрофлоте» — оптимизация полноты использования грузопочтовой квоты на пассажирских рейсах с помощью системы Cargo Air. В результате анализа больших неструктурированных данных и учета массы метрик точность прогнозных значений загрузки рейсов всего за полгода выросла на 20%, а точность прогнозов по доступной свободной грузовой квоте увеличилась до 90%.
Работа с данными сегодня
Сегодня большинство компаний в той или иной мере работают с большими данными. Они хранят их в специальных кластерах и на дисках, где используются специальные форматы и протоколы, которые помогают моментально получить и обработать необходимую информацию. Популярны кластерные решения типа Hadoop, которое изначально было разработано компанией Cloudera. Его особенность — возможность объединять в кластер разного рода оборудование для извлечения максимальной эффективности из такого сетапа. Сейчас большой популярностью пользуется Hadoop от Hortonworks. Корпоративные решения типа Teradata, Oracle Exadata или SAP HANA — лидеры в части предложений комплексного подхода к хранению и анализу данных.
Microsoft предлагает большой спектр продуктов, специализирующихся на аналитике больших данных. Пожалуй, лучший из них — Azure. Он позволяет работать с распределенным облачным хранением данных для их обработки и анализа в режиме online.
Как компании хранят свои данные?
Сейчас наиболее эффективный способ хранения данных — создание Data Lake («озера данных»). Это может быть Hadoop или любая другая база данных, подходящая по параметрам. Затем выстраивается отдельный аналитический контур для обработки данных и формирования управленческих решений. Это могут быть любые BI-системы (кубы, графические дашборды и т. п.).
Для отработки взаимодействия с потребителями услуг туда встраиваются программы лояльности, CRM-платформы и механизмы, отвечающие за предсказание пользовательского поведения.
В случае производственного предприятия большим спросом пользуются платформы, отвечающие за анализ жизненного цикла оборудования и бизнес-процессов с целью внедрения предиктивных методик в ремонтах, закупках и прогнозировании событий, связанных с производственным процессом (например, оценка вероятности остановки плавильной печи в связи с человеческим фактором или погодными условиями).
Как коронакризис повлиял на хранение данных?
Коронакризис достаточно сильно повлиял на уход данных в облака, но не на большие данные в целом. Текущий уровень технологий позволяет достаточно оперативно реализовывать механизмы контроля за развитием инфекций. Например, в последнем обновлении iOS и Аndroid встроен функционал контроля за общением людей с зараженными и предупреждением пользователя телефона о том, что рядом есть носитель инфекции. Или ДИТ Москвы использовал приложение для контроля соблюдения карантина в комплексе с анализом данных с городских камер. Это Big Data в чистом виде.
Что ждет большие данные в будущем?
«Большой брат» начнет все больше следить за людьми — уже сейчас технологии позволяют контролировать жизнь человека полностью. Прорыв в области больших данных будет возможен при помощи бОльшего набора используемых гаджетов, более удобных online-сервисов и отказа от использования наличных.
Инновационная составляющая может быть в двух аспектах:
- Распространение вживляемых датчиков для контроля здоровья. Это повлечет за собой появление потоковых данных о состоянии здоровья человека, которые, базируясь на аналитических алгоритмах, радикально увеличат точность диагностики заболеваний (текущих и потенциальных). Это можно сравнить с датчиками и платформами, анализирующими данные узлов и агрегатов самолетов для текущих и предиктивных ремонтов, уже используемыми Boeing и Airbus.
- Развитие предиктивных способностей платформ. Уже сейчас в США в городах Лос-Анджелес и Санта-Крус достаточно успешно работают пилоты платформ по предсказанию преступлений. Тут нет особой фантастики. Предсказать, что во время карнавала в Рио на площади в несколько кварталов будут совершены несколько ограблений можно даже без компьютера. Речь идет о повышении точности и учете всех факторов, влияющих на вероятность совершения события. В противовес развитию данных технологий может выступить общественная мораль.
Всего несколько лет назад многие компании не понимали, для чего им большие данные, как применять результаты аналитики, какие задачи можно с их помощью решать. Сейчас же все отрасли от сельского хозяйства до банков активно используют Big Data, что в конечном счете нацелено на повышение эффективности бизнеса. И сегодняшние результаты и достижения — далеко не предел.
Источник: Сергей Левашов, руководитель центра бизнес-аналитики ГК «РАМАКС»