Большие данные не новость, они накапливались и раньше. Другое дело, что их было трудно хранить и анализировать, поскольку это обходилось слишком дорого и/или занимало много времени. Но как только выросла производительность вычислительных систем, емкость систем хранения и снизилась стоимость того и другого, хранение и анализ приобрели экономический смысл, появились термин, подходы, новые архитектурные решения, программные и аппаратные продукты. По меткому замечанию Алексея Асафьева, регионального директора в России и странах СНГ компании VDEL, с большими данными в нашей стране сложилась интересная ситуация: почти все о них знают, почти все в них верят и почти никто их не использует. На более развитых рынках, например в США, есть системные интеграторы, полностью специализирующиеся только на Hadoop и проектах интеграции на его базе: спрос уже позволяет иметь такую специализацию. В России ситуация другая, но она меняется, и весьма интересным образом. Но прежде чем обсуждать бизнес-перспективы, необходимо договориться об определениях.
Что это такое?
Характерная деталь: каждому участнику настоящего обзора было предложено дать свое рабочее определение больших данных. Каждый представил такое определение, они не повторялись, обнаружились лишь некоторые частичные совпадения.
Общепризнанным считается определение Gartner. Согласно ему, это набор методов анализа и управления данными, которые характеризуются «сочетанием четырех V»: Volume (объем), Variety (разнообразие типов данных), Veracity (неопределенность данных) и Velocity (скорость поступления). Оно является рабочим, например, для компании «Прогноз». Георгий Нанеишвили, менеджер по работе с партнерами QlikTech, напоминает, что «большие данные» — это четкое определение, которое даже имеет дату рождения — 4 сентября 2008 г., когда его предложил в своей статье редактор Nature Клиффорд Линч. «Большие данные» характеризуют совокупности данных c возможным экспоненциальным ростом, которые слишком велики, слишком неформатированы или слишком неструктурированы для анализа традиционными методами. Хранение, обработка, управление, индексирование, доступ к распределенным массивам слабо структурированных данных — в этом суть термина, подчеркивает Нанеишвили. Генеральному директору РВК Игорю Агамирзяну принадлежит такое определение: «Это технология, которая позволяет сравнивать и сопоставлять ту информацию, которая ранее была принципиально несопоставима».
Объем, таким образом, не является определяющим, однако все же большинство участников обзора в первую очередь причисляет данные к «большим» именно по этому признаку. Где проходит граница? Около терабайта («Энвижн Груп»), терабайты («Андек»), десятки терабайт (Oracle), от сотен терабайт до нескольких петабайт («Крок»). Часть компаний отдают приоритет возможности появления некого нового знания из анализа, сопоставления наколенных массивов, и тогда размер их не важен: и 100 Гб, и петабайты будут одинаково «большими». Этот принцип интересно интерпретируют в NetApp: большие данные — это такие, которые ломают инфраструктуру, могут привести к коллапсу бизнес-процессов. Объемы накапливаются постепенно, и какой-то объем оказывается критическим. При дальнейшем росте либо наступает ступор, компания захлебывается в потоке информации, или же, если она заблаговременно подготовилась, наслаждается бурным и эффективным ростом. Абсолютный объем при этом не существенен.
Можно оценить «большое» и через деньги. Технологии «больших данных» представляют новый взгляд на архитектуру, аппаратную платформу и методы анализа, подчеркивает Леонид Блынский, старший эксперт компании AT Consulting, и поясняет: «Под большими данными мы понимаем объемы данных, требующие ежегодных вложений десятков или сотен тысяч долларов в оборудование. В традиционных системах стоимость хранения 1 Тб данных достаточна высока. Применение решений на базе технологий больших данных позволяет значительно сократить затраты за счет использования более дешевого оборудования. При этом желание сэкономить на оборудовании, формируя, например, типовую управленческую отчетность, не будет оправданным. Двигаться в направлении больших данных стоит, если компания намерена расширить использование информации для анализа и прогнозирования».
Можно отталкиваться от времени: если время отклика системы больше 10 секунд и это обусловлено производительностью сервера базы данных, то, скорее всего, данные большие, считает Елена Красникова, руководитель отдела маркетинга T-Systems CIS. Никита Рогатов, руководитель направления компании «Открытые Технологии», приводит типовые критерии, показывающие потребность применения решения класса Big Data Analytics: непрерывный поток данных, требующий анализа, необходимость корреляции данных из нескольких источников или на заданном историческом промежутке, невозможность и дороговизна обработки данных стандартными средствами или инструментами в связи с их объемом или структурой.
Все эксперты единодушны в одном: не столь важно, сколько у клиента данных и каковы они. Значительно важней, что он собирается делать с ними и насколько анализ экономически оправдан.
Возможность анализировать логи, данные датчиков, тексты из Интернета, неструктурированные и потоковые данные — то есть то, что и раньше в принципе можно было обрабатывать, но это было экономически не всегда целесообразно, именно это самое важное, полагают в Oracle. Основной вопрос — имеет ли для клиента смысл использовать эти новые технологии или ему достаточно технологий традиционных.
«Большие данные — абстрактное понятие, которое можно применять только в приложении к конкретным условиям использования, считает Елена Праздникова, директор по развитию бизнеса компании „1С:ВДГБ“. На вопросы клиентов о больших данных в этой фирме отвечают, что данные становятся таковыми, если производительность существующей системы их хранения и обработки не обеспечивает получение необходимой для оперативной деятельности или принятия управленческих решений информации в разумный срок. Разумный в данном контексте значит необходимый для функционирования бизнес-процессов клиента, исключая „прихоти“ и „завышенные ожидания“».
Как с этим бороться?
Новые задачи предопределяют появление новых инструментов, а также изменений в работе интеграторских компаний.
Последняя (апрель 2013 г.) из инициатив ЕМС, реализованная в Pivotal: объединение различных технологий ЕМС и VMware в единую технологическую платформу для создания универсального инструментария для обработки больших данных. Oracle постоянно выпускает новые средства для работы с большими данными: NoSQL Database 2.0 (декабрь 2012 г.), программно-аппаратный комплекс Oracle Big Data Appliance (январь 2012 г.). В мае были анонсированы варианты этого комплекса начального уровня: например, Oracle Big Data Appliance X3-2 Starter Rack содержит шесть серверов Oracle Sun в полноразмерной стойке с резервными коммутаторами Infiniband и блоками распределения электропитания плюс набор разнообразного софта (Oracle Linux, ПО виртуализации Oracle Hotspot Java Virtual Machine и дистрибутив Cloudera Distribution, включающий среду Apache Hadoop (CDH), управляющее ПО Cloudera Manager и СУБД Oracle NoSQL Database).
Microsoft ставит своей целью демократизацию обработки больших данных, подчеркивает Николай Прянишников, президент Microsoft в России. Март 2013 г.: открыта Windows Azure HDInsight Service — облачная дистрибуция Hadoop через Windows Azure Portal. Сервис построен на Hortonworks Data Platform. Анонсированный в 2012 г. программно-аппаратный комплекс Polybase на базе SQL Server Parallel Data Warehouse имеет многие петабайты емкости, стоимость хранения терабайта в два с половиной раза ниже, чем у SQL Server 2008 R2 PDW. Вендор считает, что это самая низкая стоимость в индустрии.
Fujitsu существенно переработала линейку хранилищ ETERNUS CS High End — добавилась технология VINS, которая позволяет создавать и эффективно управлять в рамках единой системы хранения как процедурами резервного копирования гетерогенных сред, так и организовать практически неограниченно масштабируемое архивное хранилище с различными уровнями SLA для различных типов данных и/или подключенных пользователей.
Для всех типов данных существует возможность прозрачного переноса части или всех данных на ленточные носители, что существенно снижает стоимость хранения за 1 Тб в год, подчеркивает Александр Яковлев, менеджер по маркетингу продукции Fujitsu Technology Solutions. При этом, отмечает он, совместное использование технологий хранения на лентах и дисках позволяет устранить различные недостатки хранения на лентах и организовать экономически эффективное высокопроизводительное хранилище.
В октябре 2012 г. QlikTech объявила о выпуске инструмента QlikView Direct Discovery, обеспечивающего непосредственный доступ из приложений QlikView к большим данным. Продукт позволяет связывать уже загруженные в оперативную память данные с «большими данными» из внешних источников для быстрого визуального анализа. Вскоре после этого анонса было объявлено о партнерстве QlikTech и Teradata для того, чтобы Direct Discovery поддерживал работу с данными из интегрированных хранилищ Teradata. В ноябре было объявлено об интеграции инструмента QlikView Direct Discovery с Cloudera Impala, системой выполнения запросов в реальном времени для платформы Hadoop.
Из этих и многих других фактов видно, как идея «больших данных» объединяет индустрию. Есть несколько «ядер кристаллизации», вокруг которых группируются силы, выстраиваются технологические альянсы, налаживается интеграция инструментов. Всем ясно, что в одиночку на этом фронте уже не стоит воевать. Один из таких центров — Hadoop. Решения Apache Hadoop, которые позволяют серьезно уменьшить стоимость хранения и обработки данных, становятся в мире все более популярными, отмечает Александр Семенов, генеральный директор ГК «Корус Консалтинг», но, по его мнению, окончательно вопрос обработки больших данных эта технология не решит, так как предусматривает только пакетную обработку информации. Несмотря на это ограничение, Hadoop безусловно является одним из центров притяжения клиентов, и усилий разработчиков, но открытый код — это всегда особая ментальность.
Примечательна в этом смысле позиция Teradata. Лет пять назад это был в некотором смысле «отдельно стоящий» вендор. Теперь решения компании — один из центров объединения усилий, основа множества альянсов и партнерских разработок. Но мир за эти годы изменился: на конференции Teradata Universe (Копенгаген, апрель 2012 г.) топ-менеджеры вендора уже в шутку обсуждали, не сменить ли название. Ведь когда компания возникла, терабайт был чудовищным и редко встречающимся объемом данным. Теперь время совсем других приставок, а партнерство и теснейшая интеграция — фундамент успеха. Например, анонсированная в апреле платформа Teradata Active Enterprise Data Warehouse 6700 включает SUSE Linux Enterprise Server, системы хранения NetApp, процессоры Intel Xeon.
Другим центром притяжения, без сомнения, являются технологии SAP в области работы с данными. К 2015 г. SAP планирует выйти на второе место на мировом рынке систем управления базами данных, напоминает Дмитрий Шепелявый, заместитель генерального директора SAP СНГ, поэтому SAP HANA играет стратегическую роль для компании. «Важно понимать, — подчеркивает Шепелявый, — что мы хотим принципиально изменить подход к тому, как СУБД используются в ИТ и, в частности, в приложениях. Мы убеждены, что известные поставщики традиционных СУБД, базирующихся на реляционной модели, со временем или адаптируют свои продукты, обеспечив в них поддержку технологий in-memory и поколоночного хранения, или не смогут сохранить свои позиции в этом бизнесе. Именно поэтому мы за последние пару лет инвестировали значительные ресурсы в разработку подобных технологий. Это позволит нам не просто стать еще одним игроком на рынке БД, но и коренным образом изменить то, как бизнес-приложения будут использоваться предприятиями для управления бизнес-процессами». В начале года было объявлено о выпуске SAP Business Suite на базе SAP HANA.
У всех лидирующих вендоров есть портфель продуктов, с помощью которых можно работать с большими данными, и каждая компания по-своему подходит к формированию своего решения, замечает Александр Хлуденев, заместитель генерального директора по перспективным направлениям бизнеса компании «Крок». Особого внимания, по его мнению, заслуживают несколько подходов. Oracle в рамках общей продуктовой стратегии выпустила на рынок несколько законченных программно-аппаратных комплексов с базой в виде BigData Appliance. Для заказчика это возможность купить готовое решение, включающее устройство с интегрированным программным продуктом и комплексной поддержкой вендора. А IBM пока делает ставку исключительно на программные продукты с основой BigInsight, это ПО, которое можно установить на любое оборудование заказчика. Компания EMC, в свою очередь, разработала платформу Greenplum, которая может предоставляться сразу в обоих вариантах: и как отдельное ПО, и как комплекс оборудования и программного обеспечения. Определить, какой из этих подходов станет более востребованным, заключает Хлуденев, пока не представляется возможным, так как эти продукты пока находятся на первом этапе зрелости.
Дмитрий Красилов, директор центра систем управления данными «Энвижн Груп», предполагает, что наиболее востребованными, в том числе и на российском рынке, станут решения вендоров, которые предлагают интегрированные преднастроенные программно-аппаратные комплексы обработки больших данных, особенно если ценовая политика будет достаточно гибкой. Это тема очень любопытная и небесспорная, но тот факт, что обработка больших данных побудила многих вендоров серьезно заняться апплайнс, программно-аппаратными комплексами, неоспорим. На этой волне появляются очень любопытные решения, например FlexPod, платформа, объединяющая систему хранения NetApp, серверы и сетевые компоненты Cisco.
Похоже, те компании, которые всегда занимались комплексами, такие как Teradata, получили теперь преимущество. Teradata предлагает интересное, по мнению Леонида Блынского, решение для анализа социальных связей. Расширив стандартный SQL функциями, позволяющими проводить анализ графов, можно довольно просто выявлять социальные группы, закономерности, приводящие к оттоку клиентов, и т. п. Блынский отмечает, что вендоры организовывают обучающие курсы по технологиям больших данных, что говорит о росте популярности решений этого класса.
Пока мировые гранды выстреливают анонсами, российские интеграторы тоже осваивают новое направление, кто более активно, кто менее. «Спрос в России еще довольно низкий, поэтому пока мы ограничились добавлением новых компетенций в российскую структурную группу SAP Basis — 1 сотрудник», — говорит Елена Красникова. В рамках T-Systems Global вопросами больших данных занимается отдельное подразделение, поясняет она: «Специалисты нашей компании сконцентрировались на разработках собственных решений на базе SAP HANA».
Александр Хлуднев: «Практически все проекты компании „Крок“, связанные с аналитикой больших объемов данных, реализуются как с помощью продуктов крупных вендоров — IBM Cognos, Oracle BI, SAP BO, QlikView, Prognoz, „1С Консолидация“ и т. д., так и на основе open source-решений. В 2012 г. мы начали использовать IBM Netezza, IBM BigInsights, EMC Isilon, EMC Greenplum, Apache Hadoop, Oracle Exadata, Oracle BigData и пр. Недавно „Крок“ первым в России стал авторизованным реселлером систем Violin Flash Memory Array. Это решение обеспечивает высокую производительность работы с большими данными в корпоративных дата-центрах». Леонид Блынский: «За последний год мы освоили и протестировали open source-решения Apache, а также программные дистрибутивы, поставляемые компаниями Cloudera, HortonWorks, DataStax, IBM(BigInsight) и Teradata(AsterData) и др. Кроме того, получили экспертизу по документно-ориентированным СУБД». Алексей Асафьев: «В этом году мы подписали соглашение и стали единственным дистрибьютором Pentaho в России и странах СНГ. Отличительная особенность Pentaho — анализ, визуализация, отчетность и интеграция данных на единой платформе. Благодаря полностью открытому коду компания максимально быстро интегрирует в свои продукты новейшие разработки, быстро отвечает на требования рынка, и при этом ее продукты примерно на 85% дешевле других».
Дмитрий Красилов: «„Энвижн Групп“ занимается тематикой больших данных чуть больше года. За это время стало понятно, что для овладения технологиями в компании должна появиться принципиально новая позиция — „аналитик данных“. Этот человек должен отлично знать методы прикладной математики, быть хорошим ИТ-специалистом и уметь общаться с клиентами. По сути, совмещать несовместимое. Вслед за этим в компании появилось и новое технологическое подразделение, чьей целью является разработка прикладных решений на базе больших данных. Изначально мы использовали в работе ПО с открытым кодом — Apache Hadoop. Но потом пришло понимание, что нашим основным корпоративным заказчикам требуются коммерческие продукты. Поэтому, изучив предложения основных игроков, мы остановили выбор на Informatica, Oracle, EMC, IBM, Cloudera и QlikView. При этом с некоторыми из них мы начали сотрудничать именно по тематике больших данных».
«Открытые Технологии» занимаются большими данными уже более трех лет, сообщил Никита Рогатов, применяя продукты IBM, EMC, Oracle, Splunk, Hadoop, решения NoSQL. Так что работа и учеба идет, причем особенно активно именно в последний год.
Как только выросла производительность вычислительных систем, емкость СХД и снизилась стоимость того и другого, хранение и анализ приобрели экономический смысл.
Все бизнесы делают это?
Иногда начинает казаться, что большие данные — некий мифический объект, все о них говорят, но никто их не видел. Это иллюзия: не только видели, но и деньги за них получали. Крупнейшая европейская биржа перевозок TimoCom использует Pentaho для внутреннего анализа спроса и предложения и как инструмент оказания платных услуг для 85 тыс. перевозчиков и заказчиков перевозок из 44 стран. Объем существующей базы данных — 170 млн. запросов и предложений на перевозки. К ним ежедневно добавляются еще 300 тыс. новых запросов и предложений. Созданный TimoCom «транспортный барометр» стал признанным в отрасли индикатором сбалансированности спроса и предложения и инструментом формирования цен по всем основным направлениям европейских грузоперевозок, в том числе и в России (данные VDEL). По информации независимой Nucleus Research, внедрение Pentaho в STRATO (крупнейшем немецком онлайн-хранилище) обеспечило возврат инвестиций в 392%, окупилось за три месяца и позволило экономить более 200 тыс. евро. Внедрение Pentaho в крупной американской финансовой организации сократило время подготовки отчетов для клиентов с 13 минут 45 секунд до 47 секунд при вдвое меньших ресурсах. Внедрение предыдущей системы заняло 1 месяц, Pentaho была внедрена за два дня (данные VDEL).
«Опрос наших клиентов показал, что использование решения HANA в среднем помогает увеличить дополнительные и перекрестные продажи в общем объеме продаж на 2–3%, на 10–20% сократить отток клиентской базы, на 30–50% уменьшить время на подготовку финансовой отчетности, а на 70–90% — на ее анализ, — говорит Дмитрий Шепелявый. — Например, компания RedBull ускорила процесс сбора отчетности с филиалов, находящихся в 39 странах, и сократила время получения одного отчета с 50 до двух минут».
В мексиканском подразделении Colgate использовали SAP HANA для управления прибыльностью продаж и анализа отчетности. Теперь их торговые представители имеют возможность представлять результаты своей работы в реальном времени, что позволяет бизнесу в 100–300 раз быстрее реагировать на любые изменения.
Ярким примером применения больших данных является компания China Telecom, которая ради эксперимента внедрила у себя Hadoop в системе отчетности и получила ускорение работы в десятки раз, рассказывает Дмитрий Красилов. «Учитывая, что эта технология не требует дорогостоящего оборудования, экономический эффект они увидели практически сразу. Наибольший результат получают интернет-компании. Точно знаю, что в России ярким примером использования технологий больших данных является компания „Яндекс“», — говорит он.
Николай Прянишников приводит пример из другой области: департамент специальных расследований Таиланда. Эта организация, созданная Министерством юстиции Таиланда в 2002 г., занимается серьезными преступлениями. Объем информации, которой оперирует департамент, колоссален — миллионы записей, собранных из разных источников и хранящихся в структурированных и неструктурированных форматах. Для ускорения поиска департамент внедрил Microsoft SQL Server 2012 и Apache Hadoop. По словам его представителей, время обработки и анализа информации по ряду дел сократилось с двух лет до двух недель.
Андрей Пивоваров, руководитель группы перспективных технологий предпроектного консалтинга Oracle СНГ, приводит собственные примеры. Компания Sabre Holdings предоставляет услуги, связанные с путешествиями, — бронирование авиабилетов, гостиниц, автомобилей и т. д. Sabre Holdings использует технологии больших данных, в частности Hadoop, для того чтобы лучше понимать поведение клиентов и предоставлять более качественные и ориентированные на потребности конкретного заказчика услуги. Для этого они объединяют данные из многих своих систем, анализируют логи своих сайтов и другие источники — всего более 7 Тб данных в день. Turkcell — крупнейший мобильный оператор Турции — использует Oracle Event processing для обработки практически в реальном времени перемещения своих абонентов, что позволяет им делать предложения, нацеленные на конкретного абонента в привязке к тому месту, где он в данный момент находится.
Максим Балаш, первый заместитель генерального директора «Прогноза», ссылается на проект, выполненный компанией для фирмы Banedanmark, управляющей железными дорогами Дании. В рамках проекта создана система моделирования состояния железнодорожной инфраструктуры в долгосрочной перспективе. Прямой экономический эффект от ее использования заключается в оптимизации бюджетных затрат на ремонт и замену элементов ж/д путей. При сравнительно небольшом объеме управляющих и сценарных переменных система осуществляет поиск порядка шести млн. неизвестных (параметры ремонта/замены 120 тыс. ж/д активов в перспективе на 50 лет), учитывая при этом сотни ограничений (на бюджет, на объемы работ и т. д.). В результате вычислений, производимых с использованием многопоточной и многопроцессорной обработки данных, формируется хранилище, объем которого за два года работы модели составляет несколько терабайтов.
Примечательно, считает Балаш, что упомянутые сотни тысяч переменных «сворачиваются» в набор из порядка 10 агрегированных KPI компании (сводные индексы задержки поездов, удовлетворенность населения, удельные затраты на ремонт и замену оборудования и т. п.), которые и утверждаются в Министерстве транспорта.
Один из недавних крупных проектов T-Systems в Великобритании, рассказывает Елена Красникова, — инсталляция серверов SAP HANA для компании Shell. Пока, по ее словам, это одно из крупнейших внедрений SAP HANA в мире в рекордно короткие сроки. Серверы SAP HANA сокращают цикл бизнес-процессов Shell от нескольких дней до нескольких часов.
Возможно, максимальное число проектов с «точно большими данными» у Teradata. Среди ее клиентов — ведущие банки мира, в том числе «Сбербанк», телеком-операторы, в том числе крупнейший в Турции TurkTelecom, ретейлеры, в том числе Metro Group, интернет-бизнесы, в их числе Groupon. Последний проект особенно примечателен тем, что до самого последнего времени вся ИТ-инфраструктура компании была облачной, на основе публичных онлайн-сервисов. В Копенгагене на конференции Teradata Universe представитель Groupon заявил, что публичные облака больше подходят для стартапов, а зрелым бизнесам нужны собственные дата-центры, и рассказал о миграции в собственный ЦОД, где используются программно-аппаратные комплексы вендора. Особенный интерес на конференции вызвал доклад аналитика из предвыборного штаба Б. Обамы о том, как анализ больших данных помог оптимально распоряжаться финансовыми ресурсами претендента в предвыборной кампании.
В апреле 2013 г. Teradata заключила партнерство с подразделением Siemens. На базе этого глобального стратегического сотрудничества Siemens Smart Grid сможет оптимизировать портфель решений для сетевых и сбытовых энергокомпаний, используя унифицированную архитектуру данных Teradata Unified Data Architecture. Интеллектуальные энергосети требуют адекватного управления. Миллион интеллектуальных счетчиков генерирует несколько петабайтов данных в год. По результатам исследования аналитиков IMS, в мире установлено уже 178 млн. интеллектуальных счетчиков электроэнергии, газа и воды, а к 2016 г. их число возрастет до 343 млн. Siemens и Teradata первыми предлагают сквозную интеграцию операционных данных с данными интеллектуальных счетчиков для их последующего анализа на единой платформе, реализуя новый подход к эксплуатации и развитию энергосетей. Компании совместно разрабатывают модели данных на основе логической модели данных Teradata Utilities LDM, являющейся фундаментом бизнес-аналитики для энергетической отрасли.
Все эксперты единодушны в одном: не столь важно, сколько у клиента данных и каковы они. Значительно важней, что он собирается делать с ними и насколько анализ экономически оправдан.
А что у нас?
T-Systems инициировала онлайн-опрос среди 1,01 тыс. CEO и ведущих ИТ-специалистов в девяти странах мира, включая Россию. Результаты позволяют понять, насколько актуальной считают проблему больших данных ИТ-менеджеры в разных странах и насколько готовы ее решать уже сейчас. В ходе опроса, сообщила Елена Красникова, реальную готовность к приобретению продемонстрировали 53% компаний из РФ. Наибольший интерес к внедрению In-Memory демонстрируют в США (66%) и Бразилии (63%). У специалистов из Австрии и Швейцарии показатель составляет всего 14 и 22% соответственно.
Красникова считает, что действительно больших данных в России пока мало, вернее, потребность в их быстрой обработке невелика. «Тема на стадии обсуждения и понимания, к реальному спросу мы только приближаемся», — говорит она.
Мы находимся в начале пути, считает Александр Хлуднев: «Реализованных проектов крайне мало. У „Крока“ сейчас идет несколько „пилотов“. Интерес проявляют те, кто работает на высококонкурентных рынках: ретейл, телеком и банки. Представители этих отраслей обладают широкими филиальными сетями, и информация, которую им необходимо анализировать, входит в категорию больших данных».
Александр Семенов напоминает, что российский рынок пока еще не насыщен даже системами бизнес-аналитики или системами хранения данных, а те организации, которые внедрили BI-решения, не всегда используют весь их функционал. Если использовать уже внедренное решение на полную мощь, то и без дополнительных затрат на сбор больших данных можно повысить эффективность работы, замечает он. Семенов считает, что «до сих пор нет успешных проектных историй Big Data в России, хотя первые внедрения соответствующих решений в этой области ведутся последние пару лет». Это мнение не бесспорно.
Максим Балаш: «В проектах, реализованных нами, например, для заказчиков из финансового сектора, хранилища данных вмещают до 15 Тб, при объеме ежедневно вводимых в систему данных в несколько гигабайтов. Это десятки миллионов записей в день. В ретейле, где мы начинаем проекты совместно с партнерами, корпоративная информация крупной торговой сети может достигать 25 Тб. В ближайшее время мы намерены реализовать в одной из региональных торговых сетей проект, где с помощью BI-инструментария будет производиться анализ данных кассовых чеков. В торговле они являются одним из основных источников информации о бизнесе, объем которой регулярно растет. Ее обработка поможет проводить анализ по обороту, эффективности торговых точек, номенклатуре товаров, использованию дисконтных карт и многому другому».
У Fujitsu Technology Solutions в России было успешно завершено несколько проектов по организации хранения больших данных, рассказывает Александр Яковлев. «В одном случае это заказчик из сектора телекоммуникаций, где применение высокоэффективного хранилища позволило существенно снизить стоимость хранения за 1 Тб. При этом данные остаются оперативно доступными для различных аналитических задач — маркетинговый анализ до запуска акций, возможность оценить полученные результаты после начала работы программы в том или ином регионе. Другой наш проект — в крупном холдинге интернет-продаж, где возможность оперативного анализа произошедших транзакций позволяет эффективно и оперативно оценивать эффективность работы различных маркетинговых инициатив, отслеживать влияние изменений в ценообразовании и планировать следующие маркетинговые и рекламные программы».
Одним из проектов EMC на российском рынке стало внедрение платформы ЕМС Greenplum, реализованное совместно с банком «Тинькофф Кредитные системы», сообщил Сергей Золотарев, руководитель направления «Большие данные» в EMC Россия и СНГ. В ходе внедрения существовавшая в банке инфраструктура в виде стандартной СУБД, работающая на тяжелых серверах SPARC-архитектуры, была заменена системой EMC Greenplum, построенной на базе архитектуры массивно-параллельных вычислений без разделяемых компонентов (MPP, Massive Parallel Processing). В этой архитектуре, которая была разработана специально для создания бизнес-аналитики и аналитической обработки, каждое устройство функционирует как самодостаточная СУБД, которая владеет определенной частью общих данных и управляет ими. Эта система автоматически распределяет данные и распараллеливает рабочие нагрузки запросов на все доступное оборудование, используя принципы Map Reduce.
В результате время решения аналитических задач сократилось минимум в десять раз, а для некоторых — более чем в 100 раз. Использование же в качестве узлов системы серверов «стандартной» архитектуры позволило получить экономически эффективную и неограниченную линейную масштабируемость вычислительных мощностей.
В дальнейшем банк планирует развивать не только инструмент Greenplum, адаптированный для массивно-параллельных вычислений, но также и Hadoop, предназначенный для обработки неструктурированных данных, и платформу Chorus, которая предоставляет возможность совместной работы с корпоративными данными, получаемыми из разных источников.
К решениям для больших данных проявляют интерес банки, сотовые операторы, нефтяная отрасль, говорит Золотарев. По его мнению, ярким примером эффективности использования больших данных является проект «Малина»: «Они первыми пришли на рынок с этой идеей и проанализировали действия покупателей. Благодаря тому, что участниками проекта были компании, предлагающие различные товары и услуги (сотовый оператор, сеть аптек, заправочная станция и т. д.), им удалось взглянуть на разные аспекты поведения и предпочтения клиента. Продавая эту информацию другим участникам процесса, они помогли производителям предлагать наиболее адекватные товары и услуги».
В России уже сейчас с SAP HANA работают несколько заказчиков, говорит Дмитрий Шепелявый: «В „Сургутнефтегазе“ система давно находится в продуктивной эксплуатации. Первый сценарий, который они освоили, — это оптимизация закупок для снабжения своих удаленных объектов по большому числу номенклатурных позиций. Работая в традиционном аналитическом хранилище, они отставали с планированием на несколько дней, а с помощью SAP HANA получают все данные в реальном времени. Также SAP HANA используется для ускорения работы хранилища SAP BW. При этом заказчик сохраняет свои инвестиции в настройку моделей и отчетов в хранилище, но получает значительный прирост с точки зрения производительности. В „М.Видео“ освоен аналогичный сценарий ускорения работы хранилища данных».
Олег Благин, заместитель генерального директора компании «1С:ВДГБ»: «Вопросами больших объемов данных мы обязательно занимаемся при внедрении решений в ЖКХ, где системы хранения и обработки данных не только устарели, но и требуют управления аналитической информацией в большом объеме; при запуске систем в крупных холдинговых структурах, как коммерческих, так и государственных. Первое серьезное тестирование производительности мы проводили при выполнении проекта в ходинге „Юнимилк“ в 2005 г.».
Российские проекты можно разделить на две группы, считает Андрей Пивоваров. Первая — те, где использование новых технологий позволяет обрабатывать данные на новом уровне. Например, в случае телеком-операторов, у которых есть огромные потоки данных, ставятся задачи по обработке сотен терабайтов данных в день. Используя традиционные технологии, это сделать невозможно или очень дорого. Вторая — те, где технологии больших данных позволяют удешевлять традиционные хранилища, позволяя за те же деньги хранить и обрабатывать в них в десятки раз больше данных из большего числа источников.
Александр Хлуднев: «Один из наших пилотных проектов был сделан для крупного телеком-оператора по выявлению социальных связей между абонентами и уровнем их влияния на отток клиентов. Кроме этого мы сейчас создаем в своем „облаке“ сервис бизнес-аналитики для дистрибьюторских компаний и ретейла. С его помощью магазин сможет выгодно корректировать собственные наценки на товары исходя из информации о разбросе цен во всех точках сбыта дистрибьюторской сети. А дистрибьюторы получат аналитику о работе каждой торговой точки: уровне продаж, популярных продуктах и т. д. Без больших данных оперативно обработать информацию ото всех участников сбытовой цепи и по всем номенклатурным единицам просто невозможно».
У «Ай-Теко» тоже реализовано уже несколько проектов. Один из них решает задачи финансовой организации по сбору, хранению и анализу маркетинговых материалов. Развернут комплекс, который организует работу и, если необходимо, может задействовать дополнительные ИТ-ресурсы для увеличения производительности. В результате большое количество пользователей заказчика получает важную аналитическую информацию, актуальную для принятия управленческих решений, поясняет Михаил Луковников, директор по развитию бизнеса ЦОД «ТрастИнфо» (компания «Сервионика», входит в ГК «Ай-Теко»). Другой проект — решение, которое позволяет отследить все упоминания о конкретном бренде, компании, продукте, услуге или персоне из всех социальных медиа в одной ленте. Система автоматически собирает, обрабатывает, категоризирует и строит взаимосвязи данных — и все это происходит в реальном времени.
Никита Рогатов: «Одной из последних задач, которая нами была решена у крупного интернет-провайдера, был анализ предпочтений пользователей для оптимизации каналов связи, принятия решения о развитии или внедрении новых сервисов. Мы создали платформу на основе решения Splunk по сбору журналов событий с информационных и технологических систем. Анализ собранных данных позволил получить полную и достоверную картину предпочтений абонентов, определить сферы их интересов, выделить ключевые группы абонентов для предоставления им дополнительных услуг. Еще один пример — создание платформы обработки данных об абоненте, позволившей не только сформировать новые сервисы, не изменяя существующие технологические платформы, но и обеспечить высокую точность их таргетирования».
Леонид Блынский: «Мы завершили пилотный проект у одного из российских операторов сотовой связи. Создали кластер, в который загружаются все СDR и строится аналитика о геолокации абонента в момент совершения транзакции. Это позволяет получить информацию о распределении абонентов на карте, а также помогает работать с ними более таргетированно. При этом поток данных обрабатывается в десятки раз быстрее, чем в традиционных системах, а стоимость кластера дешевле на порядки. В результате пилотного проекта были сформированы области применения технологии больших данных в телекоммуникационном секторе, показана их эффективность как с точки зрения сокращения затрат, так и с точки зрения повышения производительности. Определенный интерес к технологиям больших данных есть в банковском секторе. В этом случае речь идет о консолидации разрозненной информации (первичные документы, данные из различных СУБД, файлы)».
Дмитрий Красилов: «Мы рассчитываем в краткосрочной перспективе (2013–2014 гг.) выйти на полноценные проекты в нескольких крупных телекоммуникационных компаниях, одном из крупнейших банков и известной ретейловой сети».
Итак, пока основной спрос генерируют телеком, финсектор и ретейл. Примечательно, что все интеграторы не называют имен клиентов: закрытость этого направления крайне высока. Что это: реальное конкурентное преимущество?