Разговор о новых и не до конца ясных явлениях лучше начинать с определений. «Большими» считаются такие данные, с которыми не могут работать типовые БД (имеются в виду программное обеспечение или программно-аппаратные комплексы, чаще всего используемые в определенной индустрии). Конкретные числа поэтому не называются: во-первых, они варьируются от отрасли к отрасли; во-вторых, растут по мере совершенствования технологий. Такой подход и определения McKinsey Global Institute более-менее общеприняты. От нескольких дюжин до тысяч терабайтов — таков диапазон объема собственно данных. По сведениям IDC и Gartner за 2011 г., в мире было создано более 1,8 зетабайт информации (1 зетабайт = 1 миллиард терабайт). Это число превышает количество данных, накопленных человечеством за всю историю до середины 2000-х годов.
По оценкам IBM, множество разнообразных источников данных, включая датчики, социальные медиа и миллиарды мобильных устройств во всем мире, ежедневно генерируют 2,5 триллиона байт. Эти данные кроме собственно объема характеризуют также многообразие и быстродействие, по версии IBM — Volume, Velocity and Variety (объем, скорость, разнообразие.) Текст, структурированные таблицы, документы, почта, sms, данные измерительных приборов, видео, аудио, данные торгов — все эти данные могут быть большими. Под быстродействием в данном контексте понимается время выдачи информации по запросу, способность оперативно реагировать на проблемы.
Важен в первую очередь не объем данных сам по себе, а растущая способность ИТ-средств обрабатывать этот объем. Теми инструментами, которыми компании располагали раньше, справляться с нарастающим потоком информации было трудно. Традиционно аналитики брали какие-то отдельные выборки, более-менее удачные, в большей или меньшей степени репрезентативные, и на их основе делали некоторые заключения, причем частота запросов была относительно невелика — ее было нереально повысить ввиду технических ограничений. Один из ключевых тезисов работы с большими данными состоит в том, что теперь, с помощью новых ИТ-инструментов, можно анализировать все и постоянно. И это позволит найти закономерности, которых раньше не находили, понять зависимости, которых раньше не понимали.
Если же у вас нет инструментов, адекватных объемам данных, и процессов их обработки, то и толку от всех этих данных не будет, что можно наблюдать и в России. Если транспортная система располагает тысячами видеокамер, запись изображения с которых идет в архив, но не располагает ни системами хранения должной мощности, ни средствами анализа этих изображений, то большая часть данных просто уничтожается: записи стираются еще до того, как они будут просмотрены при расследовании преступлений, например. Так и происходит в некоторых структурах уже не один год.
Разумное использование больших данных может дать хороший результат. Массовые исследования эффективности лекарств в течение длительных периодов времени меняют фармацевтику, позволяют аргументированно допускать или не допускать лекарственные средства в продажу. Используя постоянный мониторинг состояния пациентов, можно вовремя принять решение об оказании им помощи, не доводя дело до госпитализации. Это будет способствовать серьезным изменениям в управлении медицинскими учреждениями.
Ретейлеры, использующие весь потенциал больших данных, увеличивают операционную маржу более чем на 60% (оценка McKinsey Global Institute). Возможность проверить не одну из десяти транзакций на мошенничество, как делается сейчас, а все выведет банки на новый уровень безопасности. Внедрение в банке HSBC системы противодействия кредитному мошенничеству SAS позволило специалистам службы безопасности за первые две недели выявить криминальные группы и схемы с потенциальным ущербом в 10 млн. долл.
Примеры использования решения SAP HANA тоже впечатляют. Американская розничная сеть RedBox, занимающаяся продажами DVD, оптимизировала и ускорила процесс управления складскими остатками и в 2011 г. получила экономическмй эффект в размере 20 млн. долл. Компания T-Mobile US в прошлом году смогла сократить отток абонентов на 80% за счет семикратного ускорения анализа сценариев маркетинговых программ по базе данных более 21 млн. абонентов. По данным опроса клиентов SAP, использование SAP HANA в среднем помогает увеличить дополнительные и перекрестные продажи на 2–3%, на 10–20% сократить отток клиентской базы, на 30–50% уменьшить затраты времени на подготовку финансовой отчетности, на 70–90% — на ее анализ.
Но эти и множество других полезных результатов требуют и серьезных усилий. По мнению аналитиков Gartner, большие данные означают перестройку привычной информационной архитектуры: вместо обслуживания хранилищ данных (хранение и сжатие) речь идет об обслуживании пулов данных (потоки, связи и средства коллективного использования информации). В Gartner считают, что анализ больших данных позволяет принимающим решения быстро выявлять новые закономерности в различных типах данных, но требует соответствующей стратегии для достижения конкурентного преимущества. При этом переход к большим данным выявляет внутреннюю разрозненность организаций, которую нужно стараться устранить, вводя соответствующие меры и метрики, стимулирующие коллективное использование данных и доверие к ним.
Потребуются специалисты с новым набором навыков и новые должности для них, их нужно будет мотивировать и удерживать. Предстоит освоить новые инструменты, методы и архитектуры. Предполагается опираться на статистический анализ, машинное обучение, обработку текстов на естественных языках и прогнозное моделирование. На ранних этапах опробования рабочие группы должны использовать недорогие инструменты на базе свободного ПО, которые продемонстрируют осуществимость проектов для больших данных, полагают в Gartner. СПО в виде различных версий Hadoop уже играет ключевую роль в работе с большими данными.
Возникает интересное направление: совместное использование проприетарного и свободного ПО для обработки больших данных. Эксперты Oracle приводят такой пример: в банковском секторе современные технологии больших данных не могут заменить традиционные реляционные СУБД (РСУБД) для таких задач, как CRM или АБС. Но они могут служить хорошим дополнением хранилищ данных. Hadoop отлично подходит для того, чтобы хранить и производить первичную обработку (фильтрацию, агрегацию) огромных объемов исторических, неструктурированных и других данных, причем это во много раз дешевле, чем в реляционных базах данных (РСУБД). Но потребность традиционных хранилищ не отменяется, так как РСУБД обгоняют Hadoop по аналитическим возможностям, скорости отклика на запросы пользователей и т. д. Таким образом, предварительная обработка данных может производиться в Hadoop, а отфильтрованные и агрегированные (а значит, занимающие гораздо меньший объем) данные могут передаваться в традиционное хранилище, где с ними уже будут работать пользователи.
Практически все вендоры, так или иначе связанные с обработкой информации, выводят на рынок инструменты для работы с большими данными, в том числе программно-аппаратные комплексы. Oracle — Exadata, IBM — Netezza, EMC — Greenplum, HP — Vertica, SAP — HANA, а также Теradata, у которой программно-аппаратный комплекс всегда был основным продуктом, и SAS, который никакие потрясения и отраслевые тренды, видимо, не заставят изменить аналитическому ПО. Согласно прогнозу IDC, рынок технологий и услуг для больших данных будет расти в среднем на 40% и к 2015 г. достигнет объема 16,9 млрд. долл.
Для Teradata ключевым фактором сейчас является именно этот бурный рост, а не появление новых игроков, подчеркивает Александр Пинский, директор по развитию бизнеса компании в России. Видимо, это вполне применимо и к другим производителям аналитического ПО.
Ключевые для аналитики области остаются прежними (телекоммуникации, банки и страховые компании, ретейл, транспорт и логистика, производство), но меняется масштаб задач. Есть некоторые изменения как ответ на новые потребности рынка, которые заметны больше в США: расширение спроса на хранилища данных уже не только со стороны крупных компаний, но и со стороны среднего бизнеса; развитие облачных технологий; растущий спрос на приложения для управления маркетинговыми ресурсами, отмечает Александр Пинский.
С целью усиления своих позиций именно на этом направлении Teradata недавно купила фирму Aprimo.
В апреле IBM приобрела Vivisimo, американскую компанию, чей софт предназначен для сбора и доставки качественной информации, полученной из широкого спектра источников данных независимо от того, в каком формате представлены эти данные и где они находятся. Фирма небольшая, 120 занятых, а среди ее клиентов Airbus, ВВС США (U. S. Air Force), Управление социального страхования (Social Security Administration), Разведывательное управление Министерства обороны (Defense Intelligence Agency), ВМФ США (U.S. Navy), Procter & Gamble, Bupa и LexisNexis.
Интересный аспект работы с большими данными отмечают специалисты по безопасности. Для компаний, которые захотят пользоваться или внедрять технологию анализа больших данных, ключевым станет вопрос доверия к источникам информации. Одним из важных требований к обрабатываемым данным является достоверность источников. Если злоумышленники получат возможность компрометации источников информации, то и конечный результат анализа больших данных будет искажен, что, в свою очередь, может оказать деструктивное воздействие на бизнес.
Олег Глебов, эксперт по ИБ компании «Андэк», видит и другие возможности. Интернет сегодня является глобальным источником сложно структурируемых данных. Проанализировав их, киберпреступники могут создать целые базы данных на потенциальных жертв. При этом целью дальнейших воздействий могут стать как конкретные пользователи Интернета, так и организации.
Кроме того, сама корпоративная инфраструктура безопасности постоянно генерирует тысячи отчетов и событий. Решения нового класса SIEM (Security Information and Event Management) призваны помочь компаниям в анализе таких данных. Новые подходы позволяют значительно увеличить скорость и объемы анализа неструктурированных данных. К большим данным обратились и разработчики классических решений по безопасности: антивирусов и систем противодействия вторжениям, отмечает Олег Глебов. На основе технологии анализа больших данных они выявляют абсолютно новые виды угроз на стадии их возникновения. В момент атаки на конкретную жертву база угроз уже может быть обновлена. Таким образом, большие данные частично используются как дополнительный инструмент для проактивной защиты клиентов от новейших разновидностей вредоносного ПО.
Большие данные в России
По общему мнению вендоров и интеграторов, занимающихся этим направлением, бизнес на больших данных у нас — дело будущего, пока делаются только первые осторожные шаги.
Сейчас можно говорить скорее об интересе к большим данным, нежели об активном применении инструментов для работы с ними. Только считанные и, как правило, крупнейшие компании начинают их внедрение, остальные пока присматриваются, понимая, что это станет одним из актуальных направлений в ближайшем будущем, полагает Александр Пинский. Он ожидает, что в ближайшие годы работа с большими данными будет востребована в области веб-маркетинга и интернет-бизнеса, в госсекторе, а также в банках и телекоммуникационных компаниях. В частности, Пинский отмечает, что практически все российские телекоммуникационные компании уже используют хранилища данных для управления кампаниями, повышения эффективности обслуживания абонентов и управления доходами. Следующим шагом будет применение лог-файлов, которые уже накапливаются в соответствии с требованиями законодательства, — т. е. петабайтных массивов слабоструктурированной информации о действиях абонентов в Интернете. Лог-файлы позволяют увидеть интересы и поведение каждого конкретного абонента в Сети, а значит, сформировать для него наиболее привлекательное предложение по услугам, контенту, равно как и применять эти сведения об абоненте для продажи рекламы сторонних компаний. Возможно, через небольшое время интернет-бизнес будет выглядеть уже совсем иначе.
В апреле 2012 г. MarketVisio выпустила отчет «Изучение инновационности и ведущих технологических трендов в компаниях РФ среднего и крупного бизнеса в 2012–2013 гг.». В личных и телефонных интервью были опрошены 74 руководителя российских фирм различного размера. Согласно исследованию, тренд больших данных интересен CIO и актуален для 21,6% респондентов, 18,9% интересна технология, а 54,1% слышали о таком тренде, но он не является первостепенным для бизнеса. Совершенно не осведомлены о больших данных 5,4% опрошенных. По интересу и актуальности большие данные находятся на пятом месте после планшетов, планшетных ПК и приложений для мобильных устройств, социальных сетей и облачных вычислений. Все эти явления более значимы для опрошенных российских CIO: и известность, и актуальность у них выше.
Анализируя планы и проекты по внедрению инновационных технологий, в MarketVisio выявили, что уже внедряют технологии, связанные с большими данными, 13,5%, предполагают это сделать в ближайшие год-два еще 20,3%. 14,9% респондентов намереваются заняться большими данными через 3–5 лет, а все остальные не планируют таких проектов. Получается, что в ближайшую пятилетку половина российских фирм будет инвестировать в обработку больших данных: весьма впечатляющий результат, учитывая, что объективно подобные объемы информации у всех подряд никак не могут возникнуть.
По оценкам экспертов Oracle, компании, заинтересованные в оптимизации производительности, имеют базы данных от нескольких терабайтов до нескольких десятков терабайтов и ожидают рост до сотен, к которому хотят подготовиться.
По мнению Павла Кострикова, директора компании «НБИ» (группа «Стинс Коман»), объемы данных в крупных компаниях измеряются десятками и сотнями терабайтов — особенно это касается банковских структур, проектных институтов, разработчиков и прочих.
Бизнес Teradata в России — один из самых быстрорастущих и перспективных в регионе EMEA и для корпорации в целом. «В этом году по объемам продаж Россия должна выйти на уровень, сопоставимый с западноевропейскими странами», — сообщил Александр Пинский. Среди существующих клиентов Teradata несколько крупнейших банков, телеком-операторы из «большой тройки», а также крупные федеральные госструктуры. «Мы активно инвестируем в Россию, сейчас в нашем офисе работает уже свыше 100 человек, включая разработчиков, консультантов, специалистов службы поддержки», — отметил он. Это действительно существенный рост: еще несколько лет назад представительство было почти в 10 раз меньше.
В мае 2012 г. SAS вывела на российский рынок полную линейку аналитических инструментов SAS High Performance Analytics. В одном из топ-5 российских банков для анализа поведения клиентов и управления кредитными рисками уже применяют специализированные средства анализа больших данных. Валерий Панкратов, генеральный директор SAS России/СНГ, подчеркивает, что отличия решений SAS лежат в области предиктивной аналитики, анализа текстов, прогнозирования, в то время как другие вендоры сосредоточены на решении более простых и массовых аналитических задач.
Oracle тоже видит большие возможности для роста. Эксперты вендора считают, что потенциальный клиент Oracle Exadata Database Machine — это любая компания, которая уже использует или собирается использовать СУБД Oracle и для которой критичен вопрос больших объемов данных и производительности. Существующие клиенты Oracle Exadata в России и СНГ представляют все отрасли — телеком, розничная торговля, финансовые организации, государственные учреждения, энергетические компании и т. д. Известны проекты внедрения в банке «Санкт-Петербург», программе лояльности «Малина», телекоммуникационной компании «Киевстар» (Украина). За последний год число проектов в СНГ по оптимизированным программно-аппаратным комплексам Oracle, включающим Exadata, Exalogic и другие, увеличилось в разы.
Перспективы для партнеров
Большие данные открывают интересные перспективы для партнеров. Дмитрий Лисогор, руководитель департамента по бизнес-аналитике и технологиям, заместитель генерального директора SAP СНГ, сообщил, что вендор уже активно занимается подготовкой партнеров по двум направлениям: «Во-первых, методологическое — надо понимать, как работать с большими данными, какие подходы использовать. Во-вторых, технологическое — через изучение продуктов». SAP предоставляет различные возможности обучения, организует пилотные зоны, сотрудничает с аппаратными вендорами, чтобы обеспечить партнеров необходимым «железом». «Партнеры пока „впитывают“ знания, но не пройдет и года, как они, по нашим расчетам, начнут предлагать собственные решения такого класса», — прогнозирует Дмитрий Лисогор.
В Oracle тоже уверены, что партнерам выгодно и интересно заниматься направлением Oracle Exadata, поскольку для разработчиков сертификация своего решения под Exadata дает возможность снизить вероятность появления «сюрпризов» в ходе внедрения, так как приложение отлаживается на заранее известном оборудовании, это значительно сокращает сроки проекта. Кроме того, СУБД под приложением разработчика будет работать с максимально возможной производительностью как в абсолютном выражении, так и в расчете на ядро процессора, что позволяет в конечном счете снизить ТСО для заказчика. Для системных интеграторов работа с Exadata дает возможность найти большие и сложные внедрения, которые требуют серьезной экспертизы, а проекты с терабайтными объемами данных и связанные с экстремальной производительностью всегда требуют высочайшей квалификации. Свою АБС для Exadata уже оптимизировал ЦФТ. Центры тестирования для клиентов открыли «ФОРС», «Инфосистемы Джет», IBS, РДТЕХ.
Для «ФОРС» разработка решений для больших данных — одно из наиболее перспективных направлений, оно связано с принципиально новым классом программно-аппаратных комплексов Oracle Engineered Systems, отмечает Валерий Юринский, директор отделения технологического консалтинга компании «ФОРС». Здесь создано отдельное подразделение — инженерный центр ExaStack Studio, где представлены интегрированные комплексные решения Oracle: Exadata Database Machine, Exalogic Elastic Cloud, Database Appliance. В строй вводится система хранения Pillar Axiom 600. Вскоре ожидается прибытие Exalytics in-Memory Machine. Предлагается тестирование решений и баз данных на новом оборудовании, а также их миграция; оптимизация и конфигурирование систем, обучение, консультирование. Главное — помочь заказчикам встроить новый программно-аппаратный комплекс в существующую инфраструктуру.
Рынок быстро растет, и очень важно, чтобы заказчики осознали необходимость и неизбежность перехода на новый класс решений, считает Валерий Юринский. Для этого нужно предоставить им возможность самим убедиться в неоспоримых преимуществах таких систем с точки зрения производительности, простоты в эксплуатации и надежности. Он приводит такие примеры: тестирование показало, что с выборкой данных, которую производственная система одного из заказчиков выполняла 102 минуты, Exadata справилась за 6 минут. При тестировании системы крупной нефтяной компании выполнение одной из регламентных операций ускорилось в 300 раз. За 24 часа работы Exadata позволила крупному российскому ретейлеру получить отчет, который до этого не удавалось сделать никогда. При тестировании связки Exadata + Exalogic на одной из бизнес-операций был достигнут 20-кратный прирост производительности. Решения Oracle обеспечивают отличные результаты и в деле снижения потребления емкостей систем хранения, уверен Юринский: применение гибридной поколоночной компрессии позволило «ужать» базу данных объемом 5 терабайт до 500 гигабайт, причем хранение данных в сжатом виде не приводит к потере производительности системы, а поиск информации идет значительно быстрее.
В июне 2012 г. группа IBS заключила партнерское соглашение и получила возможность продвигать в России новый аналитический комплекс IBM Netezza. Решение в полном объеме уже доступно в Тестовой лаборатории IBS. По данным вендора, в зависимости от задач пользователя и структуры данных требуемый объем серверного пространства при использовании IBM Netezza в сравнении с традиционными системами управления базами данных (СУБД) может снизиться от 3 до 50 раз, а обработка запросов выйти на режим реального времени или же сократиться до секунд и минут с характерных для традиционных решений нескольких часов и даже суток.
Очевидно, что профильные вендоры и ведущие игроки российского рынка системной интеграции создают центры компетенции по большим данным, стремясь упредить растущий спрос, захватить лидерство, пока игра только начинается.
«Крок» пока что предлагает отдельные технологии больших данных, сообщил Владимир Колганов, руководитель направления систем хранения данных компании «Крок». В банке «Хоум Кредит» внедрена многоуровневая система хранения данных, но меньшего масштаба, поясняет Колганов: «Именно такое решение максимально отвечало текущим задачам заказчика». Однако, полагает он, скорее всего, в будущем возникнет потребность в полномасштабных решениях с большими данными: таких технологий могут потребовать, например, динамично развивающиеся «облака», которые наращивают потребление ИТ по мере необходимости.
«Мы отслеживаем тенденции в этой области и, конечно, предложим заказчикам решения по большим данным, как только такая необходимость возникнет», — подчеркивает Владимир Колганов. Нужно учитывать, отмечает он, что на внедрение подобных технологий смогут решиться только наиболее прогрессивные, технологичные компании, ведь такие проекты потребуют глобальных изменений в ИТ-инфраструктуре. Однако у компаний-«новаторов» будет важное преимущество: за ними начнет «подтягиваться» весь рынок, когда большие данные станут входить в повседневную жизнь компаний.