16 июля 2014 г.

Сегмент ПО для «больших данных» остается одним из самых динамичных в ИТ-отрасли; новые инструменты управления данными и бизнес-аналитики появляются чуть ли не каждый день. Вот 10 продуктов, ставших заметным явлением за первые шесть месяцев года.

Растущий рынок нужных продуктов

По оценке исследовательской фирмы Wikibon, в 2013 году совокупный оборот мирового рынка решений для «больших данных» достиг 18,6 млрд. долл., из которых 4,1 млрд. долл., или 22%, приходилось на ПО. (На услуги — 40%, и на оборудование — 38%.) Фирма прогнозирует, что в этом году общий доход этого рынка составит 28,5 млрд. долл., а в 2017 году — 50,1 млрд. долл.

Неудивительно, что новые продукты появляются чуть ли не ежедневно, и многие из них поистине замечательны. Представляем десять, которые привлекли внимание CRN в первой половине года.

Cloudera Enterprise 5

Главный управляющий: Том Райли

В апреле компания выпустила новую версию Cloudera Enterprise, корпоративной платформы управления данными на базе CDH, своего дистрибутива Apache Hadoop.

Cloudera Enterprise 5 включает YARN (Yet Another Resource Negotiator), передовую технологию согласования ресурсов, встроенную в Hadoop 2.2 для управления множественными ресурсами. Новые средства управления данными и отчетности и функции аудита улучшают возможности комплексного управления и соблюдения регулятивных требований. Улучшена также безопасность и защита данных благодаря новой централизованной функциональности, реализуемой через Cloudera Manager и Cloudera Navigator.

Databricks Cloud

Главный управляющий: Йон Стоика (Ion Stoica)

Одним из самых значительных успехов на арене «больших данных» был выпуск Apache Spark в мае. Это механизм обработки-в-памяти с открытым кодом, превосходящий платформу Hadoop по производительности аналитики данных.

Компания Databricks была создана несколькими разработчиками Spark и в июне предложила платформу Databricks Cloud, построенную на данной технологии. Эта хостинговая платформа, которая проходит сейчас бета-тестирование, упрощает развертывание и предоставление Spark и поставляется с набором встроенных приложений для сбора и анализа данных. Организация может, к примеру, использовать Databricks Cloud, чтобы быстро обрабатывать и анализировать данные, хранимые в Amazon S3.

DataStax Enterprise 4.5

Главный управляющий: Билли Бозуорт

DataStax — один из множества стартапов, оспаривающих позиции широко принятых реляционных баз данных, таких как Oracle Database и Microsoft SQL Server, предлагая архитектуру СУБД следующего поколения. Компания разрабатывает DataStax Enterprise (DSE) — распределенную СУБД NoSQL-типа на базе свободной базы данных Apache Cassandra, которая способна управлять громадными объемами данных, хранящихся на множестве типовых серверов.

Версия DSE 4.5, выпущенная в конце июня, включает технологию обработки-в-памяти Apache Spark (в рамках партнерства с Databricks), которая ускоряет работу аналитики данных реального времени DSE. Новые автоматизированные средства диагностики и настройки производительности улучшают работу сервисов управления. И впервые продукт полностью интегрирован с Hadoop (в рамках партнерств с Cloudera и Hortonworks), что дает возможность объединять данные Cassandra с данными из Hadoop и других источников и сочетать оперативные и ретроспективные данные для анализа.

Guavus Reflex 2.0

Главный управляющий: Анукул Лахина (Anukool Lakhina)

Анализировать данные реального времени на порядок труднее, чем статичные данные в хранилище. Компания раздвигает границы возможного в бизнес-аналитике реального времени со своей платформой Guavus Reflex Operational Intelligence.

В июне была выпущена версия Reflex 2.0 с поддержкой Apache Spark (механизма обработки-в-памяти, превосходящего Hadoop по производительности аналитики данных) и YARN (передовой технологии согласования ресурсов, встроенной в Hadoop 2.2). Это повышает способность ПО анализировать данные по мере их поступления или генерирования. Продукт особенно полезен поставщикам услуг и крупным операторам ЦОДов, которым нужно анализировать данные сети, чтобы обнаружить системные аномалии, выявить и предотвратить попытки мошенничества и реагировать на онлайн-активность заказчиков.

Hortonworks Data Platform 2.1

Главный управляющий: Роб Бирден

В апреле компания выпустила новую версию своего дистрибутива Hadoop, добавив новую технологию SQL-запросов, чтобы повысить скорость и масштаб запросов к Hadoop. Hortonworks Data Platform 2.1 включает Apache Hive 0.13, плод инициативы «Stinger» группы Apache Software Foundation, имевшей целью ускорить выполнение SQL-запросов и предоставить возможности интерактивных запросов в масштабе петабайт.

HDP 2.1 привносит также технологию Apache Falcon для улучшения комплексного управления данными в рамках Hadoop, технологию Apache Knox для защиты периметра, механизм обработки Apache Storm для улучшения потоковой обработки в реальном времени и поисковую технологию Apache Solr.

MongoDB 2.6

Главный управляющий: Макс Ширезон (Max Schireson)

MongoDB — одна из баз данных NoSQL-типа следующего поколения, оспаривающих доминирование реляционных СУБД Oracle, Microsoft и др., используемых сейчас в большинстве корпоративных ЦОДов.

MongoDB — это кросс-платформная СУБД, ориентированная на документы и предназначенная помочь организациям справиться с неуклонно растущими объемами неструктурированных данных. Версия MongoDB 2.6, выпущенная в апреле, предлагает новые функции текстового поиска и инструменты для специальных видов анализа, расширенную функциональность защиты, новые средства манипулирования большими объемами данных и обобщения/агрегации данных, расширения служб MongoDB Management Services для упрощения управления данными и новый уровень масштабируемости и производительности.

Numerify 360 for IT

Главный управляющий: Горав Ревари (Gaurav Rewari)

ИТ-менеджерам тоже нужна бизнес-аналитика. Памятуя об этом, компания в апреле вышла из «скрытого режима», предложив свой облачный сервис Numerify 360 for IT — готовое решение, использующее аналитику, чтобы дать ИТ-менеджерам полную картину работы всех ИТ-услуг.

Numerify 360 использует данные, генерируемые сервисами ServiceNow, служащими для управления использованием платформ-как-услуги, и сводит воедино информацию из операционных и финансовых систем в облачное хранилище данных, к которому могут обращаться ИТ-менеджеры, чтобы проверить соблюдение соглашения об уровне обслуживания (SLA), провести анализ первопричин, управлять рабочими нагрузками и незавершёнными заданиями, изучить сокращение затрат на обслуживание и коэффициент использования ИТ-ресурсов.

SAS In-Memory Statistics for Hadoop

Главный управляющий: Джим Гуднайт

SAS Institute разработал эту интерактивную среду программирования аналитики для платформы Hadoop на основе своей технологии обработки-в-памяти, которую используют другие продукты вендора, в частности, SAS Visual Analytics. Эта технология дает значительное увеличение производительности при управлении данными, изучении, обсчёте и анализе больших массивов данных, хранящихся в Hadoop.

Продукт обеспечивает поддержку множества методов статистической обработки и моделирования с машинным самообучением, в том числе кластеризации, регрессивного анализа, дерева принятия решений, текстовой аналитики, а также рекомендательных систем и обобщённых линейных моделей.

SiSense 5

Главный управляющий: Амит Бендов (Amit Bendov)

Компания разрабатывает ПО анализа, отчетности, визуализации и информационных панелей (dashboard), помогающее обычным пользователям извлечь смысл из огромных массивов данных. Одно из главных достоинств продукта — способность сводить воедино огромные массивы данных из многих источников в одну базу данных для проведения анализа.

В феврале была выпущена версия SiSense 5, пригодная для использования не только на настольных ПК, но также планшетах, смартфонах и других мобильных устройствах. Продукт включает новые push-уведомления и средства углубленного анализа, которые должны способствовать его более широкому принятию рынком. В новой версии используется технология аналитики «в-чипе», представленная компанией в прошлом году.

Splice Machine Hadoop RDBMS

Главный управляющий: Монт Цвебен (Monte Zweben)

В мае компания выпустила свою долгожданную реляционную базу данных реального времени на основе Hadoop, которая предназначена помочь организациям обойти ограничения пакетной аналитики в исходной платформе. Это полнофункциональная, транзакционная база данных SQL-типа на Hadoop, позволяющая запускать операционные приложения и аналитику реального времени.

Компания позиционирует свой продукт как «лучшую из двух миров» альтернативу традиционным реляционным СУБД, таким как Oracle Database и Microsoft SQL Server. Архитекторы баз данных и разработчики прикладного ПО могут строить приложения реального времени, работающие с огромными массивами данных, не отказываясь от давно освоенной SQL-технологии и своих наработок.

© 2014. The Channel Company LLC. Initially published on CRN.com, a The Channel Company website, at https://www.crn.com. Reprinted with permission.

Источник: Рик Уайтинг, CRN/США