16 июля 2014 г.
Сегмент ПО для «больших данных» остается одним из самых динамичных в ИТ-отрасли; новые инструменты управления данными и бизнес-аналитики появляются чуть ли не каждый день. Вот 10 продуктов, ставших заметным явлением за первые шесть месяцев года.
Растущий рынок нужных продуктов
По оценке исследовательской фирмы Wikibon, в 2013 году совокупный оборот мирового рынка решений для «больших данных» достиг 18,6 млрд. долл., из которых 4,1 млрд. долл., или 22%, приходилось на ПО. (На услуги — 40%, и на оборудование — 38%.) Фирма прогнозирует, что в этом году общий доход этого рынка составит 28,5 млрд. долл., а в 2017 году — 50,1 млрд. долл.
Неудивительно, что новые продукты появляются чуть ли не ежедневно, и многие из них поистине замечательны. Представляем десять, которые привлекли внимание CRN в первой половине года.
Cloudera Enterprise 5
Главный управляющий: Том Райли
В апреле компания выпустила новую версию Cloudera Enterprise, корпоративной платформы управления данными на базе CDH, своего дистрибутива Apache Hadoop.
Cloudera Enterprise 5 включает YARN (Yet Another Resource Negotiator), передовую технологию согласования ресурсов, встроенную в Hadoop 2.2 для управления множественными ресурсами. Новые средства управления данными и отчетности и функции аудита улучшают возможности комплексного управления и соблюдения регулятивных требований. Улучшена также безопасность и защита данных благодаря новой централизованной функциональности, реализуемой через Cloudera Manager и Cloudera Navigator.
Databricks Cloud
Главный управляющий: Йон Стоика (Ion Stoica)
Одним из самых значительных успехов на арене «больших данных» был выпуск Apache Spark в мае. Это механизм обработки-в-памяти с открытым кодом, превосходящий платформу Hadoop по производительности аналитики данных.
Компания Databricks была создана несколькими разработчиками Spark и в июне предложила платформу Databricks Cloud, построенную на данной технологии. Эта хостинговая платформа, которая проходит сейчас бета-тестирование, упрощает развертывание и предоставление Spark и поставляется с набором встроенных приложений для сбора и анализа данных. Организация может, к примеру, использовать Databricks Cloud, чтобы быстро обрабатывать и анализировать данные, хранимые в Amazon S3.
DataStax Enterprise 4.5
Главный управляющий: Билли Бозуорт
DataStax — один из множества стартапов, оспаривающих позиции широко принятых реляционных баз данных, таких как Oracle Database и Microsoft SQL Server, предлагая архитектуру СУБД следующего поколения. Компания разрабатывает DataStax Enterprise (DSE) — распределенную СУБД NoSQL-типа на базе свободной базы данных Apache Cassandra, которая способна управлять громадными объемами данных, хранящихся на множестве типовых серверов.
Версия DSE 4.5, выпущенная в конце июня, включает технологию обработки-в-памяти Apache Spark (в рамках партнерства с Databricks), которая ускоряет работу аналитики данных реального времени DSE. Новые автоматизированные средства диагностики и настройки производительности улучшают работу сервисов управления. И впервые продукт полностью интегрирован с Hadoop (в рамках партнерств с Cloudera и Hortonworks), что дает возможность объединять данные Cassandra с данными из Hadoop и других источников и сочетать оперативные и ретроспективные данные для анализа.
Guavus Reflex 2.0
Главный управляющий: Анукул Лахина (Anukool Lakhina)
Анализировать данные реального времени на порядок труднее, чем статичные данные в хранилище. Компания раздвигает границы возможного в бизнес-аналитике реального времени со своей платформой Guavus Reflex Operational Intelligence.
В июне была выпущена версия Reflex 2.0 с поддержкой Apache Spark (механизма обработки-в-памяти, превосходящего Hadoop по производительности аналитики данных) и YARN (передовой технологии согласования ресурсов, встроенной в Hadoop 2.2). Это повышает способность ПО анализировать данные по мере их поступления или генерирования. Продукт особенно полезен поставщикам услуг и крупным операторам ЦОДов, которым нужно анализировать данные сети, чтобы обнаружить системные аномалии, выявить и предотвратить попытки мошенничества и реагировать на онлайн-активность заказчиков.
Hortonworks Data Platform 2.1
Главный управляющий: Роб Бирден
В апреле компания выпустила новую версию своего дистрибутива Hadoop, добавив новую технологию SQL-запросов, чтобы повысить скорость и масштаб запросов к Hadoop. Hortonworks Data Platform 2.1 включает Apache Hive 0.13, плод инициативы «Stinger» группы Apache Software Foundation, имевшей целью ускорить выполнение SQL-запросов и предоставить возможности интерактивных запросов в масштабе петабайт.
HDP 2.1 привносит также технологию Apache Falcon для улучшения комплексного управления данными в рамках Hadoop, технологию Apache Knox для защиты периметра, механизм обработки Apache Storm для улучшения потоковой обработки в реальном времени и поисковую технологию Apache Solr.
MongoDB 2.6
Главный управляющий: Макс Ширезон (Max Schireson)
MongoDB — одна из баз данных NoSQL-типа следующего поколения, оспаривающих доминирование реляционных СУБД Oracle, Microsoft и др., используемых сейчас в большинстве корпоративных ЦОДов.
MongoDB — это кросс-платформная СУБД, ориентированная на документы и предназначенная помочь организациям справиться с неуклонно растущими объемами неструктурированных данных. Версия MongoDB 2.6, выпущенная в апреле, предлагает новые функции текстового поиска и инструменты для специальных видов анализа, расширенную функциональность защиты, новые средства манипулирования большими объемами данных и обобщения/агрегации данных, расширения служб MongoDB Management Services для упрощения управления данными и новый уровень масштабируемости и производительности.
Numerify 360 for IT
Главный управляющий: Горав Ревари (Gaurav Rewari)
ИТ-менеджерам тоже нужна бизнес-аналитика. Памятуя об этом, компания в апреле вышла из «скрытого режима», предложив свой облачный сервис Numerify 360 for IT — готовое решение, использующее аналитику, чтобы дать ИТ-менеджерам полную картину работы всех ИТ-услуг.
Numerify 360 использует данные, генерируемые сервисами ServiceNow, служащими для управления использованием платформ-как-услуги, и сводит воедино информацию из операционных и финансовых систем в облачное хранилище данных, к которому могут обращаться ИТ-менеджеры, чтобы проверить соблюдение соглашения об уровне обслуживания (SLA), провести анализ первопричин, управлять рабочими нагрузками и незавершёнными заданиями, изучить сокращение затрат на обслуживание и коэффициент использования ИТ-ресурсов.
SAS In-Memory Statistics for Hadoop
Главный управляющий: Джим Гуднайт
SAS Institute разработал эту интерактивную среду программирования аналитики для платформы Hadoop на основе своей технологии обработки-в-памяти, которую используют другие продукты вендора, в частности, SAS Visual Analytics. Эта технология дает значительное увеличение производительности при управлении данными, изучении, обсчёте и анализе больших массивов данных, хранящихся в Hadoop.
Продукт обеспечивает поддержку множества методов статистической обработки и моделирования с машинным самообучением, в том числе кластеризации, регрессивного анализа, дерева принятия решений, текстовой аналитики, а также рекомендательных систем и обобщённых линейных моделей.
SiSense 5
Главный управляющий: Амит Бендов (Amit Bendov)
Компания разрабатывает ПО анализа, отчетности, визуализации и информационных панелей (dashboard), помогающее обычным пользователям извлечь смысл из огромных массивов данных. Одно из главных достоинств продукта — способность сводить воедино огромные массивы данных из многих источников в одну базу данных для проведения анализа.
В феврале была выпущена версия SiSense 5, пригодная для использования не только на настольных ПК, но также планшетах, смартфонах и других мобильных устройствах. Продукт включает новые push-уведомления и средства углубленного анализа, которые должны способствовать его более широкому принятию рынком. В новой версии используется технология аналитики «в-чипе», представленная компанией в прошлом году.
Splice Machine Hadoop RDBMS
Главный управляющий: Монт Цвебен (Monte Zweben)
В мае компания выпустила свою долгожданную реляционную базу данных реального времени на основе Hadoop, которая предназначена помочь организациям обойти ограничения пакетной аналитики в исходной платформе. Это полнофункциональная, транзакционная база данных SQL-типа на Hadoop, позволяющая запускать операционные приложения и аналитику реального времени.
Компания позиционирует свой продукт как «лучшую из двух миров» альтернативу традиционным реляционным СУБД, таким как Oracle Database и Microsoft SQL Server. Архитекторы баз данных и разработчики прикладного ПО могут строить приложения реального времени, работающие с огромными массивами данных, не отказываясь от давно освоенной SQL-технологии и своих наработок.
© 2014. The Channel Company LLC. Initially published on CRN.com, a The Channel Company website, at https://www.crn.com. Reprinted with permission.
Источник: Рик Уайтинг, CRN/США