Сталкиваясь с невиданным объемом, разнообразием и скоростью поступления «больших данных», организации и их ИТ-менеджеры обращаются за помощью к платформе Hadoop и быстро растущему списку решений на ее основе.

В Сан-Хосе прошла конференция Hadoop 2012, где почти 50 компаний-разработчиков продемонстрировали свои технологии, расширяющие возможности Hadoop и упрощающие ее внедрение и администрирование. Ниже представлен перечень наиболее значимых новых продуктов, составленный на основе анонсов компаний-участников и опубликованный на сайте CRN/США накануне конференции.

Cloudera

Компания представила на конференции недавно выпущенную платформу управления «большими данными» Cloudera Enterprise 4.0, а также свой дистрибутив Apache Hadoop четвертого поколения, известный как CDH4.

Новый релиз включает обновленный Cloudera Manager с новыми инструментами для развертывания и администрирования Hadoop-систем, улучшенную автоматизацию администрирования крупномасштабных кластеров и более простую интеграцию с широким спектром средств администрирования и источников данных.

Версия CDH4 предоставляет новые функции обеспечения высокой готовности, устраняя критичную точку отказа распределенной файловой системы Hadoop (HDFS), повышает уровень безопасности, позволяя хранить в CDH больше конфиденциальных данных и запускать несколько платформ обработки данных в одном кластере Hadoop.

Dataguise

Компания дает старт первому в отрасли приложению защиты конфиденциальности данных и оценки риска для Hadoop корпоративного класса. Ее новое ПО DgHadoop обеспечивает оценку соблюдения требований и реализацию защиты конфиденциальности централизованных данных.

Соответствие требованиям конфиденциальности может быть непростой задачей, поскольку Hadoop собирает данные из разнообразных источников, а не только корпоративных баз, и сосредоточение столь большого количества разнородных данных в одной системе увеличивает риск их кражи или случайного раскрытия.

Datameer

Компания выпустила новую версию, Datameer 2.0 своего ПО аналитики для «больших данных», которая сочетает функции интеграции, аналитики и визуализации данных в одном пакете с интерфейсом электронных таблиц. Первый релиз (Datameer 1.0) был предложен только в корпоративном варианте, но теперь включает также версии для рабочих групп и автономных ПК.

В релиз 2.0 входит новый Business Infographics Designer для управления разработкой графики и визуализации данных. ПО построено на базе HTML5, имеет расширенный пользовательский интерфейс и обеспечивает поддержку дополнительных источников данных, включая Facebook и Twitter, а также улучшенную интеграцию с системой хранилища данных Hive для Hadoop.

DataStax

Компания представила DataStax Enterprise (DSE) 2.1, новый релиз системы администрирования с новыми возможностями сопровождения кластера Hadoop на множестве ЦОДов. Построенный на основе базы данных Apache Cassandra, DataStax обеспечивает оперативную обработку транзакций (OLTP), аналитику и поиск данных в рамках одной СУБД.

Версия DSE 2.1 позволяет также использовать Mahout, программное решение Apache для построения масштабируемых алгоритмов обучения машин, и Oracle Unbreakable Linux. Компания представила также множество расширений к своей системе визуального администрирования и мониторинга DataStax OpsCenter для платформ «больших данных».

Hortonworks

Компания объявила о полной готовности Hortonworks Data Platform (HDP) 1.0, своей коммерческой платформы для «больших данных» на основе Apache Hadoop, которая шесть месяцев была в закрытой бета-версии. HDP включает такие функции, как мониторинг и администрирование систем, управление метаданными и услуги интеграции данных, которые помогут упростить принятие Hadoop организациями.

Компания объявила также о включении в HDP высокоскоростных функций обеспечения высокой готовности на основе использования технологии vSphere от VMware. Они включают автоматизированное преодоление отказов NameNode-сервера и восстановление конфигурации для файловой системы Hortonworks (HFS), а также автоматическое обнаружение MapReduce и отклик на преодоление отказов HDP.

Karmasphere

Компания впервые продемонстрировала Karmasphere 2.0, новый релиз коллективного рабочего пространства аналитики для Hadoop. Новая версия упрощает процесс сбора данных, статистических моделей, алгоритмов и других ресурсов аналитики через открытые API и включает автоматическую визуализацию разноструктурированных массивов данных, превращая любые типы данных в таблицы Hive для последующего анализа.

Версия 2.0 включает быстрый процесс создания «родных» SQL-запросов к «большим данным» в Hive и автоматизирует представление аналитических результатов пользователям посредством традиционных средств бизнес-аналитики и электронных таблиц. Новая версия включает также улучшенные функции безопасности, ограничивающие открытость данных.

Kognitio

Компания продемонстрировала свою платформу аналитики-в-памяти, способную быстро анализировать терабайты данных, в сочетании с ПО визуализации данных от Advanced Visual System (AVS), что являет собой конвергенцию технологий «больших данных» и облачных вычислений.

В рамках партнерства Kognitio и AVS две компании будут нацеливать свои объединенные технологии на приложения для вертикальных рынков в области рекламы, анализа поведения потребителей и соцсетей.

Lilien LLC

Этот интегратор решений представил на конференции свое сквозное приложение расширенной аналитики «больших данных» на основе собственной эталонной архитектуры Hadoop Starter Cluster. Эта готовая к использованию платформа включает заранее сконфигурированные компьютерные системы, сетевое оборудование, ПО и СХД.

Lucid Imagination

Компания продемонстрировала свою недавно представленную облачную систему разработки прототипов open source-приложений для «больших данных» LucidWorks Big Data. Такие приложения могут помочь организациям анализировать неструктурированную информацию: текстовые сообщения, аудиофайлы, архивы электронной почты, файлы журналов и т. п. контент, который компания называет «темные данные».

LucidWorks Big Data включает в себя Hadoop и другие open source технологии, в том числе средства поиска Apache Lucene/Solr, ПО обнаружения и аналитики, язык программирования R для разработки аналитических приложений и Apache Mahout для построения масштабируемых алгоритмов обучения машин.

MapR Technologies

Компания представила новую версию — MapR 2.0 — своего дистрибутива платформы Apache Hadoop с новыми расширенными функциями мониторинга, администрирования и безопасности. Компания объявила также, что ее ПО доступно как опция для сервиса Amazon Elastic MapReduce.

Версия 2.0 включает новые функции мониторинга и администрирования задач, управления размещением задач и данных, поддержки множественной аренды, централизованного ведения журналов и настраиваемого централизованного конфигурирования, расширенной безопасности, новые алгоритмы сжатия данных, поддержку SUSE Linux и новейшие версии компонентов Hadoop: HBase, Hive и Pig.

NetApp

Компания продемонстрировала NetApp Open Solution для Hadoop Rack, заранее сконфигурированную архитектуру вычислительных, сетевых ресурсов и ресурсов хранения, которая обещает более быстрое и надежное развертывание Hadoop. Заказчики осуществляют сборку системы, используя компоненты NetApp и других вендоров, а также средства анализа данных по собственному выбору. NetApp предлагает профессиональные услуги внедрения Hadoop.

NetApp заключила также стратегическое партнерское соглашение с Hortonworks, в рамках которого партнеры проводят разработку и предварительное тестирование решений на базе Hadoop, построенных на платформе HDP.

ParAccel

Этот разработчик приложений аналитики данных представил коннектор Hadoop On Demand Integration Module, позволяющий его платформе ParAccel Analytic Platform работать с данными Hadoop. Продукт уже поставляется, и в числе своих заказчиков компания называет Alliance Health Networks и фирму веб-услуг Evernote.

Pentaho в партнерстве с Dell

Dell будет продавать ПО аналитики Pentaho для «больших данных» в составе своего решения Dell Apache Hadoop Solution, и Pentaho вступает в ее программу Emerging Solutions Ecosystem.

Dell Apache Hadoop Solution включает эталонную архитектуру оборудования Dell, программный модуль Crowbar и дистрибутив Apache Hadoop от Cloudera. В рамках этого соглашения Dell добавит аналитику Pentaho и средства извлечения, преобразования и загрузки данных (ETL) в свою систему для Big Data.

Pervasive Software

Компания объявила о готовности новой версии Pervasive Data Integrator v.10 Hadoop Edition, которая позволяет организациям отправлять свою деловую информацию в склады данных на базе Hadoop и извлекать ее для использования.

Новые функции ПО позволяют одним щелчком мыши перемещать данные из традиционных складов, использующих DB2, MySQL, Netezza, PostgreSQL, SQL Server, Oracle, Teradata и Vertica, непосредственно в HBase, базу данных на основе NoSQL, которая входит в состав всех дистрибутивов Hadoop.

Qubole

Эта компания-новичок продемонстрировала свою облачную автомасштабируемую платформу для «больших данных», которая избавляет заказчиков от необходимости проектирования архитектуры, развертывания и администрирования собственных кластеров Hadoop.

Учредители компании Ашиш Тхусу (Ashish Thusoo) и Джойдип Сен Сарма (Joydeep Sen Sarma) являются создателями ПО хранилища данных Apache Hive, используемого в составе Hadoop, и возглавляли подразделение инфраструктуры данных Facebook.

Savvis

Этот поставщик облачной инфраструктуры и ИТ-услуг объявил о соглашении с компанией Hortonworks, в рамках которого интегрирует ее платформу обработки данных с собственным пакетом облачных услуг Symphony, что упростит перемещение данных между платформой Hortonworks (Savvis возьмет на себя ее хостинг) и корпоративными системами данных.

Syncsort

Компания продемонстрировала, как ее (теперь сертифицированное) ПО интеграции данных DMExpress работает с платформой Hortonworks Data Platform. Стыковка между этими двумя продуктами упрощает и ускоряет перемещение данных между HDP и другими корпоративными системами.

Talend

Новые расширенные корпоративные функции администрирования для Apache Hadoop в пакете Talend Open Studio для интеграции «больших данных» упрощают развертывание инфраструктуры Big Data и управление ее компонентами.

Пакет уже включает свыше 450 коннекторов для связывания корпоративных данных с платформой Hadoop. Talend добавляет коннекторы для HCatalog, системы управления метаданными и таблицами для совместного использования данных платформой Hadoop и другими системами, а также Oozie, систему управления рабочим процессом для создания и привязки серии заданий обработки.

Teradata

Этот вендор хранилищ данных продемонстрировал свою новую технологию Aster SQL-H, которая соединяет стандартные приложения бизнес-аналитики с массивами «больших данных», которые хранятся в системах Hadoop.

С выпуском этого продукта стандартные SQL-запросы впервые могут напрямую извлекать разноструктурированные данные, хранимые в распределенной файловой системе Hadoop (HDFS). Технология Aster SQL-H реализована в виде специализированного устройства Teradata Aster MapReduce Appliance.

Vertica

Vertica (Hewlett-Packard купила эту компанию в прошлом году) предоставила новую версию своей платформы аналитики Vertica 6. В новой версии расширена архитектура FlexStore для связывания платформы с любым источником структурированных, частично структурированных или неструктурированных данных. Vertica 6 обеспечивает также поддержку свободного языка программирования R для разработки приложений статистической обработки и анализа данных.

VMware

Организации могут теперь использовать Hadoop вместе с платформой виртуализации vSphere, что обеспечивает высокую готовность и эластичность системы обработки «больших данных», а также функции множественной аренды и совместное использование ресурсов.

В рамках open source-проекта Serengeti компания предлагает бесплатную загрузку набора инструментов для развертывания кластеров Apache Hadoop в среде vSphere 5.0 (с лицензией Apache 2.0). Этот инструментарий будет включать поддержку всех основных дистрибутивов Apache Hadoop, в том числе от Cloudera и Hortonworks.