Сталкиваясь с невиданным объемом, разнообразием и скоростью поступления «больших данных», организации и их ИТ-менеджеры обращаются за помощью к платформе Hadoop и быстро растущему списку решений на ее основе.
В Сан-Хосе прошла конференция Hadoop 2012, где почти 50 компаний-разработчиков продемонстрировали свои технологии, расширяющие возможности Hadoop и упрощающие ее внедрение и администрирование. Ниже представлен перечень наиболее значимых новых продуктов, составленный на основе анонсов компаний-участников и опубликованный на сайте CRN/США накануне конференции.
Cloudera
Компания представила на конференции недавно выпущенную платформу управления «большими данными» Cloudera Enterprise 4.0, а также свой дистрибутив Apache Hadoop четвертого поколения, известный как CDH4.
Новый релиз включает обновленный Cloudera Manager с новыми инструментами для развертывания и администрирования Hadoop-систем, улучшенную автоматизацию администрирования крупномасштабных кластеров и более простую интеграцию с широким спектром средств администрирования и источников данных.
Версия CDH4 предоставляет новые функции обеспечения высокой готовности, устраняя критичную точку отказа распределенной файловой системы Hadoop (HDFS), повышает уровень безопасности, позволяя хранить в CDH больше конфиденциальных данных и запускать несколько платформ обработки данных в одном кластере Hadoop.
Dataguise
Компания дает старт первому в отрасли приложению защиты конфиденциальности данных и оценки риска для Hadoop корпоративного класса. Ее новое ПО DgHadoop обеспечивает оценку соблюдения требований и реализацию защиты конфиденциальности централизованных данных.
Соответствие требованиям конфиденциальности может быть непростой задачей, поскольку Hadoop собирает данные из разнообразных источников, а не только корпоративных баз, и сосредоточение столь большого количества разнородных данных в одной системе увеличивает риск их кражи или случайного раскрытия.
Datameer
Компания выпустила новую версию, Datameer 2.0 своего ПО аналитики для «больших данных», которая сочетает функции интеграции, аналитики и визуализации данных в одном пакете с интерфейсом электронных таблиц. Первый релиз (Datameer 1.0) был предложен только в корпоративном варианте, но теперь включает также версии для рабочих групп и автономных ПК.
В релиз 2.0 входит новый Business Infographics Designer для управления разработкой графики и визуализации данных. ПО построено на базе HTML5, имеет расширенный пользовательский интерфейс и обеспечивает поддержку дополнительных источников данных, включая Facebook и Twitter, а также улучшенную интеграцию с системой хранилища данных Hive для Hadoop.
DataStax
Компания представила DataStax Enterprise (DSE) 2.1, новый релиз системы администрирования с новыми возможностями сопровождения кластера Hadoop на множестве ЦОДов. Построенный на основе базы данных Apache Cassandra, DataStax обеспечивает оперативную обработку транзакций (OLTP), аналитику и поиск данных в рамках одной СУБД.
Версия DSE 2.1 позволяет также использовать Mahout, программное решение Apache для построения масштабируемых алгоритмов обучения машин, и Oracle Unbreakable Linux. Компания представила также множество расширений к своей системе визуального администрирования и мониторинга DataStax OpsCenter для платформ «больших данных».
Hortonworks
Компания объявила о полной готовности Hortonworks Data Platform (HDP) 1.0, своей коммерческой платформы для «больших данных» на основе Apache Hadoop, которая шесть месяцев была в закрытой бета-версии. HDP включает такие функции, как мониторинг и администрирование систем, управление метаданными и услуги интеграции данных, которые помогут упростить принятие Hadoop организациями.
Компания объявила также о включении в HDP высокоскоростных функций обеспечения высокой готовности на основе использования технологии vSphere от VMware. Они включают автоматизированное преодоление отказов NameNode-сервера и восстановление конфигурации для файловой системы Hortonworks (HFS), а также автоматическое обнаружение MapReduce и отклик на преодоление отказов HDP.
Karmasphere
Компания впервые продемонстрировала Karmasphere 2.0, новый релиз коллективного рабочего пространства аналитики для Hadoop. Новая версия упрощает процесс сбора данных, статистических моделей, алгоритмов и других ресурсов аналитики через открытые API и включает автоматическую визуализацию разноструктурированных массивов данных, превращая любые типы данных в таблицы Hive для последующего анализа.
Версия 2.0 включает быстрый процесс создания «родных» SQL-запросов к «большим данным» в Hive и автоматизирует представление аналитических результатов пользователям посредством традиционных средств бизнес-аналитики и электронных таблиц. Новая версия включает также улучшенные функции безопасности, ограничивающие открытость данных.
Kognitio
Компания продемонстрировала свою платформу аналитики-в-памяти, способную быстро анализировать терабайты данных, в сочетании с ПО визуализации данных от Advanced Visual System (AVS), что являет собой конвергенцию технологий «больших данных» и облачных вычислений.
В рамках партнерства Kognitio и AVS две компании будут нацеливать свои объединенные технологии на приложения для вертикальных рынков в области рекламы, анализа поведения потребителей и соцсетей.
Lilien LLC
Этот интегратор решений представил на конференции свое сквозное приложение расширенной аналитики «больших данных» на основе собственной эталонной архитектуры Hadoop Starter Cluster. Эта готовая к использованию платформа включает заранее сконфигурированные компьютерные системы, сетевое оборудование, ПО и СХД.
Lucid Imagination
Компания продемонстрировала свою недавно представленную облачную систему разработки прототипов open source-приложений для «больших данных» LucidWorks Big Data. Такие приложения могут помочь организациям анализировать неструктурированную информацию: текстовые сообщения, аудиофайлы, архивы электронной почты, файлы журналов и т. п. контент, который компания называет «темные данные».
LucidWorks Big Data включает в себя Hadoop и другие open source технологии, в том числе средства поиска Apache Lucene/Solr, ПО обнаружения и аналитики, язык программирования R для разработки аналитических приложений и Apache Mahout для построения масштабируемых алгоритмов обучения машин.
MapR Technologies
Компания представила новую версию — MapR 2.0 — своего дистрибутива платформы Apache Hadoop с новыми расширенными функциями мониторинга, администрирования и безопасности. Компания объявила также, что ее ПО доступно как опция для сервиса Amazon Elastic MapReduce.
Версия 2.0 включает новые функции мониторинга и администрирования задач, управления размещением задач и данных, поддержки множественной аренды, централизованного ведения журналов и настраиваемого централизованного конфигурирования, расширенной безопасности, новые алгоритмы сжатия данных, поддержку SUSE Linux и новейшие версии компонентов Hadoop: HBase, Hive и Pig.
NetApp
Компания продемонстрировала NetApp Open Solution для Hadoop Rack, заранее сконфигурированную архитектуру вычислительных, сетевых ресурсов и ресурсов хранения, которая обещает более быстрое и надежное развертывание Hadoop. Заказчики осуществляют сборку системы, используя компоненты NetApp и других вендоров, а также средства анализа данных по собственному выбору. NetApp предлагает профессиональные услуги внедрения Hadoop.
NetApp заключила также стратегическое партнерское соглашение с Hortonworks, в рамках которого партнеры проводят разработку и предварительное тестирование решений на базе Hadoop, построенных на платформе HDP.
ParAccel
Этот разработчик приложений аналитики данных представил коннектор Hadoop On Demand Integration Module, позволяющий его платформе ParAccel Analytic Platform работать с данными Hadoop. Продукт уже поставляется, и в числе своих заказчиков компания называет Alliance Health Networks и фирму веб-услуг Evernote.
Pentaho в партнерстве с Dell
Dell будет продавать ПО аналитики Pentaho для «больших данных» в составе своего решения Dell Apache Hadoop Solution, и Pentaho вступает в ее программу Emerging Solutions Ecosystem.
Dell Apache Hadoop Solution включает эталонную архитектуру оборудования Dell, программный модуль Crowbar и дистрибутив Apache Hadoop от Cloudera. В рамках этого соглашения Dell добавит аналитику Pentaho и средства извлечения, преобразования и загрузки данных (ETL) в свою систему для Big Data.
Pervasive Software
Компания объявила о готовности новой версии Pervasive Data Integrator v.10 Hadoop Edition, которая позволяет организациям отправлять свою деловую информацию в склады данных на базе Hadoop и извлекать ее для использования.
Новые функции ПО позволяют одним щелчком мыши перемещать данные из традиционных складов, использующих DB2, MySQL, Netezza, PostgreSQL, SQL Server, Oracle, Teradata и Vertica, непосредственно в HBase, базу данных на основе NoSQL, которая входит в состав всех дистрибутивов Hadoop.
Qubole
Эта компания-новичок продемонстрировала свою облачную автомасштабируемую платформу для «больших данных», которая избавляет заказчиков от необходимости проектирования архитектуры, развертывания и администрирования собственных кластеров Hadoop.
Учредители компании Ашиш Тхусу (Ashish Thusoo) и Джойдип Сен Сарма (Joydeep Sen Sarma) являются создателями ПО хранилища данных Apache Hive, используемого в составе Hadoop, и возглавляли подразделение инфраструктуры данных Facebook.
Savvis
Этот поставщик облачной инфраструктуры и ИТ-услуг объявил о соглашении с компанией Hortonworks, в рамках которого интегрирует ее платформу обработки данных с собственным пакетом облачных услуг Symphony, что упростит перемещение данных между платформой Hortonworks (Savvis возьмет на себя ее хостинг) и корпоративными системами данных.
Syncsort
Компания продемонстрировала, как ее (теперь сертифицированное) ПО интеграции данных DMExpress работает с платформой Hortonworks Data Platform. Стыковка между этими двумя продуктами упрощает и ускоряет перемещение данных между HDP и другими корпоративными системами.
Talend
Новые расширенные корпоративные функции администрирования для Apache Hadoop в пакете Talend Open Studio для интеграции «больших данных» упрощают развертывание инфраструктуры Big Data и управление ее компонентами.
Пакет уже включает свыше 450 коннекторов для связывания корпоративных данных с платформой Hadoop. Talend добавляет коннекторы для HCatalog, системы управления метаданными и таблицами для совместного использования данных платформой Hadoop и другими системами, а также Oozie, систему управления рабочим процессом для создания и привязки серии заданий обработки.
Teradata
Этот вендор хранилищ данных продемонстрировал свою новую технологию Aster SQL-H, которая соединяет стандартные приложения бизнес-аналитики с массивами «больших данных», которые хранятся в системах Hadoop.
С выпуском этого продукта стандартные SQL-запросы впервые могут напрямую извлекать разноструктурированные данные, хранимые в распределенной файловой системе Hadoop (HDFS). Технология Aster SQL-H реализована в виде специализированного устройства Teradata Aster MapReduce Appliance.
Vertica
Vertica (Hewlett-Packard купила эту компанию в прошлом году) предоставила новую версию своей платформы аналитики Vertica 6. В новой версии расширена архитектура FlexStore для связывания платформы с любым источником структурированных, частично структурированных или неструктурированных данных. Vertica 6 обеспечивает также поддержку свободного языка программирования R для разработки приложений статистической обработки и анализа данных.
VMware
Организации могут теперь использовать Hadoop вместе с платформой виртуализации vSphere, что обеспечивает высокую готовность и эластичность системы обработки «больших данных», а также функции множественной аренды и совместное использование ресурсов.
В рамках open source-проекта Serengeti компания предлагает бесплатную загрузку набора инструментов для развертывания кластеров Apache Hadoop в среде vSphere 5.0 (с лицензией Apache 2.0). Этот инструментарий будет включать поддержку всех основных дистрибутивов Apache Hadoop, в том числе от Cloudera и Hortonworks.