18 августа 2022 г.
Сегмент Big Data в России можно считать одним из самых перспективных. За счет ценности для бизнеса, которая заключается в повышении операционной эффективности и клиентской работы, а также в управлении рисками, растет количество пользователей данных систем. По информации Ассоциации больших данных, на данный момент объем отечественного рынка Big Data может доходить до 30 млрд. рублей. К 2024 году ожидался рост этого направления до 300 млрд, однако внешнеполитическая ситуация определенно уже внесла коррективы в дальнейшее развитие сегмента.
Санкционное давление почувствовали на себе большинство клиентов, использовавших проприетарные системы иностранного происхождения. Многие поставщики уже приостановили работу или ушли с российского рынка. Помимо фактически полного отказа в приобретении лицензии, данные производители прекращают оказывать услуги технической поддержки поставленных систем. А это уже чревато сбоями в работе приложений.
И если раньше клиенты в основном сталкивались с проблемой дороговизны программно-аппаратных комплексов для систем Big Data и потребностью снизить издержки на инфраструктуру, то теперь не менее актуальной стала задача импортозамещения.
Снижение затрат на ИТ при работе с сервисами для анализа больших данных решается довольно прозаично. Как и в других областях, оптимальным способом для сокращения затрат можно считать использование облачных ресурсов. Компании в прямом смысле экономят ресурсы, которые в другой ситуации были бы выделены на закупку и настройку серверного оборудования, а также на адаптацию под работу в облачной среде. Часто клиентам не нужен работающий нон-стоп сервис. Они применяют Big Data точечно, для проверки гипотез, либо же запускают обработку и анализ данных перед крупными акциями, которые, как правило, имеют сезонный характер. Как показывает практика, при подобной динамической нагрузке облака имеют явный приоритет перед локальной инфраструктурой — общий объем затрат снижается на треть и более.
Кроме того, с помощью облачных услуг заказчики могут снижать Time to Market (TTM). В среднем для проекта с показателем TTM несколько месяцев он уменьшается до одного месяца или нескольких дней.
Однако, если речь идет про импортозамещенные продукты для анализа больших данных, существуют несколько барьеров для активного использования облачных моделей:
- Во-первых, российские системы класса Big Data изначально не разрабатывались для работы в облаках, они не cloud-native. Как следствие, без адаптации продуктов на виртуализированной инфраструктуре российские СУБД могут работать не совсем так, как задумывали их вендоры. Это связано с тем, что в области Big Data очень большую роль играет близость данных к вычислительным мощностям. Облака же, большинство из которых использует классические СХД или решения класса SDS (Software Defined Storage), построены в радикально иной парадигме, и не могут обеспечить достаточный для кластерных систем канал пропускной способности дисковой подсистемы.
- Во-вторых, перенести в облако ранее разработанные системы — сложная техническая задача, которая решается последовательно.
Но данные проблемы не из числа нерешаемых.
- На первом этапе необходима адаптация системы до состояния cloud ready. В этот момент мы переводим изначальное bare metal-решение в облако. В результате получаем программное обеспечение, которое корректно работает на платформе облачного провайдера. В частности, по такому пути мы прошли вместе с Arenadata перед запуском услуги на базе Облака КРОК.
- Второй серьёзный этап — разработка продуктов для работы с Big Data нового поколения, то есть изначально заточенных на работу с облачными технологиями или cloud native. На этом этапе вендор и облачный провайдер прорабатывают подходы по изменению архитектуры исходных решений и всю разработку ведут уже в концепции сloud native. В результате увеличивается производительность системы (она выходит на уровень, сопоставимый c bare metal), но при этом сохраняется преимущество по Time to Market.
Преимущества импортозамещения
В России работают не менее 10 компаний, предлагающих готовые продукты для Enterprise-сегмента. Часть из них входят в Единый реестр программного обеспечения Минцифры, включая продукты упомянутой Arenadata.
Именно российские сервисы в основной своей массе отличает гибкая архитектура, она построена на Open Source-решениях и может быть доработана под требования клиента. Немаловажным фактором является также русскоязычная поддержка, позволяющая быстрее получить исчерпывающий ответ, и готовность разработчика включить рекомендации партнера в дальнейший road-map развития продукта.
Эти факторы, помимо общей зрелости многих продуктов, представленных на рынке, могут привлечь даже клиентов, у которых задачи импортозамещения стоят не на первом месте.
Какие компании уже используют российские продукты для работы с Big Data?
Основные сценарии
Крупный продуктовый ритейлер. Повышение эффективности работы с большими данными
Компания выбрала распределенную СУБД Arenadata DB для построения бизнес-владельцами доменов аналитического слоя детальных данных с описанной моделью, правильно привязанной Data Governance и Classic Data-Dictionary. С помощью Arenadata DB аналитики ритейлера изучают все основные данные компании: проводят анализ товаров, чеков, клиентов, контрагентов. В системе работают одновременно более 2000 аналитиков, задающих порядка 800 конкурентных запросов. Проект ознаменовал переход к принципиально новому data driven подходу, основанному на актуальных и непротиворечивых данных.
Оператор связи. Переход с проприетарного ПО на Open Source решение
Компания модернизировала биллинговую систему, заменив BI-решение, чтобы снизить финансовую нагрузку на инфраструктуру и получить большую самостоятельность от разработчиков программных продуктов. Актуальным продуктом для провайдера стала распределенная СУБД Arenadata DB, построенная на базе Open Source. С ее помощью удалось экономично расширить старое хранилище данных, сэкономить на лицензиях, оптимизировать разработку с привлечением обученных сотрудников самой компании.
Сеть продаж бытовой техники. Оптимизация затрат на построение аналитического хранилища
Ритейлер решил повысить эффективность работы с данными, создав интегрированное аналитическое решение. Оно включает в себя основное хранилище и песочницу Data Science. В качестве основы был использован продукт Arenadata DB. В результате заказчик получил значительную экономию на инфраструктуре — до 15 раз по сравнению с другим проприетарным решением зарубежного происхождения. Кроме того, клиент смог обеспечить более высокую скорость обработки запросов с большим количеством источников при достижении недоступной ранее глубины исторических данных.
Источник: Сергей Зинкевич, директор по развитию бизнеса КРОК Облачные сервисы