26 января 2022 г.

Увеличить
Источник: ATScale
Увеличить
Источник: K2View

Словосочетание Data Fabric входит в моду. Вот лишь три наших недавних публикации, в которых оно упоминается:

Есть даже продукты, реализующие эту концепцию (у HPE и NetApp, в частности). В то же время единого мнения о том, как следует переводить термин Data Fabric на русский язык, до сих пор нет.

Так, например, директор портфеля проектов компании «Айтеко» Денис Учватов полагает, что понятие Data Fabric определяет концепцию, принципы которой можно использовать при разработке стратегий данных и построении экосистем данных, а реализация которой осуществляется с использованием решений соответствующего класса, которые только появляются на рынке. «Основная проблема, которую призвана решать данная концепция, — это возможность работы с данными из разрозненных источников без необходимости их предварительной очистки, трансформации, преобразования к единой модели и складирования в классические хранилища данных, — говорит он, — То есть создание своего рода виртуальной структуры данных, которая позволяет обращаться к данным без какой-либо преднастроенной обработки. Данная концепция довольно перспективна в связи с кратным ростом данных, обрабатываемых организациями, и количества их источников, но решения, которые призваны обеспечить её реализацию, ещё достаточно далеки от идеала. Главное отличие Data Fabric от современных уже широко используемых подходов состоит в том, что подходы Data Fabric позволят с минимальными усилиями использовать существующие и появляющиеся источники данных, обеспечить интегрируемость и совместимость данных между источниками. В используемых же подходах для того, чтобы обеспечить совместимость данных из разных источников, требуется немалое количество трудозатрат, связанных с разработкой ETL (ELT)-процессов, приведения данных к общим справочникам и мастер-данных и т. д.».

По мнению руководителя центра компетенций Big Data компании «Рексофт» Сергея Назаренко, Data Fabric — это концепция экосистемы, в которой тесно интегрированы источники данных, хранилища данных (dwh, data lake и т.д.), обработчики данных (data pipelines), потребители данных и средства управления данными с использованием подходов к построению микро-сервисной архитектуры и инструментов машинного обучения. Он говорит: «Это экосистема, которая должна революционно решить вопросы интеграции и управления информационными потоками в компании, сейчас каждую функцию (хранение, обработка, анализ, управление) выполняет отдельный программный продукт, Data Fabric — это попытка создать аналог ERP-системы для данных».

«Data Fabric — это архитектурный подход, скрывающий под собой довольно понятные инициативы и технологии, призванные повысить прозрачность и качество процессов работы с данными, а сами данные сделать доступными бизнес-пользователям. Ведь именно они извлекают из данных прибыль. Но нового и революционного здесь ничего нет, — полагает эксперт по данным ИТ-компании HFLabs Михаил Берёзин. — Проблема, однако, в том, что под новыми громкими терминами часто продают волшебные таблетки, которые должны все исправить. Но ничего не получится без фундаментальных изменений: построения культуры и процессов работы с данными, с их качеством, наблюдаемостью и трассировкой. Предоставления доступа бизнес-пользователям к подготовленным и полным данным для принятия решений и построения продуктов на их основе. А также трансформации мышления бизнес-пользователей в сторону работы с данными. Если говорить простым языком, то правильно выстроенная работа с данными поможет бизнесу быстро проверять клиентов, сегментировать их, видеть, какими продуктами или услугами пользуется тот или иной человек. На основе этих данных можно совершенствовать сервис и, например, предлагать клиентам релевантные услуги».

Он также отмечает: «Проблема получения бизнес-ценности из данных, собираемых компаниями, не нова. Лавинообразный рост доступности технологий и возможностей сбора данных в последние 20 лет привел к накоплению огромного количества данных в компаниях. Никто эти аппетиты не сдерживал, накапливали все, что могли. В конечном итоге абсолютное большинство накопленных данных закисает в болотах данных, а не в хранилищах, озерах или бесчисленных Big Data технологиях. Поэтому на первый план выходит поиск возможностей извлечения ценности из данных, как накопленных, так и тех, которые теперь живут во всех процессах. Появляются новые должности: за это теперь отвечают не IT или технические директора, а директора по данным или диджитал-трансформации. А новым инициативам нужны новые громкие лозунги!».

Похожее определение дает руководитель направления продвижения Центра управления данными АО «Инфосистемы Джет» Станислав Шлишевский: «Data Fabric — это единая и согласованная архитектура управления данными, которая обеспечивает беспрепятственный доступ к данным и их обработку. Фундаментальное отличие Data Fabric от других концепций в том, что для работы с данными стала использоваться сетевая архитектура для обработки информации с использованием соединений вместо копий. Это подход, аналогичный способу человеческого мозга работать с информацией. При этом мы получаем переплетённую структуру — вот откуда взялся термин Fabric (ткань)».

А вот мнение ведущего консультанта Центра стратегического развития компании «ЛАНИТ-Интеграция» Ильи Винокурова: «Если представлять себе „ткань данных“ как некоторую комплексную технологическую сущность, то Data Fabric — это программно-аппаратный комплекс. Если подходить к этому с точки зрения управления данными, то средства реализации данного комплекса лежат скорее в плоскости программного обеспечения, чем в аппаратной. В формулировании задачи, которую мы ставим перед „тканью“ как инструментом для бизнеса, мы работаем с самими данными, их сочетаниями и образуемой из них информацией. Именно синтез информации и дальнейшее принятие решений на ее основе являются результатами, к которым мы стремимся».

Заместитель технического директора по комплексным проектам STEP LOGIC Андрей Кондратьев добавляет: «Data Fabric — это не просто аппаратно-программный комплекс, но еще и методология, которая позволяют определять, систематизировать, стандартизировать и согласовывать значение всех данных в бизнес-терминах, понятных для конечных пользователей. Таким образом, поиск качественных данных ускоряется, появляется больше времени на их изучение и применение, что в конечном итоге выгодно для бизнеса. При этом сам процесс обработки данных имеет много этапов, используются конвейеры передачи и обработки как пакетных, так и потоковых данных (data pipelines). На этапах преобразования проводится очистка и верификация данных, в том числе с помощью технологий ИИ. К тому же, Data Fabric представляет собой не просто монолитное решение — это распределенная система, построенная на микросервисной архитектуре. Я сравнил бы ее скорее с технологией DevOps, только применительно к производству не ПО, а нужных и качественных данных из большого объема „сырья“».

Эксперт по цифровой экономике РАНХиГС при Президенте РФ Александр Черкавский, предложивший переводить термин Data Fabric как «Плетение данных», подчеркивает: «Речь идёт не о программно-аппаратном комплексе, а о платформе менеджмента данных, которая объединяет разное специализированное программное обеспечение единым архитектурным замыслом. Не существует какого-то одного решения, после внедрения которого можно сказать: теперь у нас есть „Плетение данных“ (Data Fabric)... Сначала стратегия, потом воплощение. Если фокусируемся на ПО — по факту ставим телегу впереди лошади».

Из истории термина Data Fabric

Данный термин не нов. «Массовым он стал после упоминания Forrester (консалтинговое исследовательское агентство) в 2013 г., — отмечает Михаил Берёзин. — Если посмотреть на гугловые тренды термина, то до 2010-х это единичные упоминания (в других контекстах), а уже четкий нарастающий тренд идет с 2012 года».

Станислав Шлишевский добавляет: «Сейчас уже трудно сказать, кто первый ввёл термин Data Fabric, но он был популяризован на волне хайпа вокруг Big Data в начале 2010-х годов. Концепция Data Fabric стала следующим эволюционным шагом после накопления данных, решающим задачи эффективной работы с большим объёмом данных в сложной архитектуре».

Но можно копнуть и глубже. Александр Черкавский обращает внимание на то, что в 90-е годы в ходе развития сетевых технологий появился термин Fabric computing («Плетение вычислений»). Слово «плетение» (fabric) возникло потому, что отображение связанных компьютерными сетями вычислительных нодов (от лат. nodus — узел) выглядело издалека, как переплетение нитей в тканой материи. В 2007 году журнал Computerworld привёл видение директора Института вычислений университета Чикаго Яна Фостера, в соответствии с которым Плетение вычислений станет основой для ИТ-архитектур следующих поколений.

Александр Черкавский подчеркивает: «Как раз начиная с середины 2000-х начинает активно развиваться дисциплина „архитектура данных“, которая занимается организацией нод обработки данных. Помимо „склада данных“ (Data Warehouse) появляются новые архитектурные концепции — „озеро данных“ (Data Lake) и „склад у озера“ (Lake House). В 2016 г компания NetApp ввела понятие „Плетение данных (Data fabric)“ в своём материале „NetApp Data Fabric Architecture Fundamentals“. В нем плетение упоминается не просто как устройство архитектуры данных, но и как процесс развития архитектуры данных в организации, когда она прирастает новыми нодами (узлами) и связями».

Что есть, что будет и чем сердце успокоится?

Естественно, возникает вопрос: «Есть ли отечественные программные продукты, реализующие концепцию Data Fabric (если не полностью, то хотя бы частично)? На этот вопрос Сергей Назаренко отвечает так: «Отечественные продукты такого рода мне не известны».

«Россия активно развивается в этом направлении, — говорит Станислав Шлишевский. — К компонентам Data Fabric относятся как решения по управлению данными, так и по хранению данных. Можно привести такие примеры, как продукты компании „Юнидата“ с решениями по MDM и Data Governance, Arenadata с линейкой продуктов по обработке, хранению, загрузке и трансформации данных. Ростелеком также активно развивает аналогичный стек технологий, свои наработки в этой сфере есть у Яндекса и у других российских компаний».

"Сложно ответить на вопрос «За какой концепцией будущее — «фабрикой данных» (Data Factory), «тканью данных» (Data Fabric) или «сетью данных» (Data Mesh), — рассуждает Илья Винокуров . — Все они уже воплощены в технические решения и после внедрения в бизнес станут связаны с конкретными процессами, проектами или продуктами. Тогда действующий подход по управлению данными и бизнесом будет влиять на эффективность применения решения. На отечественном рынке некоторые из концепций могут даже не успеть получить воплощение до момента своего «устаревания». Бизнесу для принятия решений о внедрении нужны примеры успешных кейсов или убедительные пилотные проекты. В случае внедрения решений такой сложности пилотный проект может оказаться слишком трудозатратным, дорогостоящим и долгосрочным относительно своих первых результатов. Команде, осуществляющей такое внедрение, придется глубоко погрузиться как в действующие процессы компании, так и в связанные с ними аналитические процессы. В то же время отечественные государственные системы уже не раз перешагивали через некоторые этапы развития и автоматизации, которые проходили зарубежные аналоги, сделав это сразу в цифровую парадигму. Так же может случиться и со спорами об эффективности архитектур управления данными — пусть не сразу, но будут внедрены «выжившие», проверенные решения с гарантированным результатом.

Так может, разговоры о значимости и востребованности концепции Data Fabric для отечественных разработчиков ПО и конечных заказчиков (в лице крупных корпораций) вообще пока не актуальны?

«Скорее наоборот, — утверждает Станислав Шлишевский, — Мы видим, что ключевые игроки рынка активно вовлечены в разработку собственных решений и борьбу за растущий рынок в данном направлении. Крупные компании из самых различных отраслей стали реализовывать проекты по внедрению Data Fabric».

Мнение Сергея Назаренко на этот счет таково: «Сейчас крупнейшие игроки разрабатывают собственные платформы, которые в совокупности могут выполнять функции Data Fabric, причем заточенные под потребности организации. Для остального рынка такие продукты не востребованы. Компании меньшего масштаба развивают отдельные компоненты Data-платформ, фокусируясь на получении эффективности от эксплуатации отдельных систем, нацеленных на решение конкретной функции: хранение, обработка, анализ и т. д.».

Директор департамента бизнес-приложений компании КРОК Евгений Завьялов добавляет: «В настоящее время все крупные компании озабочены вопросами эффективного использования данных. После банков, розницы и телекома пришло время производственных компаний; благодаря реал-тайм данным о ходе промышленных процессов, параметрах сырья, конечной продукции, появляется возможность экономить и оптимизировать себестоимость и качество продукции. И, безусловно, технологическая основа для работы с данными должна быть унифицирована. Кастомные решения сложно и тяжело поддерживать, уникальность в данном случае — это долго и дорого».

«Российских специализированных программных продуктов, реализующих архитектурную концепцию Data Fabric не существует. — полагает Александр Черкавский. — Но такую архитектуру можно собрать из решений для интеграции, виртуализации, хранения и аналитики данных, которые уже присутствуют на российском рынке. Однако при этом избежать зарубежного программного обеспечения — проприетарного или open source — не получится. Так же не получится реализовать такую архитектуру без разработки методологического обеспечения, организационных изменений и развития компетенций стратегического управления данными... К сожалению, исторически российский рынок информационных технологий фокусируется на технологиях, а не на информации. Поэтому зрелость практик и процессов управления данными в российских компаниях низкая. Можно отметить частый перекос в сторону сложной аналитики, которая, в основном, проводится на основе хорошо структурированных и описанных данных (как правило, транзакционных). Но вместо того чтобы наводить порядок в данных и внедрять учёт информационных активов в компаниях, многие организации задаются неправильным вопросом: какое ПО поможет решить все наши проблемы? Для повышения зрелости управления данными в организации в первую очередь нужно не ПО, а грамотные специалисты — методологи управления данными, информационные менеджеры, стюарды данных, специалисты по регулированию данных (Data Governance), специалисты по моделированию данных и др. Таких специалистов у отечественных разработчиков ПО и крупных корпораций либо нет, либо их недостаточно. И в вузах их не готовят».

Резюме (со слов Александра Черкавского): «Зрелость процессов и практик управления данными в большинстве российских организаций недостаточна для того, чтобы архитектурная концепция Data Fabric окупилась и принесла значительную пользу. Поэтому надо начинать с более простых вещей и не пытаться сразу „вскипятить океан“. К „плетению данных“ можно прийти в ходе воплощения грамотной стратегии развития управления данными организации».

Одним словом, Data Fabric — это не какая-то принципиально новая структура данных. Пусть даже разнотипных и пространственно-распределенных. И даже не принципиально новый класс ПО, а весьма прогрессивная методология (или даже стратегия), к которой очень многим заказчикам, интеграторам и разработчикам ПО стоит повнимательнее присмотреться. Но действовать не по принципу «все и сразу», а step-by-step («шаг за шагом»). Причина проста: количество корпоративных информационных систем, а также разрозненных хранилищ, озер и классических баз данных, используемых конкретным предприятием или учреждением, стремительно растет, в то же время количество квалифицированных специалистов, которые способны эффективно управлять ими и извлекать из них полезную информацию, увеличивается не так быстро.

Источник: Владимир Митин, для crn.ru