6 марта 2025 г.
«Большие данные» не отошли на второй план, как может показаться, они являются основой для BI, AI и других инструментов для data-driven во всех его бизнес-проявлениях. Компании запускают проекты с Big Data для улучшения производительности и управляемости бизнеса, отмечает Игорь Зельдец, заместитель генерального директора компании К2Тех. Запуск таких проектов, конечно, требует денег, но при этом остается экономически выгодным.
Объем российского рынка BigData с 2021 по 2024 вырос на 90% — со 170 до 319 млрд руб. — по предварительным оценкам экспертов Ассоциации больших данных, а суммарный эффект от внедрения технологий «Больших данных» только за
«Мы отмечаем интерес со стороны бизнеса к российским решениям для работы с „Большими данными“», — говорит Сергей Голицын, руководитель направления ИИ в Т1.
Что поменялось в технологическом плане, в восприятии бизнесом и в других аспектах, связанных с Big Data?
И еще раз про определение
Определение Big Data всегда было «плавающим», а в ряде случаев даже косвенным. Некогда условное «„Большие данные“ начинаются от 1 Пб» сейчас справедливо далеко не всегда. На фоне общего роста объема генерируемых данных далеко не у всякой компании наберется Петабайт данных информации «под анализ».
Ежедневно в мире экономика генерирует порядка 400 тыс. Пб новых данных, прошлой осенью сообщал Tech Business News, что должно было составить 147 Зетабайт в год, причем в 2025 эти объемы, согласно прогнозам, должны дорасти до годовых 181 Зетабайт. Рост идет экспоненциальный: напомним, что в 2010 году на планете было произведено 2 Зетабайта данных, в 2020 — 64,2. Половину прошлогоднего объема — точнее, 53,72% — составляют видеоданные. Даже если вычесть из общего массива загруженное на YouTube, Tik-Tok и в другие видеоплатформы, а также в социальные сети, все равно масштабы данных получатся огромные.
Однако, во-первых, далеко не все эти данные будут зафиксированы и доступны для последующего анализа. Во-вторых, далеко не ко всем бизнес-заказчик будет иметь доступ — значительные объемы на рынок не попадают, оставаясь в собственности структур, которыми произведены (такие процессы получили название «цифровое огораживание»). В-третьих, не все зафиксированные имеют отношение к проблематике, актуальной для принятия в данный момент конкретной компанией нужного бизнес-решения. Учитывая, что Big Data активно используют не только компании уровня Enterprise (см. врезку), в ряде случаев придется довольствоваться объемами много меньше Петабайта.
В классическом определении данные в Big Data должны быть неструктурированными, но сейчас можно говорить, что они «не всегда структурированные». Базы данных, таблицы, потоки данных от IoT/IIoT могут быть «обогащены» документами, заметками, аудиофайлами, записями видеофиксации, сканами чеков и т. д.
В российской практике чаще всего Big Data используют крупные компании (37,9%), по данным исследования Института статистических исследований и экономики знаний НИУ ВШЭ, но доля средних и малых компаний тоже велика — 33,2% и 28,3%, соответственно.
Около Big Data
Далеко не всякая компания располагает петабайтом данных, а также может позволить себе собственный штат дата-сайентистов, способных из этого массива данных получать бизнес-значимую информацию. Как же малый и средний бизнес в таких условиях работают с Big Data?
Один вариант: «Data» у многих SMB совсем не «Big», а собственные массивы данных более скромного размера, как говорят сайенисты, «которые помещаются в Excel». Из массивов такого размера даже менеджеры с базовой математической подготовкой могут вытащить нужные данные стандартными статистическими методами. Это, конечно, для бизнеса хорошо — он получает определенные возможности data-driven — но все же недостаточно, чтобы конкурировать с компаниями Enterprise-уровня, у которых и данных много больше (и они разнообразнее!), и есть специалисты, владеющие более мощными инструментами для исследований и анализа.
Компании из сегмента SMB вполне могут пользоваться возможностями, которые предоставляет локальный BigTech. Гибкость их, конечно, ограничена, но они покрывают значительное количество базовых задач, способных существенно поднять эффективность бизнесов разного размера и многих специализаций. Например, «Сбер» предоставляет компаниям набор из интересного набора достаточно развитых инструментов для анализа «Больших данных». Интересно, что в предложении есть инструменты как для анализа ситуации снаружи компании — причем кроме универсальных уже доступны оптимизированные для вертикальных рынков — так и внутри, ведь Big Data актуальны для понимания происходящего в бизнес-процессах заказчика.
Инструменты для Big Data
Для запуска проектов «с Big Data» нужен ряд инструментов, как специализированных, так и общего назначения. В числе наиболее востребованных Игорь Зельдец отмечает BI-системы, КХД (корпоративные хранилища данных), системы MDM (управления мастер-данными), DG (Data Governance) и DQ (Data Quality).
Некоторые инструменты, созданные для работы с данными — в том числе, с Big — оказываются актуальны как для сайентистов, так для смежных подразделений. В качестве примера Артемий Новожилов, архитектор систем информационной безопасности группы компаний «Гарда», приводит пакет «Гарда Маскирование», задачи по обезличиванию данных, решаемые которым, оказываются на стыке зоны ответственности трех подразделений: ИБ, разработки и ИТ. Про ситуации, возникающие при работе с данными, и про риски данного направления мы недавно писали достаточно подробно.
Какие вертикали и для каких задач применяют Big Data
Пионерами в освоении BigData по понятным причинам были компании из сегмента ИТ/телеком, а также банки/страховые компании. Корпоративные заказчики с этих вертикальных рынков обладали достаточными базовыми компетенциями, чтобы разобраться с математическим аппаратом, и большими объемам данных, к которым можно этот аппарат применить. Сейчас же интерес к рассматриваемым технологиям проявляют компании со всех вертикалей и из сегмента госуправления.
Наиболее распространенное применение анализа Big Data — оптимизация процессов продаж (45,9%, по данным НИУ ВШЭ). На втором месте — оптимизация производственных процессов (40,9%), на третьем — администрирования (35,5%). В пятерку лидеров попали также разработка продуктов (34,1%) и стратегическое планирование (33,7%). Интересно, что в топ-5 не вошли такие направления деятельности компаний как маркетинга & реклама (31,9%) или логистика (23,2%).
Важно понимать, что в основе нейросетей лежат «Большие данные». Нейросеть сначала обучают на дата-сете, потом, уже обученную, применяют для задач с пользовательскими исходными данными. Это означает, что в реальности количество компаний, использующих Big Data, значительно больше! Просто не все осознают, что распознавание/синтез голоса, LLM и другие ставшие привычными элементы повседневной офисной работы основаны на «Больших данных».
Что дальше?
Почти треть организаций крупного и среднего бизнеса планируют в 2025 году увеличить бюджеты на проекты, связанные с «Большими данными», как выяснили в ходе исследования аналитики K2 Cloud и Arenadata. Интересно, что большинство опрошенных компаний — более 60% — признались, что пока не научились оценивать эффективность инициатив по увеличению инвестиций в Big Data, поэтому поступают проще: позиционируют их как «стратегические инвестиции».
«Когда организация ставит амбициозные цели и пытается решить сразу все задачи с помощью анализа „Больших данных“, понять окупаемость и эффективность довольно сложно», — признает Александр Фикс, менеджер продукта К2 Cloud, отмечая, что для упрощения этой задачи лучше реализовать пилотный проект, на котором отработать технологическую составляющую и подсчитать экономический эффект.
Инвестиции при этом, мягко говоря, не великие. Текущие затраты на внедрение инструментов, построенных на Big Data, меньше стоимости авто представительского класса — менее 10 млн руб. — у 39% опрошенных, от 10 до 50 млн руб. — у 15%, у 6% респондентов — от 50 млн руб. Интересно, что в стремлении оптимизировать затраты более половины компаний планируют для работы с Big Data использовать «облака» в 2025 году.
«В „облаках“ нас больше всего интересует использование серверов с графическими процессорами для реализации нейронных сетей», — говорит Максим Смирнов, CDO в компании Hofftech, комментируя исследование K2 Cloud/ Arenadata и отмечая, что cloud-формат потребления ИТ помогает сократить затраты и время на проверку гипотез. Это актуально, так как для размещения и для обработки таких объемов данных требуются серьезные вычислительные ресурсы, которыми значительное количество российских корпоративных заказчиков не располагают, да и с приобретениями соответствующего оборудования сейчас проблемы.
Источник: Александр Маляревский, внештатный обозреватель IT Channel News