24 декабря 2024 г.

Антон Балагаев

Два года назад искусственный интеллект только начинал находить широкое применение среди пользователей. Однако уже в 2024 году крупные компании активно искали новые способы использования больших языковых моделей ИИ, которые выходили за рамки простого создания и редактирования контента. А крупнейшие производители моделей, находясь под грузом всё возрастающей стоимости тренировки новых поколений LLM (Large Language Models — большие языковые модели), всерьёз направили своё внимание на потребности корпоративного сектора.

Немного статистики

По данным исследования от венчурной компании Menlo Ventures, не только ИТ, продуктовые подразделения и разработка начали тратить заметные средства на генеративный ИИ в 2024 году. Значительную долю в тратах компаний на ИИ начали завоёвывать чат-боты поддержки (9%), ИИ-инструменты для продаж (8%), маркетинга (7%), HR (7%), финансов и бухгалтерии (7%).

Критерии выбора между ИИ-приложениями, при этом, соответствуют критериям долгосрочных инвестиций, что для скептиков может быть неожиданно:

  • Прозрачно просчитываемый ROI лидирует среди критериев с 30% значимостью;
  • Возможность адаптации под особенности организации и отрасли получила вес в 26%;
  • Что интересно, вес критериев точности и производительности составил 7%, простота интеграции 6%, качественная поддержка и обслуживание — всего 5%.
  • Ещё более неожиданно, что вес критерия дешевизны решения составил всего 1%, как и вес критерия возможности сократить персонал, которым любят запугивать людей критики ИИ.

Кейсы использования за год несколько обновились:

  • Классические кейсы всё ещё сильны: кодогенерация — 51% опрошенных, ассистенты клиентской поддержки — 31%, копирайтинг (21%), генерация изображений (20%), коучинг (13%);
  • Поиск и предоставление данных — 28%. С ростом эффективности RAG (Retrieval-Augmented Generation — технология, сочетающая в себе поиск информации с генерацией текста) и появлением новых техник растёт и проникновение ИИ-поиска в корпоративный сегмент;
  • Извлечение инсайтов из данных — 27%. Это очень большой показатель для тренда 2024 года, зародившегося из обретения LLM возможности выдачи ответов строгой структуры;
  • Суммаризация встреч и автосоздание протоколов — 25%. Это также тренд 2024 года, родившийся из ускорения speech-to-text моделей и возросшего качества LLM;
  • Автоматизация рабочих процессов — 10%. Появление сред для разработки агентов и возможности структурированных ответов открыли возможность использовать ИИ в классических RPA-решениях (Robotic Process Automation — технология роботизированной автоматизации процессов), удешевив прототипирование и позволив убрать часть ручных операций в ряде бизнес-процессов;
  • Автоматизация поисковых исследований в сети Интернет — 9%. Это также новый тренд, родившийся из структурированных ответов и увеличенной длины контекстного окна больших языковых моделей.

Среди архитектур ИИ-приложений, создаваемых в 2024 году, стоит отметить:

  • RAG стал использоваться в 51% приложений против 31% в 2023 году;
  • Промпт инжиниринг, являвшийся в 2023 году основной техникой с используемостью в 55% приложений, применяется в архитектуре лишь в 16% новых решений;
  • Тюнинг моделей под узкую задачу упал в популярности с 19% до 9%;
  • Использование экспериментальных и редких техник в приложениях снизило долю с 18% до 7%;
  • Агенты в 2023 году не использовались совсем, в 2024 их использовали в 12% новых приложений.

Категории трат на генеративный ИИ в 2024 году также позволяют увидеть осознание компаниями зрелости этого сегмента. Траты на подписки на базовые модели возросли в 6,5 раз; на тренировку и размещение моделей — в 3,8 раз (и это при двукратном падении частоты тюнинга); на инфраструктуру и данные — в 8 раз; на коробочные узкоспециализированные решения — в 12 раз; на горизонтальные решения, используемые во всей компании — в 5,3 раза; и на решения, используемые широко в рамках одного департамента — в 9 раз.

При этом общие затраты на генеративный ИИ выросли в 6 раз за год. 60% бюджета на генеративный ИИ идёт по статье инноваций, а 40% бюджета на генеративный ИИ — это постоянные бюджеты. И, что более важно, 58% из этих 40% были перераспределены с других направлений.

Стоит отметить, что хоть за последние годы во всём мире, включая Россию, расходы на разработку и внедрение решений на базе искусственного интеллекта значительно выросли, не во всех случаях эта технология приносит реальные результаты. Генеративный искусственный интеллект стоит использовать тогда, когда он либо улучшает качественные характеристики продуктов, либо дает понятную ценность заказчикам.

Прогнозы на будущий год

События 2024, благодаря которым в 2025 году генеративный ИИ серьёзно повлияет на корпоративную жизнь:

  • Структурированные ответы

Модели и раньше могли отвечать в строгой структуре, такой как JSON или XML, однако нельзя было гарантировать, что модель будет следовать конкретным шаблонам. Инструменты структурирования ответов, отбрасывавшие по ходу ответа модели токены (условно, слова), неподходящие под структуру ответа, гарантировали успех, но значительно замедляли генерации. В середине 2024 года появились модели, заточенные под вызов функций и структурированные ответы. Этот функционал открыл дорогу почти ко всем остальным событиям из нашего списка.

  • Цепочки и деревья рассуждений

LLM обучены на большом количестве текстов, созданных людьми и, к сожалению, люди не всегда последовательны и логичны, поэтому быстрые ответы LLM по минимальным вводным далеко не всегда бывают верны. Если человек о чём-то последовательно рассуждает, разбив задачу на мелкие шаги, то шансы на то, что у него родится состоятельная мысль, становятся значительно выше, так же и с LLM. То, что подход с рассуждениями работает, было известно довольно давно, но идею разделить рассуждения и ответ пользователю было сложно воплотить, не имея гарантий структурированности ответа. Когда такую гарантию стало возможным получить, техника цепочек рассуждений переместилась из обязанностей промпт-инженера на сторону модели и среды её инференса.

Также стало возможно использовать деревья рассуждений как расширение этой техники. В технике деревьев рассуждений для каждого из шагов цепочки рассуждений генерируется несколько вариантов, и из них выбирается лучший для перехода на следующий шаг рассуждений.

  • Инструменты технологической миграции

Рост качества, точности и структурности ответов моделей в 2024 году позволил реализовать инструменты автоматической миграции кода между разными языками и диалектами. Цена миграции прикладного кода стремительно снижается, и это очень хорошо для корпоративного сегмента, ведь вместе с ней снизится и фактор vendor-lock-in (ситуация, когда клиент становится зависимым от поставщика продуктов и услуг). Не будет причин не менять устаревший технологический стек из-за дороговизны замены и сложностей с поиском ресурсов.

  • Агенты

У моделей нет чувства времени, они отзываются на запросы пользователей в рамках их инференса (выполнения). Модель можно обернуть в runtime (определённое пространство времени), обеспечив постоянный поток состояний на вход и выход, определить состояния, на которые модель должна реагировать, дать ей краткосрочную и долгосрочную память, аугментировать её механизмом поиска и источниками информации. Так вы получите агента.

Прелесть LLM-агента в том, что он может принимать решения в ситуациях, в которых нет возможности гарантировать полноту данных на вход, а нужно оценить ситуацию в комплексе: порассуждать над возможными причинами текущего состояния, попробовать различные методы для его улучшения, спланировать ряд действий и последовательно их выполнить. Агенты с LLM особенно хороши тем, что в сравнении с классическим RPA требуется кратно меньше ресурсов и времени на создание прототипов, и гораздо меньшая экспертиза команд, реализующих их. В классическом RPA вы вынуждены аккуратно и детерминировано описывать каждый шаг бизнес-процесса, а LLM-агент позволяет такие шаги укрупнять и заменять десятки шагов, описывающих специфические сценарии, на одну задачу агенту.

  • AI Ready платформы данных

Как развитие предыдущего пункта важно упомянуть движение в сторону создания доступной среды для агентов, которое наметилось в конце 2024 года. Чтобы выполнять рутинные задачи за человека в рамках бизнес-процессов, агенту нужна та же информация, что и человеку, и нужна возможность найти недостающую информацию. Доступ к этим данным можно обеспечить двумя способами. Anthropic реализовали такой доступ через Model Context Protocol. С помощью MCP можно организовать данные любого источника в определённом формате, с которым сможет работать LLM-агент. Недостатком этого метода является необходимость интеграции всех значимых данных с MCP-серверами.

Arenadata же предложила альтернативный подход AI Ready. В рамках него в каждой СУБД платформы данных возникает домашняя схема агентов, которая содержит информацию о каталоге данных этой СУБД, доступных API, инструментах, других агентах, работающих с базой и их API. Этот подход гораздо более гибок и не требует значительных затрат времени на интеграцию источников с MCP-серверами, а опирается на способность агента работать со структурированной информацией. Всё, что нужно знать разработчику агента — это тип СУБД, строка подключения к ней и тот факт, что домашняя схема существует в этой СУБД.

  • Прунинг, квантизация и дистилляция

Методы уменьшения размеров модели при сохранении её качества занимают головы специалистов с момента появления LLM. Большие модели хороши, но чем больше модель, тем она медленнее отвечает, тем дороже хранить контекст пользовательских сессий и тем больше места в видеопамяти занимает она сама. Только сама модель на 70 млрд параметров занимает около 320 гигабайт видеопамяти, а есть ещё нужда хранить контекст сессии. При этом большой контекст может занимать значительно больше видеопамяти, чем сама модель.

Дистилляция модели — это обучение более маленьких моделей на ответах больших. И она работает неплохо, позволяя без значительных потерь снизить размер до 2 раз. Прунинг — удаление части весов, не влияющих значительно на результат работы модели, позволяет сэкономить до 90% её объёма. Квантизация — понижение размерности чисел в векторах, описывающих веса модели (например, использовали 32 бита на параметр, а стали использовать 4 бита). Она позволяет кратно снизить размер модели без значительного понижения качества.

Эти методы не всегда хорошо работают вместе, но используя их разумно можно снизить размер модели в 10-20 раз, при этом обеспечив большую скорость ответов и большее количество конкурентных пользователей.

Источник: Антон Балагаев, директор по консалтингу Arenadata