12 сентября 2024 г.
Согласно прогнозу Gartner, к 2027 году 40% решений генеративного ИИ будут мультимодальными (текст, изображения, аудио и видео) против 1% в 2023 году. Такой переход от отдельных к мультимодальным моделям расширяет взаимодействие человека с ИИ и дает возможность дифференциации предложений, использующих GenAI.
«Рынок GenAI эволюционирует в направлении моделей, изначально обученных на более чем одной модальности, что помогает улавливать взаимосвязи между разными потоками данных и потенциально масштабировать преимущества GenAI для всех типов данных и приложений; при этом ИИ может обеспечить поддержку выполнения пользователями большего числа задач вне зависимости от среды», — пишет в пресс-релизе Эрик Бретану (Erick Brethenoux), ведущий вице-президент-аналитик Gartner.
Мультимодальный GenAI наряду с большими языковыми моделями с открытым кодом — две технологии на Кривой цикла зрелости генеративного ИИ в 2024 году, благодаря которым первопроходцы могут обрести заметное конкурентное преимущество и быстроту выхода на рынок в ближайшие пять лет.
Среди инноваций в области GenAI, по которым Gartner ожидает широкого внедрения в течение ближайших 10 лет, две технологии обладают самым высоким потенциалом: это специализированные GenAI-модели и автономные агенты (см. рис. 1).
Рис. 1. Кривая цикла зрелости технологий генеративного ИИ (по состоянию на июль 2024 г.)
Y = Ожидания; X = Стрела времени
(Легенда): Плато широкого применения будет достигнуто в течение:
менее 2 лет / от 2 до 5 лет / от 5 до 10 лет / более 10 лет / Устареет раньше
«Разобраться в экосистеме GenAI будет всё так же непросто для организаций из-за хаотичной и быстро меняющейся экосистемы технологий и вендоров, — пишет Арун Чандрасекаран (Arun Chandrasekaran), ведущий вице-президент-аналитик Gartner. — С началом консолидации отрасли GenAI находится в Котловине избавления от иллюзий. Реальные преимущества проявятся, когда ажиотаж спадёт, и в течение нескольких следующих лет можно ожидать быстрый прогресс в возможностях».
Мультимодальный GenAI
Эта технология окажет трансформативное влияние на корпоративные приложения, позволив добавить новый функционал, ранее недостижимый. Влияние не ограничивается отдельными отраслями и сценариями использования: этот подход может применяться в любой точке взаимодействия человека с ИИ. На текущий момент многие мультимодальные модели охватывают лишь две-три модальности, но в последующие несколько лет их число будет расти.
«В реальной жизни люди получают информацию через совокупность разных модальностей: звуковые, визуальные и другие каналы восприятия, — пишет Бретану. — Мультимодальный GenAI важен, поскольку данные, как правило, являются мультимодальными. Если объединять одномодальные модели для создания мультимодальных GenAI-приложений, это часто приводит к задержкам и менее точным результатам, что означает более низкое качество взаимодействия».
Большие языковые модели с открытым кодом
LLM с открытым исходным кодом — это базовые ИИ-модели глубокого обучения, которые повышают корпоративную ценность внедрения GenAI, позволяя демократизировать коммерческий доступ, а разработчикам — оптимизировать модели для конкретных задач и применений. Кроме того, они дают доступ к сообществам разработчиков в компаниях, в университетской среде и исследовательских учреждениях, которые стремятся к общей цели: усовершенствовать модели и сделать их более ценными.
«Большие языковые модели с открытым кодом увеличивают инновационный потенциал за счет кастомизации, лучшего контроля конфиденциальности и безопасности, прозрачности модели, возможности совместной разработки и потенциального снижения привязки к вендору, — пишет Чандрасекаран. — В конечном счете, они предлагают менее громоздкие модели, которые проще и дешевле обучать, и позволяют строить бизнес-приложения и базовые бизнес-процессы».
GenAI-модели для конкретной предметной области
Специализированные GenAI-модели оптимизированы для нужд конкретных отраслей, бизнес-функций или задач. Они могут улучшить согласованность сценариев использования внутри организации, обеспечивая при этом бОльшую точность, безопасность и конфиденциальность, а также более контекстуализированные ответы. Это снижает потребность в более глубокой инженерии подсказок по сравнению с моделями общего назначения и снижает риски галлюцинаций модели за счет целенаправленного обучения.
«Специализированные модели быстрее приносят отдачу, более высокую производительность и безопасность ИИ-проектов благодаря большей готовности для отраслевых задач, — поясняет Чандрасекаран. — Это будет стимулировать более широкое принятие GenAI, поскольку организации смогут применять их там, где модели общего назначения недостаточно эффективны».
Автономные агенты
Это комбинированные системы, достигающие поставленных целей без участия человека. Они используют различные методы ИИ для выявления закономерностей в своей среде, принятия решений, запуска последовательности действий и получения результатов. Эти агенты способны обучаться в своей среде и совершенствоваться со временем, что позволяет им справляться со сложными задачами.
«Автономные агенты представляют собой значительный прогресс в возможностях ИИ, — отмечает Бретану. — Их способность независимой работы и принятия решений позволяет им совершенствовать бизнес-операции, расширять клиентский опыт и открывает путь к новым продуктам и услугам, с большой вероятностью приводя к экономии затрат и конкурентному преимуществу, а роль сотрудников смещается от исполнения к надзору».
Источник: Пресс-служба компании Gartner