5 апреля 2024 г.

Старая истина, гласящая, что всё хорошо в меру, грозит оказаться справедливой и в отношении чрезвычайно бурного развития сектора искусственного интеллекта, — об этом предупреждают аналитики McKinsey. С одной стороны, острая потребность рынка в специализированном «железе» и ПО подстёгивает инвестиции и оживляет динамику практически по всей цепочке поставок, от материалов и сырья для изготовления процессоров до создания специализированных серверов, на которых тренируются всё более и более «умные» модели ИИ. С другой, на фоне довольно сдержанного макроэкономического прогноза на обозримую перспективу нет уверенности, что необходимые средства найдутся в достаточных объёмах и в потребные сроки.

Техническое обоснование

Главное отличие генеративного ИИ от привычного рынку алгоритмического ПО с высокими системными требованиями — в том, что недостаточное по производительности «железо» делает использование и тем более тренировку генеративных моделей по сути нерентабельными. К примеру, если модель занимает в видеопамяти 12 Гбайт, её попросту не удастся запустить на ПК с видеокартой, содержащей 8 Гбайт памяти и менее: она должна помещаться в ОЗУ целиком.

Теоретически, разумеется, есть возможность организовать последовательную загрузку и выгрузку отдельных блоков вычислений в память меньшего объёма. Однако генеративный ИИ базируется на нейросетях с десятками и сотнями миллиардов входных параметров (собственно, необходимость держать их все в памяти разом и определяет её значительный объём), — и потому затраты времени на передачу громадных массивов данных между видеоОЗУ и другими подсистемами ПК окажутся чрезмерно большими.

Скорость исполнения действующего на основе алгоритмов классического ПО определяется в первую очередь способностью центрального процессора производить достаточно сложные вычисления в малом числе потоков (чаще всего и вовсе однопоточные) за ограниченное время; объёмы памяти для такого софта вторичны. Генеративный ИИ, напротив, строится на чрезвычайно простых вычислениях в огромном количестве параллельных потоков: критичной в данном случае становится возможность разместить титанический объём данных в памяти с как можно более высокоскоростным доступом. Если же говорить не об исполнении уже готовых ИИ-моделей, а о их тренировке, требования к аппаратному обеспечению увеличиваются многократно.

Что это значит с точки зрения ИТ-рынка? Да то, что потребность и в процессорах с как можно бóльшим числом несложных ядер, и в соединённой с ними памяти со сверхбыстрым доступом возрастала за минувший год кране стремительно — и в перспективе ближайших лет вряд ли сбавит темп (если, конечно, сам генеративный ИИ как концепция не разочарует по какой-либо причине широкие массы заказчиков). Иными словами, рынку нужно больше высокопроизводительных видеокарт — ведь именно эти компьютерные компоненты сочетают в себе и множество простых вычислительных узлов, и видеопамять с отменной производительностью, и соединяющие их быстрые шины данных. Учитывая, что и в облаках, предоставляющих бизнесам и частным лицам доступ к генеративному ИИ, также используются набитые видеокартами (куда более мощными, чем потребительские) серверы, рынок острейшим образом нуждается в новых процессорах и чипах видеопамяти.

Зачем и для чего

По оценке McKinsey, в обозримой перспективе до 70% всех вычислений с привлечением генеративного ИИ будет производиться в интересах тех или иных коммерческих заказчиков, на B2C-направлении; тогда как на долю B2B останется около 30%. В случае B2C главными шестью областями приложения генеративного ИИ аналитики называют следующие:

  • разработка ПО — как программ для конечных заказчиков, так и аналитических приложений для интерпретации и анализа кода,
  • создание креативного контента, в первую очередь маркетингового, для самых различных площадок,
  • разработка целевых приложений для автоматизированного привлечения новых клиентов и коммуникации с уже имеющимися на первой линии,
  • научные и инженерные прикладные инновационные разработки (для фармацевтики, материаловедения, логистики и проч.),
  • применение умных ботов в качестве секретарей-референтов для составления кратких выжимок наиболее существенной информации из юридических бумаг, технических документов, записей долгих бесед и т. п.,
  • более сложные версии ИИ-референтов для анализа огромных массивов данных, в том числе мультимедийных и неструктурированных, способные делать нетривиальные выводы без предварительных подсказок (к примеру, находить аномалии на МРТ-сканах, не привлекая никакой специфической медицинской информации, — просто сравнивая предложенные образцы с обширными базами эталонных сканов здоровых людей).

Эксперты ожидают, что наиболее выгодными с точки зрения потенциальных прибылей, но вместе с тем и самыми ресурсоёмкими окажутся приложения ИИ для инновационных разработок по разнообразным инженерным и научным направлениям. Втору группу по прибыльности образуют создание креативного контента, привлечение новых клиентов и сложные ИИ-референты. Наконец, меньше всего выручки будут генерировать применение ИИ для создания ПО (удивительного здесь ничего нет, — людям в любом случае придётся проверять предложенный машиной код; цена ошибки тут, поскольку речь о B2C, крайне высока, — и потому сторонние расходы велики) и создание простых секретарей-референтов. Вместе с тем и затраты на тренировку моделей для последней группы ничтожны в сравнении с первой, так что в этом сегменте зарождающегося ИИ-рынка ожидается наиболее острая конкуренция.

Нужно больше всего

Оценить масштаб термина «резкий» в приложении к взлёту спроса на генеративный ИИ позволяет следующая сделанная в McKinsey оценка. Если по итогам 2024 г. потребность заказчиков (B2C и B2B вместе) приложений генеративного ИИ в вычислительных мощностях оценивалась в 0,2 квинтиллиона (0,2×1030) FLOPs, floating point operations; операций с плавающей запятой, то уже к 2030 г. эта потребность вырастет по меньшей мере в 125 раз, — до 25,0 квинтиллиона FLOPs.

Соответственно, для аппаратного обеспечения столь ошеломляющего объёма расчётов потребуется изготавливать по крайней мере в десятки раз больше подходящих для ИИ-вычислений микросхем, чем это делается сегодня. Что с чисто производственной точки зрения чрезвычайно непросто: практически все графические ускорители — и для ПК, и для серверов — выпускает сегодня для всего мира по заказам Nvidia, AMD и Intel одна-единственная тайваньская компания TSMC, и потенциал наращивания её производственных способностей отнюдь не бескраен. Имеются в виду ограничения по доступности и природных ресурсов (выпуск чипов — крайне энерго- и водоёмкое предприятие), и людских (подготовка квалифицированных инженеров и даже рабочих для полупроводниковой отрасли — дело особенно дорогое и долгое), и, разумеется, чисто финансовых.

Хорошо; допустим, за счёт запуска новых чипмейкерских фабрик в США, Южной Корее, Вьетнаме и иных странах TSMC, Intel, Samsung Electronics и иные глобальные поставщики микросхем смогут обеспечить к 2030 г. достаточный объём аппаратных средств, чтобы удовлетворить спрос заказчиков на ИИ-вычисления. Однако вычисления эти надо ещё проделать, — для чего также необходима энергия. Стандартная серверная стойка, указывают аналитики, потребляет сегодня от 5 до 15 кВт, тогда как плотно набитая мощными видеокартами стойка для решения ИИ-задач — уже под 100 кВт, а в отдельных случаях даже ближе к 150 кВт.

За грядущие три-пять лет энергопотребление одной такой стойки грозит вырасти до 250, если не до 300 кВт, — даже невзирая на то, что будущие графические процессоры явно должны быть энергоэффективнее нынешних. Логического противоречия здесь нет: генеративные модели ИИ великолепно масштабируются, и чем они сложнее, тем более (при соответствующей адекватной тренировке, конечно) выдаваемые ими результаты соответствуют запросам заказчиков. Поэтому вместе с увеличением возможностей видеокарт будут расти и аппаратные аппетиты ИИ-моделей, — что и приведёт к взлёту энергопотребления единичной серверной стойки. А сколько таких стоек необходимо облачному ИИ-провайдеру, чтобы удовлетворить все клиентские запросы, — сотни, тысячи, десятки тысяч?

Столкновение с реальностью

По оценке McKinsey, к 2030 г. в мире должно появиться от 3 до 9 новых чипмейкерских фабрик, способных обрабатывать в год до 15 млн кремниевых пластин-заготовок по технологически нормам «7 нм» и менее. И это только для микросхем логики (графических процессоров, нейропроцессоров): для производства чипов памяти потребуется ещё от 13 до 21 млн пластин — и, соответственно, от 5 до 18 обрабатывающих их фабрик. И это ещё не говоря о микросхемах NAND для флэш-накопителей, на которых будут храниться сами генеративные модели и результаты обработки ими пользовательских запросов, а также о прочих необходимых компонентах для сбора соответствующих серверов (служебные микросхемы для материнских плат, всяческие контроллеры, силовые элементы, блоки питания, вентиляторы и проч.)

В принципе, определённый задел у чипмейкеров имеется: «благодаря» рестрикциям американского Минторга в отношении микропроцессорных производств КНР аналогичные фабрики Тайваня, Южной Кореи и прочих тяготеющих к США стран уже испытывают откровенную недозагрузку производственных мощностей, что доходит до 40% для микросхем, выпускаемых по зрелым технологическим нормам. Материковый Китай в борьбе за ИТ-суверенитет по максимуму локализует выпуск чипов, начиная, разумеется, как раз со служебных, производимых по формально устаревшим на сегодня нормативам, — тем самым у чипмейкеров за его пределами высвобождаются довольно серьёзные мощности.

Но к самым передовым СБИС это как раз не относится: вот, скажем, уже упомянутая TSMC в феврале триумфально сообщила, что увеличила выход годных 3-нм чипов до 80%, за счёт чего надеется на протяжении всего оставшегося 2024 г. выпускать ежемесячно по 100 тыс. пластин, литографированных с применением техпроцесса «3 нм», вместо 60 тыс., на которые рассчитывала прежде. Звучит и вправду воодушевляюще, — вот только эти, условно, 1 млн пластин в год уже расписаны между собой крупнейшими заказчиками тайваньской фабрики: Apple, Qualcomm, MediaTek, NVIDIA, Intel и Qualcomm. По оценке же McKinsey, напомним, на изготовление одних только микросхем ИИ-логики к 2030 г. должно уходить до 15 млн пластин, — и откуда их взять, если Samsung Electronics, вторая кроме TSMC компания, освоившая «3-нм» техпроцесс, отстаёт от своей тайваньской коллеги по объёмам выпуска примерно на порядок?

Наращивание глобальных (даже за вычетом КНР) объёмов полупроводниковых производств в мире в 10, 15 или даже 20 раз, требуемое для удовлетворения прогнозируемого аналитиками спроса на ИИ-вычисления, ставит перед всей чипмейкерской отраслью крайне непростую проблему. В условиях значительной инфляции, высоких ставок рефинансирования центробанков, дорогих кредитов вкладывать десятки и сотни миллиардов долларов в постройку новых фабрик нужно уже прямо сейчас, — не говоря уже об инвестициях в выращивание и обучение персонала, способного на них работать. А это огромные затраты, и стопроцентных гарантий их окупаемости ни одна аналитическая компания мира предоставить не готова.

Если же ажиотажный спрос на ИИ не будет удовлетворяться темпами, адекватными прогнозам той же McKinsey, это может привести в неприятным последствиям другого рода: чрезмерному вздорожанию доступных малых количеств аппаратного обеспечения, переходу ИИ-вычислений из разряда «основа любого цифровизованного бизнеса» в категорию technological luxury. — и тем самым к медленному увяданию всей этой темы. Либо, в лучшем случае, к насильственному переводу стремительного роста данного сегмента ИТ-рынка в куда более растянутый во времени, но и значительно менее воодушевляющий пологий режим.

Едва ли не впервые за свою историю человечество сталкивается с ситуацией, при которой столбовая вроде бы (по всем признакам и прогнозам) дорога технического прогресса оказывается перегорожена скучным, банальным, но оттого не менее неподъёмным шлагбаумом принципиальной нехватки ресурсов и средств для следования по ней. Каким образом удастся это противоречие разрешить и как в ходе такого процесса изменится ИТ-рынок — а он, безусловно, уже меняется, — увидим в самые ближайшие годы.


Источник: Максим Белоус, IT Channel News