25 сентября 2023 г.

Генеративный искусственный интеллект (ИИ) требует довольно значительного расхода электроэнергии. Насколько именно значительного, попробовали оценить в Schneider Electric — и выяснили, что если нынешние темпы внедрения ИИ решительно во все сферы мировой экономики продолжится, уже в среднесрочной перспективе придётся существенно пересмотреть подходы к построению дата-центров: те будут требовать слишком много энергии.

Показатели роста

На фоне вяловатой, прямо скажем, общей динамики глобального ИТ-рынка те направления, что связаны так или иначе с ИИ, демонстрируют завидную оживлённость. Lenovo, а вслед за ней и Dell рассматривают персональные системы с ориентацией на локальное исполнение ИИ-задач как магистральный путь развития всего сегмента ПК в обозримом будущем. Изготовители серверов — эти устройства в целом продаются неплохо, но всё же не самыми воодушевляющими темпами — отмечают, что подсегмент серверов для машинного обучения может вырасти за год по итогам 2023-го примерно на 40% в количественном выражении. Даже чипмейкеры, выпускающие модули оперативной памяти (которые в последние несколько кварталов расходятся в оптовых партиях едва ли не по себестоимости), восторженно переориентируются на изготовление микросхем HBM, применяемых в серверных ИИ-конфигурациях, — это по сути единственный на сегодня тип чипов памяти, приносящий хоть в какой-то мере ощутимую прибыль.

Однако вот в чём загвоздка: работа генеративного ИИ с чисто прикладной точки зрения сводится к довольно несложным операциям — сложению и умножению чисел, — однако проводимым в поистине титанических масштабах; десятками и сотнями миллиардов для решения одной-единственной задачи (ответа умного чат-бота на запрос пользователя, рисования картинки по текстовой подсказке и т. п.). Почему же это проблема, если вычисления всё равно остаются несложными?

Дело в том, что актуальные компьютерные архитектуры с оперативной памятью DRAM не предусматривают выполнения операций непосредственно в этой памяти: приходится передавать операторы на процессорное ядро, там производить умножение и сложение, возвращать результат в память — и так десятки миллиардов раз. Теперь понятно, почему ЦП (с их в лучшем случае десятками независимых ядер) справляются с задачами генеративного ИИ медленнее, чем графические процессоры (где ядер сотни и тысячи, пусть гораздо менее производительных, — и быстрая видеопамять соединяется с ними широкой шиной данных). Перспективные разработки новых типов памяти (RRAM, PCRAM, STT-MRAM и проч.) обещают решить эту проблему, — но до серийного массового перехода на них ещё очень далеко.

А многократные и частые операции передачи данных между процессорами и оперативной памятью обходятся, как становится теперь всё очевиднее, довольно-таки недёшево. В своём новом отчёте Schneider Electric оценивает общее энергопотребление ЦОДов мира по итогам 2023 г. в 54 ГВт, из которых не менее 4,3 ГВт приходится на решение задач ИИ. Уже к 2028-му доля ИИ-нагрузки в суммарном расходе электричества дата-центрами вырастет с нынешних 8% до 15-20% — т. е. до 13-20 ГВт из ожидаемого тогда суммарного расхода в 90 ГВт.

Ситуацию усложняет тот факт, что типичный серверный графический ускоритель потребляет в активном состоянии до 700 Вт, так что единичный ИИ-сервер, содержащий 8-10 таких плат (плюс процессор, оперативную память, накопители данных и т. п.) без труда может рассеивать в пространство до 10 кВт мощности.

А это, указывают эксперты, входит в серьёзное противоречие с наиболее распространёнными на сегодня подходами к организации дата-центров, подразумевающими, что энергопотребление типичной серверной стойки будет ограничиваться 10-20 кВт. Да, разумеется, можно разносить ИИ-сервера по отдельным стойкам, — однако чем плотнее они стоят (чем короче путь сигнала при обмене данными между ними), тем выше эффективность работы моделей искусственного интеллекта, лучше их производительность — и, следовательно, скорее обеспечивается возврат немалых инвестиций в такого рода системы.

С чистого листа

Простое и понятное стремление заказчиков выделять как можно больше пространства в своих ЦОДах под ИИ-серверы, результаты работы которых пользуются неуклонно растущим спросом, сталкивается с физической невозможностью нынешней инженерной инфраструктуры обеспечивать работу такого рода инсталляций. Исследователи из Schneider Electric приводят целый ряд соответствующих примеров: скажем, типичные для ЦОДов блоки распределения питания между стойками (power distribution units, PDU) на 300 кВт до недавних пор в состоянии были обеспечивать питание сотни стоек — примерно по 3 кВт на каждую.

Теперь же такого PDU окажется недостаточно для запитывания одного-единственного ИИ-кластера NVIDIA DGX Super-POD (10 стоек суммарным энергопотреблением 358 кВт). А просто поставить рядом два или более PDU — не выход: они занимают больше пространства, требуют специальной кабельной разводки и т. п. Значит, следует при организации ориентированных на ИИ ЦОДов сразу же планировать инсталляцию высокомощных PDU — что моментально обернётся дополнительными издержками. Менее крупные — стоечные — PDU, рассчитанные на силу тока не более 63 А, также нуждаются теперь в замене на устройства, способные распределять ток до 160 А, — а те и по габаритам, и по электротехническим требования к установку разительно отличаются.

Ещё один серьёзный вызов — фактическое сглаживание вариативности нагрузки на серверную инфраструктуру в новых условиях. Традиционно, напоминают эксперты, потребление энергии в типичном ЦОДе в среднем и при подъёме нагрузки до (нечастых) пиков различается примерно вдвое. Уже сегодня, когда в дата-центрах соседствуют «обычные» и ИИ-стойки, этот показатель снижается до 1,5. В ЦОДе же, целиком ориентированном на решение ИИ-задач, практически 100% времени нагрузка по мощности также будет стопроцентной — поскольку непрерывно востребованные генеративные модели (как раз из-за того, что вычисления они производят крайне простые, но в огромных объёмах) не порождают пиков энергопотребления.

А значит, придётся по-иному настраивать системы аварийного отключения электропитания, ещё больше внимания уделять установке и мониторингу ИБП, эффективнее отводить тепло от постоянно работающих на всю катушку ИИ-серверов, — да и фактический срок службы вычислительных систем под такого рода непрерывной нагрузкой явно окажется ниже, чем в случае обработки ими более традиционных задач. Исследователи из Schneider Electric указывают даже на такие неочевидные на первый взгляд мелочи, как необходимость заменять кабели питания серверов (вместе со штепселями и розетками) со стандартных C19/C20, рассчитанных максимум на нагрев до 65 °С, на высокотемпературные C21/C22, выдерживающие до 155 °С.

Что же до охлаждения, то при энергопотреблении выше 20 кВт на стойку воздушный отвод тепла становится попросту неэффективным, — так что придётся либо увеличивать расстояние между соседними стойками, что снизит эффективность заполнения ЦОДа, либо переходить на значительно более дорогостоящий жидкостный теплоотвод. Последний же, особенно в вариантах с непосредственным отбором тепла от разогревающихся микросхем (direct-to-chip, DTC) потребует дополнительных затрат ещё и на монтаж ИИ-серверов в совместимых с DTC корпусах и стойках.

Ситуация осложняется тем, что системы жидкостного теплоотвода для ЦОДов, в отличие от воздушных, значительно менее стандартизированы, что ещё более удорожает их и усложняет работу с ними — как при установке, так и в ходе эксплуатации. Плюс к тому, никто не в силах предсказать, каково будет энергопотребление ИИ-серверов всего через 3-5 лет, — а значит, даже чрезвычайно дорогостоящая жидкостная инсталляция может утратить актуальность, так и не успев окупиться. И это лишь небольшая часть проблем, затронутых исследователями, — упомянутый отчёт вдаётся в достаточно мелкие детали.

В России сегмент ЦОДов продолжает рост даже в нынешних непростых условиях, пусть и с замедлением. Вряд ли стоит сомневаться, что ИИ-серверы в существующих и новых дата-центрах тоже будут появляться всё чаще, — что заставит их владельцев (в сотрудничестве с интеграторами, дистрибьюторами и вендорами соответствующего оборудования, конечно) решать все те проблемы, на которые указывает обзор Schneider Electric.

Хотя по крайней мере одно из перечисленных затруднений — сложности с теплоотводом — на значительной части территории России 6-8, а то и более месяцев в году гораздо менее актуальны, чем где-нибудь в Калифорнии. Быть может, именно организация специализированных ИИ-ЦОДов в северных регионах, где по соседству имеются надёжные источники энергии (ГЭС, АЭС) станет одним из лидирующих направлений отечественного ИТ-рынка уже в среднесрочной перспективе.


Источник: Максим Белоус, IT Channel News