Первый подробный взгляд на ИИ-суперкомпьютер Илона Маска xAI Colossus с 100 000 GPU
Новый проект Илона Маска — суперкомпьютер xAI Colossus, стал менее загадочным. Ютубер ServeTheHome получил доступ к серверам внутри этого гигантского монстра, включающего чудовищные 100 000 GPU, демонстрируя несколько его ключевых особенностей. Суперкомпьютер от xAI работает уже почти два месяца, после того как на его сборку было потрачено 122 дня. Этот кластер считается одним из крупнейших в мире и ориентирован на высокопроизводительные задачи в области ИИ.Colossus построен на базе серверных решений Nvidia HGX H100, содержащих по восемь графических процессоров H100 в каждом сервере. Серверы размещены в стойках, каждая из которых содержит до восьми серверов и оснащена жидкостным охлаждением. Кроме того, между серверами установлены 1U-коллекторы, поддерживающие систему охлаждения, а внизу каждой стойки находится дополнительная насосная и мониторинговая система. В результате такая конфигурация создает массивный кластер с 512 GPU на каждый блок из восьми стоек.https://youtu.be/Jf8EPSBZU7YДля удовлетворения высоких требований к пропускной способности xAI использовала Ethernet-подключение для всех серверов вместо более специализированных соединений, таких как InfiniBand. Каждая видеокарта в системе имеет сетевой интерфейс 400GbE, что обеспечивает скорость до 3,6 Тбит/с на сервер HGX H100. На фото видно множество ярко-желтых кабелей Ethernet, соединяющих кластер Colossus, которые аккуратно уложены в специальные каналы под потолком, создавая впечатляющий вид сетевой инфраструктуры.Суперкомпьютер требует не только мощных графических процессоров, но и значительного хранилища и вычислительных серверов на базе CPU. Большинство серверов для хранения данных и CPU выполнены в корпусах Supermicro с жидкостным охлаждением и имеют форм-фактор 1U. Внешне рядом с Colossus установлены батареи Tesla Megapack, которые служат буфером между сетью электроснабжения и суперкомпьютером, так как задержка в подаче энергии превышает возможности как местной электросети, так и дизельных генераторов Маска.На данный момент Colossus считается крупнейшим ИИ-суперкомпьютером в мире, и он полностью задействован в обучении ИИ-моделей, которые лягут в основу чат-бота Grok 3. Кроме того, Colossus нацелен на обучение "моделей будущего", которые, по словам команды, будут превосходить современные ИИ. В будущем суперкомпьютер планируется расширить, добавив 50 000 H100 и H200 GPU, что удвоит его производительность и требования к электропитанию.