Перший поглиблений погляд на кластер штучного інтелекту Ілона Маска на 100 000 GPU

Автор Назар Грановський окт 29, 2024 Пристрої 0Коментарі

xAI Colossus розкриває свої секрети

А тепер подивіться на вогневу міць цього повністю озброєного та працездатного суперкластеру ШІ
Вперше детально описано новий дорогий проект Ілона Маска — суперкомп’ютер зі штучним інтелектом xAI Colossus. YouTuber ServeTheHome отримав доступ до серверів Supermicro у 100 000 графічних процесорів, демонструючи кілька аспектів суперкомп’ютера. Суперкластер xAI Colossus від Маска був онлайн майже два місяці після 122-денного складання.

Патрік із ServeTheHome обводить камерою кілька частин сервера, забезпечуючи його роботу з висоти пташиного польоту. Найдрібніші деталі суперкомп’ютера, як-от його енергоспоживання та розмір насоса, не могли бути розкриті згідно з угодою про нерозголошення, і xAI розмив і піддав цензурі частини відео перед його публікацією. Найважливіші речі, як-от сервери Supermicro GPU, залишилися в основному недоторканими на кадрах вище.

Серверами GPU є Nvidia HGX H100, серверне рішення, що містить вісім GPU H100 кожен. Платформа HGX H100 упакована в універсальну систему рідинного охолодження графічного процесора Supermicro 4U, що забезпечує легку гарячу заміну рідинного охолодження кожного графічного процесора. Ці сервери завантажуються в стійки, які вміщують по вісім серверів кожна, тобто 64 графічних процесора на стійку. Колектори 1U розташовані між кожним HGX H100, забезпечуючи необхідне рідинне охолодження серверів. У нижній частині кожної стійки знаходиться інший блок Supermicro 4U, цього разу з резервною системою насоса та системою моніторингу стійки.

Ці стійки об’єднані в групи по вісім, що становить 512 GPU на масив. Кожен сервер має чотири резервні джерела живлення, із задньою частиною стійок графічного процесора, які виявляють 3-фазні джерела живлення, комутатори Ethernet і колектор розміром зі стійку, що забезпечує все рідинне охолодження. У кластері Colossus є понад 1500 стійок GPU або близько 200 масивів стійок. За словами генерального директора Nvidia Дженсена Хуанга, графічні процесори для цих 200 масивів були повністю встановлені лише за три тижні.

Через вимоги до високої пропускної здатності суперкластеру штучного інтелекту, який постійно навчає моделі, xAI вийшов за рамки надмірності для своєї мережевої взаємодії. Кожна графічна карта має спеціальний мережевий адаптер (контролер мережевого інтерфейсу) на 400 Гбіт, з додатковими 400 Гбіт на сервер. Це означає, що кожен сервер HGX H100 має 3,6 терабіт на секунду Ethernet. І так, увесь кластер працює на Ethernet, а не на InfiniBand чи інших екзотичних з’єднаннях, які є стандартними для суперкомп’ютерного простору.

Постріл, який дивиться на хвилі на хвилях жовтих кабелів Ethernet, що з’єднують кластер xAI Colossus із самим собою. Кілька шарів надто широких кабельних трас заглиблені в стелю.

Обчислювальні сервери Colossus CPU від xAI, які виглядають точно так само, як сервери зберігання Supermicro, які також широко використовуються на сайті.

Звичайно, для роботи суперкомп’ютера, заснованого на навчальних моделях штучного інтелекту, як-от чат-бот Grok 3, потрібні не лише графічні процесори. Деталі комп’ютерних серверів пам’яті та центрального процесора в Colossus більш обмежені. З того, що ми бачимо у відео Патріка та публікації в блозі, ці сервери також здебільшого в шасі Supermicro. Хвилі передніх серверів NVMe 1U з центральним процесором на платформі x86 утримують або сховище, і процесор, а також рідинне охолодження заднього входу.

Зовні видно кілька щільно запакованих батарейок Tesla Megapack. Запуск і зупинка масиву з його мілісекундною затримкою між банками була надто великою для електромережі або дизель-генераторів Маска, тому певна кількість Tesla Megapacks (містить до 3,9 МВт·год кожна) використовується як джерело енергії. буфер між електромережею та суперкомп’ютером.

Використання Colossus і суперкомп’ютерна стабільність Маска
За даними Nvidia, суперкомп’ютер xAI Colossus є найбільшим суперкомп’ютером зі штучним інтелектом у світі. У той час як багато провідних суперкомп’ютерів світу є дослідницькими базами, які можуть використовуватися багатьма підрядниками чи науковцями для вивчення погодних умов, хвороб або інших складних обчислювальних завдань, Colossus несе повну відповідальність за навчання X (раніше Twitter) різних моделей ШІ. В першу чергу Grok 3, чат-бот Ілона «проти пробудження», доступний лише для передплатників X Premium. ServeTheHome також повідомили, що Colossus навчає моделі ШІ «майбутнього»; моделі, використання та можливості яких, імовірно, виходять за рамки повноважень сучасного флагманського ШІ.

Перший етап будівництва Colossus завершено, і кластер повністю працює онлайн, але це ще не все. Незабаром суперкомп’ютер Memphis буде оновлено, щоб подвоїти потужність GPU, додавши ще 50 000 графічних процесорів H100 і 50 000 графічних процесорів H200 наступного покоління. Це також більш ніж подвоїть споживання електроенергії, що вже занадто багато для 14 дизельних генераторів Маска, доданих на сайт у липні. Це також не відповідає обіцянкам Маска щодо 300 000 H200 у Colossus, хоча це може стати третьою фазою оновлень.

Суперкомп’ютер Cortex із 50 000 GPU на заводі Tesla «Giga Texas» також належить компанії Маска. Cortex займається навчанням технології штучного інтелекту Tesla, що працює без керування, лише за допомогою камери та виявлення зображень, а також автономних роботів Tesla та інших проектів штучного інтелекту. Tesla незабаром побачить будівництво суперкомп’ютера Dojo в Буффало, штат Нью-Йорк, проект на 500 мільйонів доларів. Оскільки галузеві спекулянти, такі як генеральний директор Baidu Робін Ле, прогнозують, що 99% компаній зі штучним інтелектом розпадуться, коли бульбашка лопне, ще невідомо, чи окупляться рекордні витрати Маска на штучний інтелект.

Tags: Artificial-intelligence Ілон Маск Суперкомп’ютер Cortex