Наша привычка к искусственному интеллекту уже меняет то, как мы строим центры обработки данных • The Register

Блог

ДомДом / Блог / Наша привычка к искусственному интеллекту уже меняет то, как мы строим центры обработки данных • The Register

Aug 08, 2023

Наша привычка к искусственному интеллекту уже меняет то, как мы строим центры обработки данных • The Register

Анализ Безумное стремление обеспечить безопасность и развертывание инфраструктуры искусственного интеллекта вынуждает операторов центров обработки данных пересмотреть способы построения и эксплуатации своих объектов. В обычном центре обработки данных вытягивается холодный воздух

Анализ Безумное стремление обеспечить безопасность и развертывание инфраструктуры искусственного интеллекта вынуждает операторов центров обработки данных пересмотреть способы построения и эксплуатации своих объектов.

В обычном центре обработки данных холодный воздух проходит через стойку, полную вычислительных, сетевых систем и систем хранения данных. Сзади нагретый воздух захватывается и выбрасывается охлаждающей инфраструктурой объекта.

Эта парадигма прекрасно работает для стоек мощностью 6–10 кВт, но начинает разваливаться, когда вы начинаете развертывать системы, используемые для обучения моделей искусственного интеллекта, таких как GPT-4. Современные узлы графического процессора могут легко потреблять мощность всей стойки. И это вынуждает операторов центров обработки данных вносить серьезные изменения в конструкцию.

Tesla, похоже, последняя, ​​кто это осознал. Как мы сообщали ранее на этой неделе, американский производитель электромобилей ищет людей, которые помогут ему построить «первые в своем роде центры обработки данных».

В недавнем объявлении о вакансии компания заявила, что ищет старшего менеджера инженерных программ для центров обработки данных, который «будет руководить комплексным проектированием и проектированием первых в своем роде центров обработки данных Tesla и будет одним из ключевых членов команды». его инженерная команда».

Этот человек также будет отвечать за надзор за строительством нового центра обработки данных. Это говорит о том, что это может быть не связано с сообщениями The Information о том, что Tesla недавно взяла в аренду центр обработки данных в Сакраменто, оставленный Twitter после приобретения социальной сети генеральным директором Илоном Маском.

Хотя не совсем ясно, что компания имеет в виду под «первыми в своем роде центрами обработки данных» — мы спросили Tesla и пока не получили ответа — это может иметь какое-то отношение к специальному ускорителю искусственного интеллекта Dojo, который она продемонстрировала на Hot Chips в прошлом году. .

Компания планирует вложить в проект более 1 миллиарда долларов до конца 2024 года, чтобы ускорить разработку своего программного обеспечения для автономного вождения. Выступая в июле, Маск заявил, что вся система может превысить 100 экзафлопс, что, по нашему мнению, соответствует производительности BF16.

Это означает, что Тесле придется найти место, где можно разместить эту штуку, и кого-то, кто будет поддерживать свет включенным и все эти точки плавающими. И, исходя из того, что мы знаем об ускорителе Dojo, проектирование и управление объектом, способным обеспечивать достаточную мощность и охлаждение для поддержания работоспособности ускорителя ИИ, может оказаться чем-то вроде кошмара.

Dojo — это сборный суперкомпьютер, полностью разработанный Tesla. Все, от вычислений, сетей, ввода-вывода до архитектуры набора команд, подачи питания, упаковки и охлаждения, было создано специально с явной целью ускорить алгоритмы машинного обучения Tesla.

Базовым строительным блоком этой системы является чипсет Tesla D1. Двадцать пять из них объединены вместе с использованием технологии «система на пластине» TSMC в плитку Dojo Training. В общей сложности система объемом в полкубических фута имеет 11 ГБ SRAM, скорость подключения к матрице 9 ТБ/с и может обеспечить производительность BF16 9 петафлопс. Вы можете найти полное описание массивного ускорителя искусственного интеллекта на нашем родственном сайте The Next Platform.

Конечно, объединение всей этой производительности в такой компактный форм-фактор действительно ставит некоторые уникальные задачи, например, как обеспечить питание и охлаждение одного ускорителя мощностью 15 кВт, не говоря уже о шести из них, которые составляют систему Dojo V1 с производительностью 1 экзафлопс. И это только ускорители. Вам также необходимо обеспечить питание и охлаждение всех вспомогательных систем, используемых для подачи и координации потока данных через ускорители.

Кроме того, есть вопрос о высокоскоростной сетке, которая может оказаться непомерно сложной с точки зрения того, как можно развернуть эти плитки. На этих скоростях, чем ближе вы сможете их упаковать, тем лучше, но при этом тем больше будет тепловая нагрузка. Таким образом, было бы неудивительно, если бы Tesla вообще отказалась от идеи использования традиционных стоек в пользу чего-то совершенно уникального.

Этот скромный стервятник лично хотел бы увидеть возвращение к диким и дурацким конструкциям суперкомпьютеров прошлого. Суперкомпьютеры раньше были странными и забавными. Не верите мне? Просто найдите CM-1 или Cray-2 от Thinking Machine. Это были красивые машины.