IT之家7月24日消息,埃隆?馬斯克的孟菲斯超級計算集群(Memphis Supercluster)已上線,據(jù)馬斯克介紹稱,該集群在單個 RDMA fabric 上使用 10 萬張液冷 H100,是“世界上最強大的 AI 訓練集群”。
如此龐大的算力自然需要驚人的電力供應,每個 H100 GPU 至少消耗 700 瓦電力,這意味著整個數(shù)據(jù)中心同時運行需要超過 70 兆瓦的電力,這還不包括其他服務器、網(wǎng)絡(luò)和冷卻設(shè)備的耗電量。令人驚訝的是,由于與當?shù)仉娋W(wǎng)的供電協(xié)議尚未敲定,馬斯克目前使用 14 臺大型移動發(fā)電機為這個巨型設(shè)施供電。
AI 和半導體分析師 Dylan Patel 最初在社交媒體上表示,由于電力限制,馬斯克的孟菲斯超級計算集群可能無法運行。他指出,目前僅從電網(wǎng)抽取了 7 兆瓦電力,只能支持約 4000 個 GPU 運行。田納西河谷管理局(TVA)將在 8 月 1 日之前向該設(shè)施提供 50 兆瓦電力,前提是 xAI 能簽署相關(guān)協(xié)議。Patel 還觀察到,xAI 場地的 150 兆瓦變電站仍在建設(shè)中,預計將于 2024 年第四季度完工。
然而,通過衛(wèi)星圖像分析,Patel 很快發(fā)推文稱他發(fā)現(xiàn)了馬斯克的解決辦法 —— 使用 14 臺 VoltaGrid 移動發(fā)電機連接到看起來像四個移動變電站的設(shè)備。
每臺半掛車大小的發(fā)電機可提供 2.5 兆瓦電力,14 臺總共能提供驚人的 35 兆瓦電力。加上從電網(wǎng)獲得的 8 兆瓦電力,總共為 43 兆瓦,足以以有限功率運行 3.2 萬個 H100 GPU。
如果田納西河谷管理局在 8 月初為其提供所需的 50 兆瓦電力,馬斯克將有足夠的電力同時運行 6.4 萬個 GPU。Patel 表示,運行 10 萬個 GPU 需要 155 兆瓦電力,但 xAI 需要變電站才能達到這個水平。因此,要么變電站提前完工,要么馬斯克將部署更多移動發(fā)電機來滿足電力需求。
巨大的電力消耗及其對全球變暖的影響是目前 AI 數(shù)據(jù)中心面臨的主要問題。僅 2023 年售出的所有數(shù)據(jù)中心 GPU 的耗電量就超過了 130 萬個普通美國家庭耗電量的總和,給電網(wǎng)帶來了巨大壓力。而且,僅僅建設(shè)更多的發(fā)電廠并不能滿足數(shù)據(jù)中心的需求,還需要建設(shè)高壓輸電線路、變電站等額外基礎(chǔ)設(shè)施,才能將電力從發(fā)電廠輸送到服務器。
除了建設(shè) AI 計算所需電廠的時間和成本外,還必須考慮溫室氣體排放。雖然馬斯克在孟菲斯超級計算集群部署的移動發(fā)電機使用天然氣作為燃料(比煤炭或石油更清潔),但在運行過程中仍然會向大氣中排放碳。
IT之家注意到,谷歌最近透露,由于數(shù)據(jù)中心能源需求,其碳足跡自 2019 年以來增長了 48%。因此可以預見,除非馬斯克轉(zhuǎn)向更清潔的能源生產(chǎn)方式,否則 xAI 也將面臨同樣的問題。
馬斯克正全力推動 xAI 成為 AI 開發(fā)領(lǐng)域的領(lǐng)跑者,并為此不惜一切手段。希望使用移動發(fā)電機只是暫時的解決方案,孟菲斯超級計算機集群需要過渡到更清潔的能源,而田納西河谷管理局可以提供這種能源。由于后者使用核能、水電和化石燃料發(fā)電的組合,如果 xAI 從其采購電力而不是依賴僅使用天然氣的移動發(fā)電機,其碳足跡會更小。
評論