1875 個(gè)主機(每個(gè)主機配備 8 塊 GPU 和 9 塊網(wǎng)卡)使用阿里云的高性能網(wǎng)絡(luò ),通過(guò)以太網(wǎng)進(jìn)行通信。
阿里云工程師兼研究員翟恩南通過(guò) GitHub 分享了其研究論文,介紹了阿里云用于大語(yǔ)言模型(LLM)訓練的數據中心的設計。
這份 PDF 文件名為《阿里巴巴 HPN:用于大語(yǔ)言模型訓練的數據中心網(wǎng)絡(luò )》,概述了阿里巴巴如何使用以太網(wǎng)讓 15000 塊 GPU 得以相互通信。
一般的云計算生成一致的小數據流,速度低于 10 Gbps。另一方面,LLM 訓練生成的周期性數據突發(fā)可以達到 400 Gbps。
據論文聲稱(chēng):“LLM訓練的這一特性使得傳統數據中心常用的負載均衡方案等價(jià)多路徑路由(ECMP)容易出現哈希極化,從而導致流量分布不均等問(wèn)題?!?/span>為了避免這種情況,翟恩南及其團隊開(kāi)發(fā)了高性能網(wǎng)絡(luò )(HPN),HPN 使用了“兩層雙平面架構”,這種架構減少了可能發(fā)生 ECMP 的數量,同時(shí)讓系統可以“精 確地選擇能夠容納大象流(elephant flow)的網(wǎng)絡(luò )路徑”。
HPN 還使用了雙架頂式(ToR)交換機,這使得它們可以相互備份。這些交換機對 LLM 訓練而言是最常見(jiàn)的單點(diǎn)故障,需要 GPU 同步完成迭代。
每個(gè)主機 8 塊 GPU,每個(gè)數據中心 1875 個(gè)主機
阿里云將其數據中心劃分為多個(gè)主機,每個(gè)主機又配備 8 塊 GPU。每塊 GPU 都有搭載兩個(gè)端口的網(wǎng)卡,每個(gè) GPU-網(wǎng)卡系統稱(chēng)為“rail”。主機還得到一塊額外的網(wǎng)卡連接到后端網(wǎng)絡(luò )。然后,每個(gè) rail 連接到兩個(gè)不同的 ToR 交換機,確保即使一個(gè)交換機出現故障,整個(gè)主機也不會(huì )受到影響。
盡管阿里云丟棄了用于主機間通信的 NVlink,但仍然使用英偉達的專(zhuān)有技術(shù)用于主機內網(wǎng)絡(luò ),因為主機內 GPU 之間的通信需要更多的帶寬。
然而,由于 rail 之間的通信速度慢得多,每個(gè)主機“專(zhuān)用的 400 Gbps RDMA 網(wǎng)絡(luò )吞吐量,導致總帶寬為 3.2 Tbps”足以確保 PCIe Gen5x16 顯卡的帶寬最 大化。
阿里云還使用了 51.2 Tbps 的以太網(wǎng)單芯片 ToR 交換機,因為多芯片解決方案更容易不穩定,故障率是單芯片交換機的四倍。
然而,這些交換機運行時(shí)散熱量大,市面上沒(méi)有現成的散熱器可以阻止它們因過(guò)熱而關(guān)閉。因此,阿里云想出了一個(gè)新穎的解決方案,即設計一個(gè)均熱板散熱器,中心有更多的小柱子,大大提高傳導熱能的效率。
翟恩南及其團隊將于今年 8 月在澳大利亞悉尼舉行的數據通信特別興趣小組(SIGCOMM)大會(huì )上展示其研究成果。包括 AMD、英特爾、谷歌和微軟在內的多家公司都會(huì )對這個(gè)項目感興趣,主要是由于它們已聯(lián)合起來(lái)創(chuàng )建了 Ultra Accelerator Link——這是一種開(kāi)放標準的互連技術(shù),旨在與 NVlink 競爭。
阿里云使用 HPN 已有八個(gè)多月,這意味著(zhù)這項技術(shù)已經(jīng)過(guò)了嘗試和測試。然而,HPN 仍然存在一些缺點(diǎn),其中最 大的缺點(diǎn)就是其復雜的布線(xiàn)結構。鑒于每個(gè)主機有 9 塊網(wǎng)卡,每塊網(wǎng)卡連接到兩只不同的 ToR 交換機,很有可能混淆哪個(gè)插孔到哪個(gè)端口。盡管如此,這項技術(shù)可能比 NVlink 來(lái)得實(shí)惠,因此任何建立數據中心的機構都可以大幅節省安裝成本。
來(lái)源:Al頭條