最新資訊

您所在的位置：首頁(yè) > 新聞中心 > 解決方案

阿里云丟棄 NVlink：使用以太網(wǎng)連接 15000 塊 GPU

來(lái)源：m.yinuozhineng.com 發(fā)布時(shí)間：2024/7/2 11:03:27

1875 個(gè)主機(jī)（每個(gè)主機(jī)配備 8 塊 GPU 和 9 塊網(wǎng)卡）使用阿里云的高性能網(wǎng)絡(luò)，通過(guò)以太網(wǎng)進(jìn)行通信。

阿里云工程師兼研究員翟恩南通過(guò) GitHub 分享了其研究論文，介紹了阿里云用于大語(yǔ)言模型（LLM）訓(xùn)練的數(shù)據(jù)中心的設(shè)計(jì)。

這份 PDF 文件名為《阿里巴巴 HPN：用于大語(yǔ)言模型訓(xùn)練的數(shù)據(jù)中心網(wǎng)絡(luò)》，概述了阿里巴巴如何使用以太網(wǎng)讓 15000 塊 GPU 得以相互通信。

一般的云計(jì)算生成一致的小數(shù)據(jù)流，速度低于 10 Gbps。另一方面，LLM 訓(xùn)練生成的周期性數(shù)據(jù)突發(fā)可以達(dá)到 400 Gbps。

據(jù)論文聲稱：“LLM訓(xùn)練的這一特性使得傳統(tǒng)數(shù)據(jù)中心常用的負(fù)載均衡方案等價(jià)多路徑路由（ECMP）容易出現(xiàn)哈希極化，從而導(dǎo)致流量分布不均等問題。”為了避免這種情況，翟恩南及其團(tuán)隊(duì)開發(fā)了高性能網(wǎng)絡(luò)（HPN），HPN 使用了“兩層雙平面架構(gòu)”，這種架構(gòu)減少了可能發(fā)生 ECMP 的數(shù)量，同時(shí)讓系統(tǒng)可以“精確地選擇能夠容納大象流（elephant flow）的網(wǎng)絡(luò)路徑”。

HPN 還使用了雙架頂式（ToR）交換機(jī)，這使得它們可以相互備份。這些交換機(jī)對(duì) LLM 訓(xùn)練而言是最常見的單點(diǎn)故障，需要 GPU 同步完成迭代。

每個(gè)主機(jī) 8 塊 GPU，每個(gè)數(shù)據(jù)中心 1875 個(gè)主機(jī)

阿里云將其數(shù)據(jù)中心劃分為多個(gè)主機(jī)，每個(gè)主機(jī)又配備 8 塊 GPU。每塊 GPU 都有搭載兩個(gè)端口的網(wǎng)卡，每個(gè) GPU-網(wǎng)卡系統(tǒng)稱為“rail”。主機(jī)還得到一塊額外的網(wǎng)卡連接到后端網(wǎng)絡(luò)。然后，每個(gè) rail 連接到兩個(gè)不同的 ToR 交換機(jī)，確保即使一個(gè)交換機(jī)出現(xiàn)故障，整個(gè)主機(jī)也不會(huì)受到影響。

盡管阿里云丟棄了用于主機(jī)間通信的 NVlink，但仍然使用英偉達(dá)的專有技術(shù)用于主機(jī)內(nèi)網(wǎng)絡(luò)，因?yàn)橹鳈C(jī)內(nèi) GPU 之間的通信需要更多的帶寬。

然而，由于 rail 之間的通信速度慢得多，每個(gè)主機(jī)“專用的 400 Gbps RDMA 網(wǎng)絡(luò)吞吐量，導(dǎo)致總帶寬為 3.2 Tbps”足以確保 PCIe Gen5x16 顯卡的帶寬最大化。

阿里云還使用了 51.2 Tbps 的以太網(wǎng)單芯片 ToR 交換機(jī)，因?yàn)槎嘈酒鉀Q方案更容易不穩(wěn)定，故障率是單芯片交換機(jī)的四倍。

然而，這些交換機(jī)運(yùn)行時(shí)散熱量大，市面上沒有現(xiàn)成的散熱器可以阻止它們因過(guò)熱而關(guān)閉。因此，阿里云想出了一個(gè)新穎的解決方案，即設(shè)計(jì)一個(gè)均熱板散熱器，中心有更多的小柱子，大大提高傳導(dǎo)熱能的效率。

翟恩南及其團(tuán)隊(duì)將于今年 8 月在澳大利亞悉尼舉行的數(shù)據(jù)通信特別興趣小組（SIGCOMM）大會(huì)上展示其研究成果。包括 AMD、英特爾、谷歌和微軟在內(nèi)的多家公司都會(huì)對(duì)這個(gè)項(xiàng)目感興趣，主要是由于它們已聯(lián)合起來(lái)創(chuàng)建了 Ultra Accelerator Link——這是一種開放標(biāo)準(zhǔn)的互連技術(shù)，旨在與 NVlink 競(jìng)爭(zhēng)。

阿里云使用 HPN 已有八個(gè)多月，這意味著這項(xiàng)技術(shù)已經(jīng)過(guò)了嘗試和測(cè)試。然而，HPN 仍然存在一些缺點(diǎn)，其中最大的缺點(diǎn)就是其復(fù)雜的布線結(jié)構(gòu)。鑒于每個(gè)主機(jī)有 9 塊網(wǎng)卡，每塊網(wǎng)卡連接到兩只不同的 ToR 交換機(jī)，很有可能混淆哪個(gè)插孔到哪個(gè)端口。盡管如此，這項(xiàng)技術(shù)可能比 NVlink 來(lái)得實(shí)惠，因此任何建立數(shù)據(jù)中心的機(jī)構(gòu)都可以大幅節(jié)省安裝成本。

來(lái)源：Al頭條

上一條： Gartner: 全球服務(wù)器出貨量上漲，浪潮信息市占率11.3%居全球前二！下一條： Unis紫光、H3C新華三雙品牌成功入圍中央國(guó)家機(jī)關(guān)2024年度臺(tái)式計(jì)算機(jī)框架協(xié)議

免费人成在线观看|亚洲中文字幕无线无码|伊人久久精品亚洲午夜|欧美韩国人成网站中文字幕|亚精区区一区区二在线观看|99精品66AV99精品|亚洲精品无码久久久久久不卡|精品一区二区三区av天堂色欲

新聞導(dǎo)航

推薦產(chǎn)品

浪潮NF5688 G8服務(wù)器

浪潮NF5468G7服務(wù)器

最新資訊