嚴(yán)格意義上HGX里面有8個(gè)GPU,每個(gè)GPU為一個(gè)Module 這個(gè)才叫做模組,HGX 其實(shí)是由8個(gè)GPU 模組和4個(gè)NVLInk Switch組成,下圖所示,就是每個(gè)上圖的SINK 下面的GPU模組。
放大的圖:
嚴(yán)格意義的模組 中間就是H100/A100這種GPU,通過SXM SOCKET 接口和GPU主板連接。
然后下圖是8個(gè)GPU 模組通過4 個(gè)NVLINK SWITCH 連接,組成一個(gè)8GPU的“大號(hào)”GPU。
在H100 SXM GPU上加裝散熱器后,便構(gòu)成了HGX,這是由英偉達(dá)設(shè)計(jì)的一種配置,作為直接供應(yīng)給服務(wù)器制造商的“最 小單元”。需要注意的是,HGX本身并不能單獨(dú)運(yùn)行,因?yàn)樗举|(zhì)上是一個(gè)“大型邏輯GPU”,必須與服務(wù)器平臺(tái)(即服務(wù)器主體)結(jié)合使用,才能構(gòu)成一個(gè)完整的GPU服務(wù)器。這種完整的服務(wù)器便是NVIDIA DGX,一款由英偉達(dá)品牌提供的GPU服務(wù)器。除了核心的HGX模塊之外,DGX還配備了服務(wù)器所需的其他組件,如機(jī)箱、主板、電源、CPU、內(nèi)存、存儲(chǔ)設(shè)備及網(wǎng)絡(luò)接口卡等。 盡管在功能和結(jié)構(gòu)上,NVIDIA DGX與其他服務(wù)器制造商基于HGX模塊構(gòu)建的GPU服務(wù)器沒有顯 著差異,但由于其高昂的價(jià)格以及可能與合作伙伴產(chǎn)生市場競爭的考慮,NVIDIA通常不會(huì)廣泛推廣DGX產(chǎn)品,除非是針對特定客戶群體。事實(shí)上,NVIDIA DGX更多地出現(xiàn)在每年GTC大會(huì)等場合,用于展示 新的GPU技術(shù),例如直接贈(zèng)送給像ChatGPT實(shí)驗(yàn)室這樣的研究機(jī)構(gòu)或在發(fā)布會(huì)上向客戶展示。這一策略既體現(xiàn)了NVIDIA希望通過DGX來吸引關(guān)注和宣傳新技術(shù)的意圖,同時(shí)也避免了與生態(tài)系統(tǒng)中的合作伙伴發(fā)生直接競爭。
因此,從某種程度上講,DGX可以被視為一種“概念車型”的存在,主要用于技術(shù)和市場的展示目的,而非大規(guī)模商業(yè)銷售。出于對合作伙伴關(guān)系的維護(hù),NVIDIA在多數(shù)情況下并不在美國及其他地區(qū)廣泛銷售DGX。鑒于此,為了更貼合實(shí)際應(yīng)用情況,我們將以超微公司的一款SYS-821GE-TNHR AI服務(wù)器為例進(jìn)行介紹,這款服務(wù)器在設(shè)計(jì)和性能上與DGX有著相似之處。
接下來就是這個(gè)系統(tǒng)貴的部分HGX的俯視圖, 主要由8個(gè)H100 和4個(gè)NVLINK Switch組成,號(hào)稱占到整個(gè)系統(tǒng)的90%,這個(gè)就是Intel 的股票為啥腰斬,而NVIDIA的股票狂漲的原因。AIGC這波操作,Intel幾乎沒有賺到多少錢 ,一個(gè)系統(tǒng)就賣2個(gè)CPU 估計(jì)1%都不到,但是8個(gè)GPU占到整個(gè)系統(tǒng)的90%成本。
系統(tǒng)架構(gòu)圖:
觀看了整個(gè)機(jī)器的外部和內(nèi)部結(jié)構(gòu),在這個(gè)基礎(chǔ)上理解系統(tǒng)架構(gòu)圖就比較容易
1. 上面的motherboard 主板,主板主要由CPU 內(nèi)存組成,兩個(gè)CPU SOCKET 通過4個(gè)UPI LINK連接,CPU通過DMI連接PCH (南橋,Intel 又叫 Platform Controller Hub) 再連接BMC和2個(gè)M.2 Nvme 應(yīng)該裝OS使用,2個(gè)M.2 NVMe 可以組成RAID 1.
2. 中間底部的表示的為上面介紹的PCIe Switch Board, 每個(gè)CPU因?yàn)槭荌ntel 第4代/5代 CPU 可以支持80個(gè)PCIe Lane ,所以總共可以支持160Lane,連接到6個(gè)PCIe Switch ,其中4個(gè)PCIe Switch 是用來和HGX 上的GPU通信的,每個(gè)PCIe SW上端USP(Upstream Port) 32 PCIe Lane ,下端DSP(Downstream Port) 72 PCIe Lane 總共104 Lane。DSP 下端每個(gè)PCIe Switch可以接兩張x16網(wǎng)卡,總共8張網(wǎng)卡,假設(shè)每個(gè)網(wǎng)卡可以提供200Gb/s的帶寬, 則可以通過這些網(wǎng)卡實(shí)現(xiàn)1.6T Gb/s的跨Node GPU-GPU帶寬,使用GPUDirect RDMA 可以實(shí)現(xiàn)GPU跨Node 的直接連接而無需CPU介入 ,從而實(shí)現(xiàn)Server 和 Server之間的8 GPU通訊,把若干各8 GPU組網(wǎng)連接在一起。這對大模型訓(xùn)練特別有用,大模型訓(xùn)練里面一個(gè)概念 模型并行,模型并行(Model Parallel, MP)通常是指在多個(gè)計(jì)算節(jié)點(diǎn)上分布式地訓(xùn)練一個(gè)大型的神經(jīng)網(wǎng)絡(luò)模型,其中每個(gè)節(jié)點(diǎn)負(fù)責(zé)模型的一部分。這種方法主要用于解決單個(gè)計(jì)算節(jié)點(diǎn)無法容納整個(gè)模型的情況。模型并行可以進(jìn)一步細(xì)分為幾種策略,PP和TP。每個(gè)PCIe Switch DSP里面還有另外兩個(gè)x16 PCIe lane用來接入GPU到HGX,這個(gè)是CPU-GPU的通信,主要是CPU對GPU進(jìn)行控制流的操作,類似大模型的訓(xùn)練都在HGX 里面的GPU執(zhí)行了,但是開始進(jìn)行初始化和一些數(shù)據(jù)準(zhǔn)備操作以及命令配置等是由CPU 代表操作系統(tǒng)模型框架來下發(fā)到GPU的,所以還是需要通信的,只不過這個(gè)通信沒有GPU-GPU之前的數(shù)據(jù)量那么大。每個(gè)PCIe SW 還有一個(gè)8lane 是留給2 x NVMe SSD 使用,總共支持64lane ,8個(gè)NVMe SSD 用來進(jìn)行本地存儲(chǔ)。
3. 兩側(cè)各可以配置一個(gè)PCIe Switch這兩個(gè)一個(gè)是default 一個(gè)是可選,用來做CPU 的網(wǎng)絡(luò)通信使用,即這兩個(gè)CPU和其他的Server 之間的通信,可以配置為NIC 或者DPU 做NVMe RoceV2 協(xié)議卸載,可以實(shí)現(xiàn)GDS和存算分離的存儲(chǔ)集群通過 GDS( GPUDriect Stroage )連接。另外兩個(gè)x16的PCIE 再可以接8個(gè)NVme 加上PCIe Switch board 的8個(gè)系統(tǒng)總共支持18個(gè)NVME U.2.
來源: