熱門搜索: 長沙惠普服務器長沙華三服務器長沙曙光服務器長沙浪潮服務器長沙HPE服務器

最新資訊

您所在的位置：首頁 > 新聞中心 > 解決方案

超微GPU Server H100/H200 系統(tǒng)介紹

來源：m.yinuozhineng.com 發(fā)布時間：2024/10/28 10:47:44

嚴格意義上HGX里面有8個GPU，每個GPU為一個Module 這個才叫做模組，HGX 其實是由8個GPU 模組和4個NVLInk Switch組成，下圖所示，就是每個上圖的SINK 下面的GPU模組。

放大的圖：

嚴格意義的模組中間就是H100/A100這種GPU，通過SXM SOCKET 接口和GPU主板連接。

然后下圖是8個GPU 模組通過4 個NVLINK SWITCH 連接，組成一個8GPU的“大號”GPU。

在H100 SXM GPU上加裝散熱器后，便構成了HGX，這是由英偉達設計的一種配置，作為直接供應給服務器制造商的“最小單元”。需要注意的是，HGX本身并不能單獨運行，因為它本質上是一個“大型邏輯GPU”，必須與服務器平臺（即服務器主體）結合使用，才能構成一個完整的GPU服務器。這種完整的服務器便是NVIDIA DGX，一款由英偉達品牌提供的GPU服務器。除了核心的HGX模塊之外，DGX還配備了服務器所需的其他組件，如機箱、主板、電源、CPU、內存、存儲設備及網絡接口卡等。盡管在功能和結構上，NVIDIA DGX與其他服務器制造商基于HGX模塊構建的GPU服務器沒有顯著差異，但由于其高昂的價格以及可能與合作伙伴產生市場競爭的考慮，NVIDIA通常不會廣泛推廣DGX產品，除非是針對特定客戶群體。事實上，NVIDIA DGX更多地出現在每年GTC大會等場合，用于展示新的GPU技術，例如直接贈送給像ChatGPT實驗室這樣的研究機構或在發(fā)布會上向客戶展示。這一策略既體現了NVIDIA希望通過DGX來吸引關注和宣傳新技術的意圖，同時也避免了與生態(tài)系統(tǒng)中的合作伙伴發(fā)生直接競爭。

因此，從某種程度上講，DGX可以被視為一種“概念車型”的存在，主要用于技術和市場的展示目的，而非大規(guī)模商業(yè)銷售。出于對合作伙伴關系的維護，NVIDIA在多數情況下并不在美國及其他地區(qū)廣泛銷售DGX。鑒于此，為了更貼合實際應用情況，我們將以超微公司的一款SYS-821GE-TNHR AI服務器為例進行介紹，這款服務器在設計和性能上與DGX有著相似之處。

接下來就是這個系統(tǒng)貴的部分HGX的俯視圖, 主要由8個H100 和4個NVLINK Switch組成,號稱占到整個系統(tǒng)的90%，這個就是Intel 的股票為啥腰斬，而NVIDIA的股票狂漲的原因。AIGC這波操作，Intel幾乎沒有賺到多少錢 ,一個系統(tǒng)就賣2個CPU 估計1%都不到，但是8個GPU占到整個系統(tǒng)的90%成本。

系統(tǒng)架構圖：

觀看了整個機器的外部和內部結構，在這個基礎上理解系統(tǒng)架構圖就比較容易

1. 上面的motherboard 主板，主板主要由CPU 內存組成，兩個CPU SOCKET 通過4個UPI LINK連接，CPU通過DMI連接PCH (南橋，Intel 又叫 Platform Controller Hub) 再連接BMC和2個M.2 Nvme 應該裝OS使用，2個M.2 NVMe 可以組成RAID 1.

2. 中間底部的表示的為上面介紹的PCIe Switch Board, 每個CPU因為是Intel 第4代/5代 CPU 可以支持80個PCIe Lane ,所以總共可以支持160Lane，連接到6個PCIe Switch ,其中4個PCIe Switch 是用來和HGX 上的GPU通信的，每個PCIe SW上端USP(Upstream Port) 32 PCIe Lane ，下端DSP(Downstream Port) 72 PCIe Lane 總共104 Lane。DSP 下端每個PCIe Switch可以接兩張x16網卡，總共8張網卡，假設每個網卡可以提供200Gb/s的帶寬, 則可以通過這些網卡實現1.6T Gb/s的跨Node GPU-GPU帶寬,使用GPUDirect RDMA 可以實現GPU跨Node 的直接連接而無需CPU介入，從而實現Server 和 Server之間的8 GPU通訊，把若干各8 GPU組網連接在一起。這對大模型訓練特別有用，大模型訓練里面一個概念模型并行，模型并行（Model Parallel, MP）通常是指在多個計算節(jié)點上分布式地訓練一個大型的神經網絡模型，其中每個節(jié)點負責模型的一部分。這種方法主要用于解決單個計算節(jié)點無法容納整個模型的情況。模型并行可以進一步細分為幾種策略，PP和TP。每個PCIe Switch DSP里面還有另外兩個x16 PCIe lane用來接入GPU到HGX，這個是CPU-GPU的通信，主要是CPU對GPU進行控制流的操作，類似大模型的訓練都在HGX 里面的GPU執(zhí)行了，但是開始進行初始化和一些數據準備操作以及命令配置等是由CPU 代表操作系統(tǒng)模型框架來下發(fā)到GPU的，所以還是需要通信的，只不過這個通信沒有GPU-GPU之前的數據量那么大。每個PCIe SW 還有一個8lane 是留給2 x NVMe SSD 使用，總共支持64lane ,8個NVMe SSD 用來進行本地存儲。

3. 兩側各可以配置一個PCIe Switch這兩個一個是default 一個是可選，用來做CPU 的網絡通信使用,即這兩個CPU和其他的Server 之間的通信，可以配置為NIC 或者DPU 做NVMe RoceV2 協(xié)議卸載，可以實現GDS和存算分離的存儲集群通過 GDS( GPUDriect Stroage )連接。另外兩個x16的PCIE 再可以接8個NVme 加上PCIe Switch board 的8個系統(tǒng)總共支持18個NVME U.2.

來源： stephenxi 計算機體系結構及底層原理公眾號

上一條：英偉達主流GPU參數速查表10.31 下一條：服務器產品的L6和L10是什么？

免费人成在线观看|亚洲中文字幕无线无码|伊人久久精品亚洲午夜|欧美韩国人成网站中文字幕|亚精区区一区区二在线观看|99精品66AV99精品|亚洲精品无码久久久久久不卡|精品一区二区三区av天堂色欲

新聞導航

推薦產品

浪潮NF5688 G8服務器

浪潮NF5468G7服務器

最新資訊

免费人成在线观看|亚洲中文字幕无线无码|伊人久久精品亚洲午夜|欧美韩国人成网站中文字幕|亚精区区一区区二在线观看|99精品66AV99精品|亚洲精品无码久久久久久不卡|精品一区二区三区av天堂色欲

新聞導航

推薦產品

浪潮NF5688 G8服務器

浪潮NF5468G7服務器

最新資訊

相關文章

相關產品