AI服務器的變革風暴,揭秘互連芯片技術的創新與突破

薪科技快評 2024-05-14 09:10:42

改變AI服務器:互連芯片技術創新和突破

TrendForce數據顯示,AI服務器出貨量達130,000台,占全球服務器市場的1%。微軟、Meta、百度、字節跳動等巨頭紛紛推出生成式AI産品,推動訂單飙升。預測顯示,ChatGPT等應用持續驅動需求,預計2023至2027年AI服務器市場將以12.2%的CAGR高速增長。AI服務器發展勢頭強勁,備受矚目。

DGX H100:開拓AI領域的先驅性進展

DGX H100是英偉達(NVIDIA) DGX系統于2022年發布的最新版本,也是英偉達(NVIDIA) DGX SuperPOD的核心。該系統采用8個H100 GPU和6400億個晶體管,其AI性能是上一代的6倍,尤其是在新的FP8精度方面表現出色。

此外,DGX服務器還可提供900GB/s帶寬,彰顯了AI能力的顯著提升。DGX H100服務器采用IP網卡,既可作爲網卡,又可作爲PCIe擴展交換機,符合PCIe 5.0標准。此外服務器還包括CX7,以2張卡的形式提供,每張卡含有4個CX7芯片,並提供2個800G OSFP光模塊端口。

對于GPU互連(H100),NVSwitch芯片起到關鍵作用。每個GPU向外擴展18個NVLink,實現每個鏈路雙向帶寬達到50GB/s,總共達到900GB/s的雙向帶寬。這些帶寬分布在4個內置的NVSwitch芯片上,每個NVSwitch對應4-5個OSFP光模塊。每個OSFP光模塊使用8個光通道,傳輸速率爲100Gbps/通道,因此總速率達到800Gbps,實現高速數據傳輸。CPU、GPU等組件互連:采用PCIe交換機和重定時芯片進行連接PCIe交換機技術的演進:克服通道限制

PCIe交換機(也稱爲PCIe集線器)是一個關鍵組件,用于通過PCIe通信協議連接PCIe設備。它通過擴展和聚合功能,使多個設備能夠連接到1個PCIe端口,可在很大程度上克服PCIe通道數量局限的問題。

目前,PCIe交換機廣泛應用于傳統存儲系統,並在各種服務器平台上越來越受歡迎,爲系統內的數據傳輸速率提供顯著改善。隨著時間的推移,PCIe總線技術的進展意味著PCIe交換機速率的逐漸增加。

最初由英特爾于2001年作爲第三代I/O技術以"3GIO"的名義推出,經過PCI-SIG的評估後在2002年更名爲"PCI Express"。2003年正式發布的PCIe 1.0成爲一個重要的裏程碑,支持每通道傳輸速率爲250MB/s,總傳輸速率爲2.5 GT/s。在2022年,PCI-SIG正式發布了PCIe 6.0規範,將總帶寬提升至64 GT/s。PCIe重定時行業的主導趨勢

在AI服務器中,爲了確保GPU和CPU連接時的信號質量,至少需要使用一個重定時芯片。一些AI服務器選擇使用多個重定時芯片,比如Astera Labs就在其AI加速器配置中集成了4個重定時芯片。目前,PCIe重定時市場具有巨大的潛力,有三家領先品牌和許多潛在競爭對手。目前,Parade Technologies、Astera Labs和瀾起科技是這個蓬勃發展市場的主要參與者,占據重要的地位。

值得注意的是,作爲PCIe部署的早期使用者,瀾起科技是中國內地唯一能夠大規模生産PCIe 4.0重定時的供應商。此外,瀾起科技在PCIe 5.0重定時的開發方面也取得了穩步進展。此外,Renesas、TI和微芯科技等芯片制造商也積極參與PCIe重定時産品的開發。根據官網站信息,Renesas提供2款PCIe 3.0重定時産品,分別是89HT0816AP和89HT0832P。

TI提供了一款16Gbps 8通道PCIe 4.0重定時産品- DS160PT801。此外,微芯科技在2020年11月推出了XpressConnect系列的重定時芯片,旨在實現PCIe 5.0的32GT/s速率。

GPU之間的互連:NVLink和NVSwitch

全球主要芯片制造商非常重視推廣高速接口技術。其中,英偉達(NVIDIA)的NVLink、AMD的Infinity Fabric和英特爾的CXL都做出了重要貢獻。NVLink是由英偉達(NVIDIA)開發的高速互連技術。它旨在加速CPU與GPU、GPU與GPU之間的數據傳輸速率,提升系統性能。

從2016年到2022年,NVLink經曆多次升級,已經發展到第四代。2016年,英偉達(NVIDIA)配合Pascal GP100 GPU的發布推出第一代NVLink。NVLink采用了高速信號互連(NVHS)技術,主要用于GPU之間和GPU與CPU之間的信號傳輸。GPU之間通過差分阻抗電信號以NRZ(不歸零)形式進行編碼傳輸。第一代NVLink單鏈路實現了40GB/s的雙向帶寬,單個芯片可以支持4個鏈路,總雙向帶寬達到160GB/s。NVLink不同階段的發展

NVLink技術經曆多次叠代,推動了高速互連的創新。2017年,基于Volta架構推出第二代NVLink。它實現每個鏈路50GB/s的雙向帶寬,每個芯片支持6個鏈路,總雙向帶寬達到300GB/s。

2020年,基于Ampere架構的第三代發布,總雙向帶寬達到600GB/s。在2022年,基于Hopper架構的第四代推出。這一叠代轉向使用PAM4調制的電信號,每個鏈路保持50GB/s的雙向帶寬,每個芯片支持18個鏈路,總雙向帶寬達到900GB/s。

NVSwitch的發展推動實現高性能GPU互連

在2018年,英偉達(NVIDIA)推出NVSwitch的最初版本,爲增強帶寬、減少延遲和促進服務器內多個GPU之間的通信提供解決方案。第一代NVSwitch采用TSMC的12nm FinFET工藝制造,擁有18個NVLink 2.0接口。通過部署12個NVSwitch,1個服務器可以容納和優化16個V100 GPU之間的互連速率。目前,NVSwitch已經發展到第三代,采用TSMC的4N工藝制造。每個NVSwitch芯片配備了64個NVLink 4.0端口,使GPU之間的通信速率達到了900GB/s。通過NVLink Switch互連的GPU可以集體作爲一個具有深度學習能力的高性能加速器運行。總結

PCIe芯片、重定時芯片和NVSwitch等接口互連芯片技術的發展很大程度上增強CPU和GPU之間以及GPU之間的互動能力。這些技術的相互作用凸顯了人工智能服務器的動態景觀,爲高性能計算的進步做出貢獻。

-對此,您有什麽看法見解?-

-歡迎在評論區留言探討和分享。-

0 阅读:28

薪科技快評

簡介:薪科技評說,發現技術的點滴,記錄科學的飛躍!