AI服務器的變革風暴,揭秘互連芯片技術的創新與突破

改變AI服務器：互連芯片技術創新和突破

TrendForce數據顯示，AI服務器出貨量達130,000台，占全球服務器市場的1%。微軟、Meta、百度、字節跳動等巨頭紛紛推出生成式AI産品，推動訂單飙升。預測顯示，ChatGPT等應用持續驅動需求，預計2023至2027年AI服務器市場將以12.2%的CAGR高速增長。AI服務器發展勢頭強勁，備受矚目。

DGX H100：開拓AI領域的先驅性進展

DGX H100是英偉達（NVIDIA） DGX系統于2022年發布的最新版本，也是英偉達（NVIDIA） DGX SuperPOD的核心。該系統采用8個H100 GPU和6400億個晶體管，其AI性能是上一代的6倍，尤其是在新的FP8精度方面表現出色。

此外，DGX服務器還可提供900GB/s帶寬，彰顯了AI能力的顯著提升。DGX H100服務器采用IP網卡，既可作爲網卡，又可作爲PCIe擴展交換機，符合PCIe 5.0標准。此外服務器還包括CX7，以2張卡的形式提供，每張卡含有4個CX7芯片，並提供2個800G OSFP光模塊端口。

對于GPU互連（H100），NVSwitch芯片起到關鍵作用。每個GPU向外擴展18個NVLink，實現每個鏈路雙向帶寬達到50GB/s，總共達到900GB/s的雙向帶寬。這些帶寬分布在4個內置的NVSwitch芯片上，每個NVSwitch對應4-5個OSFP光模塊。每個OSFP光模塊使用8個光通道，傳輸速率爲100Gbps/通道，因此總速率達到800Gbps，實現高速數據傳輸。CPU、GPU等組件互連：采用PCIe交換機和重定時芯片進行連接PCIe交換機技術的演進：克服通道限制

PCIe交換機（也稱爲PCIe集線器）是一個關鍵組件，用于通過PCIe通信協議連接PCIe設備。它通過擴展和聚合功能，使多個設備能夠連接到1個PCIe端口，可在很大程度上克服PCIe通道數量局限的問題。

目前，PCIe交換機廣泛應用于傳統存儲系統，並在各種服務器平台上越來越受歡迎，爲系統內的數據傳輸速率提供顯著改善。隨著時間的推移，PCIe總線技術的進展意味著PCIe交換機速率的逐漸增加。

最初由英特爾于2001年作爲第三代I/O技術以"3GIO"的名義推出，經過PCI-SIG的評估後在2002年更名爲"PCI Express"。2003年正式發布的PCIe 1.0成爲一個重要的裏程碑，支持每通道傳輸速率爲250MB/s，總傳輸速率爲2.5 GT/s。在2022年，PCI-SIG正式發布了PCIe 6.0規範，將總帶寬提升至64 GT/s。PCIe重定時行業的主導趨勢

在AI服務器中，爲了確保GPU和CPU連接時的信號質量，至少需要使用一個重定時芯片。一些AI服務器選擇使用多個重定時芯片，比如Astera Labs就在其AI加速器配置中集成了4個重定時芯片。目前，PCIe重定時市場具有巨大的潛力，有三家領先品牌和許多潛在競爭對手。目前，Parade Technologies、Astera Labs和瀾起科技是這個蓬勃發展市場的主要參與者，占據重要的地位。

值得注意的是，作爲PCIe部署的早期使用者，瀾起科技是中國內地唯一能夠大規模生産PCIe 4.0重定時的供應商。此外，瀾起科技在PCIe 5.0重定時的開發方面也取得了穩步進展。此外，Renesas、TI和微芯科技等芯片制造商也積極參與PCIe重定時産品的開發。根據官網站信息，Renesas提供2款PCIe 3.0重定時産品，分別是89HT0816AP和89HT0832P。

TI提供了一款16Gbps 8通道PCIe 4.0重定時産品- DS160PT801。此外，微芯科技在2020年11月推出了XpressConnect系列的重定時芯片，旨在實現PCIe 5.0的32GT/s速率。

GPU之間的互連：NVLink和NVSwitch

全球主要芯片制造商非常重視推廣高速接口技術。其中，英偉達（NVIDIA）的NVLink、AMD的Infinity Fabric和英特爾的CXL都做出了重要貢獻。NVLink是由英偉達（NVIDIA）開發的高速互連技術。它旨在加速CPU與GPU、GPU與GPU之間的數據傳輸速率，提升系統性能。

從2016年到2022年，NVLink經曆多次升級，已經發展到第四代。2016年，英偉達（NVIDIA）配合Pascal GP100 GPU的發布推出第一代NVLink。NVLink采用了高速信號互連（NVHS）技術，主要用于GPU之間和GPU與CPU之間的信號傳輸。GPU之間通過差分阻抗電信號以NRZ（不歸零）形式進行編碼傳輸。第一代NVLink單鏈路實現了40GB/s的雙向帶寬，單個芯片可以支持4個鏈路，總雙向帶寬達到160GB/s。NVLink不同階段的發展

NVLink技術經曆多次叠代，推動了高速互連的創新。2017年，基于Volta架構推出第二代NVLink。它實現每個鏈路50GB/s的雙向帶寬，每個芯片支持6個鏈路，總雙向帶寬達到300GB/s。

2020年，基于Ampere架構的第三代發布，總雙向帶寬達到600GB/s。在2022年，基于Hopper架構的第四代推出。這一叠代轉向使用PAM4調制的電信號，每個鏈路保持50GB/s的雙向帶寬，每個芯片支持18個鏈路，總雙向帶寬達到900GB/s。

NVSwitch的發展推動實現高性能GPU互連

在2018年，英偉達（NVIDIA）推出NVSwitch的最初版本，爲增強帶寬、減少延遲和促進服務器內多個GPU之間的通信提供解決方案。第一代NVSwitch采用TSMC的12nm FinFET工藝制造，擁有18個NVLink 2.0接口。通過部署12個NVSwitch，1個服務器可以容納和優化16個V100 GPU之間的互連速率。目前，NVSwitch已經發展到第三代，采用TSMC的4N工藝制造。每個NVSwitch芯片配備了64個NVLink 4.0端口，使GPU之間的通信速率達到了900GB/s。通過NVLink Switch互連的GPU可以集體作爲一個具有深度學習能力的高性能加速器運行。總結

PCIe芯片、重定時芯片和NVSwitch等接口互連芯片技術的發展很大程度上增強CPU和GPU之間以及GPU之間的互動能力。這些技術的相互作用凸顯了人工智能服務器的動態景觀，爲高性能計算的進步做出貢獻。

-對此，您有什麽看法見解？-

-歡迎在評論區留言探討和分享。-

文采家

AI服務器的變革風暴,揭秘互連芯片技術的創新與突破

薪科技快評