國産AI芯片風口大爆發,華爲、摩爾線程跻身第一梯隊

王曉川 2024-05-09 09:42:41

SORA、ChatGPT的爆火在全球範圍內引發了一場AI“狂飙”,不僅讓全球點燃了百模大戰,也引爆了AI芯片的風口。由于進口算力受限,大模型已對國産AI算力提出了千卡甚至萬卡集群的需求。

不僅需求火爆,國家也積極扶持AI芯片落地政策。北京市在4月底剛剛出台《北京市算力基礎設施建設實施方案(2024-2027年)》,對企業擴大資金的舉措,意在提升人工智能算力券政策效能,鼓勵企業用好智能算力資源,加快推動大模型賦能行業。

政策翻譯過來,主要有2個核心要點:

對新增的采購國産“自主可控”AI芯片算力的公司(比如大模型公司),北京市給予投資額支持(補貼)

對存量的AI算力數據中心,主動進行國産芯片“綠色改造”,北京市給予投資額支持(補貼)

在中國半導體受到不公正的産業限制下,爲立足于國家安全及自主可控,國産AI芯片無疑成爲最佳替代選擇,處于市場和政策的雙重風口下。

AI芯片風口,華爲、摩爾線程暫時領跑

如果說2023年是AI大模型市場的百“模”爭鳴,那麽2024年則將帶動AI芯片的風口爆發。國內外廠商頻頻發力,不僅有亞馬遜、微軟、華爲、百度、阿裏等下遊客戶推動自研芯片開發,國內AI芯片也百花齊放,華爲、摩爾線程、寒武紀、壁仞、天數智芯等也在各施奇招,爭奪登上前往AI時代的一張新船票。

目前而言,國産AI芯片大體呈現了三個梯隊的格局。以産品性能、量産規模、擁有集群能力且已有場景落地等要素來考量,華爲、海光、寒武紀、摩爾線程等公司可歸爲國産AI芯片的頭部梯隊。目前國內只有華爲和摩爾線程,可以實現國産化的千卡集群,其它廠商還在百卡階段徘徊。而一些起步不久的初創類芯片廠商,由于還在驗證或量産階段,産品仍在打磨階段。

誇娥突破國産AI智算集群的4大難關

隨著百億、千億參數大模型的出現,AI算力已戰至千卡、甚至萬卡集群的新階段,但是在落地時,千卡集群面臨著大規模內網互聯、存儲高速吞吐、模型優化服務、平台生態服務等技術瓶頸。

中國工程院院士鄭緯民在4月28日舉行的“中國移動算力網絡大會”上強調,構建基于國産AI卡的萬卡大模型訓練平台,要考慮網絡平衡設計、體系結構感知的內存平衡設計、IO子系統平衡設計,需要支持檢查點,增加SSD。

摩爾線程的誇娥千卡集群就在努力打破技術瓶頸,實現從GPU顯卡到服務器,最後組成集群,包括了硬件的網絡、存儲、軟件,再到大模型調度,是一個全棧式的工程、端到端的交鑰匙方案。

大模型客戶對千卡集群的算力利用率、穩定性、可擴展性和兼容性的需求最爲突出。這也成爲千卡集群建設要邁過的四道難關,摩爾線程爲此做足了准備。

1、軟硬協同,算力利用率提升超50%

算力利用率(MFU)是衡量智算中心能力的一個核心指標。

摩爾線程采用軟硬協同設計、端到端的並行策略,使得綜合調優下算力利用率(MFU)提升幅度超過50%。誇娥通過集群通訊庫算法、網絡拓撲、硬件規格合理設計和配置,優化集群匹配度;技術上,誇娥集群通訊算法網絡拓撲綜合利用了MTLink和PCIe,使得通訊性能提升一倍。

2、從芯片出廠開始,保證穩定可靠性

對于分布式訓練而言,一張卡壞了,整個訓練都會停掉。所以,在做千卡集群或者更大規模集群時,它對整個集群的可靠性要求會更高。

摩爾線程從卡的出廠開始保證算力質量,做了很多嚴格的測試;開發了集群系統監控和診斷工具,幫助篩選和快速定位到有問題的卡和服務器,可以自動恢複和硬件替換;做了checkpoint加速,寫的時間從10分鍾降到秒級,讀的速度從40分鍾降到2分鍾;判斷訓練異常,系統自動重新拉起。

3、提高可擴展性,線性加速比達91%

算力集群規模達到千卡,更是一個可擴展性的挑戰。誇娥支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在內的業界主流分布式框架。

同時,誇娥結合了摩爾線程顯卡硬件能力,以軟硬一體的方式,做了系統級優化,包括從硬件、軟件再到集群,外加雲的全棧,不是單點突破,是一種全局綜合方案,從而使得線性加速比達到91%。

4、零成本CUDA代碼移植,兼容多個主流大模型

基于摩爾線程代碼移植Musify工具,可快速將現有的主流遷移至MUSA,零成本完成CUDA代碼自動移植,之後用戶短時間內即可完成熱點分析和針對性優化,大大縮短遷移優化的周期。此外,借助摩爾線程元計算統一系統架構MUSA,用戶可以複用PyTorch開源社區的大量模型算子,降低開發成本。

總的來說,國産AI算力正處在市場和政策的雙重風口,國産化替代勢在必行。不過,國産化算力仍有技術、生態等多方面挑戰,華爲昇騰、摩爾線程誇娥只是邁出了從“建起來”到“用起來”的第一步跨越,仍需長期追趕世界先進水平。

0 阅读:38

王曉川

簡介:網羅新資訊,宅家知天下!