Meta最新AI芯片亮相性能提升300%

Hawk Insight 2024-04-12 10:22:48

4月10日,Meta宣布推出新一代訓練和推理加速器(MTIA)。MTIA是Meta專爲AI工作負載而設計的定制芯片系列。

去年5月,Meta推出了MTIA v1,爲該公司的第一代人工智能推理加速器。MTIA v1旨在與Meta的高質量推薦模型完美配合。該系列芯片可以幫助提高訓練效率,並使實際的推理任務變得更容易。

Meta表示,新一代MTIA的計算和內存帶寬比以前的解決方案增加了一倍多,同時保持了與工作負載的緊密聯系。

據官方介紹,新一代MTIA由8x8網格的處理元件(PE)組成。這些PE大大提高了密集計算性能(是 MTIA v1 的 3.5 倍)和稀疏計算性能(提高了7倍)。新一代MTI設計還采用改進的片上網絡(NoC)架構,使帶寬加倍,並允許以低延遲在不同PE之間進行協調。

爲了支持新一代芯片,Meta還開發了一個大型機架式系統,最多可容納72個加速器。它由三個機箱組成,每個機箱包含12個板,每個板包含兩個加速器。

此外,Meta還將加速器之間以及主機與加速器之間的結構升級到PCIe Gen5,以提高系統的帶寬和可擴展性。

兩代MTIA芯片對比來看,新一代MTIA芯片采用的是台積電5nm工藝技術,擁有256MB的片上內存,頻率爲1.3GHz,而MTIA v1的片上內存爲128MB,頻率爲800GHz,采用的是台積電7nm工藝技術。

新一代MTIA芯片的平均頻率達到1.35GHz,比MTIA v1的800MHz要高出不少,但同時它消耗的功率(90W)也要比MTIA v1(25W)高出三倍多。

Meta表示,早期結果表明,在評估的四個關鍵模型中,新一代MTIA芯片的性能比第一代芯片提高了3倍。在平台層面,通過2倍的設備數量和強大的雙插槽CPU,Meta的模型服務吞吐量提高了6倍,每瓦性能比第一代MTIA系統提高了1.5倍。

Meta稱:“事實證明,它(指新一代MTIA)在針對特定工作負載提供性能和效率的最佳組合方面與商用GPU具有高度互補性。”

Meta指出,MTIA系列芯片將成爲公司的一項長期投資,這些芯片旨在爲Meta獨特的人工智能工作負載構建和擴展最強大、最高效的基礎設施。

Meta還表示,公司內部正在設計定制芯片,以便與其現有的基礎設施以及將來可能利用的新的、更先進的硬件(包括下一代 GPU)配合工作。“實現我們對定制芯片的雄心意味著不僅要投資于計算芯片,還要投資于內存帶寬、網絡和容量以及其他下一代硬件系統。”

不過,Meta並未明確指出該公司目前是否在使用新一代MTIA來處理生成式AI訓練工作負載。Meta僅表示,其目前“正在進行多個計劃”,以期擴大MTIA的範圍,包括對GenAI工作負載的支持。

去年10月,Meta的首席執行官紮克伯格就表示,“人工智能將成爲我們2024年最大的投資領域。”並表示,該公司將斥資高達350億美元用于支持人工智能的基礎設施(包括數據中心和硬件)的建設。

雖然Meta野心勃勃,但是在自研芯片方面,Meta面臨的來自同行的壓力並不小。

去年11月,微軟就推出了兩款自研AI芯片——Azure Maia 100及Azure Cobalt 100,用以強化Azure AI和Microsoft Copilot服務。

去年底,谷歌在推出新Gemini大語言模型(LLM)的同時,還發布了用于訓練人工智能模型的第五代定制芯片TPU v5p。谷歌表示,TPU v5p可以訓練像GPT3-175B這樣的LLM。在本周,谷歌已經開始向其谷歌雲客戶推出TPU v5p。目前,Meta還沒有MTIA系列芯片量産或推向客戶的消息。

0 阅读:42

Hawk Insight

簡介:思考多一點,洞見遠一點