聯想萬全異構智算平台發布!聯想陳振寬:聚焦三大領域推出五大技術創新

智東西 2024-04-18 22:14:43

作者 | 三北

編輯 | 漠影

智東西4月18日報道,今日,在上海舉辦的聯想創新科技大會上,聯想集團副總裁、聯想中國基礎設施業務群總經理陳振寬分享了聯想在AI基礎設施領域的戰略布局、核心能力與技術創新成果。

▲聯想集團副總裁、聯想中國基礎設施業務群總經理陳振寬

據陳振寬分享,聯想AI基礎設施將聚焦三大領域創新:超強算力、核心算法和液冷創新;面向這三大領域聯想已積累了八項核心能力,包括高性能、高可靠性以及液冷技術等。

陳振寬重點分享了針對AI 2.0時代的五大創新技術,包括:算力匹配魔方、GPU內核態虛擬化、聯想集合通信算法庫、AI高效斷點續訓技術、AI與HPC集群超級調度器。

此外,陳振寬在大會上正式發布了聯想萬全異構智算平台,構建AI 2.0時代聯想中國基礎設施戰略框架的核心。聯想中國基礎設施業務正以“一橫五縱”戰略框架,通過構建布局完整、穩定高效的AI導向的基礎設施,爲企業智能化轉型打造堅實可靠的智算底座。

一、聚焦三大領域,應對AI 2.0時代的算力挑戰

過去40年,在通用計算領域,聯想的x86服務器可靠性連續9年第一,截至2023年底已斬獲536項性能世界紀錄;在科學計算領域,聯想9次實現中國HPC TOP 100 NO.1,助力中國在科學計算、仿真、氣象等前沿領域的創新突破;聯想基于中國特色需求設計了完整AI基礎設施組合,助力中國客戶贏得AI 1.0時代的發展。

在AI 2.0時代,AI大模型具備超強的泛化、生成能力,促使人工智能進入更廣的應用場景和更深的業務流程中。陳振寬提到,在制造、金融、醫療、交通、能源、政府等各行業中,大模型在産品設計、金融評估、辦公輔助、自動駕駛、能源調配等方方面面,顛覆式地改變生産方式,極速促進生産效率。

然而,陳振寬也認爲,隨著AI 2.0時代對于AI算力的需求快速增加,算力使用者在使用AI基礎設施的時候正在面臨巨大的挑戰,主要包括以下四大方面:

如何選擇和匹配算力是第一大挑戰。陳振寬指出,目前已經有五種以上主流算法框架和十種以上算子庫來支持不同的應用場景。同時,不同類型的GPU、服務器、存儲和網絡組成了上百種不同的集群配置。場景、算法和集群之間的選擇和驗證,不但技術繁雜而且周期長。

其次是如何減少故障中斷時間。陳振寬強調,目前千卡集群每月至少有15次的故障斷點。在常規的斷點續訓手段下,每次恢複訓練需要幾個小時,産生的額外費用超過百萬元。隨著AI集群規模從千卡到萬卡,故障中斷次數及恢複所需時間呈指數級增長。

第三大挑戰是如何改善AI算力利用率。陳振寬引用行業通用的指標MFU(模型算力利用率)來作闡述,他指出當前業內MFU普遍在30%左右,頂尖的集群利用率也只能做到50%。行業需要解決GPU卡利用率,集群通訊效率,AI故障恢複,算法匹配度等系統性問題。

第四大挑戰是如何突破散熱瓶頸,降低數據中心PUE。陳振寬指出,在算力升級帶來的能耗飙升的情況下,如何通過先進的散熱技術,突破芯片在系統中的散熱瓶頸,同時提升能效,降低數據中心PUE。

爲解決上述用戶面臨的挑戰,陳振寬強調,聯想AI基礎設施持續聚焦三大領域,實現科技創新。

首先是超強算力,智能匹配:爲用戶匹配經過驗證優化的最佳算力;其次是核心算法,極致提效:以核心算法挖掘算力潛力,提升計算效率。第三,液冷創新,算力綠化:以先進的液冷技術幫助用戶節能增效,並突破芯片散熱的瓶頸。

二、公布五大技術創新,首發萬全異構智算平台

“聯想在這三大領域裏面長期耕耘,積累了八項核心能力。”陳振寬重點介紹了聯想爲AI 2.0時代帶來的五大技術創新:

第一,用戶智能匹配算力的算力匹配魔方。基于海量的硬件評測和AI算子算法集成工作,聯想構建了AI場景與算法與集群硬件三者匹配關系的算力魔方知識庫,來標識AI場景、算法、集群配置這三者的匹配關系。用戶只需輸入場景和數據,算力魔方即可自動加載最優算法,並調度最佳集群配置。

▲陳振寬介紹聯想五大技術創新

第二,逼近GPU算力極限的GPU內核態虛擬化。聯想研究院開發了在GPU驅動層的內核態虛擬化算法,新算法可以將虛擬化造成的GPU算力損耗降到5%以下,極致情況可以降到1%以下,大幅提升GPU利用率。

第三,提升網絡通信效率的聯想集合通信算法庫。可實現對多類型網絡拓撲的實時感知,並以先進算法使數據在拓撲中以最佳路徑進行傳輸。以千卡規模集群爲例,采用集成了聯想集合通信庫的聯想異構智算平台做管理調度,可使網絡通信效率提升超10%,並且集群規模越大,效果越顯著。

第四,減少AI訓練中斷時間的AI高效斷點續訓技術。聯想異構智算平台對大量的AI訓練故障進行了特征采樣,開發了預測AI訓練故障的AI模型,實現“用AI來預測AI”。在斷點前提前優化備份,由此能將斷點續訓恢複時間縮減到分鍾級,大幅提升了訓練效率,以千卡集群爲例,每月可節約上百萬元算力費用支出,讓寶貴的AI算力持續可用。

第五,AI與HPC集群超級調度器。這是針對混合集群做資源共享的前沿技術。聯想AI與HPC超級調度器架構于AI和HPC調度之上,能夠切換AI和HPC的調度溝通,能全局監控任務和動態共享資源,使得用戶可以充分利用基礎設施的每一分算力。

除了公布以上五大技術創新,陳振寬還在大會上正式發布了“聯想萬全異構智算平台”。他表示,聯想萬全異構智算平台是AI 2.0時代聯想中國基礎設施戰略框架的核心,它融合了聯想的五大技術創新,是AI 2.0時代大模型訓練和推理的基礎設施底座。

結語:異構智算,釋放AI基礎設施新動能

“在人工智能1.0時代,基于全球智慧和本地創新,聯想打造了全面的基礎設施産品組合,包括計算、存儲、網絡、邊緣和超融合,並在通用計算、科學計算和AI計算等不同算力領域獲得大量的最佳實踐,幫助千行百業的客戶取得成功。”陳振寬說,如今大模型開啓的AI 2.0時代已經邁著大步朝我們走來,我們需要重塑過去積累的技術,來升級聯想基礎設施。

對于未來的研究方向,陳振寬透露,聯想將挑戰超過萬卡規模集群的通訊算法優化,挑戰秒級的斷點續訓,深入研究相變式液冷技術,布局模塊化液冷數據中心。這些技術幫助AI算力朝著更強大、更穩定、更高效和更綠色的方向,高質量發展。

0 阅读:7

智東西

簡介:智能産業第一媒體!聚焦智能變革,服務産業升級。