異構智算亮劍,緣何聯想ISG的底氣滿滿?

阿明觀察 2024-04-28 08:27:31

【全球雲觀察 | 科技熱點關注】

對于聯想而言,2024年,是一個特別之年。

隨著大模型本身發展迅猛,促使大模型進化需要更加強勁的AI算力來支撐。在智算釋放AI基礎設施的大趨勢上,用戶端正在遭遇場景適配性、算力多元化、資源利用率以及雙碳綠色發展等諸多挑戰。

計算力就是生産力,自2020年國家將智能計算中心納入新基建範疇後,全國各地掀起了智算中心建設高潮。從而,智能算力成爲發展焦點,智算供應商之間的競爭自然也越來越激烈。

來自用戶端AI算力挑戰的刺激,以及行業端市場競爭加劇帶來的變局,兩大壓力夾擊之下,聯想站在第五個十年的伊始,既要逆勢而上,又要順勢而爲。于是,聯想ISG點亮了下一個十年的新征途。

「爭奪戰略高地」

“一橫五縱”,志在必得

征途漫漫從頭越,奮楫逐浪不停歇。走向未來,近在眼前的是智算變局,唯有爭奪戰略高地,企業方能行勝行穩行遠,進而有爲。對此,聯想似乎志在必得。

謀定未來,逆勢而上。全球雲觀察分析認爲,AIGC引爆全球,中國也呈現出百模大戰的活躍局面。雖然當前智算供給受阻于算法繁多、場景多樣、千卡GPU故障多、算力利用率低、能耗爆表、異構調度難等多重因素的挑戰,但是一旦搞定這些挑戰,順應AI進化就可以帶來全新發展機會,且十分可觀。

縱觀中國移動、中國電信、中國聯通三大運營商針對AI服務器的采購規劃,就已經超過了1.4萬台,再加上相關配套設施與軟件服務,未來智算市場發展的規模之大,可見一斑。

之前《算力基礎設施高質量發展行動計劃》明確了到2025年,智能算力占比達到35%,智能算力目標爲105EFlops,針對智算基礎設施的行業投入顯然只會增長不會下降。無論是從垂直行業智算建設的需求來看,還是從國家政策的支持層面來分析,智算行業的發展活力四射,潛在的市場規模非常巨大。掘金智算,時不可待。

聯想集團副總裁、中國基礎設施業務群總經理陳振寬

順勢而爲,搶先布局。“當前已經步入了AI 2.0時代,AI大模型具備超強的泛化、生成能力,驅動人工智能進入更廣的應用場景和更深的業務流程中。”聯想集團副總裁、中國基礎設施業務群總經理陳振寬分析指出,處于AI 2.0時代,AI基礎設施領域面臨匹配算力、減少故障中斷時間、改善AI算力利用率和突破散熱瓶頸的四大挑戰。很早就在AI領域布局的聯想,順應AIGC時代的發展,積極響應用戶的智算需求,聚焦算力、算法、綠色三大領域,全面應對新挑戰。

其一是超強算力,智能匹配,爲用戶匹配經過驗證優化的最佳算力。其二是核心算法,極致提效,以核心算法挖掘算力潛力,提升計算效率。其三是液冷創新,綠色算力,以先進的液冷技術幫助用戶節能增效,並突破芯片散熱的瓶頸。

一直強調以用戶需求爲中心的發展觀,ISG深知用戶內心深處的智算渴求與痛點。2024年4月18日,在聯想創新科技大會(2024 Lenovo Tech World)上,陳振寬正式對外宣布推出聯想萬全異構智算平台,面向通用計算、科學計算與AI算力多個領域,以創新技術突破計算效率瓶頸,讓算力效率得以更大程度的提升,在激烈競爭的服務器市場中實現更多的差異化價值。

不過,當前的國內大部分服務器用戶不僅在乎算力效率,更在乎業務成本。對于用戶而言,萬全異構智算平台能幫助用戶高度自動化完成AI全流程開發,任何用戶都可以自動完成AI計算並發布模型或推理服務。更專業的AI開發者還可以手動深入調整計算過程的空間,實現對數據和模型優化,選擇應用工具、大模型,匹配並調度更貼身的算力,定制化監控訓練和推理任務進程等。萬全異構智算平台的出現,有助于加速用戶應用部署,有利于降低業務TCO,即全周期使用成本。

需要強調的是,聯想萬全異構智算平台所能管控的異構,包括了兩層含義,一是針對通用計算、科學計算或AI算力不同智算集群架構,二是針對市面上存在的國內國外不同GPU、CPU的架構。可見,致力于讓智算無邊界,不管是集群之間還是集群內,聯想萬全異構智算平台提供的高效、靈活的管理和調度,都可以發揮作用。

對智算未來發展如此笃定,聯想不止于萬全異構智算平台。陳振寬表示,聯想萬全異構智算平台,是AI2.0時代聯想中國基礎設施戰略框架的核心。作爲聯想“全棧AI”戰略布局的中堅力量,聯想中國基礎設施業務正以“一橫五縱”戰略框架,通過構建布局完整、穩定高效的AI導向的基礎設施,爲企業智能化轉型打造堅實可靠的智算底座。

“一橫五縱”,即聯想萬全異構智算平台,以及服務器、存儲、數據網絡、軟件及超融合以及邊緣基礎設施産品和方案。“一橫五縱”構成聯想AI導向基礎設施的完整體系,爲百行百業智能化轉型提供堅實可靠的支撐。

在服務器、存儲、軟件及超融合、數據網絡和邊緣基礎設施産品與方案領域,大力發展AI導向的基礎設施,無論是面向數據中心的建設、存儲方案的優化、超融合的能力創新,還是邊緣計算的應用,聯想都能夠提供穩定、高效的基礎設施支持,也正不斷加速助力算力網絡建設與落地。

2024年3月26日,聯想集團與銳捷網絡戰略簽約,通過在技術創新、産品研發、資源協同及銷售等領域的全方位合作,進一步增強數據網絡的能力,夯實新質生産力基礎底座,加速推進行業智能化變革。

值得一提的是西北地區率先投入商用的高性能計算平台,即甘肅紫金雲公共算力中心,采用聯想高性能計算整體解決方案搭建,不僅發揮著東西部協同樞紐功能,而且還面向西北地區的算力與存力需求,提供“端-邊-雲-網”間的先進算力支持。

此外,通過不斷加速IT與CT融合,積極擁抱運三大營商,聯想全棧AI的産品、方案及服務優勢得以充分發揮。據悉,截至目前,聯想與中國聯通、中國移動、中國電信的合作已超百項。同時還賦能多個垂直行業,助力吉利汽車、中聯重科、徐工集團等國內500多家知名企業成功走上智能化轉型之路。

在業界備受關注的綠色液冷領域,聯想全面布局冷板式、浸沒式等液冷技術,並在全球成功落地了多個業界領先的液冷數據中心。聯想海神溫水水冷技術可實現100%服務器部件用水冷卻,熱移除效率最高達98%。

機不可失,時不再來。由此,聯想基礎設施業務群正在持續完善由AI導向的基礎設施戰略,突破創新聯想萬全異構智算平台,全面發力服務器業務,快速做全存儲、軟件及超融合、網絡以及邊緣的産品與方案。“一橫五縱”的每一項舉措,都將在爭奪智算戰略新高地過程中發揮出重要的作用。

「亮出五大武功絕技」

招招制勝,誠意滿滿

當智算成爲服務器廠商必爭之地時,大廠之間的PK,沒有“武功絕技”怎麽能行呢。

應對AIGC新時代下的新挑戰,說時遲那時快,聯想正式亮出五大技術創新的武功絕技,招招制勝,滿滿誠意。

絕技一,北冥神功之算力匹配魔方。

北冥神功以積蓄內力爲第一要義,作爲逍遙派的最高武學,練成後天下武功無不爲我所用,好像莊子所說的北冥,大舟小舟無不載,大魚小魚無不容,從此天下武學輕松搞定。而算力匹配魔方技術,依托算力魔方知識庫,針對不同場景實現最佳算法和集群配置的全自動規劃並調度,無所不能。用戶完全可以跳過繁雜的算力選擇和驗證,只需輸入場景和數據即可實現“規劃與調度”的神功護體。

絕技二,易筋經之GPU內核態虛擬化。

經過長期的苦苦鑽研,聯想研究院開發了在GPU驅動層的內核態虛擬化算法,使得智算平台宛如獲得了強大的內功心法,深度挖掘服務器潛力,從此不懼算力損耗。GPU內核態虛擬化算法技術通過挖掘處理器潛力,讓虛擬GPU算力利用率從80%提升到95%。

不過,想要研發成功GPU內核態虛擬化技術,需要相當深厚的智能技術家底,與一心一意的長期創新使命感。這就如少林神技排名第一的易筋經一樣,沒有相當深厚的武功家底,以及絕對的恒心和毅力是難以練成的。

據聯想中國基礎設施業務群戰略總監黃山分析,在GPU驅動層實現內核態虛擬化算法擁有三大革新。其一,對算力和顯存精准隔離的算法,能以<3%的誤差精准控制容器資源。其二,在GPU驅動層做資源調度,省去在驅動上的不必要操作。其三,在GPU驅動層將虛擬GPU的顆粒度精細到1%。因此,在AI推理和中小訓練的虛擬GPU應用中,內核態虛擬化算法可以直接帶來vGPU利用率提升的實際價值。

絕技三,淩波微步之集合通信算法庫。

作爲爲逍遙派的輕功身法,淩波微步的名字取自周易,以易經八八六十四卦爲基礎,使用者按特定順序踏著卦象方位行進,但其步法精妙異常,在逃跑時往往可以迅速尋得最佳路徑。而集合通信算法庫的精妙之處,源自聯想優化網絡數據傳輸路徑的增強通信算法,實時感知多類型網絡拓撲,實現數據的最佳路徑傳輸。可以實現千卡規模集群效率提升10%-15%,集群規模越大,效果越是精妙。

絕技四,九陰真經之AI高效斷點續訓技術。

練九陰真經之人,不須旁人相助,奇經八脈自己也能通。即使玄功有損,在極短的時間內,可以令內力恢複如初。就算“北丐”洪七公被歐陽鋒害得武功全失,基本快成一個廢人了,依然靠《九陰真經》療傷,到二次“華山論劍”時,功力依然如初。九陰真經可以陰陽互濟、調節體內陰陽二氣,療傷效果神奇。而AI高效斷點續訓技術的神奇之處在于,實現分鍾級AI斷點續訓,讓AI集群持續可用。以千卡訓練集群爲例,借助AI高效斷點續訓技術可以提升訓練效率,每月節省百萬元的額外支出。

當然,這充分得益于聯想積累了全面的AI訓練故障特征庫。同時實現了三項業界少有的革新,不僅針對故障特征做數據多級備份,大幅精簡了備份數據量,同時實現備份數據的最優路徑調用。而且實現“用AI來預測AI”,對大量AI訓練故障進行特征采樣,基于AI故障特征庫,開發預測AI訓練故障的AI模型。與此同時加上綜合監控能力的配合,集成從服務器BMC,存儲管理,網絡OS的硬件監控,到調度器故障監控,再到對AI訓練收斂程度的監控,對AI故障的抓取能夠做到萬無一失。

絕技五,乾坤大挪移之AI與HPC集群超級調度器。

提及乾坤大挪移,愛好金庸武俠的朋友可謂無人不知無人不曉。這是明教頂級上層武功,激發自身潛力後,然後牽引挪移的絕技神威,要比蘇慕容世家的“鬥轉星移,以彼之道,還施彼身”強上不知多少倍。而AI與HPC集群超級調度器的神威之處與乾坤大挪移的牽引挪移絕技有異曲同工之妙,破局算力孤島,可以在1小時內自動完成跨集群資源調度和共享。其絕技精髓之處在于,可以指揮雙類型調度的最精簡架構,在AI的K8S調度和HPC的Slurm調度之上,自由切換AI和HPC的調度溝通,能全局監控任務和動態共享資源,使得用戶可以充分利用基礎設施的GPU算力資源。

無論是北冥神功、易筋經,還是淩波微步、九陰真經、乾坤大挪移,都屬于頂級武學絕技,習得任何一項都可以成爲天下”一等一“的武林高手。之于聯想的五大算力絕技而言,算力匹配魔方、GPU內核態虛擬化、集合通信算法庫、高效AI斷點續訓技術和AI與HPC集群超級調度器,從根本上解決掉用戶異構智算遭遇的難點、痛點。

從此以後,大家行走在智算的江湖,與高手過招,誰還會擔憂害怕?

「衆人拾薪火焰高」

開創新聯盟,同道奮進

雖有“武功絕技”,但單打獨鬥難以成氣候。唯有聯合業界的力量,智算未來才更有勝算。

在2024年聯想創新科技大會( Lenovo Tech World )大會上,聯想聯合中國智能計算産業聯盟,發起成立異構智算産業生態聯盟,致力于聯合産業頭部生態夥伴共建萬全生態。以AI全棧能力全面覆蓋從IaaS平台、AI訓練與推理到行業場景解決方案,賦能中國智算生態繁榮發展與創新。

全球雲觀察分析認爲,隨著聯想基礎設施業務群在業務上不斷發奮圖強,聚焦異構智算的戰略方向,必須發展多元生態,聯合聯盟的力量,充分發揮夥伴協同作戰的能力,同道奮進,才更有機會贏得未來的更大發展。

曆經風雨吐芳華,重整戎裝再進發。站在聯想第五個十年的元年,繼往開來,作爲聯想三大核心業務之一的基礎設施業務,異構智算亮劍,可謂底氣滿滿。

中國基礎設施業務群業務,重新回到增長的軌道,營業額年比年提升21%。其中服務器、存儲、軟件等均實現快速增長,盈利能力大幅改善。服務器重返第一陣營,位列全球第三。據ISC High Performance公布的最新全球算力500強榜單,聯想入圍169套,獨占TOP500中超三分之一份額,第12次蟬聯該榜單榜首。

在中國,2023年,聯想第九次問鼎並蟬聯中國HPC TOP100數量份額第一。聯想上榜43套的高性能計算集群涵蓋了教育科研、工業/制造、雲計算、大數據等衆多應用領域。2023年第四季度聯想x86服務器收入環比增速國內市場第一。在中小企業服務器國內市場份額上,聯想排名第一。在基礎型存儲國內市場份額上,聯想排名第三。

“過去一年,聯想著力提升了聯想問天和聯想ThinkSystem服務器産品在成本、質量和用戶體驗的全面競爭力,爲新財年更好發力打下良好的基礎。”聯想集團執行副總裁兼中國區總裁劉軍在聯想創新科技大會上如是說。

機不可失,時不再來。隨著“一橫五縱”戰略的深入拓展,聯想以AI導向的基礎設施創新,將會在AIGC新時代迎來前所未有的戰略大機遇。

機遇是留給有准備的企業。趁機而起,如何努力把戰略機遇轉化爲發展優勢,並進一步將優勢轉化爲勝勢,這將是聯想ISG的重要課題。我們拭目以待。(by Aming)

- END-

歡迎文末評論補充!

【全球雲觀察|科技明說|全球存儲觀察 |阿明觀察】專注科技公司分析,用數據說話,帶你看懂科技。本文和作者回複僅代表個人觀點,不構成任何投資建議。

0 阅读:15

阿明觀察

簡介:帶你讀懂科技上市公司,用數據說話,成就不凡。