單路最強芯英特爾至強W滿足AI時代算力均衡需求

中關村在線 2024-03-25 01:20:43

工作站自上世紀誕生以來,就成爲了高性能生産力工具的主力産品,而且能夠很好地參與到用戶的日常工作、生産和學習當中。但是隨著時間推移,當前工作站整體業務情況已經發生了很大變化,尤其是在渠道裏的表現,已經與往日大爲不同。這主要表現在五個方面:

第一,工作站市場容量穩定並增長迅速。工作站的需求一直在穩定增長,抛開疫情影響, IDC給出的預測可以達到年增長9%-10%。2023年MNC加上渠道客戶方案的整體容量在120萬台,其中渠道占1/4,並且增幅大于平均漲幅。

第二,渠道産品生産日趨成熟。上遊和周邊廠商的工作站業務的策略調整和定制化需求增多,渠道的參與度增強,周邊産品生態已經成熟。比如說硬件上的主板、散熱、機箱等, 以及本土化應用軟件的普及等。

第三,政策對渠道方案友好。目前在相關政策的驅動下,國産品牌呈現明顯的增長趨勢,加持渠道工作站的業務。

第四,産品方案多種多樣,加速渠道業務成長。定制化、雲化、AI化等等都是近來的趨勢,而且形態也由最初的卡式向多形態發展,比如說機架式、便攜式等。

第五,熱點應用加速渠道方案落地。熱點應用的落地催生了各種各樣的方案,尤其是去年下半年,AIGC在各個場景下的表現,給了工作站更爲廣闊的空間。

而在工作站領域,英特爾爲其打造的至強W處理器平台,可以說是目前單路最強核芯,尤其是在AI以及AIGC的應用領域,至強W可以說是助力整個行業快速發展的基石。

當前,英特爾在這一領域已經彙聚了近50家核心企業。其中不僅包括像昱格電子這樣的OEM,同時也包括像智微智能這樣既是OEM又是ODM的企業,當然也有像璇米科技這樣方案提供商,以及衆多ISV合作夥伴。

·至強W爲何是英特爾單路最強芯?

那麽問題來了,至強W爲何是英特爾單路最強芯?

對此,英特爾工作站品類産品經理葛林給出了答案。

至強W處理器(單路)與至強處理器(多路)的區別就是把UPI模塊換成了PCIe模塊。UPI 可以讓兩顆或者是多顆CPU構建雙路甚至多路協同工作狀態。而至強W聚焦于單路,因此英特爾將UPI換成了PCIe,而PCIe能夠充分拓展通路,以應付算力均衡的需求。

從技術層面來看,至強W每顆核心與同級別至強處理器去比的話主頻更高,尤其是在擁有相同核心數、相同加速器,且具備AI相關指令集、加速器的情況下,至強W具備更高主頻和PCIe帶來的更強擴展能力,從而帶來了更加強勁的平台級計算能力,這是至強W被稱爲英特爾單路最強芯的根本原因。

此外,至強W對于企業用戶而言有著更好的TCO(總體擁有成本),能夠單獨運行,擴展能力強,且算力補償方面英特爾也做了優化,因此可以應對客戶多樣化的需求,爲客戶提供更好的經濟性。

·至強W爲何能玩轉AIGC?

時下,AIGC應用已經成爲工作站設備的典型應用場景。至強W對于“玩轉AIGC”來說,是非常合適的硬件平台。

當前,AIGC的業務邏輯主要包含三類:

其一是像OpenAI,Stable Diffusion,Midjourney等等的大模型提供商;

其二是AIGC的使用者或消費者。

其三只專業服務提供商、運營商,如建築設計、工業設計、加工等領域。

在三大類業務邏輯中,除了大模型提供商之外,另外兩大類用戶其實對算力的要求並不是那麽極致,因此這類用戶往往會選擇經濟性更好的單路至強W設備來獲得更好的收益。

葛林介紹說,“從産品端,英特爾通過建立TSS部門來做相關驗證。並根據驗證結果對AIGC工作站和服務器提出了六個方向上的建議。”這些建議主要包括:

第一,核心。英特爾的最強芯不只是32核心,但因爲核心再繼續堆疊的情況下所帶來的上升空間不大,所以“甜蜜值”是在16核到32核之間。

第二,頻率的關系。在滿足大核的核心數條件下,頻率肯定是線性關系的,頻率越高,效率越高。

第三,AMX加速器。根據英特爾實驗室數據,有無AMX加速器的情況下,效率差距會達到4倍,可見其非常關鍵。

第四,內存。英特爾建議4通道起步,因爲4通道至少可以支持到2T,應對各種各樣參數的大模型時,如7B、13B甚至幾十億參數大模型時,大內存可以快速支持大模型數據的導入和導出。

第五,RDIMM DDR5 ECC內存的穩定支持。ECC內存自帶糾錯,其優勢就在于穩定,聯系運行數小時、數天、甚至更長時間,ECC內存都能保證穩定不宕機。

第六,PCIe通道數,這是支持到更多的加速計算卡工作的根本。比如一個加速計算卡需要占16x的通道,而加速計算卡堆疊越多性能越高,所帶來的成本也越高。至強W平台的TCO就體現在這裏,它能夠提供足夠的PCIe通道支持,可以支持4-6塊加速卡,對于不需要超高算力客戶來說,滿足算力需求的同時也更加經濟實惠。

·國內AIGC的主要挑戰

AIGC是當前最爲火爆的行業,那麽AIGC到底能給人們帶來什麽?有哪些典型場景?在做這些場景的時候需要怎樣的算力架構?英特爾中國AI架構師趙朝卿分享了自己的觀點。

首先從技術脈絡和算法來說,AI發展到今天經曆了機器學習、深度學習階段,而AIGC無疑是建立在這兩個階段之上,實現大衆化應用的新階段。因此,各類大模型數據的參數量一直 上升,並且達到10億級甚至是更多。此時,更加龐大的算力需求接踵而至。

AIGC技術成熟度是從語音合成、識別開始的,這個在十年前沒有解決的問題,現在已經解決掉了,再往後則是自然語言處理。而現在,隨著ChatGPT等大語言模型的發布,文本類的生成也向前跨了一大步,而視覺、語音就要把各種模態整合到一起從而形成多模態。

趙朝卿認爲,目前國內AIGC的主要挑戰包含三個方面:

其一,構建一個大語言模型去做預訓練,所謂的預訓練就是從頭訓練所有參數。比如微軟的模型都是千億級別的,而訓練這種模型一般都需要千卡、萬卡,國內沒有幾家可以這麽做,訓練一個模型需要巨大的成本支出。

其二,對于國內來說,可以利用開源的預訓練模型做行業的微調,但是哪怕是微調,我們依然需要大量的算力,一方面需要很多顯卡來完成訓練,另一方面需要花費大量時間去做訓練。

其三,在部署階段仍然需要算力。比如一個7B的大語言入門級模型,起碼要有一張16G顯存的顯卡才能放進去,而且這是在做完量化的情況下。所以整體來說AIGC的算力要求很高,同時在效率和時間方面也都有著非比尋常的挑戰。

·至強W滿足算力均衡需求成本更加可控

趙朝卿還分享了三種AIGC應用場景,來說明算力需求的龐大。

首先是平面設計。原來一個設計師設計一個布料花色需要兩周時間,還要不停去調整色彩方案和呈現。現在通過AIGC可以快速生成很多張不同配色的方案,時間可以壓縮到2天左右。節省了大量人力、時間成本,而轉化成算力成本, 需要很大的算力支撐。

其次是影視制作,比如OpenAI Sora的出現,它可以隨便生成一個視頻來使用,但對于影視來說不夠專業,依然需要更加精細地打磨。比如《流浪地球》這部電影中,某一幀圖像渲染時間達到了99個小時,算力消耗巨大。因此行業需要一個平台,能夠把算力擴充起來,還要有圖形化的渲染和編輯能力。

再者就是時下火爆的數字人。如數字主播或直播帶貨,它可以借助AI針對不同地區生成不同的語言。比如雖然說的是普通話,但不同地區用戶聽到的可能是阿拉伯語或者是英語,且還可以針對不同地區定制不同的數字人形象,這些都需要算力支持。

這三個典型應用場景都需要高性能的計算以及圖形處理能力這樣的專業需求。今年,發展新質生産力被寫進政府工作報告中,所有企業都在做“AI+”的融合,因此要提供高性能計算和圖形處理能力,CPU就需要具備高主頻、多核心、高密度低異構的可擴展性。一張顯卡不能只配一個核,而是要達到算力均衡,也就是CPU的算力需要與GPU匹配。而至強W平台高達112路線程,可以支持到6卡,內存支持DDR5 ECC高速內存,容量可以支持到4T,且整個平台比雙路8卡成本相對更加可控,從而能夠更好地滿足客戶對于更多AI算力場景的需求。

·至強W的實際解決方案分享

在近期舉辦的“英特爾單路最強‘芯’,助力玩轉AIGC”活動上,璇米科技、昱格電子以及智微智能三家合作夥伴分享了至強W的應用案例,展現了“算力均衡”的優勢。

璇米科技總經理李洪剛分享了其在3D體育賽事重建方面的經驗。從北京冬奧會到CBA等大型賽事,璇米科技是唯一一家在比賽現場就能夠實現賽事數據大量采集的公司。利用專業相機、高清攝影機、甚至手機采集數據,並將素材交付給由山景電子打造的至強W工作站,再借助二三十個核心以及高達4.8GHz頻率的至強W平台,可以迅速實現由2D檢測到3D重建的工作負載。

李洪剛說,“一個至強W可以支持16x的PCIe,也就是說可以帶4-6塊顯卡。在實際使用中,如果可以帶4塊顯卡,再加上2到3台這樣的機器,就能夠實時處理一場籃球比賽。現在與AIGC相結合,從2D圖像到3D重建的過程中加入AIGC。也就是說,首先從圖像中拿到2D的骨骼,這一步被稱作檢測。檢測之後將2D重建爲3D的人物形象和骨骼的過程,在引入AIGC之後,技術的跨越式發展進一步加速。”

昱格電子産品經理張康則分享了至強W在影視工作流方面的應用。從原來的720p、1080p到現在的4K 60幀、120幀,整個工作流中的效率如何解決,包括用手機或用筆記本在AIGC的情況下如何提高工作效率,是昱格電子需要思考的問題,並給出相應的解決方案。

昱格電子主要采用虛擬化的方式,因爲虛擬化可以合理地分配至強W這樣高主頻多核心的處理器,做到算力均衡。如分8個核心給用戶做剪輯,再分8個核心給用戶做渲染。這樣帶來的好處是整體效率非常高,同時整個方案性價比也會非常高。

張康介紹說,“至強W系列在PCIe通道裏額外增加了直連的PCIe,和雙路至強相比,在全閃NAS中,我們也是用至強W的産品去做的。而且在我們的測試過程當中,同樣的核心,相比雙路至強,單路至強W速度會快一倍。做影視工作流的都知道,在4K或者是8K剪輯的時候,整個全閃的速度快一倍是非常恐怖的。”

其實不僅是影視後期,在諸如工程設計、人工智能開發中,都可以用到昱格電子的虛擬化系統。在昱格電子這套虛擬化系統中,通過遠程訪問這些高性能算力的同時,昱格電子的備份系統、永恒操作系統,在NAS層面可以給客戶提供非常好的數據和算力支撐。在永恒操作系統當中還可以給客戶提供非常強的多模型數據支撐,這就形成了昱格電子的高性能AIGC雲工作站方案。此外,它不僅帶來的是可靠性和算力的提升,還有數據安全的提升。

智微智能架構工程師王海利分享了智微智能基于單路最強芯至強W的整體硬件解決方案。

智微智能目前在多個細分行業做到了行業第一,比如消費電子、教育、零售等,並與國內近百家頭部客戶有深度合作。公司擁有500名研發人員,主要基于英特爾平台做各種各樣的硬件開發。同時智微智能也有自主的工廠,是一家能爲各行各業提供硬件解決方案的公司。

王海利說,“至強W在AIGC當中有多樣的應用,大家也可以看到AIGC對算力的需求是很大的。算力需求主要會涉及幾個方面,一是處理器核數的需求, 二是我們對多算力的需求。 我們的平台支持W34系列,最大可以支持60個核心。W34系列其實還有一個最主要的特點就是可以做超頻。比如56核112線程的W9-3495X處理器,可通過睿頻加速Max技術3.0實現最大睿頻4.8GHz 。我們在機器上增加了硬件的超頻系列,只要我們能解決散熱問題,頻率就可以不斷提升,功耗釋放可以達到600W左右。另外是支持DDR內存,目前我們支持8條內存條,全部都是主通道,最大容量支持到2T。剛剛英特爾專家也說了,在這個平台上支持ECC內存糾錯功能。除此之外,我們還支持很多的功能,比如說RAS、內存加密技術等,這些技術都是爲了提高我們整個的數據可靠性、穩定性等方面。另外,現場展示的這套方案支持12個硬盤盤位,它可以支持SATA 、SAS 、SSD相應的設備,包括U.2,爲企業提供各種各樣可配置的解決方案。”

基于至強W平台打造的智微服務器具備研制一體化,性能強勁;支持圖形加速,深度學習;可靠、可管理、更安全以及靈活擴展特性,可輕松滿足客戶對計算的不同要求。

其實除了第四代至強W之外,英特爾將在今年8月份推出的第五代至強上繼續強化AI計算支持。

·結語

當前,計算呈現出越來越專注化、針對化、雲化、AI化的新特點。基于這樣的背景,對于算力平台的要求已經由原來的總成開始往分散性組件去發展。根據IDC預測,單路計算規模已經占到了10%,這是總成化拆解的大趨勢。

同時,CPU與GPU的算力均衡,以及相應平台的經濟性也在AI時代被凸顯出來。面對不同類型的用戶提供不同類型的解決方案,而不是一股腦去通過多路方案解決問題,已經成爲了市場發展的必然。至強W作爲最強單路核芯,雖然不太擅長面對大模型訓練需求,但是其強大的擴展性和自身的性能實力,卻可以在AIGC消費端、運營商、服務商解決方案應用中提供足夠可靠的算力支持。相比雙路或多路的解決方案,擁有更好的TCO,同時也能與雙路和多路方案一起,滿足不同用戶的多元化需求,並確保算力均衡,這是時代發展的必然,也是用戶需求轉變之後的必然。

(8622520)

0 阅读:49
评论列表
  • 2024-03-25 06:40

    文生圖、文生視頻、文生音樂,還是圖生視頻等都不是CPU的強項