邊緣AI行業報告:邊緣AI硬件,引領硬件創新時代

報告研讀小助理 2024-04-19 08:35:20

報告出品方:山西證券

以下爲報告原文節選

-----

1. 邊緣 AI:AI 普及的硬件基礎

1.1 邊緣 AI 是什麽

邊緣 AI,也稱爲邊緣人工智能,指在物理世界設備中部署 AI 應用。這項技術之所以被稱爲“邊緣 AI”,是一種在物理設備上本地處理的 AI 算法。具體來說,邊緣 AI 的計算發生在靠近用戶和數據的網絡邊緣,而不是集中在雲計算設施或私人數據中心。這種技術在全球範圍內的網絡邊緣都可以應用,例如零售店、工廠、醫院,甚至我們身邊的交通信號燈、自動化機器和電話等設備都可以做爲邊緣 AI 的終端。

邊緣 AI 本質是將邊緣計算與 AI 進行一種結合,在分布式的物理架構下去進行 AI 計算,相對于傳統的雲 AI,邊緣 AI 在算力的性價比和效率上有明顯優化,因此也擴大了 AI 計算的適用範圍。傳統 AI 的使用場景有一定局限性,難以面對實際應用場景的多樣化,雲 AI 大模型對特定場景的適配性較差,易出現算力的不足或者冗余,算力使用的性價比偏低。同時雲計算在邊緣端對于數據的傳輸通信有較高要求,網絡安全及傳輸速率的劣勢使得計算效率略顯不足。

而邊緣 AI 針對不同應用場景,在芯片、模型、感知等層面進行專有設計,使得數據在終端進行采集、計算,不僅提升了 AI 運算效率,同時降低了對雲算力的消耗,而人工智能技術作爲一種高性能計算,應用于邊緣端,也極大擴展了 AI 技術的使用場景。

1.2 邊緣 AI 的相對優勢

邊緣 AI 相對傳統雲 AI 的四大優勢,分別爲算力節省、低延時、隱私定制、交互簡潔,是邊緣 AI 擴大自身應用場景的核心優勢。算力成本是 AI 運算的主要成本,傳統雲端模型參數在千億以上,單次計算調用的算力和存力成本巨大,而邊緣 AI 模型針對具體應用對模型進行優化,降低了參數和訓練數據的規模,另外直接將運算在邊緣端進行,減少了數據在雲端和邊緣端的傳輸,同樣也是對成本的節約。其次邊緣 AI 的優勢還體現在低延時和離線狀態的使用,傳統雲端模型需要將數據傳輸至數據中心,網絡的穩定性,以及傳輸過程中的延時,將明顯降低 AI 應用使用的可靠性和及時性,而邊緣 AI 則可以在無連接狀態使用模型,規避了傳統雲端模型的劣勢。另外邊緣終端直接計算,可以避免數據上傳雲端造成的信息泄露等問題,更有利于信息安全,同時由于本地信息的個性化,邊緣模型能夠根據用戶的個性化需求,針對用戶的愛好、性格給出更有價值的輸出結果,提供差異化的 AI 服務。

邊緣 AI 與傳統 AI 互有優勢,實際應用過程中,根據使用場景的差異,邊緣 AI 的模型架構又可分爲終端爲中心的混合 AI、基于終端感知的混合 AI、終端與雲端協同處理混合 AI。

之所以要對 AI 計算進行分工,是由于在不同的場景下,根據雲端和邊緣端的計算、存儲能力,需要將 AI 計算和存儲分配到雲和終端共同完成,使得整體 AI 計算效率最大化。

終端爲中心的混合 AI,即是將所有的計算過程均在邊緣端進行。當邊緣終端的計算性能較高,且運行的模型複雜度不高的時候,直接將模型搭載在終端上,依靠終端進行數據處理和存儲,一般適用于計算能力較強的終端,例如 PC 等。這種模型的優勢是更快速的響應用戶請求,且降低對雲端的計算負載,同時在離線狀態下也能實現模型運行,是一種完全不依賴雲端數據中心的邊緣模式。

終端感知的混合 AI,終端負責的數據采集和存儲,然後將數據傳輸到雲端進行 AI 計算,最終通過終端進行數據輸出。這是一種結合終端數據處理能力,與雲端計算能力的邊緣 AI 模式,一般適用于數據輸入輸出能力強,但計算能力有限的終端,例如手機、智能音箱等。利用邊緣終端對數據進行預處理標准化,對于用戶來說,既能保證數據輸入的有效性,也保障了傳輸數據的隱私性,而對于雲端數據中心,則有效降低了數據負載。

終端與雲端協同處理混合 AI,這是一種結合終端數據處理能力與雲端計算能力的邊緣 AI運行模式。在這種模式下,模型自主判斷 AI 計算在雲端和邊緣端的分配,當計算需求較爲簡單時,則在終端進行簡易模型的計算,而當終端計算結果准確性下降後,則再通過雲端的大模型進行修正。協同處理的模式對使用場景有更強的適應力,適配不同的 AI 使用需求,其難點在于對算力的分配算法,如何判定在雲端或終端進行計算。潛在方案是先在終端進行初步計算,然後將計算結果發送到雲端進行驗證,由驗證的正確率來判斷是否要在雲端進行重新計算,從而實現雲端算力的動態調整。

1.3 邊緣 AI 的應用場景

邊緣 AI 模型的研發加速邊緣 AI 的應用場景擴展,當前已有衆多邊緣模型發布,其模型參數在 10 億至 100 億之間。受邊緣終端的計算性能限制,邊緣端搭載的 AI 模型較傳統模型更加輕量級,其參數範圍取決于模型的預期功能和搭載的終端。根據高通預測,未來在邊緣端搭載的模型參數範圍在 10-100 億之間,且 100-150 億參數級別的模型可以覆蓋大部分的邊緣 AI應用。

邊緣 AI 推廣的基礎是邊緣模型的推出,高通在手機上演示使用 Stable Diffusion 來生成圖像,標志著 AI 大模型首次在安卓手機終端上得到應用。Stable Diffusion 過去依靠雲端運行,參數超過 10 億,高通通過全棧 AI 優化,使用降低浮點數、減少存儲溢出、升級算力性能等方式,使得模型可以在骁龍 8 Gen 2 平台上運行。

邊緣 AI 由于其算力節省性、低延時、隱私定制、交互等優勢,在各行各業都有廣闊應用前景,例如消費電子、PC 辦公、智能汽車等領域。根據英特爾高級副總裁 Sachin Katti 預測,2023 年全球邊緣市場規模將達到 4450 億美元,邊緣 AI 的廣泛應用將會各行業帶來巨大的發展機會。

智能手機及智能家居等消費電子類産品,使用邊緣 AI 主要集中在視覺識別及語音感知功能上。視覺識別領域,通過邊緣 AI 算法,實現對人以及物體的識別從從 2D 到 3D,適用範圍大範圍擴展,例如在智能家居領域,生物識別可實現人臉支付、門禁識別等複雜功能,物體識別可實現 3D 空間掃描等功能。語音感知功能在消費電子領域同樣大規模使用,例如手機、智能音箱的語音交互,智能家居的語音遙控等功能。

筆記本電腦作爲移動生産終端,邊緣 AI 將顯著提升 PC 作爲生産工具的效率。微軟 Office的 AI 功能體現在 AI 助理“Copilot”,其功能可幫助用戶草擬文檔、根據內容生成 PPT、數據表格生成和分析、會議內容轉錄等,目前已經廣泛前裝在各類新款 PC 終端上,微軟也在官網上宣布 Windows 11 PC 將推出 Copilot 按鍵,以增強用戶的 AI 使用體驗。國內 WPS 同樣推出WPS AI,整合先進的自然語言處理技術和機器學習算法,可實現文字識別、語音識別、智能翻譯、數據分析和圖表生成等複雜功能,有效提高了用戶的工作效率和准確性。

邊緣 AI 在汽車領域主要應用于智能座艙和自動駕駛領域,對于座艙智能化以及自動駕駛提供強有力技術支持。智能座艙領域高通在 CES2024 上展示了多種邊緣 AI 應用場景,推出面向主動車載輔助的 AI,基于骁龍數字底盤解決方案,可實現汽車端 LLM 模型的實現,幫助用戶了解天氣、時段、行程信息等多種類信息。自動駕駛領域英偉達邊緣 AI 扮演重要角色,通過邊緣設備進行數據處理和分析,實現邊緣 AI 的快速高效決策,英偉達最新 DRIVE AGX 平台,包含了開發自動駕駛功能和智能座艙的全部硬件和軟件,可實現 L2+到 L5 級的全自動駕駛汽車系統。

2. 邊緣 AI:AI 普及的硬件基礎

2.1 AI PC 芯片:主流大廠路線推出新品,相對傳統 PC 大幅提升算力

終端處理器芯片廠商主要在手機芯片以及 PC 芯片兩個市場競爭。大部分 AI 手機芯片産品發布會主要集中在 2023 年下半年,並且已經投入應用。而在 12 月份,AMD 8040 系列以及Intel Ultra 系列處理器也正式將筆記本電腦處理器芯片競爭拉升至 AI PC 時代,相較于普通的PC 芯片,提升芯片運行 AI 大模型的能力,在功耗及計算速度上有明顯優化,這也標志著 AI PC芯片的技術叠代即將進入新一輪創新周期。

AI PC 芯片密集發布,相對傳統 PC 芯片在 GPU 和內存參數上有明顯提升。以英特爾相近的兩款 AI PC 芯片爲比較,AI PC 芯片 Intel Core Ultra 9 185H 配置了相關專用于 AI 性能提升的硬件 Intel AI engine,因此在 32 位浮點運算以及 AI 算力上有了巨大的提升,在數據處理速度相關的頻率以及內存最大帶寬均優于 Intel Core i9-13900。AMD 同一代産品中,具備 Ryzen AI 引擎的 7940HS 與普通 CPU 有明顯差異。AI 處理器在 GPU 上更加領先,內存帶寬優于普通 CPU,GPU 的頻率有明顯升級,而在最大內存帶寬上也有明顯提升。

主流廠商 AI PC 芯片均增加了 NPU 模塊,相對于傳統 PC 芯片極大提升了算力,而英特爾憑借當前的開發生態和硬件性能優勢,占據主要市場份額。各家在新款 AI PC 芯片上,均增加了 AI 硬件,其自身的算力疊加傳統 PC 芯片中 CPU 及 GPU 的算力,使整體算力有了較大提升。而在競爭格局上,市場上主要的競爭集中在英特爾、AMD、高通等廠商,橫向對比各家優劣,AMD 在內存方面對其余兩家有明顯優勢,高通 GPU 頻率相對更高,且其獨有的高通引擎使得在 AI 算力上數值更高。而英特爾則更加均衡,硬件方面配置更多核心,處理線程更多,同時軟件開發生態更爲豐富,下遊終端廠商接受度也更高,綜合實力英特爾暫時領先。另外從當前下遊 PC 新品發布來看,搭載英特爾芯片的産品也更加豐富。

2.1.1 高通:基于 ARM 架構的新一代 PC 芯片,算力領先同行

高通的最新 PC 處理器骁龍 X Elite 在算力性能上顯著提升。2023 年 10 月 26 日高通發布了其用于 AI PC 方向的最新處理器骁龍 X Elite, 使用 12 核高通 Oryon CPU 與 Adreno GPU,GPU 32 位浮點運算能力達到了 4.6TFlOPS, 骁龍 X Elite 能夠在設備上運行超過 13B 參數的生成式 AI LLM 模型。此外還搭載了高通 Hexagon NPU,其基礎算力達到 45TOPS,搭配高通 AI引擎算力最高可達 75TOPS, 使用 LPDDR5x 內存,136 GB/s 帶寬,以及適配的終端 AI,輸出速度 30Tokens/s。同時,芯片有著低能耗的優點,一次充電可維持幾天工作時間。

2.1.2 蘋果:M 系列芯片算力大幅提升

蘋果 M 系列處理器一直以其獨有的統一內存架構占據市場,采用統一的內存架構可提供高帶寬、低延遲和出色的功耗表現。M3 系列芯片,配置 128G 顯存,可以運行數十億參數的更大的 Transformer 模型。在算力的性能上,M3 MAX 的 GPU 提供 14.2TFlOPS 的 32 位浮點算力,搭載 Apple Neural Engine,使 NPU 算力達到 35TOPS,相較上一代有較大幅度提升。

M3 MAX 芯片中的晶體管數量達 920 億個,搭配 16 核 CPU 核心,40 核 GPU 核心,相較于M1 Max,CPU 性能提速 80%,GPU 性能提速 50%。

2.1.3 英特爾:PC 芯片龍頭,AI PC 時代引領行業發展

英特爾最新 AI 産品 Meteor Lake 是 AI PC 處理器最新的上市産品,在 AI 性能方面與前代有巨大提升。采用英特爾 Arc GPU, 顯存達 32GB,可平穩運行本地 LLAMA 2-7b 模型,相對i7 1370P 處理器在 AI 軟件運行上有 1.1 倍性能提升,1.7 倍生成式 AI 性能提升。在整體算力性能上達到 34TOPS,同時芯片搭載的 NPU 可進行 FP16 精度編碼,這是相對市場競品的領先所在。

預計在 2024 年底,英特爾將推出新一代 Arrow Lake 芯片,Arrow Lake-S CPU 采用全新的微架構,其中性能核心稱爲 Lion Cove,效率核心稱爲 Skymont,這些新系列還將采用 Intel 20A工藝節點,並采用基于 Alchemist 的 Xe-LPG 架構。與 Alder/Raptor Lake CPU 中使用的 Xe-LP架構相比,GPU 的速度預計至少會提高兩倍。

2.1.4 AMD:AI 芯片不斷叠代,算力能力持續提升

AMD 最新産品銳龍 9 8945HS 的主要硬件性能提升是在基于 7840 型號在 AI 算力上進行的提升。從原先 NPU 提供的 10TOPS 提高至 16TOPS,從而使整體算力性能提高 6TOPS。銳龍 7040 系列處理器內置 AMD Ryzen AI 引擎,專用于神經網絡 AI 運算處理單元,最高可實現每秒十萬億次的 AI 運算,是在 X86 架構處理器內首次實現集成 CPU+GPU+AI 引擎三種計算單元的創新設計方案。

AMD 在 2023 年 11 月 5 日的 Microsoft Ignite 全球技術大會上,展示即將到來的 AMD Instinct 加速器、AMD EPYC(霄龍) CPU 和內置 AI 引擎的 AMD Ryzen CPU 在內的衆多AMD 産品。AMD 銳龍 7040 系列移動處理器,內置 AMD Ryzen AI 引擎,專用于神經網絡 AI運算處理單元,最高可實現每秒十萬億次的 AI 運算,是在 X86 架構處理器內首次實現集成CPU+GPU+AI引擎三種計算單元的創新設計方案。AMD Ryzen AI引擎配合強大的CPU和GPU協同計算,爲筆記本電腦賦能,可以在極低的功耗下完成 AI 應用計算。

AMD 在 12 月發布全新的銳龍 8000 系列移動處理器。AMD 發布 Ryzen 8040 系列 APU,傳統性能沒有改進,大幅提升 AI 性能,但總體算力橫向對比依然沒有太大優勢。AMD 表示 2024年將發布鷹點下一代的 APU,代號爲“Strix Point”,目前尚無權威中文譯名。

2.2 主流 AI 手機芯片廠商

手機 SoC 的 AI 趨勢下半年開始逐漸體現,以高通骁龍 8Gen 3、聯發科天玑 9300 爲代表的新款旗艦大幅提升算力。在架構上,天玑 9300 采用全大核架構,將大核性能運用極致,運用大核運算速率優勢降低整體功耗,官方數據表示峰值性能相較上一代提升 40%,功耗節省33%,而 8Gen 3 采用“1+5+2”架構,增加大核數量提升算力。AI 性能方面天玑 9300 搭載的vivo X100 可運行 100 億參數大模型,算力達到 33TOPS,高通及蘋果旗艦芯片也能達到30+TOPS 算力。

除高通、聯發科外,其他手機芯片廠商也在提升手機算力性能。

蘋果 A17 PRO 是應用于 iphone 15 的蘋果最新型號芯片,GPU 性能出衆。搭載 6 核 A17PRO GPU,運行頻率達 1389MHz,提供 2.2TFlOPS32 位浮點算力。使用神經網絡引擎供應35TOPS 算力達到 AI 手機芯片領先水平,芯片工藝爲 3nm 則屬于市場最先進制程。

谷歌在 AI 手機芯片市場上主要表現的是參與者的態度,相較于其他廠商芯片的高性能,Google Tensor G3 芯片在性能上相對于 Google Tensor G2 有較大提升。Pixel 8 Pro 手機應用Google Tensor 3 芯片後可運行的機器學習模型數量是前代其兩倍多,隨著生成式 AI 的發展以及與 Google DeepMind 的合作,一些新的功能將被引入 Pixel。新的生成式 AI 比一年前 Pixel7 模型複雜 150 倍以上。

.2.1 高通:手機領域芯片龍頭,新款旗艦芯片算力提升明顯

23年新款旗艦芯片骁龍 8 Gen 3搭載的高通AI引擎是第一個支持多模式生成人工智能模型引擎。包括流行的大型語言模型(LLM),語言視覺模型(LVM),和基于變壓器網絡的自動語音識別(ASR),達 10B 參數;即時 LLM 模型可以運行 20tokens/秒,屬于智能手機行業頂尖。采用 Qualcomm Adreno 750GPU 搭配 24GB 內存,32 爲浮點算力 2.4TFlOPS,整體算力34TOPS。

骁龍 8 Gen 3 有世界上第一個集成了人工智能張量硬件加速器的 5G 調制解調器,在硬件層面上,人工智能處理能力爲其前身的 2.5 倍,配屬升級後 Kryo CPU 提升了 30%性能和 20%功率效率,以及 25%的 GPU 性能提升和 10%能耗減少。

2.2.2 聯發科:旗艦芯片全大核設計,AI 模型搭載能力大幅提升

聯發科新品天玑 9300 是率先采用全大核 CPU 架構的旗艦移動芯片,配有第 7 代 APU 架構內建硬件級的生成式 AI 引擎。芯片搭載四個 Cortex-X4 超大核和四個 Cortex-A720 大核,單核性能提升超過 15%,多核性能提升超過 40%。能夠實現更快速且安全的邊緣 AI 計算。

MediaTek 完整的工具鏈,能夠協助開發者在端側快速且高效地部署多模態生成式 AI 應用,爲用戶提供包括文字、圖像、音樂等在內的終端側生成式 AI 創新體驗。相較于前代生成式AI transformer 運算速度快 8 倍 2 倍整數和浮點運算速度,功耗較前一代降低 45%,最高可支持 330 億參數大語言模型。

2.3 AI 大模型端側落地推動終端存儲容量提升

大模型離線應用與強大算力拉動 PC 端的存儲需求。大模型的離線應用對內存空間提出更高的要求,同時 AI 模型強大的算力與海量的訓練參數也需要更高的總線帶寬,這些都對 PC終端的存儲能力提出更高要求。

運行大模型的速度,對芯片算力以及顯存帶寬提出了更高的要求。大模型處理的任務規模越大則總計算量越大,在任務時間有限情況下,計算時間同時受到算力和顯存帶寬兩方面的制約。由于計算速度=min{計算強度*帶寬,算力},則計算密度越大,模型所能達到的速度上界越高,此時受到顯存帶寬制約。如果計算密度較大,則模型性能受硬件最大計算峰值(即算力)限制。

近年來各品牌 AI PC 産品陸續上市,AI 功能落地拉動存儲需求上升。AI 發展的一個趨勢是端側 AI,PC 端相比手機端算力更強,能契合更多大模型需求場景,將最先搭載端側大模型。

大模型強大的算力與海量的模型參數需要優化的數據路徑和存儲解決方案,近年來各品牌 AI PC 産品陸續上市,與普通 PC 相比,其存儲參數 RAM、ROM 均有顯著提高。隨著未來 AI 功能廣泛地在 PC 端落地,海量的算力需求將拉動存儲需求上升。除了內存的提升外,閃存的升級也尤爲明顯,由于 AI 模型自身占用空間較大,同時與模型配套的訓練數據同樣占用一定空間,因此部署邊緣大模型所需要閃存的空間也較大,AI PC 的進程加速了閃存容量升級的過程。

3. 邊緣 AI 硬件産業鏈生態與展望

3.1 AI PC 或爲 PC 産業提供重要發展動力

PC 市場較爲成熟,增速較爲穩定。PC 自 90 年代快速推廣以來,已經發展爲成熟市場,從美國 PC 市場的發展曆程中可以看出,近 20 年來 PC 市場增速波動逐步降低,增速周期性特征減弱。增速放緩的主要原因是由于隨著 PC 滲透率提升,市場整體趨于穩定。當前行業波動主要受宏觀經濟、PC 産品叠代、線上辦公等因素影響,結合曆史規律,PC 行業周期一般約爲5 年左右。

--- 報告摘錄結束 更多內容請閱讀報告原文 ---

報告合集專題一覽 X 由【報告派】定期整理更新

(特別說明:本文來源于公開資料,摘錄內容僅供參考,不構成任何投資建議,如需使用請參閱報告原文。)

精選報告來源:報告派

科技 / 電子 / 半導體 /

人工智能 | Ai産業 | Ai芯片 | 智能家居 | 智能音箱 | 智能語音 | 智能家電 | 智能照明 | 智能馬桶 | 智能終端 | 智能門鎖 | 智能手機 | 可穿戴設備 |半導體 | 芯片産業 | 第三代半導體 | 藍牙 | 晶圓 | 功率半導體 | 5G | GA射頻 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圓 | 封裝封測 | 顯示器 | LED | OLED | LED封裝 | LED芯片 | LED照明 | 柔性折疊屏 | 電子元器件 | 光電子 | 消費電子 | 電子FPC | 電路板 | 集成電路 | 元宇宙 | 區塊鏈 | NFT數字藏品 | 虛擬貨幣 | 比特幣 | 數字貨幣 | 資産管理 | 保險行業 | 保險科技 | 財産保險 |

0 阅读:19