升級不加價!騰訊雲存儲面向AIGC全線升級,已服務80%頭部大模型企業

智東西 2024-04-09 11:21:00

作者|香草

編輯|李水青

智東西4月8日報道,今日,騰訊雲宣布雲存儲解決方案面向AIGC(生成式AI)場景全面升級,針對AI大模型數據采集清洗、訓練、推理、數據治理全流程,提供全面高效的雲存儲支持。數據顯示,采用騰訊雲AIGC雲存儲解決方案,可將大模型的數據清洗和訓練效率均提升一倍,需要的時間縮短一半。

▲騰訊雲存儲AIGC解決方案升級

據騰訊雲存儲總經理馬文霜介紹,騰訊雲AIGC雲存儲解決方案主要由對象存儲COS、高性能並行文件存儲CFS Turbo、數據加速器GooseFS和數據萬象CI等産品組成,是國內首個實現存儲引擎全面自研的雲存儲解決方案。目前,已經有80%的頭部大模型企業選擇了騰訊雲AIGC雲存儲解決方案,包括百川智能、智譜AI、元象等。

此前,騰訊雲已經面向AIGC場景推出了基于星脈網絡的大模型訓練集群HCC、向量數據庫、以及行業大模型服務MaaS等大模型全鏈路雲服務。馬文霜強調,本次存儲方案“升級不加價”,價格方面沒有任何變化。

一、實現秒級Checkpoint寫入,端到端一條龍服務

大模型的研發生産流程,分爲數據采集與清洗、模型訓練、推理三大環節,其中每個環節都涉及海量的數據處理。尤其是目前大模型的參數量越“卷”越大,從十億、百億一直到萬億級,這對雲基礎設施提出了新要求。

▲大模型對雲基礎設施提出新要求

對此,騰訊雲從每個環節分別入手,面向AIGC場景推出覆蓋全鏈路的端到端解決方案升級,實現了低延時、高OPS(每秒操作數)。

在數據采集環節,騰訊雲COS(對象存儲)支持單集群管理百EB級別存儲規模,提供便捷、高效的數據公網接入能力,並支持多種協議,充分支持大模型PB級別的海量數據采集。

▲騰訊雲全自研對象存儲引擎

同時,隨著訓練數據和推理數據的增長,需要低成本的存儲能力以減少存儲開銷。對象存儲服務提供了12個9的數據持久性和99.995%的數據可用性,能夠爲業務提供持續可用的存儲服務。

在數據清洗環節,大數據引擎需要快速地讀取並過濾出有效數據,COS通過自研數據加速器GooseFS提升數據訪問性能,可實現高達數TBps的讀取帶寬,單次清洗任務耗時減少一半,單個文件讀取速度提升10倍。

▲騰訊雲自研數據加速服務

在模型訓練環節,由于大模型訓練時間一般長達數周甚至數月,在這期間,任何GPU出現故障都會導致訓練終止,通常需要每2-4小時保存一次訓練成果,以便能在GPU故障時時能回滾。因此,快速讀寫Checkpoint(檢查點)文件也成了能否高效利用算力資源、提高訓練效率的關鍵。

騰訊雲自主研發並行文件存儲CFS Turbo,面向AIGC訓練場景的進行了專門優化,每秒總讀寫吞吐達到TiB/s級別,每秒元數據性能高達百萬OPS,均爲業界第一。面向3TB規模的Checkpoint,寫入時間從10分鍾縮短至10秒內,樣本讀取效率也提升50%。

▲騰訊雲自研並行文件存儲CFS Turbo

這一能力的背後,是騰訊雲自研的文件存儲引擎Histor,這也是業內唯一雲原生自研並行文件存儲引擎,其單客戶端能力達10GiB/s,支持百萬計OPS、千億級文件擴展。

▲騰訊雲自研文件存儲引擎Histor

在數據審核階段,大模型推理場景對數據安全與可追溯性提出更高要求。騰訊雲一站式內容智理平台數據萬象CI推出圖片隱式水印、AIGC內容審核、智能數據檢索MetaInsight等功能,爲數據生産業務全流程提供有力支撐。

其中,明暗水印爲每個AI作品生成專屬ID,MetaInsight支持跨模態檢索,可文搜圖、文搜視頻、圖搜視頻等,內容審核延時降低50%,支持全媒體類型。

▲騰訊雲一站式內容智理平台數據萬象

馬文霜透露,目前國內80%的頭部大模型企業都在用騰訊雲存儲服務,包括百川智能、智譜AI、元象、右腦科技等。

騰訊雲智能存儲産品總監葉嘉梁爲我們演示了MetaInsight的智能檢索功能,如輸入一張紅裙舞者照片,右邊可以在對象存儲直接找到對應的圖片。

▲MetaInsight智能檢索

通過自然語言輸入,MetaInsight同樣能在對象存儲空間中輸出符合描述的圖片。

▲MetaInsight智能檢索

二、存儲引擎全面自研,四大核心技術實現高性能文件讀寫

騰訊雲文件存儲總監陸志剛解讀了並行文件存儲CFS Turbo的技術升級。據稱,這是國內目前唯一實現存儲引擎全面自研的雲存儲解決方案。

CFS Turbo擁有四大核心技術,分別是並行客戶端、智能緩存技術、自適應條帶化以及分布式元數據。

▲AIGC時代下的文件存儲技術要素

並行客戶端支持一個客戶端同時和多個服務端通過多條鏈路傳輸,提升訪問速率。

▲CFS Turbo總體架構

智能緩存技術在客戶端和服務端兩級采用分布式緩存,元數據和數據之間采用獨立緩存機制,讀寫操作可分別配置,讀緩存加速重複數據的讀取,寫緩存提升Checkpoint的保存速度。

▲分布式緩存

自適應條帶化通過智能分片,把大文件切割成小文件同時並發寫入,提升吞吐,單文件讀寫吞吐可達5GB/s,集群讀寫吞吐線性增長,1PB容量規模可達1TB/s讀寫吞吐,單客戶端文件讀寫性能達10GB/s。

▲文件動態條帶化

分布式元數據對上億級別文件目錄分散處理,提升並發性能。傳統元數據服務器是樹型,受單點制約,而業內普遍的解決方式是采用聯邦式,但仍需要提前規劃文件和目錄分配。CFS Turbo采取的分布式,能使元數據性能線性擴展至十多倍,文件和目錄自動均衡分配。

▲分布式元數據

在這些技術的支撐下,騰訊雲CFS Turbo能提供業界第一的TiB/s級別總讀寫吞吐和百萬OPS的每秒元數據性能,解決訓練文件讀寫瓶頸。以3TB大小的Checkpoint爲例,寫入能從10分鍾瞬間縮短至10秒內。在GPU發生故障時,能大幅降低對訓練時長的影響。

▲Checkpoint寫入效果

此外在數據推理階段,CFS Turbo可實現字節粒度強一致,在模型發布或修改時,多客戶端可同時讀寫同意模型文件,保證數據一致性。

▲字節粒度強一致

基于自研分布式高性能存儲引擎Histor,CFS Turbo底層通過自研用戶態協議棧和RDMA等技術,減少數據的多次拷貝與虛擬化消耗,大幅降低了存儲時延、提升吞吐性能;在應用側,CFS Turbo自研並行文件傳輸協議,實現了多鏈路並行訪問,大大提升了吞吐效率。

除了大模型企業以外,CFS Turbo也被廣泛應用于自動駕駛與工業仿真場景,包括博世汽車、蔚來等自動駕駛廠商,上海電氣、深勢等廠商的仿真場景,墨鏡天合、追光等企業的影視特效場景。

結語:大模型倒逼雲存儲升級,騰訊雲樹立新標杆

今年1月,在沙利文聯合頭豹研究院發布的《2023年中國雲存儲解決方案市場報告》中,騰訊雲存儲入選“領導者”陣營,位列第一。隨著大模型時代來臨,AIGC場景對數據存儲和處理的需求日益增長,騰訊雲憑借其在雲計算領域的深厚積累,推出了全面升級的AIGC雲存儲解決方案,爲AI大模型提供更加高效、全面的雲存儲支持。

在數據采集、清洗、訓練、推理、數據治理等全流程中,騰訊雲的AIGC雲存儲解決方案展現出了卓越的性能。通過自研的核心技術和産品,騰訊雲不僅在性能上實現了質的飛躍,更在價格上保持了親民,成爲衆多頭部大模型企業的首選。

0 阅读:6

智東西

簡介:智能産業第一媒體!聚焦智能變革,服務産業升級。