陳琦：OpenAI又祭出大殺器，來自Sora的降維打擊

埃森哲咨詢公司于1月發布了報告《2024技術展望—AI拐點重塑人類潛力》，報告梳理了2024年的四大技術趨勢，分別是AI夥伴、智能體、空間計算、人機互通。

2月2日，蘋果正式發售Vision Pro，空間計算時代加速到來。2月15日，Open AI發布了第一款文生視頻模型Sora，通用人工智能（AGC）加速到來。兩者都是引領時代、具有顛覆性意義的現象級産品，進一步拉開了中美AI的差距。

Sora是繼文本模型ChatGPT、圖像模型Dall-E大殺四方後，OpenAI繼續祭出大殺器——Sora，這回他們選擇顛覆視頻領域。這是一個曆史性的裏程碑，在視覺領域實現了與大語言模型類似的突破，帶來了一次大的技術與商業革命。

其實，從2022年下半年開始，Midjourney、Stable Diffusion之類的應用已經可以根據文本提示詞生成對應的圖片了。在2023年9月，GPT 4.0和DALLE 3結合，也讓我們能夠用聊天化的方式生成、修改圖片。在這次的Sora發布之前，也已經有一些視頻生成AI，比如Pika、Stable video、RunwayML等等。但與Sora相比，其他模型生成的視頻在很多方面都要弱很多。

受制于AI文本到視頻生成的物理和時空推理局限，目前整個行業中所公布的單個連貫性視頻的最大長度是16秒，但此次Sora的最大支持長度是60秒。此前AI生成視頻産品都是單鏡頭單生成，由Sora所生成的視頻，能夠在保持主體一致性的前提下實現多角度鏡頭無縫切換，整個畫面幹淨流暢，從而實現真正的視頻大片效果。

Sora是一個基于擴散模型的視頻模型，基于DALL·E和GPT模型的研究成果，采用了DALL·E 3的重標注技術，通過GPT的能力，使模型更加准確地遵循用戶的文本指令生成視頻。對現實世界有了更深刻的理解和互動能力，具有了世界模型的雛形。OpenAI最終想做的，其實不是一個“文生視頻”的工具，而是一個通用的“物理世界模擬器”，爲真實世界建模。

世界模型是一種AI技術，它的目的是讓機器能夠像人類一樣對真實世界有一個全面而准確的認知。世界模型不僅包括對事物的描述和分類，還包括對事物的關系、規律、原因和結果的理解和預測。世界模型可以讓機器從數據中學習出有用的知識，並根據知識進行推理和決策。AGI是人工智能的最高境界，也是許多科學家和工程師的終極目標。

在與谷歌Gemini 1.5 Pro相繼出場的輿論戰中，OpenAI Sora可以說是取得了碾壓式勝利。Sora無疑是人工智能領域的一次重大突破，該技術不僅展示了AI在理解和創造複雜視覺內容方面的先進能力，而且對內容創作、娛樂和影視制作行業帶來了前所未有的挑戰和機遇。

比如現在一個電影動不動就制作成本上億，AI會極大的降低電影成本，比如說《繁花》裏，爲了拍電影1:1複制重建黃河路，好萊塢電影的一個科幻片段需要耗費數百萬美元，Sora正在讓這些燒錢的影視制作環節變成“零成本”，甚至創作出比之前更好的作品。

盡管Sora在技術和性能表現上有了巨大的提升，它仍有不少的局限性，在理解複雜場景的物理原理、因果關系、空間細節、時間推移上存在弱點。OpenAI明確表示目前Sora的模型還並不完美，仍屬于世界模型研究應用的初期，相信這些問題隨著時間都能得到解決。

而相比于其自身缺陷，該技術的廣泛前景更爲外界所關注。近兩年，由于人工智能發展迅速，以至于很多企業紛紛加大了對人工智能的投入。科技創業公司研究機構PitchBook估計，2023年全球生成式AI的市場規模將達426億美元，2026年則將達到981億美元，未來增長動能可期。

在新的發展階段，生成式AI將與更多領域的技術相結合，實現更加智能化、高效化的應用。這些應用將爲人們的生活和工作帶來更多的便利和效益。例如，在醫療領域，生成式AI+醫學知識，輔助醫生進行診斷和治療；在金融領域，生成式AI+金融數據，輔助投資者進行投資決策；在教育領域，生成式AI+學生互動，輔助教師進行教學等。

從二級市場的表現來看，最先受到Sora降維打擊的是工具類公司Adobe，在Sora公布後的次日股價暴跌超7%。另外一只美股Shutterstock周五跌逾5%，市值一夜蒸發超7000萬美元。公開資料顯示，該公司每年銷售價值約10 億美元的照片和視頻。

對于字節跳動來說，Sora的誕生將對剪映造成一定的沖擊。正如周鴻祎所言，它不一定那麽快擊敗 TikTok，更可能成爲 TikTok的創作工具。剪映作爲一個內容創作工具，所瞄准的正是AI創新方向，據悉即將推出一個AI生圖和視頻的産品，進一步拉低普通人創作視頻的門檻，創造抖音、TikTok二次增長的新機會。

ChatGPT誕生之初，引發了國內互聯網大廠以及衆多創業公司的跟進，上演了“百模大戰”，都寄希望于自己成爲智能變革時代的底座。雖然積極追趕，但國內大模型産品在性能、生態等方面還與ChatGPT存在一定的差距。如今Sora的爆火誕生，必將再一次産生國內企業的跟風潮，倒逼我國AI行業繼續取得重要突破。

在業內有一個普遍的市場共識，在通用大模型領域，鑒于高昂的研發資金壁壘，只有少數科技巨頭有望在競爭中勝出，因爲基礎大模型對于需求多元的廣大中小企業來說並不具備廣泛適用性。

前微軟美國總部及大中華區技術高管、邁吉客科技董事長伏英娜表示，OpenAI 之前的ChatGPT是利用Transformer的encoder-decoder編解碼機制構建了語言的自回歸模型，而圖像和視頻領域最有價值的Diffusion擴散模型是一種生成模型，它通過模擬隨機擴散過程來生成圖像數據，本質與語言的自回歸是相似的但維度不同。現在Sora是Diffusion + Transformer結合的創新，視頻數據壓縮進向量空間中湧現的智能，不僅能夠實現媲美 GAN 的圖像生成質量，而且具有更好的擴展性和計算效率，所想即所見時代到來。

如果繼續用這樣的思路和邏輯處理不同模態的數據，相信未來會湧現出更多不可思議的智能。人類的多元智能是包含語言智能、數理邏輯智能、人際關系智能（情商、情感）以及身體運動和控制的智能，還有空間感知智能、音樂韻律節奏相關的智能，這些多元智能有些是目前AI做不到的，但如果跨越奇點真的是想象力創造未來無限可能。

OpenAI選擇的是AGI（通用人工智能）造福全人類，這在中國並不現實，沒有資本、市場和創新環境支撐，且AGI飛輪效應一旦形成在同一維度是不可能超越的。

反觀企業級智能AEI（Evolution/Enterprise AI）和通用智能AGI同樣有價值，其實通用大語言模型放在企業級場景中並不適用，使用互聯網大規模數據訓練是一種浪費和幹擾，並且有失控和數據的風險。企業級AI沒必要用千億規模參數大模型，反而需要成本可控和邊界安全、零幻覺率，針對企業自身數據類型及規模選擇適合的參數量級和模態。

文采家

陳琦：OpenAI又祭出大殺器，來自Sora的降維打擊

財經作者陳琦