中國首個視頻大模型Vidu顛覆而來，性能全面對標Sora！

《中國AIGC應用全景報告》指出，今年中國AIGC（生成式人工智能）應用市場規模將達200億元，到2030年將達萬億規模，2024年到2028年的年平均複合增長率將超30%。在這個炙手可熱的賽道上，新模型與新應用正持續湧現，不斷顛覆著內容生産模式。

4月27日，在中關村論壇未來人工智能先鋒論壇上，生數科技聯合清華大學正式發布了中國首個長時長、高一致性、高動態性視頻大模型Vidu。這是自Sora發布之後全球率先取得重大突破的視頻大模型，性能全面對標國際頂尖水平。

與Sora一致，Vidu能夠根據提供的文本描述直接生成長達16秒的高質量視頻，且分辨率高達1080P。

生數科技方面介紹，Vidu采用的核心技術U-ViT架構，由團隊于2022年9月提出，早于Sora采用的DiT架構，是全球首個Diffusion（擴散概率模型）與Transformer融合的架構，完全由團隊自主研發。

當前，Vidu主要有以下特點與優勢：

一是模擬真實物理世界，可以生成複雜、細節豐富的場景，光影效果與人物表情都能夠符合真實的物理規律。

二是富有想象力，可以虛構場景以及想象超現實主義的畫面。

三是具有多鏡頭語言，不再局限于固定鏡頭，能夠在遵循主體一致性的情況下實現遠景、近景、中景、特寫等不同鏡頭的動態切換，還可以實現長鏡頭、追焦等效果。

四是有出色的視頻時長，能支持16秒長度的視頻生成，保持鏡頭和主體的連貫一致。

五是能理解中國元素，可以更好地理解生成熊貓、龍等富有中國文化特色的形象。

在生數科技發布的Vidu模型生成視頻樣片中，視頻的整體質感可與Sora相媲美，並能創造出具有深度和複雜性的超現實主義內容，比如“畫室裏的一艘船正在海浪中駛向鏡頭”。

Vidu背後的生數科技成立于2023年3月，公司創始團隊來自清華大學人工智能研究院，是全球範圍內最早從事擴散概率模型研究的團隊之一。截至目前，生數科技已完成數億元融資，投資方包括啓明創投、螞蟻集團、BV百度風投、達泰資本、錦秋基金、卓源亞洲等知名機構。

目前全世界有3.05億視頻創作者，每天有200億次以上的視頻播放量，視頻需求非常大。在“視頻爲王”的時代，文生視頻大模型Vidu的問世，有望推動視頻創作者生産力革命，大幅降低生産成本與創作門檻！

文采家