清華大學聯合生數科技正式發布了中國首個高一致性、高動態性視頻大模型Vidu。從放出的視頻來看,Vidu生成的視頻效果非常驚豔,在一致性、運動幅度等方面已經達到了Sora的水准,雖然比不上Sora的時長,但整體上已經可以對標Sora。
Vidu:“畫室裏的一艘船駛向鏡頭”
Sora:“逼真的特寫視頻,展示兩艘海盜船在一杯咖啡內航行時互相爭鬥的場景。”
不過,無論是Sora還是Vidu,目前都還沒有正式發布,而且除了視頻生成的時長以外,成功率、質量對于視頻生成大模型而言也是非常重要,所以真實差距或許還有待日後仔細比較。但無論Sora還是Vidu,其更大的意義還是在于采用了新的技術。
據了解,目前市面上很多視頻生成工具增加視頻長度的思路是采用插幀技術,這種方法通過在原始視頻幀之間插入額外的幀來提升視頻的流暢度和長度,還有一些工具則主要通過組合不同的模型和技術來生成較長的視頻,在一些較爲簡單的視頻動畫制作中,已經呈現出了非常不錯的效果。
此前央視制作的文生視頻AI動畫《千秋詩頌》
但與此同時,這兩種方式都可能會在內容的流暢性和視覺表現上顯得不夠連貫,缺乏自然的過渡效果,還會出現畫質下降,尤其是在快速運動或陰影處理上的扭曲和模糊等一系列問題。
而Vidu采用了和Sora完全一致的Diffusion和Transformer融合的架構,底層基于生數自研的U-ViT架構,是第一個融合了Diffusion和Transformer的架構,據稱比Sora的DiT架構早了一年。生數科技聯合創始人兼CEO唐家渝表示,生數科技在3月份就實現了8秒的視頻生成,在4月突破16秒,未來還將繼續加速叠代。
公開數據顯示,生數科技成立于2023年3月,核心團隊來自清華大學人工智能研究院,還有來自北京大學、阿裏巴巴、騰訊、字節跳動的多位技術人才。公司員工總數近90%爲研發人員。
去年6月,生數科技獲得螞蟻集團、BV百度風投、卓源資本的近億元天使輪融資;8月,完成了數千萬元天使+輪融資;今年3月,生數科技完成新一輪數億元融資,由啓明創投領投,達泰資本、鴻福厚德、智譜AI、老股東BV百度風投和卓源亞洲繼續跟投。在三輪融資總計數億元人民幣的資本加持下,生數科技已成爲目前國內多模態大模型中估值最高的初創公司之一。
爲什麽不搞准確的電表燃氣表?搞這些沒用的東西