騰訊混元文生圖大模型開源：Sora同架構，更懂中文

又一家大模型開源了，這次是騰訊。

5月14日，騰訊旗下的混元文生圖大模型宣布對外開源，目前已在 Hugging Face 平台及 Github 上發布，包含模型權重、推理代碼、模型算法等完整模型，可供企業與個人開發者免費商用。

隨後在5月17日，騰訊集團副總裁蔣傑在在騰訊雲生成式AI産業應用峰會上表示，騰訊混元大模型通過持續叠代，目前整體性能已居國內第一梯隊，部分中文能力已追平GPT-4。

針對備受關注的生視頻能力，騰訊混元支持文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力，已經支持 16s 視頻生成。在生3D層面，騰訊混元已布局文/圖生3D，單圖僅需30秒即可生成3D模型。

混元文生圖大模型是業內首個中文原生的DiT（Diffusion Models with transformer）架構文生圖開源模型，這也是Sora 和 Stable Diffusion 3 的同款架構和關鍵技術，是一種基于Transformer架構的擴散模型。混元文生圖大模型支持中英文雙語輸入及理解，參數量15億。

過去，視覺生成擴散模型主要基于 U-Net 架構，但隨著參數量的提升，基于 Transformer 架構的擴散模型展現出了更好的擴展性，有助于進一步提升模型的生成質量及效率。騰訊混元是業界最早探索並應用大語言模型結合 DiT 結構的文生圖模型之一。

在DiT架構之上，騰訊混元團隊在算法層面優化了模型的長文本理解能力，能夠支持最多 256 字符的內容輸入，達到行業領先水平。同時，在算法層面創新實現了多輪生圖和對話能力，可實現在一張初始生成圖片的基礎上，通過自然語言描述進行調整，從而達到更滿意的效果。

騰訊混元文生圖能力，已經廣泛被用于素材創作、商品合成、遊戲出圖等多項業務及場景中。今年初，騰訊廣告基于騰訊混元大模型，發布了一站式 AI 廣告創意平台騰訊廣告妙思，可爲廣告主提供文生圖、圖生圖、商品背景合成等多場景創意工具，有效提高了廣告生産及投放效率。

騰訊文生圖負責人蘆清林｜圖片來源：騰訊

混元文生圖大模型的發布會後，騰訊文生圖負責人蘆清林等人接受了極客公園在內的多家媒體群訪，分享了騰訊文生圖的進展和對 DiT 架構開發過程中的心得體會，以及爲何選擇將混元文生圖大模型開源。群訪內容整理如下：

爲什麽開源？

問：爲什麽在今年這個節點做開源？

蘆清林：現在做開源其實有兩個考慮，一方面我們從去年7月份開始做研發，那個時候其實大家都不知道有DiT這個東西，那個時候我們相對來說是在業界做得比較早的，也經過了比較長時間的打磨，所以現在是一個比較ok的階段，所以對我們自己來說我們是ready，我們是具備開源條件的。

第二我們爲什麽選擇在此時此刻選擇開源，我們已經看到過去基于U-Net架構這套已經逐步逐步越來越少的人去用它，大家更多是在DiT這樣的結構上去建設。但是我們也看到很多的應用由于過去做了很多的工作，始終還保持在Stable Diffusion那個階段上，同時也因爲沒有開源DiT，所以導致他們沒有辦法切換到新一代的技術能力上來，所以一方面我們也ready了，第二方面，目前業界也是需要的，所以就幹了這個事。

曾經的AI小模型時代其實開不開源差別也沒有特別大，但現在有一個問題在于，如果業界不開放一些大體量的FounDaTion model，獨立的研究人員甚至一個大型的實驗室都是很難做出一個好的FounDaTion model，因爲數據及其資源這些成本的問題，所以如果沒有人把這樣的FounDaTion model拿出來的話，未來一些很多的優化工作沒辦法進行。

問：現在開源和閉源的文生圖技術能力差距是在逐漸拉大還是逐漸縮小？

蘆清林：我覺得在我們開源之前是在逐漸拉大，但是希望通過我們的開源能把這個差距變小。

問：剛才聽您說要生成一個社區，把技術報告公開，但是沒有提到數據這塊，數據這塊會公開嗎？

蘆清林：對于訓練的數據來說，一方面它有很多業務層面自己的數據，所以我們對這個東西我們自己可以用，但是share這件事情我們自己說了不算，比如很多的業務數據，這個東西我們說不了不算，這個還會有很多法律相關的東西。

問：對大模型開源有哪些看法，或者現在做大模型開源還有哪些難題需要突破？

蘆清林：我覺得最重要的點首先得自己做得好，如果做得不好的話拿出來開源意義是不大的，把一個模型做得足夠好地讓大家能用起來，這一點很重要，也是必要的。

問：市面上有種說法是閉源的成本會更低效率更高，關于這一點怎麽看？另外現在開源文生圖後續會開放其他模型的嗎？

蘆清林：我們原來其實走的是閉源這條路線，包括去年都是把模型叠代，再把接口開放給大家用。但現在我們發現在開源社區能讓大家都參與進來，這件事情是非常好的，共建能讓這件事情能走得更快。

我們後續也會做一些開源的工作，包括後面的生文我們也在考慮如何能把它開源出來，但首先我們在考慮如何讓大家能在用得起來。

DiT會是多模態的答案嗎？

問：可以介紹一下混元這塊用DiT的時間線嗎？

張建偉：首先我們做DiT其實是從2023年6、7月份的時候開始做的，那個時候我們認爲已經是一個比較早的時間，因爲那個時候大家大部分還是基于Unet去做，我們爲什麽去做DiT，因爲它是基于transformer的一個生成模型，transformer我們有它本身的先驗感，我們知道現在包括ChatGPT在它們已經基于transformer把文生圖做得非常非常好了，並且基于transformer有一個非常強大的擴展能力，它的天花板非常非常高，目前我們還不知道它的天花板在哪兒。正是有了這樣的先驗，我們覺得文生圖做文生文的水平，我們覺得走transformer的路是勢在必行的，這也是我們爲什麽堅定地往transformer去走。

混元采用DiT架構｜圖片來源：騰訊

問：在采用DiT架構之前，你們的模型參數量是更大的嗎？

李志宇：在采用DiT架構之前，我們的模型參數量經曆了逐步增長的過程。最初，我們使用的Unet模型參數量大約在3億以下，但圖像質量並不理想。爲了提升性能，我們逐步增加了模型的參數量，從3億增加到十幾億，再到22億，最終達到30億。隨著參數量的增加，模型的圖像質量有了顯著的提升。然而，當參數量超過30億後，我們發現計算量大幅增加，且性能提升開始遇到瓶頸。

爲了突破這一瓶頸，我們開始嘗試DiT架構。在嘗試初期，我們采取了小步快跑的策略，從較小的參數量（7億到600兆或700兆）開始，並在充分驗證後逐步增加參數量。目前，我們的模型參數量已經擴充到15億，這是一個我們認爲相對樂觀的狀態。未來，我們還計劃將參數量進一步提升到50億甚至100億，以期望進一步提升模型的性能。

問：DiT技術加強之後，在文生圖這塊可能會有很多的改進，在文生視頻這個方向上技術進展會怎樣，如果想追上Sora的話，除了DiT技術，還需要再做什麽？

蘆清林：這也是爲什麽我們今天想開源的一個初衷，我記得非常清楚大年初七的時候OpenAI把Sora放出去了，是因爲他們有了一個很強的DiT模型，在視頻維度上做了升級。我們希望我們能夠把現在圖片的DiT拿出來，讓業界想做視頻的這些同行讓他們可以快速地有這麽一個圖片基礎擴展到視頻上去，其實這是非常明確的一個意圖，大家可以在上面省掉很多時間。目前視頻除了這個以外，還有很多比如對計算資源的訴求，視頻其實會比圖片的維度更多一些，對計算資源要求更高，這也是目前比較大的困難。

問：DiT會是多模態版本的答案嗎，或者還有哪些潛在的部署，可能會把DiT給替代掉？

張建偉：剛才提到的問題是多模態的問題，首先我個人認爲或者我們團隊認爲transformer仍然是它必須要走的路，因爲transformer它非常非常大的特點，它可以把所有的媒體信息包括文本，包括圖像、視頻，全部把它們看作一個Token，這個Token可以理解爲如果是一句話，它是一個字，如果是一張圖的話，它有可能是圖像裏的一個區塊，如果是視頻的話，可能還會增加一個時間維度，一個三維的trap，這樣的話我們可以把所有的媒體統一成一種表達模式，這樣可以最簡單的模式去訓練我們的多模態模型，所以我認爲多模態也是要走transformer這條路的。

而DiT裏面還包括了擴散模型這部分，而擴散模型這部分我覺得未來有可能會被代替，有可能做得更先進，比如它會做得更快，同時質量也會更好。

蘆清林：我完全贊同，還有一個點，我覺得未來可能會變成一個自回歸的網絡結構，它可能會更簡單粗暴一點。

只用看到一些前面的東西，下一個Token內容，不管是圖片、視頻、文本甚至是音頻，理論上都可以通過這樣的方法去做，如果大家能全部統一到這裏，其實未來所有的模態統一就不是不可能的。

爲什麽現在還不是這樣？目前包括算力還有一些數據的支撐可能還是不足的，還需要一定的技術發展，它的配套能力要足夠強大的時候，這種完整的範式可能才會做得足夠好。

問：視頻用DiT很好理解，那麽文生圖從Stable Diffusion改成DiT，它的價值在哪裏？如果DiT有更好的可擴展性，具體來說相較于Stable Diffusion有什麽不同？

蘆清林：你剛才說視頻用DiT其實是很好理解的，文生圖從Stable Diffusion改成DiT完全是同一個道理，當我想生成一個更高質量和更大圖片的時候，用DiT因爲它有更好的擴展性，它的能力是更強，天花板更高，其實和視頻是一樣的，包括現在做視頻也都是這樣去做，甚至一些國外頭部的公司他們圖片和視頻是一起做的，用一個模型輸出。

問：可以理解成它可以生成的圖片質量更高？

蘆清林：不僅僅是這樣，它的語義表達能力會更強，因爲它的參數量未來會做得很大，所以它可以容納的信息量就會更多。

問：DiT模型是否更適合幾十億參數規模的訓練，並且如果參數量較小，是否會影響其在視頻處理方面的效果提升？

蘆清林：剛好反過來，它未來的擴展空間非常大，它的擴展能力很強，所以它的天花板會更高，所以它做未來的圖片和視頻都能夠有更好的表現。

問：一般認爲參數量較小的模型消耗的算力較小，這種理解是否正確？另外，對于15億參數或更大規模的視頻大模型，是否更適合在PC上應用？

蘆清林：從兩個層面來解答這個問題：從參數量與算力消耗來看，將一個大參數量的模型減小參數量並不困難，可以通過犧牲一定的效果來實現更快的處理速度；從模型規模與應用場景來看，對于如何讓一個小規模的模型在擴展時仍能發揮良好作用，目前還在探索階段。而將大規模模型參數量減少以適應PC等平台的應用，相對而言是比較清晰的。

性能指標“最強”？

問：現在怎麽定義在性能指標上“最強”？

蘆清林：這個無非就是別人沒有的，我們有，別人有的，我們更好一些。從別人沒有這個點裏說，目前DiT裏沒有一個中文原生開源的，過去由于我們做了非常多的在中文理解和表達上包括數學方面的一些工作，所以讓模型在這方面有比較強的能力。這是第一個點，目前業界沒有，所以相對來說也比較好說。

第二點，怎麽去證明我們在其他的維度上更好。這個點我們會通過接近20多個維度去評估，這裏展示的只是四個維度，包含語義的理解，能不能把一些細節的數量表達好，顔色表達好，空間位置表達好，這裏面有非常多的維度。所以我們從所有的綜合維度來評估，我們並沒有非常明確的短板，以及我們在很多維度上面都會有一些優勢，以至于綜合評分我們會有比較高的一個能力。所以才會這麽說。

問：剛才看到那個評分上，目前技術的水平可能和最頂尖的模型還有一定的差距，後續通過什麽方式做加強，追趕？另外訓練數據上怎麽去叠代？

蘆清林：在中文和英文語料上其實中文有天然劣勢的，因爲確實英文的語料非常非常豐富，以及質量更好，這塊我們一直在補充。從去年的數據大概在5-6億的圖文費，今年已經擴充到20億，未來我們會持續擴充。包括能把它篩選得更准確一些，讓把更高質量的篩選出來，這是數據方面的工作。

第二個是模型方面的工作，模型方面目前是 15 億的參數量，同時我們會嘗試參數量更大的模型，因爲它耗費的計算資源和時間會更長，目前還沒有ready，但是已經在做。

混元DiT對中國元素理解具有優勢｜圖片來源：混元官網

問：中文語料主要是從哪兒來的？

蘆清林：我們這個地方也是費很大的力氣去做這些工作的，包括開源數據做清洗，開源數據是這樣做的，它的難點在于你能不能清洗好，以及標打好，這個是非常非常重的一些工作。包括我們內部也有很多有版權的素材，包括設計師這些都有，包括遊戲，其實都有很多工作。

問：騰訊對于AI生成的版權是怎麽看的？

蘆清林：無論是從法律層面來說，還是從更加規範的管理層面來說，我們全部都會去遵循。

問：前段時間和字節聊，他們是先推出6-7個産品，然後發展一批種子用戶，然後會根據種子用戶的意見對産品進行調整，對算法進行優化，但是騰訊的思路好像是要更打磨技術，更打磨底層，這樣的思路其實是有差異的？

蘆清林：其實沒有什麽特別大的差異，因爲騰訊裏面內部的業務場景是非常非常多的，從遊戲、廣告、社交、內容産品、雲所有的東西都有，幾乎外部能感受到的它都有，所以不管是在內部打磨還是外部打磨，對于基礎能力來說其實差別是不大的，因爲我們需要的是用戶的一個反饋，它是點踩還是點贊，這塊他覺得哪裏有問題，從我們的底層技術來說，這個反饋到底是對外部的客戶來說，還是內部産品帶來的，其實對我們來說是一樣的。

如何發掘場景需求？

問：在遊戲、廣告、社交這些領域上有沒有遇到一些場景問題，以及如何發掘場景的需求？

蘆清林：這三個場景完全不一樣，截然不同，因此我們有專門的團隊針對每個場景進行深入研究和應用開發。

社交領域：在社交場景中，我們可能會采用智能體的形式，通過包裝成小型的互動玩法來促進社交傳播。舉例來說，可以利用圖像生成技術，如使用個人照片訓練生成新的寫真形象，這些更側重于智能體的互動性。遊戲領域：遊戲制作流程複雜，從概念設計到最終的3D模型，涉及上百個步驟。對于視覺和圖像生成的需求各不相同，需要爲每個步驟提供定制化的技術解決方案，以提高遊戲生産的效率。廣告領域：廣告更注重效果，廣告主關注的是點擊率和商品的轉化率，而非單純的美觀。在設計廣告素材時，需要緊密結合廣告效果數據，如點擊率和轉化率，以生成更具吸引力和轉化潛力的圖片。問：文生圖算力消耗非常大，現在市面上的一些應用落地的情況，會不會覺得文生圖的商業化路徑會比較清晰一點？蘆清林：它的應用點是比較多的，但是它的商業化應用比較清晰這個我沒有那麽贊同，目前我們沒有看到一個極強的AI原生的産品能有很好的商業化的表現，只是大家目前都還在摸索，只是說現在因爲有很多的玩法這個我認可，有很多玩法已經出來了，有很多的小産品可以讓大家比較有意思玩起來，甚至比較火的一個狀態，但是這並不代表它有未來有很強的商業化能力，我們還在摸索階段。問：去年騰訊文生圖已經在探索視頻生成，相比于語言和文生圖來說，視頻生成大模型成熟度是什麽樣的？蘆清林：肯定不如這兩個，視頻它最大的一個點是如何生成質感非常好的視頻生産，目前一方面是生成的時間非常短，另外生成的視頻分辨率不足，以至于很多場景用不起來。還有一個特別大的問題就是，它計算資源消耗非常大，包括現在的Sora它如果想生成一個視頻要分鍾級才能生成出來，而且良品率也沒那麽高，這個是目前沒有廣泛應用的問題。問：現在很多人說AI生圖有的一言假，生成圖可以細節做得很漂亮，但是全是細節，缺乏邏輯性，或者像人畫圖一樣會有一個上下文怎麽理解這個場景。在給AI提示詞的時候給的其實是元素，比如小橋、流水、人家這三個元素。從文字到圖片這個算法其實沒有人所謂的邏輯或者上下文的，最後生圖怎麽彌補這個邏輯性，讓AI生的圖更有人味一點？蘆清林：尤其在去年還沒有大模型的時候，基本上是一個暴力的生成，通過過去見到所有的文本和圖片去腦部出當前的文本會生長成什麽樣子。我們現在接入大語言模型，語言模型和圖像生成模型聯動以後，逐步有自己的一些邏輯的思考，因爲語言模型它的邏輯推理能力，包括COP、POT這些能力會逐步逐步這些能力強化到圖像生成裏面來，我們目前在這些方向上，而且已經看到一些方向，包括多輪對話，包括解釋一些畫面，包括還有我們如何輸入一個公衆號的文章，讓語言模型從這個公衆號文章裏面裏面去抽象一句畫圖的prompt出來，再拿這個圖片去畫一幅圖，把這個圖配到文案裏面去，其實我們都已經做到了這些事情。包括寫故事，包括兒童繪本都可以做到。問：不同模型，剛才提到大語言模型和文生圖模型的聯動，今天早上我們看到OpenAI發的新的模型也是在做整體的聯動，把更多多模態的模型在一起做聯動，有哪些技術挑戰？蘆清林：它的聯動跟我們不一樣，他們是在輸入的時候把圖文視頻進行輸入，給到大語言模型，這是他們在做的事情。我們做的事情是大語言模型和不同模態的輸出聯動起來，這是不一樣的。都需要做，但是今天放出來的是沒有完全多模態輸入多模態輸出，這是一個理想的情況，但是如果想做到這樣一個像我剛才說的大一統模型的話還需要接入，目前大家都是把前半段連起來多模態輸入，後半段多模態輸出。問：現階段的技術難點是什麽？蘆清林：現在最大的難點在于不同的模態之間是不對齊的。舉例就像我們曾經在想視頻和音頻能不能同時生成，其實這個東西是很合理的，但是我們發現視頻畫面跟音頻不是一一對應的，同一段視頻可以配上很多音，意味著他們沒有這樣一個一致性，所以生成視頻和生成音頻如果想用一個模型輸出的話對我們來有很大的混淆，我們要解決對齊，這些模態其實很難對齊，這是最大的問題。接下來的挑戰？問：基于現在混元文生圖能力，未來的工作方向是什麽？蘆清林：這個問題能從兩個維度回答，這兩個維度我們都會去做，一個是技術能力的提升和模型應用更廣泛，包括從技術能力提升來說，一方面如何能讓它生成的速度更快，生成的質量更好，這是我們永遠都會追求的一個技術方向，它似乎是沒有止境的。第二個是騰訊的業務場景非常多，包括外部的，我們希望能在更廣泛的應用場景用起來。去年我們非常深入地跟廣告的場景做了一些協作，今年會跟社交包括QQ、企業微信很多業務場景做聯動，跟他們合作做一些新的技術能力。同時還跟騰訊遊戲做非常深的一些技術合作，也希望能在美術場景應用起來。除了這些以外當然還有QQ音樂等等都會是我們支撐的業務場景。問：這次開源之後文生圖模型接下來發展主要面臨的挑戰是什麽？蘆清林：可能會被說，我也不太確定我們會面臨什麽樣的挑戰，今天也提醒我們今天跟大家公布這個消息，心態也非常忐忑，它一定會有不完美的地方，一定會被人诟病，我們去改進，可能未知是一個比較大的挑戰。問：另外文生圖模型未來商業化的策略主要路徑是什麽？現在行業內類似的文生圖應用比較火，騰訊有沒有計劃推出專門面向C端的AI應用？蘆清林：這件事情其實並不是非常急迫的狀態，因爲騰訊內部的業務場景非常豐富，我們如果能給他們帶來價值，能幫助他們就非常好。至于AI能作爲一個獨立的産品，2C能商業化，其實我們目前還沒有非常明確的想法，我們也會去嘗試，不排斥。頭圖來源：混元官網

文采家

騰訊混元文生圖大模型開源：Sora同架構，更懂中文

極客公園