文采家

GPT-4o幹掉初創全網實測，馬斯克等大佬紛表不服：OpenAI不過如此

之槐看科技 2024-05-16 03:06:25

編輯：編輯部

【新智元導讀】GPT-4o一上線，大批初創公司又要面臨倒閉了。全網網友實測後驚呼：這推理速度是碾壓版的升級！然而馬斯克、Karpathy、Meta研究者等一衆大佬唱衰道：OpenAI不過如此，無非就是發布了一個在同一神經網絡中結合文本-音頻-視頻三種模態並同時處理的模型。

OpenAI一夜之間，又幹掉了一大批初創公司。

官方公布的全能模型GPT-4o的炸裂演示，即便過去了一天，依舊讓全網深陷其中，無法自拔。

憑借實時語音視頻對話，GPT-4o已經深入教育、翻譯、視頻會議等領域的變革。

OpenAI科學家Lilian Weng稱，自己這次的日本之行，就用到了ChatGPT的實時翻譯能力，比如翻譯與壽司廚師對話，或在紀念品商店識別解釋不同類型岩石。

目前，一些用戶已經灰度測試到了GPT-4o，紛紛開啓了測試。

一大波演示來襲

瞧好了，科幻版Her，正走進現實。

兩個AI自主交流，解決客服索賠

ChatGPT可能最先搶走的工作，就是客服。

OpenAI研究科學家Joe Beutler放出了，全新的GPT-4o提供客戶服務支持的有趣演示。

一起看看兩個AI智能體，如何解決了客服索賠。

與客戶合作構建變革性解決方案總能讓我備受鼓舞。我們可以利用這一最先進模型構建的潛在解決方案，令我興奮不已！

視頻中，兩個AI自主交流了起來，全程不用人類參與，就把問題解決了。

，時長02:10

OpenAI聯創Greg也轉發了這個經典示例。

還有網友表示，准備讓GPT-4o代替自己談判所有的賬單。

18世紀手寫稿，一鍵轉錄

網友翻出18世紀的手寫稿，讓GPT-4o再轉寫一份。

在下圖右邊回應中，GPT-4o成功將這份筆迹識別出來，不過還是會有一些小錯誤。

成爲盲人的「眼睛」

在另一個OpenAI官方用例中，與Be My Eyes合作，爲盲人提供實時助手。

在這個1分鍾演示視頻中，展示了GPT-4o強大到足以讓人震撼。

男主人公通過ChatGPT識別建築物，並講解了國旗上的國徽代表著什麽。

當他走到湖前，ChatGPT非常悉心地講解了，湖水中的鴨子們在遊來遊去，不慌不忙悠閑自在，有的還在嬉戲打鬧，有的在尋找食物......

最後，盲人借助ChatGPT的「眼睛」，打到了回家的車。

，時長01:06

有網友將其稱之爲，GPT-4o最好的用例。它將爲每個人改變世界，甚至它將爲視障人士創造一個全新的世界。

GPT-4o輸出速度碾壓GPT-4

還有網友測試對比了，GPT-4o和GPT-4針對同一問題的輸出，吞吐量有多快。

如下的對比，一眼明了。

GPT-4o+函數調用

將GPT-4o與函數調用結合起來用，更是讓人炸腦。

下面案例中，將一張錯誤的圖片上傳之後，GPT-4o主打分析，然後函數調用工具便會搜索可能修複方法。

，時長00:53

構建Karpathy大模型OS

網友Ashpreet Bedi利用GPT-4o，去構建了Karpathy曾提出的LLM OS，沒想到運行速度，非常炸裂。

，時長09:58

他還將代碼放了出來，以供大家自行操作。

GitHub地址：https://github.com/phidatahq/phidata/tree/main/cookbook/llm_os

中國小姐姐談賽博戀愛

GPT Store上線之後，各種鋪天蓋地的定制AI女友幾乎將其淹沒。

網友已經開始整活了

甚至，與AI女友相關的應用，直接成爲ChatGPT商城上線首周中，最熱門的應用。

而現在，有了GPT-4o加持的ChatGPT，談一場賽博戀愛更是恰到好處。

這不，抖音小姐姐「午夜狂暴哈士奇狗」在GPT-4o還沒放出之前，已經開啓了與ChatGPT談一場甜甜的戀愛。

下面視頻中，他們准備要去海邊約會去看落日，視頻中小姐姐還專門化了美美的妝。

而ChatGPT談情說愛的本領，讓人聽了瞬間肉麻。

視頻傳送門：https://v.douyin.com/i2QRdYET/

之前版本的ChatGPT還不能看到小姐姐美美的妝容、海邊的景色....

而現在GPT-4o升級後的版本，能夠識別表情和情緒，都不敢想象究竟有多強。

複刻「精靈寶可夢」

GPT-4o還可以完美地複刻了任天堂的遊戲——寶可夢紅（Pokémon Red）。

未來的遊戲設計，就交由AI來做。

制作演示的網友表示，過去他曾用Claude Opus耗費大把時間，才做出一個勉強可以運行的同款遊戲。

而其他的模型，就更菜了，幾乎無法畫出一個畫面。

如下演示中，GPT-4o就...直接玩起了這個遊戲。

它在終端的設計，細節非常准確，可以精准繪制地圖，並模擬戰鬥。

，時長09:08

Jim Fan預測全押中了

雖然OpenAI的這波更新在我們看來非常炸裂，但其實英雄所見略同，Jim Fan大佬表示「我早就說過應該這麽幹」。

在昨天發布會召開之前，他就發布了一篇推文，深入淺出地講解了實時語音助手的技術路徑，基本可以當作OpenAI技術報告的大綱了。

推文中首先表示，幾乎所有的語音AI都需要經過3個階段的推理——語音識別、LLM和語音合成。

然而，如果只是非常簡單地把三種模型集成在一起，每次回答問題就會有接近5秒的延遲時間，這會造成用戶體驗斷崖級的下降，無法打造「沉浸式對話」。

要想解決延遲問題、打造實時語音AI，就不能僅僅考慮三個子模型的加速，還需要重新考慮整個pipeline，讓各個階段盡可能重疊在一起，就像人類對話時都是一邊聽一邊構思怎麽說。

用一句話總結就是，「端到端模型總能勝出。」

不僅如此，發布會上展示的ChatGPT新特性，也都被Jim Fan一一點到，比如適時插入語氣詞、處理對話中的「打斷」等等，簡直是一波「神預言」。

OpenAI究竟強在哪裏？

有意思的是，GPT-4o放出後，坊間也同時出現了一些唱衰OpenAI的聲音。

有人說，這次放出的不是GPT-5，也不是搜索，其實就代表著OpenAI的倒退。

馬斯克則嘲諷道，這些AI聊天的速度也太慢了吧。

此外，Andrej Karpathy大佬也用十分平靜的語氣給出技術總結，得到了馬斯克的附議：

「他們發布的是一個在同一神經網絡中結合文本-音頻-視頻三種模態並同時處理的模型，僅此而已。」

這就引起了網友們的討論：究竟是誰，在這裏淡化OpenAI做的事？

不可否認的是，OpenAI讓《Her》中的Samantha成真了，這絕對是一件意義重大的事。

這位網友表示，「這是我見過的最令人驚奇的技術，那些失望的人大概本來是盼著ASI的吧。」

AI開發者Benjamin De Kraker表示，這種能聽說能看還能推理的「虛擬人」，跟人都沒區別，這不就是AGI嗎？

對OpenAI感到不服的人，還有其他一些業內人士，比如沃頓商學院AI方向的教授Ethan Mollick，他表示：「GPT-4o並不是巨大的飛躍」。

還有一位Meta的研究科學家表示，OpenAI的GPT-4o技術沒什麽大不了的，在2個月內，開源領域就會有人開始預訓練類似GPT-4o的模型了。包括他在內的研究者，都在加班加點地進行這項研究。

據他透露，Meta雖然暫時落後，但跟GPT-4推出時相比，他們其實離OpenAI更近了。

原因在于，他們已經構建了可擴展、與多模態一致的架構，以及關于如何訓練這些模型的知識，而最重要的是，在這個研究領域，他們擁有除OpenAI以外最強大的團隊。

而在過去兩年中，這位研究者所在的團隊一直致力于爲早期融合、多模態token-in-token-out方法奠定基礎。

在這方面，Meta也是發表了多篇論文。包括最初的CM3論文，到MM-scaling law，再到CM3Leon，除了已發表的六篇論文，還有幾篇即將出版。

其實，這位老哥之所以著急澄清，也是因爲被這位Teortaxes大V的言論逼急了。

在Teortaxes看來，Meta和OpenAI之間的差距是越來越大了。

雖然Armen在前幾天就放消息說，Meta預訓練的早期融合多模態模型已經獲得了成功（甚至核心突破在2023年12月就已經實現了），可OpenAI的GPT-4o，都已經作爲産品落地了啊，更何況還是給每個人免費可用。

看衰老一輩科技巨頭的絕不止Teortaxes一個人，知名咨詢公司Gartner副總裁 Chirag Dekate在接受Ventur Beat采訪時表示，他認爲Meta、谷歌等公司和OpenAI之間的「能力差距」越來越大了。

博主「i陸三金」總結道，其實OpenAI最被低估的，就是産品能力。

前有Sora，今有GPT-4o，能把一堆顯而易見的技術打造成一個亮眼的産品，業內目前有這種實力的，OpenAI是無出其右。

看起來，這些産品背後的技術，如DiT、ViT、VAE或端到端的文本、視覺、音頻模型，並不罕見。但唯有OpenAI，真正做出了産品。

0 阅读：0

猜你喜歡

免費訪問GPT4、Gemini、Claude 3、Bing等AI模型, 親測有效

【3评论】【41点赞】

ai gemini gpt4 bing 人工智能

部落人有文化 2024-04-22

之槐看科技

簡介:感謝大家的關注

作者最新文章

科技TOP

科技最新文章