能輔導作業、可識別人情緒！美國企業深夜放大招，AI迎來重磅進展

近兩年AI行業發展迅速，幾乎每個月都會出現重大突破。

作爲AI行業的引領者，OpenAI在深夜發布了全新的版本GPT-4o多模態大模型，給網友帶來了全新的體驗和認知。

對于GPT-4o的特色，簡單來說就是它的理解和對話能力已經超過了很多人類，我們一起來看下。

GPT-4o此次可以實現對文本、圖像、語音的綜合理解及反饋，而且各方面的能力均達到了全球頂尖水准。

首先是語音能力，在發布會上可以看到，GPT-4o與用戶對談交流過程流暢，反應極快，而且可以通過攝像頭讀取周邊的環境，與對話者進行溝通。

在交流的話術中，GPT-4o已經與人類的語音相差不大，不誇張的說已經超過了市面上所有的語音助手，而且它還可以人類的表情、語調等。

據官方的信息顯示，GPT-4o的音頻響應時間平均320毫米，這與人類的對談時間基本一致。

GPT-4o語音對話能力的超強進化，這意味著未來包括客服、導遊等行業，極有可能完全被顛覆。

此次圖像的理解能力也是一大亮點，在發布會上的演示中，GPT-4o可以識別到用戶在紙上寫下的方程式，並且實時引導用戶做出解答，這個能力也是非常顛覆性的。

這意味著未來輔導孩子學習、用戶自主學習等將出現一大批新的機遇，教培甚至整個教育行業都會被改變。

當然GPT-4o不僅僅可以通過攝像頭讀取環境，還可以讀取你的手機屏幕、電腦屏幕及視頻文件等等。

在官方展示的場景中可以看到，GPT-4o甚至可以作爲盲人的導航工具，幫助盲人行走甚至打車等。

如果GPT-4o真的能與演示的效果一致，那麽這意味著大量的行業即將可以進入了重塑期。

拿翻譯和語音學習舉例，在GPT-4o的加持下，用戶可以首先指向性翻譯及語言學習，譬如你去國外旅遊，完全可以拿著手機拍物品，隨後就會發出該物品的當地語言，這個應用場景的實用性很高。

而且GPT-4o改變的不僅僅語言翻譯，硬件廠商也有大把的機會，包括翻譯硬件，加上攝像頭和網絡，就可以成爲新物種。

此外得益于對圖像的讀取，GPT-4o可以通過攝像頭對人類的表情進行解讀，這個意味著寵物機器人行業也迎來的一個巨大的機遇，甚至包括攝像頭都可以與GPT-4o相結合。

未來的幾年AI大模型將會催生大量的新機遇，對于創業者來說，一定要關注最新的技術進展，任何一個小的行業都有可能被重塑。

文采家