怕什麽來什麽!OpenAI正式發布GPT-4o,對蘋果Siri構成降維打擊

麥子說科技 2024-05-15 03:53:40

今年2月份,蘋果突然放棄籌備多年的造車計劃,解散研發團隊,爲業界投下了一枚震撼彈。

雖然蘋果方面未明確透露這樣做的原因,但一種流傳較廣的說法是爲了轉向人工智能。相比造車,蘋果認爲人工智能才是未來更大的風口,如果現在不立即上車的話,未來和競爭對手之間的差距將會越來越大,會越來越被動。

看到這些消息,相信很多讀者可能都會産生這樣一種疑問:

蘋果的態度是不是過于謹慎、悲觀,擔心和疑慮是不是過于嚴重?人工智能的發展速度、未來和潛力,是不是被過分誇大?人工智能發展的速度真的有那麽快,真的會對傳統應用形成顛覆、碾壓性的優勢嗎?

對于這個問題,小編現在可以嚴肅地給出答案:蘋果的擔心是確實存在的,這種威脅不是在兩三年後,不是在一年後,也不是在半年後,而是就在現在,蘋果最擔心的事情現在已經發生。

5月13日,OpenAI正式發布其最新的LLM GPT-4o模型,其中的字母“o”是單詞“omni”的縮寫,中文意思是“全能的”。

GPT-4o的人機交互方式更簡單,更自然,可以接受文本、音頻和圖像的任意組合作爲輸入,並生成文本、音頻和圖像輸出的任意組合。

雖然在GPT-4o之前,用戶也可以通過語音模式(直接說話)與ChatGPT交談,但是延時比較高,GPT-3.5的平均延遲爲2.8秒,GPT-4的平均延遲爲5.4秒。

爲什麽延時比較高呢?因爲整個過程要由三個獨立模型完成三部分工作,第一步需要將用戶說的話(音頻)轉錄爲文本。第二步,GPT-3.5或GPT-4接收文本,然後理解思考,最後給出答案,將答案輸出爲文本。第三步,再將由文本轉換回音頻。

這種傳統方式有諸多弊端,最直觀的表現就是用戶說話到人工智能響應之間的等待時間過長,體驗較差。而且無法識別、分析用戶的音調、多個揚聲器或背景噪音,也無法輸出笑聲、歌聲或表達情感等等。

GPT-4o就是爲了針對解決這些弊端所開發、優化的,OpenAI在文本、視覺和音頻上端到端地訓練了一個新模型,所有輸入和輸出、整個過程都由同一個神經網絡處理,而不用再分成三個部分,響應時間因此會大幅縮短、綜合體驗更佳。

那麽,響應時間到底可以縮短到什麽程度呢?這是最關鍵的一個問題。答案是:GPT-4o可以232毫秒內響應音頻輸入,平均響應時間爲320毫秒。

關于GPT-4o的具體可用時間,OpenAI表示,GPT-4o的文本和圖像部分功能即日起在ChatGPT 中推出,該功能目前已可用,包括免費用戶。GPT-4o最硬核的語音模式功能,將在未來幾個星期內在ChatGPT Plus中推出,也就是說,這項功能不是免費的。

很明顯,GPT-4o語音模式功能針對的競爭對手是諸如蘋果的Siri、微軟的小娜,還有國內的小愛、小藝和天貓精靈等類似的應用,這類應用將會遭到降維式的打擊,整體至少相當于小學生和高中生的差距,擁有全方位、壓倒性的優勢。

另外需要強調、指出的是,這並不是OpenAI目標的全部,該公司還將爲Mac、Windows、Linux平台發布單獨的ChatGPT客戶端程序,並且推出融入人工智能的搜索引擎,直接劍指谷歌。

多年來,谷歌一直是搜索引擎領域的絕對一哥,雖然陸陸續續有很多試圖挑戰的競爭對手(包括微軟),但始終無法撼動其在搜索引擎領域主導地位,而OpenAI和人工智能橫空出世,將有可能改變目前這種格局。

請注意,這樣說並不是誇大其詞,坊間有消息稱,微軟Bing搜索引擎在加入Copilot之後,在去年一年時間內,其用戶增加了4000萬。說明這種打法是非常有效的,因此,谷歌在搜索領域也將迎來實力最強勁的競爭對手,而且會很快。

總的來說,蘋果方面的擔心絕沒有被誇大,而是實實在在的,在可預見的未來,人工智能肯定會融入各種傳統應用和生態的方方面面,OpenAI(和微軟)現在擁有極大的先手優勢,而且升級叠代很快,可謂一步先,步步先。

如果未來,GPT-4o(語音模式)的體驗確實對蘋果Siri擁有全方位、壓倒性的優勢,成爲蘋果用戶首選的語音助手,徹底取代Siri的話,那麽對蘋果來說,這將是一個沉重的打擊。

所以,目前人工智能發展的速度和對傳統應用和生態的沖擊程度,遠遠超過大多數人的預期,現在競爭已異常激烈。當然,蘋果方面肯定不會坐以待斃,預計也會采取一些因應措施,真正的競爭和較量才剛剛開始,小編會在第一時間分享更多後續相關動態,敬請關注。

0 阅读:12

麥子說科技

簡介:感謝大家的關注