怕什麽來什麽！OpenAI正式發布GPT-4o，對蘋果Siri構成降維打擊

今年2月份，蘋果突然放棄籌備多年的造車計劃，解散研發團隊，爲業界投下了一枚震撼彈。

雖然蘋果方面未明確透露這樣做的原因，但一種流傳較廣的說法是爲了轉向人工智能。相比造車，蘋果認爲人工智能才是未來更大的風口，如果現在不立即上車的話，未來和競爭對手之間的差距將會越來越大，會越來越被動。

看到這些消息，相信很多讀者可能都會産生這樣一種疑問：

蘋果的態度是不是過于謹慎、悲觀，擔心和疑慮是不是過于嚴重？人工智能的發展速度、未來和潛力，是不是被過分誇大？人工智能發展的速度真的有那麽快，真的會對傳統應用形成顛覆、碾壓性的優勢嗎？

對于這個問題，小編現在可以嚴肅地給出答案：蘋果的擔心是確實存在的，這種威脅不是在兩三年後，不是在一年後，也不是在半年後，而是就在現在，蘋果最擔心的事情現在已經發生。

5月13日，OpenAI正式發布其最新的LLM GPT-4o模型，其中的字母“o”是單詞“omni”的縮寫，中文意思是“全能的”。

GPT-4o的人機交互方式更簡單，更自然，可以接受文本、音頻和圖像的任意組合作爲輸入，並生成文本、音頻和圖像輸出的任意組合。

雖然在GPT-4o之前，用戶也可以通過語音模式（直接說話）與ChatGPT交談，但是延時比較高，GPT-3.5的平均延遲爲2.8秒，GPT-4的平均延遲爲5.4秒。

爲什麽延時比較高呢？因爲整個過程要由三個獨立模型完成三部分工作，第一步需要將用戶說的話（音頻）轉錄爲文本。第二步，GPT-3.5或GPT-4接收文本，然後理解思考，最後給出答案，將答案輸出爲文本。第三步，再將由文本轉換回音頻。

這種傳統方式有諸多弊端，最直觀的表現就是用戶說話到人工智能響應之間的等待時間過長，體驗較差。而且無法識別、分析用戶的音調、多個揚聲器或背景噪音，也無法輸出笑聲、歌聲或表達情感等等。

GPT-4o就是爲了針對解決這些弊端所開發、優化的，OpenAI在文本、視覺和音頻上端到端地訓練了一個新模型，所有輸入和輸出、整個過程都由同一個神經網絡處理，而不用再分成三個部分，響應時間因此會大幅縮短、綜合體驗更佳。

那麽，響應時間到底可以縮短到什麽程度呢？這是最關鍵的一個問題。答案是：GPT-4o可以232毫秒內響應音頻輸入，平均響應時間爲320毫秒。

關于GPT-4o的具體可用時間，OpenAI表示，GPT-4o的文本和圖像部分功能即日起在ChatGPT 中推出，該功能目前已可用，包括免費用戶。GPT-4o最硬核的語音模式功能，將在未來幾個星期內在ChatGPT Plus中推出，也就是說，這項功能不是免費的。

很明顯，GPT-4o語音模式功能針對的競爭對手是諸如蘋果的Siri、微軟的小娜，還有國內的小愛、小藝和天貓精靈等類似的應用，這類應用將會遭到降維式的打擊，整體至少相當于小學生和高中生的差距，擁有全方位、壓倒性的優勢。

另外需要強調、指出的是，這並不是OpenAI目標的全部，該公司還將爲Mac、Windows、Linux平台發布單獨的ChatGPT客戶端程序，並且推出融入人工智能的搜索引擎，直接劍指谷歌。

多年來，谷歌一直是搜索引擎領域的絕對一哥，雖然陸陸續續有很多試圖挑戰的競爭對手（包括微軟），但始終無法撼動其在搜索引擎領域主導地位，而OpenAI和人工智能橫空出世，將有可能改變目前這種格局。

請注意，這樣說並不是誇大其詞，坊間有消息稱，微軟Bing搜索引擎在加入Copilot之後，在去年一年時間內，其用戶增加了4000萬。說明這種打法是非常有效的，因此，谷歌在搜索領域也將迎來實力最強勁的競爭對手，而且會很快。

總的來說，蘋果方面的擔心絕沒有被誇大，而是實實在在的，在可預見的未來，人工智能肯定會融入各種傳統應用和生態的方方面面，OpenAI（和微軟）現在擁有極大的先手優勢，而且升級叠代很快，可謂一步先，步步先。

如果未來，GPT-4o（語音模式）的體驗確實對蘋果Siri擁有全方位、壓倒性的優勢，成爲蘋果用戶首選的語音助手，徹底取代Siri的話，那麽對蘋果來說，這將是一個沉重的打擊。

所以，目前人工智能發展的速度和對傳統應用和生態的沖擊程度，遠遠超過大多數人的預期，現在競爭已異常激烈。當然，蘋果方面肯定不會坐以待斃，預計也會采取一些因應措施，真正的競爭和較量才剛剛開始，小編會在第一時間分享更多後續相關動態，敬請關注。

文采家