OpenAI新動作來了!ChatGPT或將登陸iPhone,AI語音助手即將亮相

烏鴉智能說 2024-05-11 17:00:39

自蘋果徹底放棄自動駕駛以來,所有人都在關心對這個全球最大終端廠商,將以何種姿態擁抱生成式AI。今年3月,蘋果一度傳出正與谷歌進行大模型合作談判。

如今,情況發生了變化。據彭博社記者 Mark Gurman 援引知情人士消息,蘋果即將與 OpenAI 達成合作協議,將 ChatGPT 整合到 iOS 18 操作系統。

有趣的是,在蘋果與OpenAI即將達成合作的同時,雙方也將AI語音助手展開競爭。

據外媒The Information今日報道,OpenAI正在構建具備音頻和視覺理解能力的AI語音助手,其中一些功能已經開始向客戶展示,可能在下周的發布活動中預覽。而蘋果也預計將在下個月的年度開發者大會上宣布對其 Siri 語音助手進行升級,使用大型語言模型來生成對用戶查詢更複雜的響應。

OpenAI與蘋果同時瞄上了AI語音助手,並非偶然。隨著生成式AI帶動自然語言的崛起,語音交互在硬件交互裏的權重得到大幅提升。這也體現在此前發布的多個AI硬件上。

從這個角度上說,布局AI語音助手,也算是OpenAI在AI硬件布局裏的一次占位。

/ 01 / OpenAI與蘋果合作接近達成

根據協議,OpenAI 協議將爲蘋果公司能夠提供一款流行的聊天機器人,作爲其計劃在下個月宣布的一系列新人工智能功能的一部分。

這意味著,OpenAI或將取代谷歌,成爲蘋果大模型領域的合作夥伴。今年3月,據彭博社報道,蘋果正在與谷歌進行談判,計劃將谷歌的Gemini人工智能引擎集成到iPhone中,以支持今年iPhone軟件中的一些新功能。但據知情人士披露,這些討論尚未達成協議,但仍在進行中。

截至目前,對于蘋果即將與 OpenAI 達成合作協議,蘋果、OpenAI 和谷歌的代表拒絕置評。

事實上,隨著蘋果與 OpenAI 的淵源由來已久。早在去年年初,蘋果公司負責軟件業務的高管們經過深思熟慮後,就決定爲智能虛擬助手Siri進行“大腦移植”。此前,克雷格·費德裏吉(Craig Federighi)和約翰·詹納安德裏亞(John Giannandrea)等蘋果高管仔細體驗了OpenAI的聊天機器人ChatGPT,隨後作出了上述選擇。

據兩名熟悉蘋果內部計劃的知情人士透露,ChatGPT的出色表現,尤其是其背後強大的生成式人工智能支持,讓Siri顯得黯然失色。ChatGPT不僅能夠寫詩、編寫計算機代碼,還能回答複雜的問題,這一切都彰顯出其超越Siri的先進性和實用性。

與OpenAI的合作,可以確保蘋果能夠迅速提供具有競爭力的人工智能系統,以挽回其在AI手機領域的落後地位,也爲其重新發力人工智能創造時間。

對OpenAI來說,拿下蘋果的好處就更直接了。作爲全球智能手機的主導者,蘋果擁有全球最大的終端用戶,iOS系統內擁有20億全球最高質量用戶。這些設備爲OpenAI的大模型落地端側提供了入口,也會在後續轉化爲新商業價值。

截至目前,對于蘋果即將與 OpenAI 達成合作協議,蘋果、OpenAI 和谷歌的代表拒絕置評。

/ 02 / 激戰AI語音助手戰場‍‍

隨著自動駕駛研究項目的取消,蘋果正在全面轉向人工智能。除了自研大模型外,Siri的優化也是其AI布局裏的重要一環。

Siri是蘋果于2011年推出的iPhone虛擬助手,多年來一直局限于對個人請求的回應,且常常難以維持對話的連貫性,甚至頻繁誤解用戶的問題,地位尴尬。尤其當ChatGPT展現出,更高的智能水平後,Siri處境顯得更加尴尬。

據三位熟悉Siri改進工作的人士透露,蘋果並沒有急于推出一個能寫詩或進行複雜對話的聊天機器人,以與ChatGPT等競爭對手直接抗衡。相反,他們專注于提升Siri在現有任務上的表現,如設置計時器、創建日曆約會、向購物清單中添加物品等。

爲了強調Siri的競爭優勢,蘋果計劃凸顯其比競爭人工智能服務更加私密的特性。Siri將在iPhone上本地處理用戶請求,而非通過遠程數據中心處理。這樣的好處在于,不僅能夠提升用戶數據的安全性,還能節省資金。

知情人士還透露,改進後的 Siri 將于今年 6 月份的 WWDC 大會亮相。新 Siri 的對話性更強、用途更廣,其 Siri 的底層技術將包括一個新的生成式 AI 系統,支持聊天功能,而不是一次回答一個問題。

在蘋果升級Siri的同時,OpenAI也被爆出正在開發AI 語音助手。據報道,OpenAI 正在開發 AI 語音助手,該技術能夠使用聲音和文本與人交談,同時識別物體和圖像。

據The Information報道,阿爾特曼的終極目標是開發出類似電影《她》(Her)中,可高度響應的虛擬助手,提升蘋果Siri等現有語音助手的可用程度。

目前,OpenAI 已經有軟件可以轉錄音頻並將文本轉換爲語音,但這些功能是通過單獨的對話式人工智能模型提供的,而新模型將這些功能結合在一起。

據兩位見過這項新人工智能的人士透露,ChatGPT 的開發者已經向一些客戶展示了這些能力,其中包括比其現有産品更好的邏輯推理能力。比如,新軟件的音頻功能可以幫助這些代理更好地理解呼叫者聲音的語調或他們是否在提出請求時帶有諷刺意味。

據一位使用過它的人士透露,目前尚不清楚 OpenAI 何時會將新功能提供給付費客戶,但最終計劃將其作爲免費版本的聊天機器人 ChatGPT 的一部分。

從目前看,這一功能與外界見面的時間可能比想象得更早。今天早上,OpenAI宣布將于美國時間13日上午10點在官網直播,演示ChatGPT、GPT-4的更新內容。根據報道,AI語音助手的部分功能可能將在下周的發布活動中得到展示。

/ 03 / 爲什麽都看上了AI語音助手?

OpenAI與蘋果同時將注意力集中到語音助手上,並不是偶然。

在OpenAI看來,具有視覺和音頻功能的AI語音助手具有像智能手機一樣的變革性潛力,理論上其可以做到一系列現在的AI助手無法做到的事,比如充當論文、數學問題指導老師,或是翻譯交通標識、幫助解決汽車故障等。

而對蘋果來說,在AI硬件落地路線尚不明確的當下,利用生成式AI對原有功能進行升級,可能是最爲穩妥的方式。改進Siri本身,也能夠給用戶提供更自然的對話能力和更加個性化的用戶體驗。

更重要的是,從現有已經發布的AI硬件看,盡管設計理念和形態不盡相同,但都有一個共性:在交互過程中,語音交互的權重得到大幅提升。

以主打“個人助理”的Ai Pin和Rabbit R1爲例,在很多使用場景下,兩者服務指令的輸出都是通過聊天方式完成,從簡單的咨詢意見、回複消息、識圖總結、播放音樂、實時翻譯,再到複雜而具體的零碎任務都能完成。

而作爲記憶增強設備的Tab和Rewind 吊墜,則將這一點體現得更爲明顯,兩者本質上都屬于隨身錄音設備,都是以一個麥克風打天下,能全天候、不間斷地傾聽你和身邊人聊到的一切內容,並通過 ChatGPT 轉錄對話內容,再通過 AI 進行分析和整理。

幾乎所有人都把交互創新作爲AI硬件的重要特征,這並非毫無道理。其邏輯在于,過去用戶與軟件的交互是對象和命令的方式,比如Photoshop就是一個窗口一個指令,而到了AI時代,用戶用自然語言向Midjournery描述你的想象,它就能給你生成圖。也就是說,從互聯網時代到AI時代,交互的邏輯發生了根本性的變化:從對象和命令變成自然語言。

沿著這個邏輯,不難想象,隨著短時間 AI 的能力越來越強,音頻的交互變得越來越靠譜,語音交互的頻次將越來越多。盡管目前受限于模型性能等諸多因素,在很多場景下,語音交互效果並不盡如人意。

但隨著模型性能的升級,以及AI語音助手的叠代,消費硬件裏語音交互的權重提升是一個必然趨勢。正如比爾蓋茨對 AI 時代展望時所說,

“如今在電腦上執行任何任務,都必須告訴通過 App。你可以用 Word 或者 Google 文檔來寫商業計劃書,但它們卻無法幫助你發送電子郵件、分享自拍、分析數據、安排聚會或購買電影票。但是在未來五年內,這種情況將完全改變。您不必爲不同的任務,而使用不同的 App,你只需用嘴說出來,告訴你的設備你想做什麽就行。”

0 阅读:0

烏鴉智能說

簡介:人工智能新時代的商業智庫和價值燈塔