谷歌I/O大會，眼花缭亂，但缺王炸

五月真熱鬧，OpenAI才開了春季發布會，谷歌I/O大會也如期召開了。

實話實說，觀看主題演講直播的過程中，腦海不禁會浮現曾被谷歌內部員工泄露的梗圖——谷歌AI産品和項目一個又一個不同又相似的名字令人頭大。

主題演講的關鍵詞仍舊是AI，谷歌還自己在現場給出了提到“AI”的次數，在120次以上。

在萬衆矚目的AI領域，谷歌宣布了若幹新消息。

AI大模型升級了兩個，Gemini 1.5 Pro雙下文窗口拓展到200萬令牌、Gemini Nano增加多模態理解能力；新發布了三個，更輕更快的Gemini 1.5 Flash、新架下的Gemma 2.0，以及視覺語言模型PaliGemma。

另有文生圖模型叠代至Imagen 3，還新發布了一個文生視頻模型Veo。

AI的具體應用延展上，谷歌這次憋了不少招。

谷歌的核心産品搜索中，發布AI Overviews，加強版AI搜索摘要功能將率先上架美國。谷歌搜索中還將加入制定計劃、視頻搜索等多重AI驅動的功能。

此外，Gemini還被塞進谷歌照片以及即時通訊應用Google Messages等産品中。

讓人聯想到OpenAI才發布的GPT-4o的，是谷歌旨在打造未來通用AI助理的新項目Project Astra，以及Gemin的新功能Live。Gemini Live支持與AI語音聊天，年內預計加入相機功能，和AI實時“視頻通話”。

有點尴尬的是，在第三方拉流的直播間裏，觀衆直呼“無聊”，並對眼花缭亂的名字感到困惑。CNET的評論員指出，谷歌需要精進講故事的能力，而不是一上來就將各個部分盡數展開。

OpenAI趕在谷歌I/O大會前一天開春季發布會，原本盛傳的搜索産品沒來，但“人類級別響應”的GPT-4o讓人一窺新一代AI助理大戰的輪廓。

難以想象要是沒有OpenAI的狙擊，谷歌會有多開朗。

本次谷歌I/O大會上，原本最具驚喜的也是AI助理方面的進展。

首先，谷歌公布了一個新項目，名爲Project Astra。用谷歌Deepmind負責人哈薩比斯（Demis Hassabis）的話說，這是真正通向AGI的萬能助手項目。

相比于谷歌上一代AI助手Google Assistant，Project Astra的AI助手模式多樣，且能實時交互。沒有煩人的喚醒詞，也沒有尴尬的延遲。看你所看，爲你排憂解難。

演示視頻中，用戶打開手機攝像頭，對准任意物品，AI可以准確說出物品的名稱，如“這是一個音響”。用戶可以實時視頻的同時，在屏幕上塗畫、進一步向AI提問，如畫一個箭頭指向音響的某個部分，詢問是什麽。當用戶將鏡頭對准窗外時，AI則直接根據景色猜測出用戶所在的地點。

在攝像頭匆匆掃過場景的情況下，用戶求助“眼鏡放在哪兒”，助手准確識別並回答“你的眼鏡在紅蘋果的旁邊”。

去年12月，Gemini就曾發布通過視頻和AI互動的視頻，但事後承認視頻經過剪輯，谷歌爲此沒少被戳脊梁骨。

有意思的是，這次在演示視頻的一開頭，谷歌就鄭重承諾，視頻是實時、一次性拍攝的。

不過，谷歌尚未針對Project Astra給出明確的時間線，只是含糊地表示今年晚些時候其中的一些功能將更新到Gemini及其他應用中。

谷歌在AI助手方面還有更看得見、摸得著的進展——Gemini Live，也就是對Gemini産品進行多模態功能拓展。Gemini Advanced用戶將可以用語音和Gemini進行對話，對話更流暢自然，延遲更低，可以隨時打斷，預計夏天上線。谷歌還表示，今年年內將加入相機功能，實現實時視頻。

可以說這一次，谷歌被OpenAI精准狙擊——GPT-4o不僅早一天發布，而且現場演示，未來幾周就會開放給全部用戶。

近日外界都在盛傳OpenAI將推出搜索類産品，與谷歌一戰，但這樣的情況並沒有發生，而谷歌自己也已經馬不停蹄地升級了谷歌搜索。

搜索作爲谷歌的核心産品，即將迎來一次大升級——搜索摘要功能AI Overview，同時包含多步推理功能Multi-Step Reasoning、在搜索中做計劃Planning in Search，以及用視頻提問Ask With Video。

AI Overview，顧名思義，是指用戶鍵入文本、點擊搜索之後，出現在最上方的將是AI幫忙整理的信息摘要。其中包含用自然語言對搜索結果的總結和概括，以及推薦的鏈接。從前這被谷歌稱爲“搜索生成式體驗（SGE）”。

多步推理Multi-step reasoning則可以用來做計劃。當用戶在搜索框鍵入“附近最好的瑜伽館”時，AI摘要會將附近瑜伽館依照評分、課程、距離等信息分類成塊，更清晰地展示給用戶。Planning in Search則允許用戶直接用谷歌搜索做計劃，如在搜索框中鍵入飲食計劃的需求，搜索引擎會給你自動生成一份。

想要搜索商品的時候，AI同樣會發揮作用，在搜索框鍵入“有上下坡的五英裏通勤自行車”，搜索引擎會在上方給出選購自行車的思路建議，並給出若幹商品推薦。

從一個又一個詳盡的演示不難看出，谷歌已經下定決心重塑搜索體驗。

不過，AI搜索在很多競品中都已經被應用，更有專做AI搜索的Perplexity.AI。谷歌對搜索體驗作出的重大升級，放在2024年的5月已經不大能帶來新鮮感。

應用生態的其他新動作更像是補齊，如Gmail郵箱、Google Messages通訊、谷歌照片等，Gemini逐漸拓展到越來越多的谷歌應用中，大有“Gemini無處不在”的態勢。

AI背後的模型，谷歌這次也是大手一揮，升級的升級，新發布的新發布，Gemini家族不斷壯大。

三個月前發布的Gemini 1.5 Pro終于“發貨”了，即日起正式開放給訂閱了Gemini Advanced（類似ChatGPT Plus）的用戶。

Gemini 1.5 Pro支持100萬token的上下文窗口，今年晚些時候將會增加到200萬token。更形象地說，升級後的Gemini 1.5 Pro能同時處理22小時音頻、2小時視頻、超過60000行代碼或140萬個單詞。

新發布的模型中，Gemini 1.5 Flash原本有明星潛質，但被OpenAI狙擊。GPT-4o驅動的ChatGPT狙擊Project Astra和Gemini Live，GPT-4o狙擊Gemini Flash。

Gemini 1.5 Flash主打更輕更快，反應速度和效率是其主打特色，擁有多模態推理能力，擅長總結、聊天、圖像、文檔數據提取、視頻字幕等。但這些特點，顯然和GPT-4o撞車了。

除此之外，谷歌的開源模型Gemma也發布了新版本，Gemma 2.0有270億參數，並拓展出多模態版本PaliGemma。

多模態生成式模型，谷歌在I/O大會上公布了三個，涵蓋圖像、音樂和視頻。

文生圖模型谷歌此前就有，此次做了叠代，發布Imagen 3。Imagen 3對提示詞的理解更加准確細致，可以生成更逼真的圖像。在演示中，Imagen3從一長段提示詞中提取了8個細節信息，並在生成的圖像中一一體現。

音樂生成模型Music AI Sandbox是全新的，用戶可以用小段Demo拓展延長，也可以按照文本提示對音樂進行再創作，改變和調整音樂風格等。鑒于谷歌旗下還有YouTube等UGC平台，此類模型將很好地服務于創作者。

更惹眼的其實是谷歌此次新發布的文生視頻模型Veo。

谷歌Veo可接收文本、圖像和視頻提示，生成1080p規格、60s的高質量長視頻。

年初OpenAI曾發布Sora，雖未正式對公衆開放使用，但演示視頻和小範圍的測試已經讓Sora獲得了不小的追捧。從演示的效果來看，Veo可與Sora一戰。

這屆I/O大會，谷歌交出了誠意滿滿的“成就清單”，大模型仍在進步和創新中，AI應用生態也不斷發展。

但新名詞轟炸之後，能留給人深刻印象的東西並不多。比起前一天發布GPT-4o讓外界感歎科幻電影照進現實的OpenAI，谷歌到底還是缺一個王炸。

文采家

谷歌I/O大會，眼花缭亂，但缺王炸

字母榜