OpenAI機器人炸裂登場！ChatGPT有身體了，能說會看還能做家務

以 GPT-4 爲代表的大模型已經建造了大腦，下一步則是需要能承載這一大腦的機器人軀體。

昨天深夜，人形機器人明星公司 Figure AI 震撼發布了一段視頻，展示了他們的機器人 Figure 01 在 OpenAI 強大模型的支持下，進行的一系列對話交互。

[liveblog]

視頻中的機器人展現出了靈活的操作反應，其與人類溝通的流暢度幾乎可以與真人相媲美。

這距離 Figure AI 獲得 OpenAI、微軟、英偉達等公司投資，僅僅過去了不到半個月。也讓我看到，OpenAI 最強的多模態大模型有了身體後會是什麽樣子。

Figure 01，最懂你的人形機器人？

得益于 OpenAI 多模態大模型的強大支持，Figure 01 現在可是個桌上物品識別的小能手。蘋果、瀝水架、水杯和盤子，對它來說都是小菜一碟！

餓了，想讓它整口吃的，它能秒懂你的心思，麻溜地遞上一個蘋果。

而且，它甚至能在撿起你丟棄的垃圾，邊還能跟你解釋爲啥剛才給了你蘋果。在大模型的輔助下，Figure 01 可以理解桌面上唯一的食物——蘋果。

在人類的一聲令下，Figure 01 還能做家務，收拾餐具，這機器人，簡直是家庭生活的最佳夥伴。

廣大網友在看到這段令人驚豔的視頻後，反應可謂是五花八門。

網友已經迫不及待地給 Figure 01 安排任務了，任務清單裏怎麽還混進了機器人前輩的電影。

競爭對手怕是要看在眼裏，急在心裏，准備暗地裏摩拳擦掌，來一場技術大比拼？

更興奮的網友表示，AGI 的曙光似乎就在眼前。

當然，總有些挑剔的聲音，有的網友就吐槽說，這機器人說法怎麽結結巴巴呢？

網友也沒放過玩梗的機會。

Figure AI 掌門人 Brett Adock 也不甘寂寞，在 X 上跳出來做了一番精彩解讀。

視頻展示了端到端神經網絡的應用（end-to-end neural networks）。在此過程中沒有使用遙控器（teleop）。視頻是以實際速度（1.0倍速）拍攝的，並且是連續不斷的。

如您在視頻中看到的，機器人的速度有了顯著的提升，我們正在逐步達到與人類相似的速度。

無需遙控，自學成才

那麽 Figure 01 是怎麽做到的呢？

Figure AI 團隊負責人 Corey Lynch 在 X 上解釋了一番。

具體來說，視頻中展示的所有行爲都是通過學習獲得的（非遙控操作），並且以實際速度（1.0 倍速）執行。

Figure AI 將機器人攝像頭拍攝的圖像和通過板載麥克風記錄的語音轉錄文本輸入到一個由 OpenAI 訓練的多模態模型中，這個模型能夠同時理解圖像和文本信息。

該模型會處理整個對話的曆史記錄，包括以往的圖像，以生成語言響應，並通過文本到語音的方式向人類回話。同一個模型還負責決定執行哪種已學習的閉環行爲來響應給定的命令，它將特定的神經網絡權重加載到 GPU 上，並執行相應的策略。

而將 Figure 01 連接到一個大型預訓練的多模態模型，爲其帶來了許多有趣的新功能。

現在，Figure 01 + OpenAI 能夠：

詳述其周圍環境。在決策時運用常識推理。例如，「桌子上的餐具，像那個盤子和杯子，很可能接下來會被放到烘幹架上」。將含糊的高級指令，如「我餓了」，轉化爲符合情境的適當行爲，比如「遞給那個人一個蘋果』。用簡單的英語解釋爲什麽它執行了某個特定的動作。例如，「這是我能夠從桌子上提供的唯一可食用物品」。

當談到 Figure 01 通過學習掌握的精細雙手操作技能時，其實這背後也蘊含著一系列複雜而精妙的原理。

所有行爲都由神經網絡的視覺-運動轉換器策略驅動，這種策略能直接將圖像像素映射到動作。這些網絡以每秒 10 幀的速率接收機器人內置圖像，並生成每秒 200 次的 24 自由度動作（包括腕部姿勢和手指關節角度）。

這些動作作爲高速「設定點」，供更高速率的全身控制器跟蹤，確保動作的精確執行。

這種設計實現了關注點的有效分離：

互聯網預訓練模型對圖像和文本進行常識推理，以生成一個高級計劃。學習到的視覺-運動策略執行這個計劃，完成那些難以手動指定的快速、反應性行爲，例如在任何位置操縱一個可變形的袋子。同時，全身控制器負責確保動作的安全性和穩定性，例如，保持機器人的平衡。

對于 Figure 01 取得的巨大進步，Corey Lynch 感慨道：

就在幾年前，我還認爲與一個能自主規劃和執行學習行爲的人形機器人進行完整對話，將是未來數十年後的事情。顯然，許多事情已經發生了巨大變化。

這會是人形機器人的 GPT 時刻嗎

不得不說，Figure 01 的發展速度簡直像是踩了油門，一路狂飙。

今年 1 月，Figure 01 就掌握了制作咖啡的技能，這一成就得益于端到端神經網絡的引入，使得機器人能夠自主學習和糾正錯誤，僅需10小時的訓練。

一個月後，Figure 01 已經學會了搬運箱子並運送至傳送帶的新技能，盡管其速度僅爲人類的 16.7%。

在這個過程，Figure AI 商業化的步伐也未曾停歇，與寶馬制造公司簽訂了商業協議，將 AI 和機器人技術融入汽車生産線，並落戶于寶馬的工廠。

緊接著，就在兩周前，Figure 宣布完成了 6.75 億美元的 B 輪融資，公司估值飙升至 26 億美元。

投資方幾乎涵蓋了硅谷的半壁江山——Microsoft、OpenAI 創業基金、英偉達、Jeff Bezos、Parkway Venture Capital、Intel Capital 和 Align Ventures 等。

當時，OpenAI 與 Figure 還宣布將共同開發下一代人形機器人 AI 模型，OpenAI 的多模態模型將擴展到機器人感知、推理和交互環節。

如今，從 Figure 01 身上，我們仿佛能窺見未來生活的草稿。

事實上，在大模型之前，機器人屬于專用設備，如今有了大模型的通用能力，通用機器人開始曙光乍現，現在的我們不止需要 ChatGPT，還需要 WorkGPT。

這些進化間接印證了一條清晰可見的道路：當 AI 大模型生根發芽之後，總歸是要走進現實世界，而具身智能則是最佳的路徑。

一直活躍在 AI 前線的英偉達創始人黃仁勳曾洞察道：「具身智能將引領下一波人工智能浪潮。」

將 OpenAI 大模型融入 Figure 01 也是有意的戰略布局。

成熟的 AI 大模型充當人工大腦，模擬了人腦複雜的神經網絡，實現了語言理解、視覺識別、情景推理等認知功能，解決了機器人更高層次的認知和決策問題。

與此同時，各種傳感器、執行器、計算單元被集成到機器人軀體中，實現了對環境的感知和交互。比如視覺系統可以捕捉圖像和視頻，觸覺傳感器可以感受物體的形狀和質地等。

Figure AI 創始人 Brett Adcock 此前在接受采訪時表示，未來 1-2 年，Figure AI 將專注于開發具有裏程碑意義的産品，期望在未來一兩年內向公衆展示人形機器人的研發成果，涵蓋 AI 系統、低級控制等，最終呈現能在日常生活中大展身手的機器人。

他還透露，在成本方面，一個人形機器人約有1000個零件，重約150磅（68公斤），而電動汽車可能有約1萬個零件，重達4000-5000磅（1800-2250公斤）。因此，長期來看，人形機器人的成本有望低于廉價電動汽車，這取決于執行器、電機組件、傳感器的成本及計算成本。

機器人專家 Eric Jang 曾提出他的洞見：「盡管許多 AI 研究者認爲通用機器人的普及還需數十年，但別忘了，ChatGPT 的誕生仿幾乎就在一夜之間。」

一年前的今天，OpenAI 震撼發布了 GPT-4，向世界證明了大模型的強大威力。

一年後的今天，我們沒等來 GPT-5，但也迎來 Figure 01，而這會是人形機器人的 GPT-4 時刻嗎？

用戶10xxx29 3

2024-03-14 14:15

人類在自我毀滅的道路上越走越快了！
某程

2024-03-14 23:04

人形機器人機器如人人人愛，應用入家家家買，未來正數數數財，風華道尚尚尚派。（橫閱縱讀皆可）
戰損的美貌

2024-03-14 13:31

中國在AⅠ方面要加油哦
微雨紅塵32247

2024-03-14 21:10

人形機器人進工廠只是噓頭，靈性的物境不是創造複制類人的金屬材料人形機器人社會。
橋豆麻袋

2024-03-15 00:56

未來的普通人將何去何從
愛吃奶酪酪酪酪

2024-03-15 07:09

這樣發展下去以後會不會被機器人統治世界哦
夢裏清晨

2024-03-15 10:54

我感覺機器人咱們國家應該比外國人玩的好吧我感覺咱們國家應該也在秘密研究單兵作戰機器人呢
_Azure_

2024-03-14 19:39

真的想重開了[哭哭][哭哭][哭哭] 老爸賭錢輸得傾家蕩産，爸媽天天吵架，現在媽媽帶著妹妹也跑了，自己出來沒找到工作又被中介坑了[哭哭]真的好累，希望能順順利利找到工作，今晚能撿到吃的[哭哭]
過去、再見ㄋ

2024-03-14 10:42

光伏施工、並網、設計、勞務等資質合作

文采家

OpenAI機器人炸裂登場！ChatGPT有身體了，能說會看還能做家務

愛範兒