爲機器人提供“通用大腦”,「XSquare」連續完成數千萬元天使輪與天使+輪融資|36氪首發

36氪 2024-03-28 02:20:58

文 | 周鑫雨

編輯 | 鄧詠儀

36氪獲悉,具身智能大模型初創企業“X Square”近期連續完成了由聯想之星投資的數千萬元人民幣的天使輪融資,和由九合創投領投的數千萬元人民幣的天使+輪融資,一葦資本擔任X Square獨家財務顧問。

成立于2023年12月,X Square聚焦于“通用具身大模型”的研發,爲機器人提供通用大模型底座。公司的目標是爲機器人構建一個通用的大腦-小腦系統,提供從感知到動作的端到端能力。

在AI的發展曆史中,人們發現了一種與直覺相悖的現象:越是人類認爲的高階智慧能力例如棋類運動和數學越容易被AI實現;但越是無意識的技能和直覺卻越難以用AI模擬。

這個被稱爲“莫拉維克悖論”的現象在具身智能領域體現得淋漓盡致:感知環境、操作物體是人類最爲本能和基礎的能力,但從實現難度上來說,卻可以被認爲是所有AI領域的巅峰。這也正是爲什麽在ChatGPT等大模型在部分高級認知能力上已經接近甚至超越人類的今天,AI仍然無法在“低級的”體力勞動中取代人類的原因。

一些迹象表露,適配具身智能的通用大模型,將成爲AI賽道的一個重點。谷歌曾表示,AI機器人很強大,但通用性很差,比如一款掃地機器人要根據特定的環境、動作、障礙、反饋等數據進行長期訓練和反複測試。2023年10月,谷歌DeepMind發布了全球最大的機器人通用模型RT-X。RT-X在無需訓練或者極少訓練的情況下,就能執行一些特定任務。

2024年3月19日,英偉達發布了人形機器人通用基礎模型Project GR00T,“AI教父”黃仁勳評價:“開發通用人形機器人基礎模型是當今AI領域中最令人興奮的課題之一。”

此前對具身智能的研究,很長一段時間都發展相對緩慢。X Square創始人兼CEO William Wang告訴36氪,其原因在于,機器人任務非常複雜,“一個部分是對周圍環境的感知、推理和任務規劃等high level能力,另一部分是類似運動皮層和小腦對運動進行直接控制的low level能力”。

“單從硬件層面來說,即使是最複雜的操作,當前市面上的硬件水平也已經可以支持,而卡點在于智能本身。”William對36氪表示。

由于缺乏智能湧現和通用性,傳統Robotics Learning的範式難以爲機器人提供複雜精確操作的能力,如處理可變形的物體和複雜隨機的摩擦。直到2020年後,Transformer結構在機器人模型上的應用以及Imitation Learning(模仿學習)、Offline Reinforcement Learning(離線強化學習)等新的訓練方式的成熟,才讓機器人在操作任務的端到端運動控制上有了新的突破。同時多模態的能力使得機器人的high level能力得到突破性進展,William告訴36氪,“莫拉維克悖論”終于到了可以被挑戰的臨界點。

傳統切分場景的方法難以提高模型的通用性,因此X Square將機器人的任務流程分成兩大部分:

1、根據人類指令和意圖,多模態大語言模型進行高層次的推理和規劃;

2、機器人通用模型依據規劃的指令端到端生成執行動作。X Square依靠軟硬一體的研發能力和對大模型的理解,將物理世界的交互與模型訓練相結合,推動模型通用操作能力的發展。

簡而言之,X Square自研的機器人通用模型平台,是多模態大模型、機器人控制大模型(Large Manipulation Model)、機器人本體的結合。

據X Square介紹,目前團隊自研的基礎模型已經達到世界先進水平,可以訓練機器人完成複雜而精細的物理操作。比如公司已經能夠實現面對表面不規則或光滑的物體,例如蔬菜、香腸等,進行精細化的切割;機器人也可以完成飲料的沖泡,包括拿起勺子,從罐子裏舀出果汁粉放入杯中,再倒入水沖果汁。

以上均爲大模型自主推理。(考慮到時長,該視頻做了加速處理)圖源:X Square

X Square CTO Hao Wang告訴36氪,機器人通用模型的核心,仍是訓練數據,“LLM和物理世界無關,數據可以充分利用全球外包,但機器人需要軟硬一體、數據-模型一體的能力”。他認爲,作爲世界硬件中心的中國具有天然優勢,“中國開始做LLM的時間晚于美國,但具身智能基礎模型與美國更接近同一起跑線”。

在商業化層面,X Square在B、C兩端均有布局。William認爲,具身智能可以投入現實使用的實現時間要快于大部分人的預期,3-5年的時間應該就能有初步商業化落地。

X Square團隊既有來自Robot Learning頂級實驗室的的成員,也有LLM方面的專家,同時有軟硬一體開發與系統優化的能力。不到三個月的時間內,團隊已經能夠通過大模型讓機器人自主完成數十種複雜任務。

創始人兼CEO William是全球最早在神經網絡中引入注意力機制的學者之一,並在美國頂級機器人實驗室參與了多項機器人學習項目。

CTO Hao出身IDEA研究院,曾擔任封神榜大模型團隊算法負責人,開發了包括文生圖模型“太乙”、通用大模型“姜子牙”系列等,開源模型累計下載超百萬。

以下是投資人評價:

聯想之星認爲:將預訓練模型應用在機器人領域,使機器人完成通用性複雜任務成爲可能,也讓機器人有可能真正理解物體概念和任務,從而深入的理解世界,進而實現具身智能。具身智能是劃時代的技術進步,有望實現機器人行業整體升級。X Square團隊,機器人、大模型等領域研究、工程經驗完備,是本領域不可多得的團隊。聯想之星一直以來重點布局機器人領域,投資了一批創新型優秀機器人公司。在新技術代際叠代的當下,願意陪伴新一代團隊成長,共同探索具身智能的未來。

九合創投認爲:具身智能方向長期將帶來巨大的市場機會和機器人服務的變革。X Square團隊關注具身智能模型能力的持續叠代,團隊從模型側發力,不斷提升智能化水平,早期模型在執行複雜任務上表現出了競爭力。期待X Square團隊不斷帶來更好的模型效果,帶來具身智能的“湧現時刻”。

一葦資本合夥人林文欣認爲:X Square團隊在機器人與大模型方面均具備極強的技術實力與技術前瞻性,在不到三個月的時間內即完成了技術架構的搭建和早期模型的訓練,成長速度超乎預期。一葦非常榮幸見證和陪伴X Square團隊的成長,期待X Square引領具身智能走入千家萬戶的一天。

歡迎交流

0 阅读:7