爲機器人提供“通用大腦”，「XSquare」連續完成數千萬元天使輪與天使+輪融資|36氪首發

文 | 周鑫雨

編輯 | 鄧詠儀

36氪獲悉，具身智能大模型初創企業“X Square”近期連續完成了由聯想之星投資的數千萬元人民幣的天使輪融資，和由九合創投領投的數千萬元人民幣的天使+輪融資，一葦資本擔任X Square獨家財務顧問。

成立于2023年12月，X Square聚焦于“通用具身大模型”的研發，爲機器人提供通用大模型底座。公司的目標是爲機器人構建一個通用的大腦-小腦系統，提供從感知到動作的端到端能力。

在AI的發展曆史中，人們發現了一種與直覺相悖的現象：越是人類認爲的高階智慧能力例如棋類運動和數學越容易被AI實現；但越是無意識的技能和直覺卻越難以用AI模擬。

這個被稱爲“莫拉維克悖論”的現象在具身智能領域體現得淋漓盡致：感知環境、操作物體是人類最爲本能和基礎的能力，但從實現難度上來說，卻可以被認爲是所有AI領域的巅峰。這也正是爲什麽在ChatGPT等大模型在部分高級認知能力上已經接近甚至超越人類的今天，AI仍然無法在“低級的”體力勞動中取代人類的原因。

一些迹象表露，適配具身智能的通用大模型，將成爲AI賽道的一個重點。谷歌曾表示，AI機器人很強大，但通用性很差，比如一款掃地機器人要根據特定的環境、動作、障礙、反饋等數據進行長期訓練和反複測試。2023年10月，谷歌DeepMind發布了全球最大的機器人通用模型RT-X。RT-X在無需訓練或者極少訓練的情況下，就能執行一些特定任務。

2024年3月19日，英偉達發布了人形機器人通用基礎模型Project GR00T，“AI教父”黃仁勳評價：“開發通用人形機器人基礎模型是當今AI領域中最令人興奮的課題之一。”

此前對具身智能的研究，很長一段時間都發展相對緩慢。X Square創始人兼CEO William Wang告訴36氪，其原因在于，機器人任務非常複雜，“一個部分是對周圍環境的感知、推理和任務規劃等high level能力，另一部分是類似運動皮層和小腦對運動進行直接控制的low level能力”。

“單從硬件層面來說，即使是最複雜的操作，當前市面上的硬件水平也已經可以支持，而卡點在于智能本身。”William對36氪表示。

由于缺乏智能湧現和通用性，傳統Robotics Learning的範式難以爲機器人提供複雜精確操作的能力，如處理可變形的物體和複雜隨機的摩擦。直到2020年後，Transformer結構在機器人模型上的應用以及Imitation Learning（模仿學習）、Offline Reinforcement Learning（離線強化學習）等新的訓練方式的成熟，才讓機器人在操作任務的端到端運動控制上有了新的突破。同時多模態的能力使得機器人的high level能力得到突破性進展，William告訴36氪，“莫拉維克悖論”終于到了可以被挑戰的臨界點。

傳統切分場景的方法難以提高模型的通用性，因此X Square將機器人的任務流程分成兩大部分：

1、根據人類指令和意圖，多模態大語言模型進行高層次的推理和規劃；

2、機器人通用模型依據規劃的指令端到端生成執行動作。X Square依靠軟硬一體的研發能力和對大模型的理解，將物理世界的交互與模型訓練相結合，推動模型通用操作能力的發展。

簡而言之，X Square自研的機器人通用模型平台，是多模態大模型、機器人控制大模型（Large Manipulation Model）、機器人本體的結合。

據X Square介紹，目前團隊自研的基礎模型已經達到世界先進水平，可以訓練機器人完成複雜而精細的物理操作。比如公司已經能夠實現面對表面不規則或光滑的物體，例如蔬菜、香腸等，進行精細化的切割；機器人也可以完成飲料的沖泡，包括拿起勺子，從罐子裏舀出果汁粉放入杯中，再倒入水沖果汁。

以上均爲大模型自主推理。（考慮到時長，該視頻做了加速處理）圖源：X Square

X Square CTO Hao Wang告訴36氪，機器人通用模型的核心，仍是訓練數據，“LLM和物理世界無關，數據可以充分利用全球外包，但機器人需要軟硬一體、數據-模型一體的能力”。他認爲，作爲世界硬件中心的中國具有天然優勢，“中國開始做LLM的時間晚于美國，但具身智能基礎模型與美國更接近同一起跑線”。

在商業化層面，X Square在B、C兩端均有布局。William認爲，具身智能可以投入現實使用的實現時間要快于大部分人的預期，3-5年的時間應該就能有初步商業化落地。

X Square團隊既有來自Robot Learning頂級實驗室的的成員，也有LLM方面的專家，同時有軟硬一體開發與系統優化的能力。不到三個月的時間內，團隊已經能夠通過大模型讓機器人自主完成數十種複雜任務。

創始人兼CEO William是全球最早在神經網絡中引入注意力機制的學者之一，並在美國頂級機器人實驗室參與了多項機器人學習項目。

CTO Hao出身IDEA研究院，曾擔任封神榜大模型團隊算法負責人，開發了包括文生圖模型“太乙”、通用大模型“姜子牙”系列等，開源模型累計下載超百萬。

以下是投資人評價：

聯想之星認爲：將預訓練模型應用在機器人領域，使機器人完成通用性複雜任務成爲可能，也讓機器人有可能真正理解物體概念和任務，從而深入的理解世界，進而實現具身智能。具身智能是劃時代的技術進步，有望實現機器人行業整體升級。X Square團隊，機器人、大模型等領域研究、工程經驗完備，是本領域不可多得的團隊。聯想之星一直以來重點布局機器人領域，投資了一批創新型優秀機器人公司。在新技術代際叠代的當下，願意陪伴新一代團隊成長，共同探索具身智能的未來。

九合創投認爲：具身智能方向長期將帶來巨大的市場機會和機器人服務的變革。X Square團隊關注具身智能模型能力的持續叠代，團隊從模型側發力，不斷提升智能化水平，早期模型在執行複雜任務上表現出了競爭力。期待X Square團隊不斷帶來更好的模型效果，帶來具身智能的“湧現時刻”。

一葦資本合夥人林文欣認爲：X Square團隊在機器人與大模型方面均具備極強的技術實力與技術前瞻性，在不到三個月的時間內即完成了技術架構的搭建和早期模型的訓練，成長速度超乎預期。一葦非常榮幸見證和陪伴X Square團隊的成長，期待X Square引領具身智能走入千家萬戶的一天。

歡迎交流

文采家

爲機器人提供“通用大腦”，「XSquare」連續完成數千萬元天使輪與天使+輪融資|36氪首發

36氪