具身智能占領海澱？1.23萬AI學者集結填補全球百億人形機器人空缺

編輯：編輯部

【新智元導讀】這幾天中關村的小夥伴們都發現了：這裏已被機器人占領！機器人和各色生物們紛紛登場表演，讓在場觀衆們目瞪口呆。

這幾天的中關村，已經被機器人占領了！

在2024中關村論壇年會的會場前台，這兩位美女機器人的出現，把央視主持人都驚到了。

逼真的動作，靈活的手指，連口型都是搭配的，兩位美女機器人給到來的遊客們耐心介紹著AI主題日的相關信息，在人群中分外吸睛。

往裏走，還能喝到服務機器人爲我們貼心制作的精致咖啡。

往這兒看，這個家夥在給我們表演摘果子。

展會之外的廣場上，一只機器狗在圍觀群衆的衆目睽睽之下現場炫技。作揖、雙腿站立、打滾撒嬌，這套動作一氣呵成，可謂是相當熟練。

給你比個小心心

四腳朝天撒嬌

當然，開幕式上更是少不了它們的同台演出，引得在場觀衆一陣歡呼。

機器狗dancer們，隨著音樂節奏靈活扭動。

給觀衆們作個揖，動作整齊劃一。

全體都有：臥倒——四腳朝天——賣萌！

機器人大爆發，大佬們爐邊對談

要說2024年最爆火的科技現象，人形機器人敢說第二，沒人敢說第一。

Sam Altman力推的人形機器人Figure 01，馬斯克的疊襯衫擎天柱，波士頓動力劃時代登場的電動機器人Atlas紛紛登場，視頻一出即成全網爆款。

國內這邊，優必選去年年底上市，已成人形機器人第一股；工業版人形機器人Walker S，已經進廠打工了；宇樹H1，直接火到了國外，讓OpenAI聯創Karpathy大呼想要。

諸位「明星」機器人的登場，大有寒武紀大爆發之勢。

最近，醫學博士、人類免疫學家Derya Unutmaz表示，當前AI技術産生最大影響三個領域，是生物技術、機器人技術和教育

外國網友們也紛紛感歎：我們正處于AI和機器人奇迹的風口浪尖，然而大多數人甚至還沒注意到。

在中國，已經有數以千計的人形生物誕生！

如今業內已公認，造完大模型後，AI的下一個浪潮就是具身智能。

2023 ITF World半導體大會上，老黃就表達了這個觀點

在特斯拉2023年年度股東大會上，馬斯克也表示，人形機器人將是今後特斯拉主要的長期價值來源。

大模型與機器人的融合，直接讓後者長出了「腦子」。這種超能進化，帶來的是能理解、推理、與物理世界互動的智能系統，給我們以無限的想象空間。

國內的大咖們，對此是如何看待的？

就在幾天前的2024中關村論壇年會「人工智能主題日」未來人工智能先鋒論壇上，來自星動紀元、傅裏葉智能、智元機器人、銀河通用機器人、宇樹科技、小米等業界大佬開啓了具身智能的爐邊談話，分享了衆多令人受益匪淺的精彩觀點。

「具身智能十問」

瞅一瞅近期圈內的技術發展，只能用「震撼」二字形容了。如此之震撼，以至于不少大佬已經公認，在未來的5到20年內，AGI一定會到來。

不過，在數字世界裏，我們有可能實現AGI嗎？或者說，AGI必須通過具身智能才能實現嗎？

「人工智能主題日」未來人工智能先鋒論壇組織了具身智能圓桌對話，業界的諸位大咖，分享了自己對此的觀點。

AGI必須通過具身智能來實現嗎？

回答這個問題的第一位嘉賓，是ACM會士李航老師。

李航老師介紹說，我們現在看到GPT大模型，其中一個重要的特點就是通用性。盡管以LeCun爲代表的專家，對這條技術路線並不看好，但在李航老師看來，通用的人工智能一定會實現。

因爲沿著應用層發展，所有任務和評測標准都很清楚，在這種層面下，就一定能開發出這樣的AI。然而，並不是說所有這些和人的智能相關的特點或能力，我們就一定能實現。

人智能的三個特點——情感、創造力和自由意志，AGI不一定能去覆蓋。AGI的定義標准，往往是從功能的角度去定義的。

人最本質的智能，是一個生命現象，這個未必在未來能靠AI技術去實現。

而具身智能，更跟機器人相關，包括硬件、軟件的結合。屆時，它們不僅會完成數字空間裏的任務，還會完成物理世界裏的任務，相信在未來，它們將達到或超過人的能力。

李航老師認爲，具身智能的兩大重要特點，一個是有自主性；二是依靠與環境交互積累經驗，得到不同的訓練數據構建的模型，在機器人身上湧現出不同的智能；三是具備多模態能力，擁有五感的具身智能可以完成更加智能的任務。

每個機器人智能體的數據實際上是不同的，基于不同的數據，就能構建不同的模型，産生不同的智能。

如果要進入物理世界，最重要的就是視覺聽覺嗅覺。未來的具身智能，應該是結合多模態技術，從而完成智能性的任務。

在銀河通用機器人創始人、智源具身智能研究中心負責人王鶴老師看來，具身智能與非具身智能非常互補，他們的全集才是AGI。

中國有一句老話，讀萬卷書，行萬裏路。如今的互聯網上的信息對具身智能來說，就是讀萬卷書，讓它了解了人類的思維和對圖片的感知，但它無法代替行萬裏路。

而人類的身體力行、在真實世界裏的勞作，都不可能通過讀書、看圖、看視頻來替代。即使看10個小時視頻，也無法學會怎麽騎自行車。

而具身智能，就賦予了智能體與物理世界交互和在交互中學習的能力。這種能力，是無法通過看圖/看文這樣的數字世界和典型的數據模態及經驗而獲得的。

非得是人形嗎？

還有一個有趣的問題就是：具身智能必須是人形嗎，必須是雙足嗎？靠機器狗，可不可以實現具身智能呢？

對此，傅利葉智能創始人兼CEO顧捷表示，具身智能的最終形態，一定是人形的。對此，整個硅谷都達到了共識。英偉達GTC大會上，出現的也全是人形形態的機器人。

不過，高矮胖瘦、用什麽驅動這樣的細節，目前還很難統一，但大家都在朝人的形態開始做收斂，朝這個方向努力。

宇樹科技創始人兼CEO王興興也表示，如今人形機器人是大家公認的機器人形態。

雖然他也認爲，對于具身智能或AGI，機器人形態不是特別重要，但大家都比較喜歡這種心態，受到整個社會的公認。

做數據采集的時候，人形機器人就可以去人生活的各個地方，做跟人一樣的動作，比如開車、散步、跟人或機器人交互等等，這些都更加接近跟真實人類的交流。

所以，當下具身智能人形機器人，可能是相對最合適的路徑，它雖不是唯一路徑，但確實是效率比較高的方法。

先有雞，還是先有蛋？

智源研究院院長王仲遠又提出一個有趣的問題。

我們都知道，具身智能是系統的工程，既涉及硬件也涉及軟件，但硬件和軟件的發展速度是不匹配的。

如今，大模型雖能思考，但指揮不動本體。所以，我們是該先讓硬件達到一定水平，迎來具身智能蓬勃發展，還是該脫離本體，獨立分開發展具身智能呢？

顧捷表示，這個問題，可以參考是先有APP還是先有智能手機。

我們需要先讓智能手機打電話，有了開放平台和接口，先收集數據，然後才能做AI。

具身智能的本體還不夠結實時，能幹的活很少，在此基礎上開發具身智能是難度較大的。當然，如果本體開發得很好，大腦卻沒有跟上，應用場景也會受到制約。

正確的做法是，先從本體叠代切入點，再加入基本應用，達到一定程度後，再將本體做比較大的收斂，然後就會出現應用的蓬勃發展。智能手機發展到現在的形態，也是如此。

同樣，王興興也認爲，有實體的具身智能是實現AGI的唯一途徑。

如果脫離實體，目前的大語言模型與物理世界的理解是遠遠不夠的，這也就是爲什麽，如今很多頂尖AI學者提出要做世界模型。

特斯拉的無人駕駛，也是采集的真實數據訓練，而非虛擬數據。因爲虛擬數據中，實時與物理世界交互的數據太少。

他做出這樣的預言——

我覺得本體反而是實現AGI非常重要的渠道，個人覺得，AGI很可能誕生在機器人公司。

可以先從進廠打工開始

王仲遠還提出，自己通過調研發現，不少具身智能的專家，是從自動駕駛領域轉過來的。

從現有的功能模塊來看，二者確實非常相似，包含環境感知、規劃決策以及最終控制這幾個模塊。

特斯拉通過電動車收集了海量數據之後，開始了訓練端到端的自動駕駛大模型，甚至可能實現真正意義上的L4，甚至更高層級的無人駕駛。

這條路徑有可能實現嗎？

星動紀元創始人陳建宇表示，如今的自動駕駛特斯拉，應該是最好的一個標杆。

自己是從2015年開始做自動駕駛的，上一波熱潮來臨時，其實有兩個問題非常嚴重。

第一，就是大家一窩蜂上來就要做L4，做Robotaxi，都以爲兩三年內能搞定，但實際上要困難得多。

第二是，當時AI還並未發展到如今這個階段，ChatGPT之類的大模型還沒誕生，做決策、執行和控制時，完全沒有AI的辦法。

兩者疊加，導致這段時間自動駕駛的發展曲折。

但特斯拉就成功避開了這兩個問題，做到了L2、L3、L4的漸進式發展。

因此，具身智能也不需要一上來就做走進千家萬戶的家用機器人，可以先進工廠，從容易的場景開始。

而且，我們要堅定地擁抱AI。一些短期工程做Demo的方法，未來可能很難長遠。

數據怎麽辦？

不過，具身智能和無人駕駛不太一樣的地方在于，無人駕駛面臨的基本是特定的場景，但具身機器人要解決的場景極多，包括家庭場景、流水線場景等。

如此多的場景，就導致數據采集很不容易，因此現在許多模型都在基于仿真數據。

仿真數據是否可以代替真實數據呢？

王鶴表示，當前具身智能最大的瓶頸，就是缺乏數據。特斯拉FSD，就是利用了百萬車主上億小時的駕駛數據，進行模仿學習的。

然而很可惜，人形機器人並不存在這樣的數據。並沒有上百萬群衆會自發地買一個機器人，用遙控器指揮它做事。這種數據集在地球上還不存在。

所以要實現具身智能數據0到1的突破，最實際的方法就是通過物理仿真，把現實世界的物理規律通過圖形學的引擎，真實仿真摩擦力、接觸力、光線追蹤渲染等，制造一個模擬真實世界訓練的數字訓練世界，這也是英偉達系列工作背後的初衷。

當未來，機器人在我們的世界充分存在的時候，也就有了在真實世界交互的數據閉環，成爲具身智能的源頭活水。

陳建宇表示贊同，並且表示，仿真的優勢非常快，靠英偉達的GPU，可能一天就能采集到相當于真實世界上百萬年的數據。

仿真的一個劣勢是，很難准確搭建很複雜的場景，這時只能靠真實世界采集，但這樣速度就會受限。

所以，在前期，我們只能從仿真裏拿出稍微簡單一點的場景，讓機器人快速學習。當它們能做複雜場景時，我們就需要在真實世界裏采集數據了。

海澱重磅押注具身智能

作爲AI發展的下一個浪潮，具身智能深度融合了LLM、機器人等多學科技術，正加速推動智能經濟到來。

最關鍵的是，具身智能甚至關乎著，實現AGI的終極目標。

爲了抓住這一機遇，海澱區在27日發布了《打造全國具身智能創新高地三年行動方案》（以下簡稱《行動方案》）。

這是全國首個最全面、最細化，且僅針對「具身智能」單一領域，而發布的《行動方案》。

由此可見，海澱全力押注具身智能的重要性，不言而喻。

《行動方案》明確指出，到2026年，將初步建成全國具身智能原始創新策源地、應用示範新高地和産業加速集聚地。

也就是說，力爭在2年多的時間裏，海澱要成爲我國參與全球具身智能競爭的核心力量！

《行動方案》將重點聚焦LLM和機器人整機，具體從以下六大方面展開。

一是，源頭創新突破行動。

具身智能的最終目標是，通過LLM的賦能，讓AI機器人可以在物理世界中，形成交互、自主學習的能力。

而構建一個完整的機器人，需要具備以下三大要素：本體、大腦，以及小腦。

其中「本體」就是機器人身體的物理呈現，而注入LLM的「大腦」能讓其聽懂人類語言、交流，「小腦」則負責控制身體運動。

AI機器人的設計從人腦運作方式得到啓發

因此，AI具身智能的發展，先要從這些技術源頭上，取得創新突破。

關于「大腦」的訓練，多模態LLM是讓機器人聽懂、看清、並理解、分解執行任務的關鍵。

當前，國內諸如文心4.0、商量5.0、Step-1V等多模態LLM已取得了重大突破，未來還需進一步追趕世界技術前沿。

另外，面向工業、金融等垂直領域，更需要開發專用的LLM系統。

在「大腦」將語義信息轉化爲動作之後，就需要「小腦」控制身體，去完成高難度、高精度的任務。

這主要取決于控制算法的進化，其中便涉及到步態平衡、動力學模型、控制框架等等，與此同時，還要實現「大小腦」協同。

除此以外，推進機器人的「腦身系統協同」，也至關重要。

簡單來說，「腦身協同」就需要提升機器人在物理世界的模擬能力，以及從數字世界遷移到物理世界的能力。

舉個栗子，機器人看到桌子上的蘋果，並將其遞到你的手中。

這個過程，就需要大腦識別桌子上的物體，然後將信息傳遞給小腦，以控制身體在物理世界中的移動。

所以，未來企業還需要加強在數字世界模擬能力、數字到物理世界遷移技術的研發，並優化其在不同領域中的應用。

二是，本體産品領跑行動。

接下來，就是機器人本體，即「身體」的綜合性能的全面提升，還有很長的一段路要走。

市面上，人形機器人已然占據了一大份額。

正如前面所述，當機器人走向落地時，人形不一定是最好的形態。

比如，四足機器人的典型代表——機器狗、還有工業機械臂、餐飲酒店中輪式送餐機器人等「多元形態的機器人」，更加適合自身的場景應用。

也就是說，需要根據實際的應用場景，去研發多元的機器人「本體」。

而若是提升「本體」整機性能，還需要從機器人的每個部件，去攻關。

包括伺服電機、傳感器、關節、機器視覺、靈巧手等一系列關鍵模塊化組件。

最重要的是，芯片、操作系統等底層技術，也需要逐一破解，以打造國際先進的多形態機器人。

三是，創新平台賦能行動。

具身智能的發展還需要多方位的平台提供技術支撐，以及産業孵化地。

當前，可以看到許多科研機構，包括企業都在做機器人開發，卻有時難以將其應用，創造出的成果只能停留在研發階段。

這就非常需要，一個能夠提供「共性技術」支撐的平台，降低社會的研發成本。

不可否認，讓機器人能夠以人類的思維方式，與物理環境互動，並自主完成任務，還是比較困難的。

而我們所見的各種炫酷的demo，其實很多都是，機器人在特定場景中完成目標，而遇到未見過的場景時，就無能爲力了。

之所以出現這一問題，關鍵還是「數據樣本不夠大」，它們無法湧現出真正的智能。

一般來說，訓練機器人完成任務的通常做法是，在一個虛擬環境中，不斷優化算法，再將其投入現實世界。

就像ChatGPT等大模型在餵了足夠體量的數據之後，才能展現出強大的湧現能力。

機器人同樣如此，沒有足夠的「數據樣本」，很難獲得真正的智能。

不排除，機器人已經有了一些智能的體現，比如踹倒後的機器人能夠自主站起來，並非依靠編程而是訓練所産生的「應激反應」。

但是，在「大腦」智力這方面的湧現，還未真正見到。因爲，它涉及了很多維度，諸如語言、圖片、視頻等。

另外，數據的收集，還與機器人本體也有關聯。

有的機器人手是三指、四指，甚至五指的都有，因此傳感器數量多少，也就決定了數據維度獲取的不同。

由此，不同數據樣本訓出的模型，最後機器人湧現的能力、方式都存在差異。

所以說，機器人真正智能的實現，需要有數據。而如何去創造數據，成爲一個難題。

對此，海澱打造了一系列平台，比如「具身智能創新中心」，爲企業提供訓練環境，以便獲取實時數據。

此外，還有端到端的仿真平台、實測驗證場景等平台、實測驗證場景等，破解了企業數據獲取難題。

同時，海澱還將打造一系列産業創新孵化平台，以加快提升樣機研發、檢驗測試、中試服務、生産制造等産業公共服務能力。

四是，應用場景示範行動。

面向科研、工業、消費、巡檢等場景，讓具身智能走向開放應用。

並且，未來還將打造一批可複制、可推廣的具身智能應用示範工程。

五是，産業集群建設行動。

現在，海澱在區域北部溫泉科技園三期，將打造一個機器人小鎮，爲企業提供了辦公、以及開放測試環境。

由此，企業的聚集，能夠有更多交流，進而形成競爭力的産業集群。

六是，生態雨林打造行動。

最後一個行動，將從四個方向開展。

首先是，培育一批具身智能改高端人才，打造具身智能人才社區。

其次，強化金融賦能效應，加大市級基金對具身智能投資力度。

然後，還要探索制定標准規範，鼓勵優勢企業參與國際/國家標准、行業標准制定，提升具身智能科技倫理治理能力。

最後，還要加強開放合作交流，支持建設具身智能開源社區，舉辦具身智能論壇、峰會、大賽等活動，形成開放合作的産業生態。

當然，除了親自牽頭之外，海澱區還通過首次「人工智能主題日」，把從事具身智能領域研究和生産的高校和企業彙聚到了一起。

在這裏，突破性的成果展示，以及前沿性的演講討論，不僅可以激發一波又一波的討論，讓更多的人了解到具身智能的進展。

而且，還能讓校企們藉此發現與自己志同道合，或者細分方向正好互補的夥伴，進而展開一輪全新的合作。

海澱AI學者1.23萬，占北京八成

那麽，爲什麽最新的《行動方案》，最先由海澱區提出並發布？

這是因爲，這裏不僅有硬核的科技力量、豐富的AI人才，還有完善的應用場景，專業的平台支持，具備了發展具身智能産業得天獨厚的優勢。

而且，海澱區是北京國際科技創新中心核心區，更是北京市AI和機器人産業的創新高地。

就人工智能發展方面，海澱聚集了14家全國重點實驗室、3家新型研發機構，21所AI本科高校。

而且，擁有89位AI TOP2000全球頂尖科學家和産業領軍人才，還有1.23萬AI學者，占北京市八成。

海澱的大模型企業超過了90家，且數量持續增長，其中有36款LLM通過備案，占全市七成，在全國率先形成AI大模型産業集聚區。

還有，1300家集聚企業占全市七成，提供了全産業鏈部署芯片、框架、大模型、數據技術與處理服務。

與此同時，海澱在算力、數據、算法等基礎設施方面，完成了全面的布局。

新增3500P算力已部署就位，爲LLM場景應用落地提供充足的「燃料」。

而在機器人領域，海澱更是具備了超前沿的科研、産業優勢。

一方面，清北、北航、北理、中科院等一批高校院所和專家人才，已經在機器人領域做出的諸多的研究。

另一方面，近200家機器人企業占全市40%，包括10+家人形機器人本體企業，占全市50%還要多。

下一步，海澱將凝聚各方力量全力保障方案的落地實施，在具身智能共性技術服務平台建設、重點企業培育與引進、推進應用場景落地、打造具身智能特色園區等方面持續發力，加快形成具身智能創新發展的良好格局。

可見，海澱區在推動具身智能的産業集群發展和創新升級，已萬事俱備。東風已至，蓄勢待發。

智元機器人聯合創始人、上海人工智能研究院院長宋海濤表示，如今全球80億人口，核心的生産力創造，還是來自于我們的智慧群體。僅僅是完成全球的生産力創造，我們就至少需要100億台人形機器人。

誠如馬斯克所言，征服浩瀚宇宙，一千億台人形機器人在等著我們。

文采家

具身智能占領海澱？1.23萬AI學者集結填補全球百億人形機器人空缺

之槐看科技