具身智能占領海澱?1.23萬AI學者集結填補全球百億人形機器人空缺

之槐看科技 2024-05-01 05:08:23

編輯:編輯部

【新智元導讀】這幾天中關村的小夥伴們都發現了:這裏已被機器人占領!機器人和各色生物們紛紛登場表演,讓在場觀衆們目瞪口呆。

這幾天的中關村,已經被機器人占領了!

在2024中關村論壇年會的會場前台,這兩位美女機器人的出現,把央視主持人都驚到了。

逼真的動作,靈活的手指,連口型都是搭配的,兩位美女機器人給到來的遊客們耐心介紹著AI主題日的相關信息,在人群中分外吸睛。

往裏走,還能喝到服務機器人爲我們貼心制作的精致咖啡。

往這兒看,這個家夥在給我們表演摘果子。

展會之外的廣場上,一只機器狗在圍觀群衆的衆目睽睽之下現場炫技。作揖、雙腿站立、打滾撒嬌,這套動作一氣呵成,可謂是相當熟練。

給你比個小心心

四腳朝天撒嬌

當然,開幕式上更是少不了它們的同台演出,引得在場觀衆一陣歡呼。

機器狗dancer們,隨著音樂節奏靈活扭動。

給觀衆們作個揖,動作整齊劃一。

全體都有:臥倒——四腳朝天——賣萌!

機器人大爆發,大佬們爐邊對談

要說2024年最爆火的科技現象,人形機器人敢說第二,沒人敢說第一。

Sam Altman力推的人形機器人Figure 01,馬斯克的疊襯衫擎天柱,波士頓動力劃時代登場的電動機器人Atlas紛紛登場,視頻一出即成全網爆款。

國內這邊,優必選去年年底上市,已成人形機器人第一股;工業版人形機器人Walker S,已經進廠打工了;宇樹H1,直接火到了國外,讓OpenAI聯創Karpathy大呼想要。

諸位「明星」機器人的登場,大有寒武紀大爆發之勢。

最近,醫學博士、人類免疫學家Derya Unutmaz表示,當前AI技術産生最大影響三個領域,是生物技術、機器人技術和教育

外國網友們也紛紛感歎:我們正處于AI和機器人奇迹的風口浪尖,然而大多數人甚至還沒注意到。

在中國,已經有數以千計的人形生物誕生!

如今業內已公認,造完大模型後,AI的下一個浪潮就是具身智能。

2023 ITF World半導體大會上,老黃就表達了這個觀點

在特斯拉2023年年度股東大會上,馬斯克也表示,人形機器人將是今後特斯拉主要的長期價值來源。

大模型與機器人的融合,直接讓後者長出了「腦子」。這種超能進化,帶來的是能理解、推理、與物理世界互動的智能系統,給我們以無限的想象空間。

國內的大咖們,對此是如何看待的?

就在幾天前的2024中關村論壇年會「人工智能主題日」未來人工智能先鋒論壇上,來自星動紀元、傅裏葉智能、智元機器人、銀河通用機器人、宇樹科技、小米等業界大佬開啓了具身智能的爐邊談話,分享了衆多令人受益匪淺的精彩觀點。

「具身智能十問」

瞅一瞅近期圈內的技術發展,只能用「震撼」二字形容了。如此之震撼,以至于不少大佬已經公認,在未來的5到20年內,AGI一定會到來。

不過,在數字世界裏,我們有可能實現AGI嗎?或者說,AGI必須通過具身智能才能實現嗎?

「人工智能主題日」未來人工智能先鋒論壇組織了具身智能圓桌對話,業界的諸位大咖,分享了自己對此的觀點。

AGI必須通過具身智能來實現嗎?

回答這個問題的第一位嘉賓,是ACM會士李航老師。

李航老師介紹說,我們現在看到GPT大模型,其中一個重要的特點就是通用性。盡管以LeCun爲代表的專家,對這條技術路線並不看好,但在李航老師看來,通用的人工智能一定會實現。

因爲沿著應用層發展,所有任務和評測標准都很清楚,在這種層面下,就一定能開發出這樣的AI。然而,並不是說所有這些和人的智能相關的特點或能力,我們就一定能實現。

人智能的三個特點——情感、創造力和自由意志,AGI不一定能去覆蓋。AGI的定義標准,往往是從功能的角度去定義的。

人最本質的智能,是一個生命現象,這個未必在未來能靠AI技術去實現。

而具身智能,更跟機器人相關,包括硬件、軟件的結合。屆時,它們不僅會完成數字空間裏的任務,還會完成物理世界裏的任務,相信在未來,它們將達到或超過人的能力。

李航老師認爲,具身智能的兩大重要特點,一個是有自主性;二是依靠與環境交互積累經驗,得到不同的訓練數據構建的模型,在機器人身上湧現出不同的智能;三是具備多模態能力,擁有五感的具身智能可以完成更加智能的任務。

每個機器人智能體的數據實際上是不同的,基于不同的數據,就能構建不同的模型,産生不同的智能。

如果要進入物理世界,最重要的就是視覺聽覺嗅覺。未來的具身智能,應該是結合多模態技術,從而完成智能性的任務。

在銀河通用機器人創始人、智源具身智能研究中心負責人王鶴老師看來,具身智能與非具身智能非常互補,他們的全集才是AGI。

中國有一句老話,讀萬卷書,行萬裏路。如今的互聯網上的信息對具身智能來說,就是讀萬卷書,讓它了解了人類的思維和對圖片的感知,但它無法代替行萬裏路。

而人類的身體力行、在真實世界裏的勞作,都不可能通過讀書、看圖、看視頻來替代。即使看10個小時視頻,也無法學會怎麽騎自行車。

而具身智能,就賦予了智能體與物理世界交互和在交互中學習的能力。這種能力,是無法通過看圖/看文這樣的數字世界和典型的數據模態及經驗而獲得的。

非得是人形嗎?

還有一個有趣的問題就是:具身智能必須是人形嗎,必須是雙足嗎?靠機器狗,可不可以實現具身智能呢?

對此,傅利葉智能創始人兼CEO顧捷表示,具身智能的最終形態,一定是人形的。對此,整個硅谷都達到了共識。英偉達GTC大會上,出現的也全是人形形態的機器人。

不過,高矮胖瘦、用什麽驅動這樣的細節,目前還很難統一,但大家都在朝人的形態開始做收斂,朝這個方向努力。

宇樹科技創始人兼CEO王興興也表示,如今人形機器人是大家公認的機器人形態。

雖然他也認爲,對于具身智能或AGI,機器人形態不是特別重要,但大家都比較喜歡這種心態,受到整個社會的公認。

做數據采集的時候,人形機器人就可以去人生活的各個地方,做跟人一樣的動作,比如開車、散步、跟人或機器人交互等等,這些都更加接近跟真實人類的交流。

所以,當下具身智能人形機器人,可能是相對最合適的路徑,它雖不是唯一路徑,但確實是效率比較高的方法。

先有雞,還是先有蛋?

智源研究院院長王仲遠又提出一個有趣的問題。

我們都知道,具身智能是系統的工程,既涉及硬件也涉及軟件,但硬件和軟件的發展速度是不匹配的。

如今,大模型雖能思考,但指揮不動本體。所以,我們是該先讓硬件達到一定水平,迎來具身智能蓬勃發展,還是該脫離本體,獨立分開發展具身智能呢?

顧捷表示,這個問題,可以參考是先有APP還是先有智能手機。

我們需要先讓智能手機打電話,有了開放平台和接口,先收集數據,然後才能做AI。

具身智能的本體還不夠結實時,能幹的活很少,在此基礎上開發具身智能是難度較大的。當然,如果本體開發得很好,大腦卻沒有跟上,應用場景也會受到制約。

正確的做法是,先從本體叠代切入點,再加入基本應用,達到一定程度後,再將本體做比較大的收斂,然後就會出現應用的蓬勃發展。智能手機發展到現在的形態,也是如此。

同樣,王興興也認爲,有實體的具身智能是實現AGI的唯一途徑。

如果脫離實體,目前的大語言模型與物理世界的理解是遠遠不夠的,這也就是爲什麽,如今很多頂尖AI學者提出要做世界模型。

特斯拉的無人駕駛,也是采集的真實數據訓練,而非虛擬數據。因爲虛擬數據中,實時與物理世界交互的數據太少。

他做出這樣的預言——

我覺得本體反而是實現AGI非常重要的渠道,個人覺得,AGI很可能誕生在機器人公司。

可以先從進廠打工開始

王仲遠還提出,自己通過調研發現,不少具身智能的專家,是從自動駕駛領域轉過來的。

從現有的功能模塊來看,二者確實非常相似,包含環境感知、規劃決策以及最終控制這幾個模塊。

特斯拉通過電動車收集了海量數據之後,開始了訓練端到端的自動駕駛大模型,甚至可能實現真正意義上的L4,甚至更高層級的無人駕駛。

這條路徑有可能實現嗎?

星動紀元創始人陳建宇表示,如今的自動駕駛特斯拉,應該是最好的一個標杆。

自己是從2015年開始做自動駕駛的,上一波熱潮來臨時,其實有兩個問題非常嚴重。

第一,就是大家一窩蜂上來就要做L4,做Robotaxi,都以爲兩三年內能搞定,但實際上要困難得多。

第二是,當時AI還並未發展到如今這個階段,ChatGPT之類的大模型還沒誕生,做決策、執行和控制時,完全沒有AI的辦法。

兩者疊加,導致這段時間自動駕駛的發展曲折。

但特斯拉就成功避開了這兩個問題,做到了L2、L3、L4的漸進式發展。

因此,具身智能也不需要一上來就做走進千家萬戶的家用機器人,可以先進工廠,從容易的場景開始。

而且,我們要堅定地擁抱AI。一些短期工程做Demo的方法,未來可能很難長遠。

數據怎麽辦?

不過,具身智能和無人駕駛不太一樣的地方在于,無人駕駛面臨的基本是特定的場景,但具身機器人要解決的場景極多,包括家庭場景、流水線場景等。

如此多的場景,就導致數據采集很不容易,因此現在許多模型都在基于仿真數據。

仿真數據是否可以代替真實數據呢?

王鶴表示,當前具身智能最大的瓶頸,就是缺乏數據。特斯拉FSD,就是利用了百萬車主上億小時的駕駛數據,進行模仿學習的。

然而很可惜,人形機器人並不存在這樣的數據。並沒有上百萬群衆會自發地買一個機器人,用遙控器指揮它做事。這種數據集在地球上還不存在。

所以要實現具身智能數據0到1的突破,最實際的方法就是通過物理仿真,把現實世界的物理規律通過圖形學的引擎,真實仿真摩擦力、接觸力、光線追蹤渲染等,制造一個模擬真實世界訓練的數字訓練世界,這也是英偉達系列工作背後的初衷。

當未來,機器人在我們的世界充分存在的時候,也就有了在真實世界交互的數據閉環,成爲具身智能的源頭活水。

陳建宇表示贊同,並且表示,仿真的優勢非常快,靠英偉達的GPU,可能一天就能采集到相當于真實世界上百萬年的數據。

仿真的一個劣勢是,很難准確搭建很複雜的場景,這時只能靠真實世界采集,但這樣速度就會受限。

所以,在前期,我們只能從仿真裏拿出稍微簡單一點的場景,讓機器人快速學習。當它們能做複雜場景時,我們就需要在真實世界裏采集數據了。

海澱重磅押注具身智能

作爲AI發展的下一個浪潮,具身智能深度融合了LLM、機器人等多學科技術,正加速推動智能經濟到來。

最關鍵的是,具身智能甚至關乎著,實現AGI的終極目標。

爲了抓住這一機遇,海澱區在27日發布了《打造全國具身智能創新高地三年行動方案》(以下簡稱《行動方案》)。

這是全國首個最全面、最細化,且僅針對「具身智能」單一領域,而發布的《行動方案》。

由此可見,海澱全力押注具身智能的重要性,不言而喻。

《行動方案》明確指出,到2026年,將初步建成全國具身智能原始創新策源地、應用示範新高地和産業加速集聚地。

也就是說,力爭在2年多的時間裏,海澱要成爲我國參與全球具身智能競爭的核心力量!

《行動方案》將重點聚焦LLM和機器人整機,具體從以下六大方面展開。

一是,源頭創新突破行動。

具身智能的最終目標是,通過LLM的賦能,讓AI機器人可以在物理世界中,形成交互、自主學習的能力。

而構建一個完整的機器人,需要具備以下三大要素:本體、大腦,以及小腦。

其中「本體」就是機器人身體的物理呈現,而注入LLM的「大腦」能讓其聽懂人類語言、交流,「小腦」則負責控制身體運動。

AI機器人的設計從人腦運作方式得到啓發

因此,AI具身智能的發展,先要從這些技術源頭上,取得創新突破。

關于「大腦」的訓練,多模態LLM是讓機器人聽懂、看清、並理解、分解執行任務的關鍵。

當前,國內諸如文心4.0、商量5.0、Step-1V等多模態LLM已取得了重大突破,未來還需進一步追趕世界技術前沿。

另外,面向工業、金融等垂直領域,更需要開發專用的LLM系統。

在「大腦」將語義信息轉化爲動作之後,就需要「小腦」控制身體,去完成高難度、高精度的任務。

這主要取決于控制算法的進化,其中便涉及到步態平衡、動力學模型、控制框架等等,與此同時,還要實現「大小腦」協同。

除此以外,推進機器人的「腦身系統協同」,也至關重要。

簡單來說,「腦身協同」就需要提升機器人在物理世界的模擬能力,以及從數字世界遷移到物理世界的能力。

舉個栗子,機器人看到桌子上的蘋果,並將其遞到你的手中。

這個過程,就需要大腦識別桌子上的物體,然後將信息傳遞給小腦,以控制身體在物理世界中的移動。

所以,未來企業還需要加強在數字世界模擬能力、數字到物理世界遷移技術的研發,並優化其在不同領域中的應用。

二是,本體産品領跑行動。

接下來,就是機器人本體,即「身體」的綜合性能的全面提升,還有很長的一段路要走。

市面上,人形機器人已然占據了一大份額。

正如前面所述,當機器人走向落地時,人形不一定是最好的形態。

比如,四足機器人的典型代表——機器狗、還有工業機械臂、餐飲酒店中輪式送餐機器人等「多元形態的機器人」,更加適合自身的場景應用。

也就是說,需要根據實際的應用場景,去研發多元的機器人「本體」。

而若是提升「本體」整機性能,還需要從機器人的每個部件,去攻關。

包括伺服電機、傳感器、關節、機器視覺、靈巧手等一系列關鍵模塊化組件。

最重要的是,芯片、操作系統等底層技術,也需要逐一破解,以打造國際先進的多形態機器人。

三是,創新平台賦能行動。

具身智能的發展還需要多方位的平台提供技術支撐,以及産業孵化地。

當前,可以看到許多科研機構,包括企業都在做機器人開發,卻有時難以將其應用,創造出的成果只能停留在研發階段。

這就非常需要,一個能夠提供「共性技術」支撐的平台,降低社會的研發成本。

不可否認,讓機器人能夠以人類的思維方式,與物理環境互動,並自主完成任務,還是比較困難的。

而我們所見的各種炫酷的demo,其實很多都是,機器人在特定場景中完成目標,而遇到未見過的場景時,就無能爲力了。

之所以出現這一問題,關鍵還是「數據樣本不夠大」,它們無法湧現出真正的智能。

一般來說,訓練機器人完成任務的通常做法是,在一個虛擬環境中,不斷優化算法,再將其投入現實世界。

就像ChatGPT等大模型在餵了足夠體量的數據之後,才能展現出強大的湧現能力。

機器人同樣如此,沒有足夠的「數據樣本」,很難獲得真正的智能。

不排除,機器人已經有了一些智能的體現,比如踹倒後的機器人能夠自主站起來,並非依靠編程而是訓練所産生的「應激反應」。

但是,在「大腦」智力這方面的湧現,還未真正見到。因爲,它涉及了很多維度,諸如語言、圖片、視頻等。

另外,數據的收集,還與機器人本體也有關聯。

有的機器人手是三指、四指,甚至五指的都有,因此傳感器數量多少,也就決定了數據維度獲取的不同。

由此,不同數據樣本訓出的模型,最後機器人湧現的能力、方式都存在差異。

所以說,機器人真正智能的實現,需要有數據。而如何去創造數據,成爲一個難題。

對此,海澱打造了一系列平台,比如「具身智能創新中心」,爲企業提供訓練環境,以便獲取實時數據。

此外,還有端到端的仿真平台、實測驗證場景等平台、實測驗證場景等,破解了企業數據獲取難題。

同時,海澱還將打造一系列産業創新孵化平台,以加快提升樣機研發、檢驗測試、中試服務、生産制造等産業公共服務能力。

四是,應用場景示範行動。

面向科研、工業、消費、巡檢等場景,讓具身智能走向開放應用。

並且,未來還將打造一批可複制、可推廣的具身智能應用示範工程。

五是,産業集群建設行動。

現在,海澱在區域北部溫泉科技園三期,將打造一個機器人小鎮,爲企業提供了辦公、以及開放測試環境。

由此,企業的聚集,能夠有更多交流,進而形成競爭力的産業集群。

六是,生態雨林打造行動。

最後一個行動,將從四個方向開展。

首先是,培育一批具身智能改高端人才,打造具身智能人才社區。

其次,強化金融賦能效應,加大市級基金對具身智能投資力度。

然後,還要探索制定標准規範,鼓勵優勢企業參與國際/國家標准、行業標准制定,提升具身智能科技倫理治理能力。

最後,還要加強開放合作交流,支持建設具身智能開源社區,舉辦具身智能論壇、峰會、大賽等活動,形成開放合作的産業生態。

當然,除了親自牽頭之外,海澱區還通過首次「人工智能主題日」,把從事具身智能領域研究和生産的高校和企業彙聚到了一起。

在這裏,突破性的成果展示,以及前沿性的演講討論,不僅可以激發一波又一波的討論,讓更多的人了解到具身智能的進展。

而且,還能讓校企們藉此發現與自己志同道合,或者細分方向正好互補的夥伴,進而展開一輪全新的合作。

海澱AI學者1.23萬,占北京八成

那麽,爲什麽最新的《行動方案》,最先由海澱區提出並發布?

這是因爲,這裏不僅有硬核的科技力量、豐富的AI人才,還有完善的應用場景,專業的平台支持,具備了發展具身智能産業得天獨厚的優勢。

而且,海澱區是北京國際科技創新中心核心區,更是北京市AI和機器人産業的創新高地。

就人工智能發展方面,海澱聚集了14家全國重點實驗室、3家新型研發機構,21所AI本科高校。

而且,擁有89位AI TOP2000全球頂尖科學家和産業領軍人才,還有1.23萬AI學者,占北京市八成。

海澱的大模型企業超過了90家,且數量持續增長,其中有36款LLM通過備案,占全市七成,在全國率先形成AI大模型産業集聚區。

還有,1300家集聚企業占全市七成,提供了全産業鏈部署芯片、框架、大模型、數據技術與處理服務。

與此同時,海澱在算力、數據、算法等基礎設施方面,完成了全面的布局。

新增3500P算力已部署就位,爲LLM場景應用落地提供充足的「燃料」。

而在機器人領域,海澱更是具備了超前沿的科研、産業優勢。

一方面,清北、北航、北理、中科院等一批高校院所和專家人才,已經在機器人領域做出的諸多的研究。

另一方面,近200家機器人企業占全市40%,包括10+家人形機器人本體企業,占全市50%還要多。

下一步,海澱將凝聚各方力量全力保障方案的落地實施,在具身智能共性技術服務平台建設、重點企業培育與引進、推進應用場景落地、打造具身智能特色園區等方面持續發力,加快形成具身智能創新發展的良好格局。

可見,海澱區在推動具身智能的産業集群發展和創新升級,已萬事俱備。東風已至,蓄勢待發。

智元機器人聯合創始人、上海人工智能研究院院長宋海濤表示,如今全球80億人口,核心的生産力創造,還是來自于我們的智慧群體。僅僅是完成全球的生産力創造,我們就至少需要100億台人形機器人。

誠如馬斯克所言,征服浩瀚宇宙,一千億台人形機器人在等著我們。

0 阅读:1

之槐看科技

簡介:感謝大家的關注