2025-08-12 15:39:44
每經(jīng)編輯|張錦河
近日,在2025年的世界機器人大會(WRC)上,英偉達Omniverse與仿真模擬技術(shù)副總裁 Rev Lebaredian、宇樹科技創(chuàng)始人王興興、銀河通用創(chuàng)始人兼CTO王鶴罕見同框。
在一場媒體溝通會上,他們圍繞物理AI、仿真、機器人平臺與商業(yè)落地、合成數(shù)據(jù)與具身智能模型的產(chǎn)業(yè)化路徑,進行了深入交流。
圖片來源:媒體視頻截圖
Rev Lebaredian表示,過去三四十年,計算機和IT產(chǎn)業(yè)放大了各行各業(yè)的能力,但計算的影響“大多還停留在“信息空間”,也就是可以數(shù)字化的內(nèi)容,比如語言和各種可編碼的信息。
互聯(lián)網(wǎng)的出現(xiàn),讓計算技術(shù)真正走進每個人的生活,把所有人連接起來,并帶來了幾十年的增長。從全球市場規(guī)模來看,IT 行業(yè)的總規(guī)模約為 5 萬億美元,這雖然龐大,但與全球所有行業(yè) 超過 100 萬億美元 的總量相比,只是很小的一部分。其它行業(yè)之所以更有價值,是因為它們處理的是真實世界的“原子”——交通、制造、供應(yīng)鏈、物流、醫(yī)療、制藥等涉及物理世界的領(lǐng)域。
而今天,隨著人工智能的出現(xiàn),我們終于有了讓機器具備“物理智能”的能力,可以把物理世界和信息世界真正連接起來。換句話說,計算的力量不再只局限于那 5 萬億美元的信息市場,而是可以進入那 100 萬億美元的物理世界市場。而這個橋梁,就是機器人。有了機器人,我們就能把計算和人工智能帶進真實世界,創(chuàng)造出能理解并改變物理環(huán)境的智能體。
他稱,中國是實現(xiàn)這一跨越的最佳地點,因為這里具備獨一無二的條件:
1.頂尖 AI 人才:全球近一半的人工智能研究人員和開發(fā)者在中國,其中包括來自頂尖大學(xué)的最優(yōu)秀人才。
2.電子與計算技術(shù)能力:中國不僅有技術(shù)研發(fā)能力,還有全球無可匹敵的電子制造產(chǎn)業(yè),這在物理 AI 和機器人領(lǐng)域至關(guān)重要。
3.龐大的制造業(yè)基礎(chǔ):這里有大規(guī)模部署和測試機器人的真實場景,可以快速收集數(shù)據(jù)、迭代算法,讓機器人不斷進化。
因此,在世界機器人大會上看到如此多的能量、能力和熱情,并不令人意外。
談到英偉達的角色,他指出,公司使命是打造專門針對“最難問題”的計算機,要推動機器人發(fā)展、物理 AI 落地,英偉達提出必須構(gòu)建三類計算機:一是嵌入機器人本體的計算機,例如人形機器人搭載的 Jetson Thor;二是 AI 工廠計算機,用于在部署前通過 DGX、HGX 系統(tǒng)處理海量數(shù)據(jù)、訓(xùn)練模型;三是仿真計算機,通過物理定律生成數(shù)據(jù)并提前測試機器人,測試速度可快于現(xiàn)實時間。
目前,宇樹科技和銀河通用等機器人企業(yè)都和英偉達進行了合作,比如銀河通用的G1 Premium人形機器人,就是首批搭載 NVIDIA Jetson Thor 的人形機器人之一,在工業(yè)碼垛、拆垛及物料箱搬運等復(fù)雜場景中展現(xiàn)出流暢性與作業(yè)速度。宇樹科技則在其新型人形機器人 R1上部署了英偉達全棧機器人技術(shù),通過Isaac Sim高仿真平臺優(yōu)化運動與操控能力,并借助Isaac Lab系統(tǒng)實現(xiàn)快速策略迭代。
王興興表示:我們在過去幾年中一直非常重視人形機器人這一方向。某種意義上,我將人形機器人視為通用機器人的重要載體。眾所周知,通用AI是目前全球最主流的發(fā)展方向,而真正的通用AI在執(zhí)行任務(wù)時必然離不開機器人,尤其是通用型機器人。
對比來看,目前人形機器人反而是最理想的專業(yè)機器人形態(tài)。雖然看上去較為復(fù)雜,但實際結(jié)構(gòu)并不如想象中那么復(fù)雜,本質(zhì)上是由若干關(guān)節(jié)電機串聯(lián)而成。因此結(jié)構(gòu)相對簡單,不像履帶式小車或其他形式的機器人反而更復(fù)雜。由于主要是電機和連桿的組合,所以整體設(shè)計簡潔。我一直相信,當(dāng)通用AI大規(guī)模成熟后,每個人都可以輕松制造一臺人形機器人,就像今天人們可以購買電腦零部件組裝一臺電腦一樣。未來若AI足夠強大,對硬件的要求會越來越低。
從宇樹科技的產(chǎn)品歷程看,去年,宇樹推出一款售價約9.9萬元人民幣的人形機器人,其架構(gòu)成為全球較為主流的設(shè)計。今年發(fā)布的新版本售價約3.9萬元人民幣,支持外觀定制,“目前現(xiàn)貨可供,預(yù)計量產(chǎn)在年底前完成?!蓖跖d興說道。
其他產(chǎn)品線上,宇樹科技近期發(fā)布了A2機器狗,自重約37千克,持續(xù)負載可達30千克,空載續(xù)航可行駛20公里。同時,宇樹科技重視機器人上肢和手部的研發(fā),王興興介紹道:“目前已自主開發(fā)一款約20自由度的靈巧手,目標(biāo)是讓機器人真正能夠執(zhí)行日常任務(wù),而不僅是完成展示性動作。希望在未來一到兩年內(nèi)實現(xiàn)自然交互,例如在沒有預(yù)先適配的情況下,直接指令機器人去為某人倒水?!?/p>
王鶴認為今天在場的所有機器人公司,包括NVIDIA和銀河通用在內(nèi),我們的共同目標(biāo)都是打造通用機器人。通用機器人將成為下一個價值數(shù)萬億美元、數(shù)萬億人民幣市場的關(guān)鍵性、革命性產(chǎn)品。這種革命性產(chǎn)品背后包含多個核心要素,第一個是機器人的本體,第二是驅(qū)動它運轉(zhuǎn)的具身智能模型。
模型背后則是數(shù)據(jù)支撐,王鶴表示:“我們與英偉達一致認為,合成數(shù)據(jù)是推動具身智能快速落地的關(guān)鍵。目前,真實世界數(shù)據(jù)僅占我們訓(xùn)練數(shù)據(jù)的1%,其余99%均為合成數(shù)據(jù)?!?/p>
與此同時,銀河通用和英偉達官宣了基于Isaac平臺的下一代人形機器人項目,“目前銀河通用為輪式形態(tài),下一代將采用純雙足設(shè)計,基于OpenWBT_Isaac進行數(shù)據(jù)采集與遙控控制。無論在仿真環(huán)境還是現(xiàn)實環(huán)境,該平臺可訓(xùn)練并部署多種任務(wù)能力,例如推車、拾取地面物體等?!蓖斛Q說道。
以下是英偉達Omniverse與仿真模擬技術(shù)副總裁Rev Lebaredian、宇樹科技創(chuàng)始人王興興、銀河通用創(chuàng)始人兼CTO王鶴的媒體問答全文:
1. 在像醫(yī)療和養(yǎng)老這樣高精度應(yīng)用場景中,NVIDIA Omniverse如何確保用仿真數(shù)據(jù)訓(xùn)練的機器人具備可靠性和安全性?
Rev:如果你想構(gòu)建一個能夠在現(xiàn)實世界中行動且安全可靠的機器人系統(tǒng),實際上唯一的選擇就是使用仿真。舉個例子,你希望系統(tǒng)足夠智能,能夠應(yīng)對那些很少發(fā)生的特殊情況,甚至應(yīng)對你希望永遠不會發(fā)生的緊急情況。以自動駕駛為例,我們絕對不希望車撞到人或者孩子,但當(dāng)街上出現(xiàn)小孩時,車輛的大腦該如何反應(yīng),如何獲取訓(xùn)練這類系統(tǒng)的數(shù)據(jù)呢?唯一的辦法就是通過仿真。因為我們絕不可能將孩子置于汽車前作為訓(xùn)練樣本,這樣做是不道德的、危險的,而且耗時且昂貴。
即使訓(xùn)練完系統(tǒng),在將它部署到現(xiàn)實世界之前,也需要在這些相同場景中進行測試,確保在真正發(fā)生類似情況時,它能夠正確反應(yīng)。因此,真正的選擇只有通過仿真實現(xiàn),因為現(xiàn)實世界測試過慢、成本高且危險,我們不希望機器人在現(xiàn)實世界先失敗。換句話說,如果我們無法讓仿真足夠準確以測試機器人,那么我們將無法制造出可靠的機器人。幸運的是,目前已有非常準確的仿真器。不過,這些仿真器計算量大且成本高昂,我們面臨的真正挑戰(zhàn)是如何提升仿真速度,使其在大規(guī)模系統(tǒng)構(gòu)建中具有成本效益,這也是我們一直努力的方向。
2. 您認為未來幾年內(nèi),驅(qū)動人工智能機器人的仿真領(lǐng)域會有哪些關(guān)鍵技術(shù)趨勢將改變整個行業(yè)?能否分享一些中國生態(tài)合作伙伴如何利用NVIDIA仿真技術(shù)加速產(chǎn)品創(chuàng)新的案例?
Rev:我認為目前最大的趨勢,實際上是所有在常規(guī)人工智能領(lǐng)域出現(xiàn)的技術(shù)和發(fā)展,正被應(yīng)用到物理人工智能中。其中最重要的突破是推理能力的提升。比如DeepSeek將推理能力帶入了開源領(lǐng)域,現(xiàn)在我們也看到了其他各種模型。
我們在智能水平上實現(xiàn)了飛躍,將同樣的技術(shù)應(yīng)用到物理人工智能,是機器人領(lǐng)域的一個重大突破。如果我們要制造我們剛才談?wù)摰哪欠N機器人——比如能給你拿水的機器人——根據(jù)翻譯理解,可能在今年年底或明年,我們的機器人將能更自然地與人互動,并完成復(fù)雜的多步驟任務(wù)。這是非常關(guān)鍵的能力。而將這種能力與仿真結(jié)合,我認為這是一個可能還未被廣泛理解,但將成為重大突破的點。
目前我們面臨的主要問題是人工智能極度依賴數(shù)據(jù),而獲取合適的數(shù)據(jù)非常困難。我們現(xiàn)有的推理模型,尤其是對物理世界的推理,現(xiàn)在可以幫助我們改善數(shù)據(jù)生成和數(shù)據(jù)創(chuàng)建的流程。
如今我們生成的數(shù)據(jù),即使是合成數(shù)據(jù),也需要大量人工參與,人工去構(gòu)建虛擬世界和仿真環(huán)境,判斷該生成哪些數(shù)據(jù)才能讓智能系統(tǒng)更聰明。但是,如果我們把正在開發(fā)的人工智能技術(shù)用在數(shù)據(jù)生成流程中,就可以實現(xiàn)自動化,打造“自動駕駛”的合成數(shù)據(jù)生成。
如果我們擁有一個自動駕駛的合成數(shù)據(jù)生成工廠,就能直接將其接入訓(xùn)練流程,實現(xiàn)訓(xùn)練過程自動化,減少人為干預(yù),讓機器人大腦更聰明。至于中國的企業(yè)如何應(yīng)用仿真技術(shù)及其帶來的影響,我認為他們已經(jīng)在積極探索和應(yīng)用這些技術(shù)。
王鶴:我覺得因為大家的這些仿真引擎也好,并行渲染器也好,把現(xiàn)在合成數(shù)據(jù)它的這種不管是通過強化學(xué)習(xí),還是通過產(chǎn)生數(shù)據(jù)以后再做。
模仿學(xué)習(xí),它的整個的困難程度都大大下降了,那么確實像不管是現(xiàn)在的人形機器人的行走或者是跳舞的這些技能,還是我們做抓取做疊衣服、做導(dǎo)航背后的數(shù)據(jù),離不開就是一個非常好用的仿真器,非常并行的渲染器,所以這些確實非常感謝,英偉達作為一個生態(tài)方,從芯片到整個仿真平臺對整個生態(tài)的一個托舉。
3. 宇樹R1定價3.99萬元,大幅降低消費級人形機器人的門檻,這是否意味著硬件成本已不再是影響機器人商業(yè)化的障礙?現(xiàn)階段,推動人形機器人規(guī)?;逃眠€存在哪些難點?
王興興:這也是我上其實也過去包括上網(wǎng)一直分享的觀點,對于基層商業(yè)化包括人形機器人的商業(yè)化來說,它的成本和硬件其實并不是關(guān)鍵性的問題,這個是其實某種意義上你說一臺機器如果只要能用你10萬甚至100萬,其實照樣還是有很多場景能用起來的。
你最大的問題目前其實還是整個具身智能的整個模型其實還是不夠泛用性,包括它的實用性還是有更大的提升,這塊其實是當(dāng)下是最棘手的問題了,硬件某種程度上不單單是今年,我覺得過去的一兩年就已經(jīng)足夠了,硬件一直還是足夠的,當(dāng)然要做得更好,你要比如說可靠性成本各方面做的更好,但是它并不是個限制性因素。
4. 國內(nèi)外專家和企業(yè)對“人形”的必要性爭議不斷,有人認為人形是AGI的最終載體,有人認為未來十年人形機器人的占比只有10%,銀河通用如何看待人形的必要性?
王鶴:我覺得是這樣的,就是說我們今天去看人形機器人,從長遠來看,它一定是要能夠融入我們?nèi)祟惖纳畹?。從終局的觀念來看,比如大家各自現(xiàn)在做的座椅,除了人形機器人,如果它又是能夠干活,手能夠伸到1米、2米這么高,能夠摸地的,它還能在咱們的這樣的一個環(huán)境里穿梭,它除了人形態(tài),它沒有別的形態(tài)。
那么從未來這幾年來看,我的感覺其實人形機器人是從一種移動復(fù)合機器人在向著終局不斷邁進。因為如果是一個定點機器人,它能夠干的事情就只能是它面前的事情,對吧?那么它的局限性是很大的,所以移動是必然的。光有移動的車,我們過去在各種工廠里頭這種移動的小車,它就只能承載貨物,對吧?
貨怎么下來的,從上面有個槽掉下來的,它的局限性是不能做任何操作,所以說符合機器人移動又能夠有一根機械臂操作的,我們今天打造的機器人就是在一個移動的臺上,再讓它變成可升降的、可以折疊的。有兩根機械臂,因為兩只手,你一只手抱不了箱子,只能抓一個東西,對吧?兩只手可以上下左右看,那么其實它就是一個半圓形。
所以說我覺得在未來的十年里頭,人形機器人的整個占比不會小,但得看跟誰比。我們今天跟所有工業(yè)的大機械臂相比,工業(yè)大機械臂全球的總產(chǎn)值也就1000億人民幣,并不高,一個頭部車廠一年就能賣1000億的車,1000億價值的車,那么人形機器人我們現(xiàn)在數(shù)10萬一臺的話,實際上達到一個并不是大家覺得那么高的量級,你就超過了整個工業(yè)機械臂的總產(chǎn)值。我預(yù)計未來每三年人形機器人的產(chǎn)值會乘10,那么我們現(xiàn)在頭部是賣1000臺,三年后就是1萬臺,再三年后就是10萬臺。那么10萬臺級的量,如果賣幾十萬一臺的話,干活的就達到了1000億,超過了一家公司,也超過了整個工業(yè)機械臂的總產(chǎn)值。
所以說在未來10年,我們將看到的是一個能夠超越當(dāng)前所有工業(yè)機器人量的機器人市場。再往后10年,可能是超越汽車手機這個市場量的萬億市場,所以不能低估它,但也沒有大家想的那么快,說明天就達到汽車這個市場的額度,是不可能的。
5. 請問NVIDIA Jetson Thor與之前的Jetson平臺有何區(qū)別?它如何特別有利于機器人應(yīng)用?
Rev:正如我之前提到的,每一代Jetson產(chǎn)品,我們都努力最大化其計算能力,因為智能問題本身就是一個非常復(fù)雜的計算難題。在機器人領(lǐng)域,這一挑戰(zhàn)更大:計算必須非??焖伲以跇O為苛刻的環(huán)境中進行。
機器人往往在現(xiàn)場實時運行,需要在緊湊的循環(huán)內(nèi)完成計算,電力有限,因此需要盡可能降低功耗以延長電池壽命,同時還要考慮散熱等問題。這些因素都極大地增加了難度。Jetson Thor與之前版本最大的不同是,現(xiàn)在具備了足夠的計算能力,能夠運行更大、更強的神經(jīng)網(wǎng)絡(luò)和模型,支持更復(fù)雜的推理任務(wù),這是之前的產(chǎn)品無法做到的。此外,Jetson Thor擁有更高的帶寬,能更快地處理來自各種傳感器的大量信息,使機器人能夠快速反應(yīng),在動態(tài)變化的環(huán)境中高速移動和操作。
6. 請教宇樹科技的王總,您曾提到人形機器人已經(jīng)從當(dāng)前主要應(yīng)用于娛樂表演的特定場景,逐漸加速進入解放工廠和家庭生產(chǎn)力的應(yīng)用。那么您認為未來機器人在哪些場景會迎來大規(guī)模普及?
王興興:未來肯定是朝著更實用的方向發(fā)展,但具體速度其實還需要時間。無論是工業(yè)、服務(wù)業(yè)還是家用領(lǐng)域,整個發(fā)展周期都還挺長的。大家回顧過去,比如新能源車,十幾年前大家也覺得發(fā)展會很快,但實際上整體成熟度也花了不少時間。
每個產(chǎn)業(yè)的成熟都需要較長周期。而現(xiàn)在的新一代人機機器人或通用機器人技術(shù),實際上才發(fā)展了兩三年左右。因為現(xiàn)在用的新技術(shù)跟十幾二十年前完全不同,硬件和軟件都發(fā)生了巨大變化。但很多人提機器人時,喜歡拿十幾二十年前的東西來說,覺得這個行業(yè)已經(jīng)發(fā)展了很久,其實那個時候的技術(shù)和現(xiàn)在完全不是一個水平。在目前只有兩三年發(fā)展時間的情況下,整體進展還需要更多時間。不過從當(dāng)前發(fā)展速度來看,我個人感覺行業(yè)仍在快速成長,未來幾年人員和出貨量基本有望每年翻倍,這對整個行業(yè)來說是很有可能實現(xiàn)的。
基于此,如果未來出現(xiàn)更強大、更通用的AI大模型,能讓機器人在工廠、家庭等更多通用場景中表現(xiàn)更好,因為越通用,普及的難度就越小。相反,如果不通用,推廣會更困難。所以我覺得整體時間周期會更長一些,尤其是家用領(lǐng)域。
家用機器人的最大難題不是技術(shù),而是倫理、安全等方面的要求極高,這導(dǎo)致家用機器人的普及門檻要高得多。
7. 今年,許多人形機器人已開始在汽車工廠進行訓(xùn)練。在您看來,機器人真正能在工廠車間投入工作還需要多長時間?還有哪些關(guān)鍵挑戰(zhàn)需要解決?
王鶴:今年,許多人形機器人已經(jīng)開始在汽車工廠進行訓(xùn)練。我們看到絕大多數(shù)公司在工廠推廣人形機器人時,主要集中在兩個方面:一是搬運,二是分揀。
搬運方面,銀河通用最近展示的機器人視頻里,其搬運速度已經(jīng)接近人類水平,計算下來每小時搬運的數(shù)量與人類相當(dāng)。這個階段已經(jīng)非常接近實際工廠的部署,我預(yù)計今年年底可能會有幾十臺銀河通用的機器人進入工廠車間實際應(yīng)用。
但是,搬運只是第一步。除了搬運,還需要實現(xiàn)碼垛的閉環(huán)能力,只有搬運和碼垛都完成閉環(huán),機器人才能真正勝任整套工作流程,否則做一半的任務(wù),效果并不理想。
分揀則是更大的挑戰(zhàn)。不論是從傳送帶上拿,還是從貨架上取貨,目前最大的難點是速度。熟練工人拿取物品的速度非???,機器人目前在模型和硬件層面還難以達到這種效率。
我們做零售機器人時,拿貨架上或桌面上的物品,技術(shù)本質(zhì)上與工業(yè)分揀類似,只是零售對節(jié)拍要求較低,拿錯貨的后果也較輕。但在工業(yè)場景,比如汽車制造廠,一條產(chǎn)線停機一分鐘可能就意味著損失上萬元,因此分揀的精度和速度要求極高。
綜上所述,分揀技術(shù)雖然已有較大進展,但目前還未達到人類工人的水平,仍需要一定時間的技術(shù)迭代和突破。
8.NVIDIA 在機器人訓(xùn)練中強調(diào)仿真優(yōu)先的策略,并推出了一系列支持技術(shù)。然而,仿真到現(xiàn)實(Sim2Real)之間的差距仍然存在挑戰(zhàn)。NVIDIA 如何與合作伙伴共同應(yīng)對這一問題?能否分享一些具體的客戶案例或合作項目,展示這一方法的有效性?展望未來,提升仿真物理真實性和增強現(xiàn)實世界遷移效率的關(guān)鍵方向有哪些?
Rev:這是一個非常好的問題。如果我們依賴仿真來構(gòu)建和測試AI,就必須確保仿真盡可能接近現(xiàn)實,否則我們無法信任它。我們構(gòu)建的AI如果是在一個“卡通世界”里訓(xùn)練的,是無法真正理解現(xiàn)實世界的;因此,測試時也必須確保仿真場景與現(xiàn)實相符。那么,如何彌合仿真與現(xiàn)實之間的差距呢?其實可以通過多種方式,我們也在全力推進這些方法。
首先,是提升仿真器本身的精度。我們幾十年來一直在構(gòu)建物理仿真算法,且驗證了這些算法能夠較好地反映現(xiàn)實世界的物理規(guī)律。比如我們利用仿真設(shè)計飛機機翼和汽車,確??諝鈩恿W(xué)性能,并驗證仿真結(jié)果與真實世界匹配。問題是這些高精度仿真計算成本極高,通常需要在大型計算機上運行數(shù)小時。挑戰(zhàn)就在于如何將仿真速度提升到足夠快,能夠嵌入AI訓(xùn)練流程中,實現(xiàn)大規(guī)模、高效的數(shù)據(jù)生成和測試。
為此,我們正在利用AI本身作為提升仿真速度和精度的工具。AI能夠近似任何數(shù)學(xué)函數(shù),我們可以將物理仿真函數(shù)轉(zhuǎn)換為AI函數(shù),構(gòu)建AI模擬器完成仿真。只要提供足夠的示例數(shù)據(jù),AI就能學(xué)習(xí)仿真功能。這正是我們正在開發(fā)的“Cosmos”項目。這些“世界基礎(chǔ)模型”是能理解世界物理規(guī)律的AI模型,我們可以將真實世界數(shù)據(jù)和可信仿真數(shù)據(jù)輸入這些模型進行訓(xùn)練。一旦有了這樣理解世界的AI基礎(chǔ)模型,就可以將其與傳統(tǒng)仿真結(jié)合,構(gòu)建更精準、更高效的仿真器。
其次,即使擁有高質(zhì)量的仿真器,構(gòu)建代表現(xiàn)實世界的數(shù)據(jù)也非常困難。以這個房間為例,雖然仿真器可以模擬物理現(xiàn)象,但我們還要創(chuàng)造帶有正確物理參數(shù)(如摩擦系數(shù)、材料特性)的桌布和桌子,這類信息采集非常復(fù)雜。目前,全球只有少數(shù)專業(yè)人士——通常是游戲或電影行業(yè)的藝術(shù)家——具備這類能力。但隨著我們構(gòu)建具備物理理解能力的AI,這些AI可以輔助生成這些虛擬環(huán)境,成為“機器人藝術(shù)家”,幫助我們高效創(chuàng)建真實感十足的虛擬世界。
第三種方法是直接捕捉現(xiàn)實世界。我們也利用物理AI技術(shù)將現(xiàn)實環(huán)境(例如我們身處的房間)數(shù)字化、導(dǎo)入仿真環(huán)境,確保虛擬場景與現(xiàn)實高度一致。
NVIDIA正在這三個方向全面發(fā)力,打造相關(guān)技術(shù),但這項工作遠超過任何一家公司的能力。我們正與整個生態(tài)系統(tǒng)的合作伙伴協(xié)同推進,爭取在這三條路徑上共同攻關(guān)。事實上,我們已經(jīng)積累了不少成果,目前已有的仿真器已經(jīng)能夠生成足夠高質(zhì)量的數(shù)據(jù),助力我們提升AI性能。
9. 我想請教宇樹科技的王總,謝謝。當(dāng)前一些專家認為,目前機器人領(lǐng)域的大模型架構(gòu)尚未統(tǒng)一。針對具身智能大腦的基礎(chǔ)模型,語數(shù)科技主要聚焦哪些方向的探索?能否透露一些具體內(nèi)容?
王興興:我一直覺得目前的模型架構(gòu)確實非常不統(tǒng)一,這導(dǎo)致大家的整體進展沒有那么快。如果模型架構(gòu)能更加統(tǒng)一、方向明確,結(jié)合當(dāng)前行業(yè)熱度,大家其實能更快取得突破。但現(xiàn)實是,目前進展還是比較緩慢。
我們公司探索了很多方向。比如今年上午也展示了我們?nèi)ツ陣L試的一個用視頻生成模型作為“世界模型”,來驅(qū)動并對齊機械臂的項目,這個嘗試取得了一定效果。但由于視頻生成模型訓(xùn)練規(guī)模極大,考慮到我們公司的算力和投入,難以進行大規(guī)模訓(xùn)練。
而且我們嘗試發(fā)現(xiàn),這類模型的泛用性還不能完全滿足預(yù)期,因此后來基本沒有繼續(xù)使用。但最近谷歌發(fā)布了一個新的視頻生成模型,其物理對齊效果非常好,并且他們公開嘗試把視頻生成模型作為世界模型,直接用于機械臂和通用智能。這讓我覺得這個方向非常值得重新探索。
由于公司規(guī)模和算力人才限制,我們只是初步探索,沒有深入推進。但谷歌的成果證明這個方向很有潛力。視頻生成模型在時間內(nèi)容、數(shù)據(jù)源以及效果方面,已經(jīng)達到不錯的預(yù)期。舉例來說,如果控制視頻生成模型生成一個機器人打掃全屋的視頻,而且效果不錯,理論上只要把視頻與機器人動作對齊,也能實現(xiàn)類似效果。
不過,目前對齊工作仍然非常復(fù)雜且具有挑戰(zhàn)性。這個方向無論是對機器人應(yīng)用,還是純視頻生成技術(shù)本身,都是非常主流且值得投入的。即便不用于機器人,視頻生成技術(shù)也會持續(xù)被大公司加大投入、不斷優(yōu)化。
除此之外,還有其他方案。隨著基礎(chǔ)模型能力快速提升,很多潛力尚未被充分挖掘。我們發(fā)現(xiàn),如果在基礎(chǔ)模型后訓(xùn)練時加入機器人指令控制和空間理解訓(xùn)練,效果能明顯提升。比如王賀老師團隊展示的一些基于基礎(chǔ)模型的機器人控制效果就非常不錯。
我們公司的策略很簡單:不斷嘗試各種新模型和新想法。今天可能有一種想法,明天可能會調(diào)整,這很正常。對于新興技術(shù),我認為大家都應(yīng)該大膽嘗試。AI領(lǐng)域充滿了可能性,往往一個靈光一閃的創(chuàng)意就能帶來突破。希望鼓勵更多人去探索,或許下一個創(chuàng)新就出自你手。
10.想請教銀河通用的王總,不知道這個問題是否合適。我們看到OpenAI最近發(fā)布了GPT-5,給人的印象是技術(shù)突破不大,而且它更像是一個系統(tǒng),而非單一模型。我們是否可以理解為大模型的擴展定律(Scaling Law)遇到了一些挑戰(zhàn)?
王鶴:目前大模型類型繁多,有純文本大模型,有圖文大模型,圖文大模型又分為視覺理解型和視頻生成型,包括我們具身智能的VLA也是一種大模型。所以說,是否可以說大模型的擴展遇到了瓶頸,無法簡單地用一個統(tǒng)一的結(jié)論來概括。
我理解,在當(dāng)前純文本階段,我們主要的數(shù)據(jù)源是互聯(lián)網(wǎng)公開數(shù)據(jù),但很多私域知識并不在網(wǎng)上,這導(dǎo)致模型的推理能力實際上需要的數(shù)據(jù)與公開數(shù)據(jù)有差異。除非能通過某種可控的方式獲得額外數(shù)據(jù)增強,否則單靠公開數(shù)據(jù)提升模型能力是有限的。
這部分能力的增長,并不會自然地通過單純擴大模型規(guī)模實現(xiàn)。但不能低估推理模型的進展,比如在IMO國際數(shù)學(xué)競賽上,文模型獲得金牌,面對從未見過的題目表現(xiàn)出色,這說明文本大模型的能力在不斷提升。
關(guān)于多模態(tài)大模型(比如VLM和VLA),如果說文本模型現(xiàn)在能力已經(jīng)很強了,那么多模態(tài)模型目前還處于比語言模型稍弱的階段。其核心原因是數(shù)據(jù)不足:文本數(shù)據(jù)非常豐富,而文本-圖像配對數(shù)據(jù)相對較少,再加上動作數(shù)據(jù)更少,因此視覺理解能力和基于視覺的動作操作能力還有較大差距。
這也是為什么合成數(shù)據(jù)和仿真技術(shù)非常重要。正如Rev所說,仿真能夠?qū)⒄鎸嵤澜鐖鼍昂蛣幼鲝?fù)現(xiàn)到虛擬環(huán)境,生成大量帶動作、圖像和語義配對的數(shù)據(jù),這將極大促進圖文、多模態(tài)大模型及具身智能大模型的發(fā)展。
如果完全依賴真實數(shù)據(jù),進展會受到很大限制??傮w來看,充分利用仿真技術(shù),我相信將是多模態(tài)大模型和具身大模型應(yīng)對數(shù)據(jù)瓶頸的最有效途徑。
11. 想請教銀河通用的王鶴總:在您看來,目前限制人形機器人規(guī)?;渴鸬年P(guān)鍵技術(shù)瓶頸是什么?
王鶴:最核心的問題其實很簡單——就是機器人干活的能力還不夠強,能完成的任務(wù)類型比較有限。但如果能在這些有限的技能范圍內(nèi)實現(xiàn)非常通用的水平,就能一下子賦能很多場景。
銀河通用現(xiàn)在最主要的突破是“抓取”和“移動”。只要機器人能抓住任何物體,能夠在場景中實現(xiàn)下肢移動和上肢伸展,最后還能準確放置物體,
這三個能力成立的話,很多應(yīng)用場景就能實現(xiàn)。背后需要有一個真正精準的目標(biāo)識別和定位系統(tǒng),我們目前是通過合成數(shù)據(jù)在推動這項技術(shù)。
當(dāng)然,即使解決了這個關(guān)鍵問題,仍有很多任務(wù)機器人暫時無法完成。但只要目標(biāo)識別和定位的問題能被攻克,人形機器人市場至少有千億級規(guī)模,并且在五年內(nèi)可見成效。解決了這個關(guān)鍵技術(shù)瓶頸后,基于如此巨大的市場投入,機器人必然能解鎖更多技能,邁向萬億市場的步伐。
12. 請教宇樹科技的王興興總,這是一個比較老的問題:機器人為什么要做雙足?除了情感價值,雙足在商業(yè)上還有哪些考慮?
王興興:其實,某種意義上我以前也提過,為什么不做雙腿反而是一個值得思考的問題。因為做雙腿其實相對方便,最重要的是雙腿提供了更多的通用性能力。運動能力本身在某種程度上是較弱的AI能力。你看,小動物甚至螞蟻、蟲子走路都非常好,但它們的AI能力其實很弱。所以我一直覺得,真正通用且能干活的具身AI模型,移動能力或者腿的能力其實是附屬的。
如果機器人能干活了,那腿的控制自然不會差;如果連腿都控制不好,說明它還沒達到大家想象中的非常通用的AI模型階段。所以這是一個發(fā)展方向。另外,因為雙腿相對簡單,盡管仍有挑戰(zhàn),我們公司本身就是做腿的,所以對我們來說這是順理成章而且有趣的事情。大家普遍也很喜歡這個方向。而且如果大家都做輪式底盤,反而會導(dǎo)致同質(zhì)化競爭,沒必要。我們公司專注于腿部,希望提升機器人整體的運動和干活能力,這個方向非常不錯。我自己也做輪式底盤,我覺得輪式和腿式是有差距的,且隨著時間不同會變化。目前輪式底盤在工業(yè)開闊場景和貨架間穿梭非常穩(wěn)定且能耗低,但在復(fù)雜環(huán)境中可能通不過。如果底盤做得更小,穩(wěn)定性會喪失。所以不同時間點,機器人下半身的方案肯定不同。我堅信腿是未來,因為它能實現(xiàn)上半身所有可達空間,并且能靈活調(diào)動腰部的靈活度。但在不同階段,會有最適合落地應(yīng)用的形態(tài),我們也不會局限于單一方案。我們同時用輪式底盤和語數(shù)的人形機器人做下半身甚至全身的控制研究。
13. 我們知道物理AI,特別是機器人領(lǐng)域,對能耗、熱管理和體積限制有很高的要求。請問NVIDIA是如何應(yīng)對這些挑戰(zhàn)的?未來的計算平臺又將如何滿足這些需求?
Rev:回顧歷史,NVIDIA每一代產(chǎn)品都會大幅提升每瓦性能和每美元性能。過去我們有摩爾定律,意味著計算能力會以指數(shù)速度增長——在最佳階段,每五年性能提升10倍,十年提升100倍。但單靠摩爾定律已經(jīng)不足以解決我們面臨的許多問題。我們預(yù)見到,摩爾定律在CPU和通用計算機上的效用會逐漸終結(jié)。為此,我們致力于打造針對特定算法的專用計算機。這種專用計算機不僅僅是芯片層面,更需要算法、軟件以及應(yīng)用層面的整體優(yōu)化,才能發(fā)揮最大性能。這并非靠單一因素,比如芯片變小或變快,而是通過全棧優(yōu)化實現(xiàn)的。這是一項非常艱難的工程,也正是NVIDIA的核心競爭力所在。
我們最初應(yīng)用這套方法于計算機圖形渲染(尤其是游戲領(lǐng)域),隨后推廣到其他領(lǐng)域。CUDA推出后,我們開始應(yīng)用于物理仿真,后來深度學(xué)習(xí)和AI在GPU上興起,我們不斷專門化處理器。每一代產(chǎn)品,在相同功耗和成本下都實現(xiàn)了顯著的性能飛躍,未來仍會持續(xù),因為我們的創(chuàng)新之路還遠未走完。
14. 關(guān)于中國市場,相比其他國家,您怎么看中國AI的需求和實踐中的挑戰(zhàn)?
Rev:中國既是一個重要的市場,也是AI技術(shù)和產(chǎn)品的生產(chǎn)基地。正如我之前提到的,中國擁有大量聰明、受過良好教育且充滿熱情的AI研究人員和開發(fā)者,全球近一半頂尖AI人才都集中在這里,且中國擁有頂尖的AI高校。
在物理AI和機器人領(lǐng)域,中國擁有獨特的規(guī)模優(yōu)勢,結(jié)合人才優(yōu)勢,形成了獨一無二的生態(tài)系統(tǒng)。中國在制造電子硬件和機器人所需關(guān)鍵部件方面具備深厚的專業(yè)能力,這樣的生態(tài)體系和制造規(guī)模是其他國家難以匹敵的。這使得像銀河通用、宇樹科技這樣的企業(yè),能夠大規(guī)模制造機器人,快速學(xué)習(xí)和迭代。中國獨特的綜合條件為物理AI和機器人產(chǎn)業(yè)的快速發(fā)展提供了堅實基礎(chǔ)。
每日經(jīng)濟新聞綜合自公開信息
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP