“人形機(jī)器人訓(xùn)練的問(wèn)題歸根結(jié)底就是數(shù)據(jù)的問(wèn)題”。多位采訪對(duì)象向新京報(bào)貝殼財(cái)經(jīng)記者表達(dá)了相似的觀點(diǎn)。


從不同企業(yè)近期的一些戰(zhàn)略布局動(dòng)作來(lái)看,數(shù)據(jù)的重要性正在提升。3月17日,傅利葉正式開(kāi)源全尺寸人形機(jī)器人數(shù)據(jù)集Fourier ActionNet,并發(fā)布全球首個(gè)全流程工具鏈,首批上線超3萬(wàn)條高質(zhì)量真機(jī)訓(xùn)練數(shù)據(jù);3月10日,智元機(jī)器人正式發(fā)布首個(gè)通用具身基座大模型—智元啟元大模型(GenieOperator-1),借助人類和多種機(jī)器人數(shù)據(jù),讓機(jī)器人獲得學(xué)習(xí)能力;1月9日,銀河通用機(jī)器人發(fā)布端到端具身抓取基礎(chǔ)大模型GraspVLA,利用合成數(shù)據(jù)學(xué)習(xí)測(cè)試。


薩摩耶云科技集團(tuán)AI機(jī)器人行業(yè)研究員鄭揚(yáng)洋認(rèn)為,“數(shù)據(jù)未來(lái)會(huì)成為拉開(kāi)企業(yè)差距的重要因素,擁有高質(zhì)多樣化數(shù)據(jù)集的企業(yè),能在訓(xùn)練、優(yōu)化機(jī)器人模型上取得優(yōu)勢(shì),提高自己的市場(chǎng)競(jìng)爭(zhēng)力?!?/p>


供具身大模型學(xué)習(xí)的數(shù)據(jù)遠(yuǎn)低于通用大模型可學(xué)習(xí)的數(shù)據(jù)


從行業(yè)發(fā)展的歷史來(lái)看,人形機(jī)器人并不是一個(gè)新鮮的事物,但在ChatGPT發(fā)布以后,市場(chǎng)將AI帶來(lái)的想象空間和具身智能進(jìn)行了結(jié)合,希望大模型可以賦予機(jī)器人更高的智能水平,熱度開(kāi)始上漲。


人形機(jī)器人本質(zhì)上是一個(gè)智能體,要想做出和人類一樣的動(dòng)作,需要龐大的數(shù)據(jù)作為訓(xùn)練的基礎(chǔ),培育出性能優(yōu)秀的具身智能大模型,機(jī)器人才有可能實(shí)現(xiàn)泛化的能力。


“我們可以隨意拿起一個(gè)水瓶或者咖啡杯,但對(duì)機(jī)器人來(lái)說(shuō),這是兩個(gè)完全不同的物體,用多大的力,摩擦系數(shù)的大小是多少都不一樣,這些都是需要機(jī)器人通過(guò)學(xué)習(xí)的數(shù)據(jù)計(jì)算而來(lái)。”銀河通用機(jī)器人公司某算法工程師告訴貝殼財(cái)經(jīng)記者。


大語(yǔ)言模型之所以可以快速發(fā)展,和數(shù)據(jù)量充足有著直接關(guān)系,網(wǎng)絡(luò)上的文本、圖片、視頻以及各種公開(kāi)資料都是模型可以學(xué)習(xí)的。但到具身大模型領(lǐng)域,可供學(xué)習(xí)的數(shù)據(jù)并不多。


清控金信資本高級(jí)投資經(jīng)理萬(wàn)安在接受貝殼財(cái)經(jīng)記者采訪時(shí)指出,“機(jī)器人訓(xùn)練所需要的是對(duì)三維空間的運(yùn)動(dòng)描述的數(shù)據(jù),而現(xiàn)在這些可供機(jī)器人學(xué)習(xí)訓(xùn)練的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)不夠?!?/p>


“具身智能大模型的發(fā)展遠(yuǎn)落后于通用大模型的發(fā)展?!庇顦?shù)科技創(chuàng)始人王興興曾公開(kāi)表示。


但如今各家企業(yè)已經(jīng)開(kāi)始發(fā)力解決“數(shù)據(jù)饑渴”的問(wèn)題。傅利葉將開(kāi)源全尺寸人形機(jī)器人數(shù)據(jù)集Fourier ActionNet,據(jù)介紹,該數(shù)據(jù)集囊括了傅利葉GRx系列所有機(jī)型的各類任務(wù)訓(xùn)練,完整記錄機(jī)器人在真實(shí)環(huán)境中的任務(wù)執(zhí)行數(shù)據(jù);智元機(jī)器人此前發(fā)布的智元啟元大模型將結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí),增強(qiáng)模型對(duì)人類行為的理解;銀河通用機(jī)器人將利用仿真數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)。


去年12月底,國(guó)家地方共建具身智能機(jī)器人創(chuàng)新中心與北京大學(xué)計(jì)算機(jī)學(xué)院聯(lián)合推出了一個(gè)大規(guī)模多構(gòu)型具身智能數(shù)據(jù)集和Benchmark——RoboMIND,支持多本體任務(wù)并具備通用性。


“數(shù)據(jù)集可以通過(guò)提供高質(zhì)量的訓(xùn)練數(shù)據(jù)提升機(jī)器人的性能和適應(yīng)性,降低開(kāi)發(fā)成本,推動(dòng)行業(yè)標(biāo)準(zhǔn)化和技術(shù)創(chuàng)新,從而加速機(jī)器人企業(yè)的商業(yè)化進(jìn)程。”鄭揚(yáng)洋指出。


既要比拼數(shù)據(jù)類型,又要比拼數(shù)據(jù)成本


雖然各家企業(yè)在使用哪種數(shù)據(jù)進(jìn)行訓(xùn)練的方面有不同選擇,但他們共同需要考慮的一個(gè)問(wèn)題就是數(shù)據(jù)的成本問(wèn)題。過(guò)去數(shù)據(jù)采集的成本居高不下,人力、物力以及時(shí)間成本都制約了高質(zhì)量數(shù)據(jù)的獲取。


據(jù)相關(guān)媒體報(bào)道,2024年8月,特斯拉為了解決數(shù)據(jù)不足的問(wèn)題開(kāi)始招聘了“數(shù)據(jù)收集操作員”,具體工作時(shí)間則是“三班倒”,預(yù)期時(shí)薪為25.25美元至48美元。特斯拉的Optimus(擎天柱,特斯拉開(kāi)發(fā)的一款人形機(jī)器人)社交媒體賬戶曾發(fā)布過(guò)一段視頻,展示了該崗位的具體工作內(nèi)容,在視頻中,一名操作員穿著動(dòng)作捕捉服,戴著觸覺(jué)手套和VR頭顯拾取物體,而虛擬版特斯拉Optimus機(jī)器人則執(zhí)行相同的動(dòng)作。


萬(wàn)安告訴貝殼財(cái)經(jīng)記者,“現(xiàn)在最大的成本就來(lái)自人力成本,動(dòng)作數(shù)據(jù)的復(fù)雜程度很高,要實(shí)現(xiàn)預(yù)期的訓(xùn)練效果需要海量高質(zhì)量數(shù)據(jù)。例如一個(gè)簡(jiǎn)單的‘倒水’動(dòng)作就需要學(xué)習(xí)幾百條數(shù)據(jù)?!?/p>


在鄭揚(yáng)洋看來(lái),除高成本之外,數(shù)據(jù)采集還存在數(shù)據(jù)質(zhì)量參差不齊,如不同傳感器存在采樣精度差異的問(wèn)題,行業(yè)缺乏數(shù)據(jù)集的處理標(biāo)準(zhǔn),對(duì)數(shù)據(jù)的處理方法不一將導(dǎo)致數(shù)據(jù)難以共享和通用。


相較于具身大模型的發(fā)展和突破,機(jī)器人硬件本體的創(chuàng)新會(huì)相對(duì)更加容易一些。宇樹(shù)科技之所以可以在這一次機(jī)器人熱浪中受到較高的關(guān)注,就在于本體的運(yùn)動(dòng)控制。王興興曾指出,因?yàn)橛辛怂淖銠C(jī)器狗的技術(shù)積累,做人形機(jī)器人相對(duì)來(lái)說(shuō)會(huì)比較容易,硬件等一些零部件是可以通用的。


多位受訪者將當(dāng)下人形機(jī)器人的發(fā)展階段與早期自動(dòng)駕駛技術(shù)的發(fā)展進(jìn)行類比,豐富海量的數(shù)據(jù)和足夠的算力是自動(dòng)駕駛技術(shù)得以普及的關(guān)鍵因素。人形機(jī)器人未來(lái)想要普及,數(shù)據(jù)的突破至關(guān)重要。


“不同企業(yè)之間在訓(xùn)練數(shù)據(jù)上不僅要比拼數(shù)據(jù)類型,還要比拼數(shù)據(jù)成本。至于數(shù)據(jù)類型和成本哪個(gè)更重要,取決于企業(yè)的需求和應(yīng)用場(chǎng)景?!编崜P(yáng)洋認(rèn)為。


在她看來(lái),仿真數(shù)據(jù)的采集成本相對(duì)較低,但可能需要額外的資源來(lái)縮小仿真與現(xiàn)實(shí)之間的差距,企業(yè)在選擇數(shù)據(jù)采集方式的同時(shí),也需要考慮到成本的影響,在采集方式和成本之間找到平衡。數(shù)據(jù)將會(huì)成為未來(lái)拉開(kāi)企業(yè)差距的重要因素。


但萬(wàn)安也坦言,“現(xiàn)在數(shù)據(jù)的收集還處在較為初期的階段,這些數(shù)據(jù)在人形機(jī)器人實(shí)際操作落地的階段將會(huì)起到哪些作用,還沒(méi)有看到顯著的差異化,還需繼續(xù)觀察?!?/p>

新京報(bào)貝殼財(cái)經(jīng)記者 張晗

編輯 陳莉

校對(duì) 柳寶慶