機器人行業(yè),也在期待自己的「ChatGPT 時(shí)刻」。
作者|周永亮
編輯|靖宇
3 月 7 日晚,智元機器人聯(lián)合創(chuàng )始人「稚暉君」(彭志輝)在微博上扔下了一顆「預告炸彈」——「下周有好東西發(fā)布」。短短一句話(huà),迅速引爆全網(wǎng),閱讀量飆升至 10 萬(wàn)+。
結果,3 月 10 日上午,智元機器人就揭曉了謎底——Genie Operator-1(GO-1),智元首個(gè)通用具身基座大模型亮相。視頻中,機器人可以烤吐司、煮咖啡、送早餐到你的手上,完全不成問(wèn)題。官方宣稱(chēng), GO-1 不僅具備強大的泛化能力,還能在極少數據甚至零樣本的情況下,迅速適應新場(chǎng)景和新任務(wù)。
早在 2024 年底,智元就推出了 AgiBot World,一個(gè)包含超過(guò) 100 萬(wàn)條軌跡、涵蓋 217 個(gè)任務(wù)、涉及五大場(chǎng)景的大規模高質(zhì)量數據集。正是基于這一龐大的「數據金礦」,GO-1 才能在短時(shí)間內實(shí)現高效訓練和廣泛泛化??梢哉f(shuō),AgiBot World 是 GO-1 背后的「隱形英雄」。
那么,GO-1 這個(gè)機器人基座大模型的實(shí)際表現究竟如何?它對機器人行業(yè)又意味什么?
01
機器人大模型,來(lái)了!
按照官方說(shuō)法, GO-1 除了拓展機器人的運動(dòng)能力,更重要的是加強了其AI能力,從而大大增加了機器人的實(shí)用價(jià)值。
通過(guò)學(xué)習人類(lèi)視頻,GO-1 具備了強大的物體跟蹤能力 | 圖片智元機器人官網(wǎng)截圖
在智元發(fā)布的演示視頻中,GO-1 展現了很強的學(xué)習能力:通過(guò)觀(guān)看人類(lèi)操作視頻,它就能快速掌握新技能,并高效應用到實(shí)際任務(wù)中。比如,視頻中展示了 GO-1 強大的物體跟蹤能力:即使水杯被隨意移動(dòng),它依然能精準完成倒水動(dòng)作。
其次,GO-1 展現了非常強的泛化能力。與傳統模型需要海量數據訓練不同, GO-1 僅需百條級數據,就能實(shí)現快速泛化。例如,在演示中,GO-1 在完成倒水任務(wù)后,無(wú)需額外訓練,便能無(wú)縫切換到烤面包并抹果醬的新任務(wù)。這種能力不僅展現了 GO-1 對多樣化任務(wù)的適應性,更體現了其極簡(jiǎn)學(xué)習的核心優(yōu)勢。
GO-1 可以支持不同形態(tài)機器人能力遷移,既可以接待嘉賓,也可以制作咖啡 | 圖片智元機器人官網(wǎng)截圖
同時(shí),GO-1 的跨本體能力,為多機器人協(xié)作提供了強大的技術(shù)支持。在智元發(fā)布的視頻中,展示了兩個(gè)機器人協(xié)同完成復雜任務(wù)的場(chǎng)景:一個(gè)機器人在前臺接待嘉賓,另一個(gè)機器人專(zhuān)注于制作咖啡。這種協(xié)作體現了 GO-1 的高效性和適應性。
傳統具身模型通常針對單一機器人本體(Hardware Embodiment)進(jìn)行設計,導致兩大問(wèn)題:數據利用率低和部署受限。但 GO-1可以賦能多種本體,在不同機器人形態(tài)之間快速遷移,顯著(zhù)提升了數據的利用效率,降低了部署成本。
值得一提的是,GO-1 大模型還可以搭配智元一整套數據回流系統,可以從實(shí)際執行遇到的問(wèn)題數據中持續進(jìn)化學(xué)習。這套系統能夠從實(shí)際執行過(guò)程中捕捉問(wèn)題數據,尤其是執行失誤或異常情況,并通過(guò)人工審核和模型優(yōu)化,持續提升 GO-1 的性能。例如,在演示場(chǎng)景中,機器人在放置咖啡杯時(shí)出現失誤,系統會(huì )立即將相關(guān)數據回流,并針對性地優(yōu)化模型,確保下一次操作更加精準。
同時(shí),GO-1 大模型還為機器人增加了新的語(yǔ)音交互方式,這極利了用戶(hù)在現實(shí)場(chǎng)景中自由表達需求。
02
大模型不重要,數據集才重要
GO-1 神乎其神的背后,來(lái)自其不同的模型架構。
GO-1 采用了 Vision-Language-Latent-Action(ViLLA)架構,這一架構結合了多模態(tài)大模型(VLM)和混合專(zhuān)家系統(MoE),分為三個(gè)協(xié)同工作的模塊:
VLM(多模態(tài)大模型):基于 InternVL-2B,處理多視角視覺(jué)、力覺(jué)信號和語(yǔ)言輸入,實(shí)現場(chǎng)景感知和指令理解。
Latent Planner(隱式規劃器):通過(guò)預測 Latent Action Tokens(隱式動(dòng)作標記),將互聯(lián)網(wǎng)異構數據中的動(dòng)作知識遷移到機器人任務(wù)中,解決高質(zhì)量真機數據不足的問(wèn)題。
Action Expert(動(dòng)作專(zhuān)家):基于 Diffusion Model 生成高頻率、靈活的動(dòng)作序列,確保精細執行。
業(yè)內人士認為, 其實(shí)GO-1的這個(gè)模型架構很簡(jiǎn)單,創(chuàng )新之處并不多,主要是對已有工作、數據和訓練方式做了大幅整合。
相比之前的模型,唯一新增的是一層 Latent Planner(隱式規劃器),但它也就幾層 Transformer,并不復雜。
相比基座大模型,更重要的是數據集 | 圖片智元機器人官網(wǎng)截圖
地瓜機器人技術(shù)副總裁隋偉表示,智元的工作直指行業(yè)痛點(diǎn)——數據問(wèn)題,對具身智能行業(yè)有非常好的促進(jìn)作用。不過(guò), 相比大模型,這里面最有價(jià)值的是數據集。
據介紹,GO-1 的底層支撐則是一個(gè)名為 AgiBot World 的超大規模機器人數據集。據了解,AgiBot World 數據集包含超過(guò) 100 萬(wàn)條軌跡,由 100 個(gè)真實(shí)機器人收集,涵蓋 100 多個(gè)真實(shí)世界場(chǎng)景和 217 個(gè)具體任務(wù)。
該數據集基于 AgiBot G1 硬件平臺構建,由 100 多臺同構機器人共同收集,提供高質(zhì)量的開(kāi)源機器人操作數據,支持解決多種現實(shí)生活場(chǎng)景中的挑戰性任務(wù)。最新版本的 AgiBot World 數據集,包含 100 萬(wàn)條軌跡,總時(shí)長(cháng)達 2976.4 小時(shí),覆蓋 87 項技能和 106 個(gè)場(chǎng)景。
同時(shí),AgiBot World 超越了實(shí)驗室環(huán)境中的基本桌面任務(wù)(如抓取和放置),專(zhuān)注于涉及雙臂操作、靈巧手和協(xié)作任務(wù)的現實(shí)場(chǎng)景。
與行業(yè)內現有的數據集(Open X-Embodiment)相比,智元的數據在數量上更為龐大,且數據質(zhì)量、規范性和一致性更好。Open X-Embodiment 數據集包含很多不同形態(tài)的本體,數據的形態(tài)差異性較大,會(huì )給模型的訓練帶來(lái)極大地干擾。
GO-1 成功率大幅領(lǐng)先,平均成功率提高了 32%,但仍未引發(fā)能力的質(zhì)變 | 圖片智元機器人官網(wǎng)截圖
不過(guò),雖然智元的數據集已經(jīng)有一定規模,仍只是一小步的起點(diǎn),并未帶動(dòng)機器人能力的顯著(zhù)提升。
測試結果顯示,GO-1 的表現比之前模型已經(jīng)提高了很多,但在倒水(Pour Water)、清理桌面(Table Bussing)和補充飲料(Restock Beverage)的成功率最高仍不到 80%。
隋偉表示, 目前階段,模型并不是機器人行業(yè)的核心瓶頸。真正的挑戰在于兩個(gè)方面:首先是硬件的收斂問(wèn)題,例如夾爪、靈巧手、觸覺(jué)傳感器等仿生設計尚未形成標準化;其次是因為本體無(wú)法大規模推廣,導致數據量始終存在不足。
目前,在數據采集方面,機器人業(yè)內主要依賴(lài)遙操作技術(shù),包括虛擬現實(shí)(VR)設備、同構背帶式設備以及運動(dòng)捕捉設備等。然而, 機器人行業(yè)的數據采集成本較高,且缺乏明確的商業(yè)價(jià)值支撐,這導致數據閉環(huán)的飛輪難以快速運轉。
相比之下,自動(dòng)駕駛行業(yè)的數據采集成本幾乎可以忽略不計,其通過(guò)車(chē)載感知系統能夠源源不斷地回傳數據,形成了高效的數據閉環(huán)。
在 GO-1 發(fā)布視頻的最后,大家發(fā)現了一個(gè)彩蛋——智元機器人預告了下一個(gè)具身智能機器人產(chǎn)品,盡管具體時(shí)間尚未公布。然而,緊接著(zhù)稚暉君在微博上發(fā)文稱(chēng),「明天還有驚喜」,這一消息瞬間讓業(yè)界再次充滿(mǎn)了期待感。
大模型的興起,讓 AI 行業(yè)獲得了爆發(fā)式進(jìn)化。大模型對于機器人和具身智能行業(yè),到底能有這樣的促進(jìn)作用,也讓人們格外好奇。智元和創(chuàng )始人稚暉君的 GO-1,看起來(lái)是個(gè)很好的起點(diǎn),顯然具身 AI 很難由一家公司獨立完成,只有開(kāi)源合作,才有可能真正實(shí)現機器人行業(yè)的快速進(jìn)化。
頭圖智元機器人官網(wǎng)截圖
Copyright 2025 //m.mrigadava.com/ 版權所有 豫ICP備2021037741號-1 網(wǎng)站地圖