粉嫩av在线观看|无码视频网站亚洲理论在线|Av在线中文亚洲|99这里都是精品|国产精品成人女人久久|欧美日韩高清免费播放一区二区三区|久久久久久桃九九九国产精品|成人一级黄片国外超级A片|欧美特级毛片国产精品H视频|看特黄A级片亚洲另类区

大數(shù)跨境
0
0

真機(jī)RL殺瘋了!機(jī)器人自學(xué)20分鐘100分,數(shù)字孿生封神

真機(jī)RL殺瘋了!機(jī)器人自學(xué)20分鐘100分,數(shù)字孿生封神 新智元
2026-02-13
8
導(dǎo)讀:這背后,有一家正在快速崛起的具身智能公司——至簡(jiǎn)動(dòng)力。
編輯:犀牛
【新智元導(dǎo)讀】TwinRL用手機(jī)掃描場(chǎng)景構(gòu)建數(shù)字孿生,讓機(jī)器人先在虛擬環(huán)境中探索試錯(cuò),再回到真實(shí)世界執(zhí)行任務(wù),20分鐘內(nèi)實(shí)現(xiàn)桌面全區(qū)域100%操作成功率——較現(xiàn)有方法提速30%,人類干預(yù)減少超50%。

讓機(jī)器人真正「走出演示數(shù)據(jù)」的那一刻,發(fā)生了什么?

你花兩周時(shí)間教機(jī)械臂抓香蕉放盤子。左邊練得好好的,一旦把香蕉往右移15厘米,機(jī)械臂就“失聯(lián)”了——不是沒學(xué)會(huì),而是那個(gè)位置對(duì)它而言屬于“另一個(gè)宇宙”。

這正是2025年多數(shù)視覺-語言-動(dòng)作(VLA)模型在現(xiàn)實(shí)中的困境:依賴人類示范、泛化能力弱、難以自主學(xué)習(xí)。

VLA模型雖在論文中表現(xiàn)亮眼,成功率動(dòng)輒90%以上,但真實(shí)部署時(shí)卻高度依賴人工遙操作。問題核心在于:

  • 人類示范成本高、覆蓋有限:一天操控只能覆蓋桌面一小片區(qū)域
  • 真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)效率低、風(fēng)險(xiǎn)大:一次失誤可能損壞設(shè)備
  • 探索空間被SFT數(shù)據(jù)鎖定:機(jī)器人只能在“見過的位置”打轉(zhuǎn),無法真正拓展

這一長(zhǎng)期被忽視的瓶頸,正被TwinRL打破。

TwinRL:數(shù)字孿生驅(qū)動(dòng)的真實(shí)機(jī)器人強(qiáng)化學(xué)習(xí)框架

由至簡(jiǎn)動(dòng)力、北京大學(xué)、清華大學(xué)、香港科技大學(xué)聯(lián)合提出的TwinRL(Digital Twin-Driven Reinforcement Learning),首次系統(tǒng)性解決真實(shí)機(jī)器人在線強(qiáng)化學(xué)習(xí)的探索局限問題。

其核心洞察是:RL的問題不在算法本身,而在探索空間受限于SFT階段的數(shù)據(jù)分布。

TwinRL通過構(gòu)建高保真數(shù)字孿生環(huán)境,將“探索”前置到仿真中完成,形成“數(shù)字孿生—真實(shí)機(jī)器人”協(xié)同強(qiáng)化學(xué)習(xí)閉環(huán)。

三大核心技術(shù)模塊

1. 探索空間擴(kuò)展(Exploration Space Expansion)

  • 使用手機(jī)拍攝真實(shí)場(chǎng)景,基于3D Gaussian Splatting快速重建數(shù)字孿生
  • 在孿生環(huán)境中生成遠(yuǎn)超人類示范范圍的合成軌跡
  • 在SFT階段即拓寬數(shù)據(jù)分布支持,提升策略對(duì)OOD(分布外)區(qū)域的可達(dá)性

2. 數(shù)字孿生中的并行在線RL

  • 在部署前于數(shù)字孿生中高效并行執(zhí)行在線強(qiáng)化學(xué)習(xí)
  • 生成RL風(fēng)格高質(zhì)量探索軌跡,橋接離線訓(xùn)練與真實(shí)在線學(xué)習(xí)
  • 緩解真實(shí)世界RL冷啟動(dòng)和性能波動(dòng)問題

3. Sim-to-Real引導(dǎo)的人在回路探索

  • 利用數(shù)字孿生識(shí)別失敗高發(fā)且信息密集的關(guān)鍵配置
  • 精準(zhǔn)引導(dǎo)人類僅在最具價(jià)值的位置介入示范
  • 大幅降低無效干預(yù),使人類從“操作員”變?yōu)椤安呗砸龑?dǎo)者”

實(shí)驗(yàn)結(jié)果:20分鐘收斂,100%成功率

在4項(xiàng)真實(shí)機(jī)器人操作任務(wù)(包括積木插入、擦白板等)中驗(yàn)證:

  • 平均約20分鐘完成在線強(qiáng)化學(xué)習(xí)收斂
  • 在分布內(nèi)(ID)與分布外(OOD)區(qū)域均實(shí)現(xiàn)接近100%成功率
  • 相比現(xiàn)有方法提速至少30%
  • 顯著減少人類干預(yù)需求

即使面對(duì)物體位置擾動(dòng)或光照變化等未見環(huán)境干擾,TwinRL仍保持穩(wěn)定性能,展現(xiàn)出強(qiáng)魯棒性與空間泛化能力。

圖1:TwinRL整體框架(a)通過數(shù)字孿生擴(kuò)展探索空間,在仿真中執(zhí)行并行RL,并引導(dǎo)真實(shí)世界定向探索;(b)四項(xiàng)任務(wù)實(shí)驗(yàn)顯示,TwinRL收斂更快,在ID與OOD區(qū)域均達(dá)近100%成功率。

具身智能的“三部曲”:從基座到進(jìn)化

作為至簡(jiǎn)動(dòng)力VLA技術(shù)體系的關(guān)鍵一環(huán),TwinRL與其LaST?、ManualVLA共同構(gòu)成“推理—執(zhí)行—進(jìn)化”的完整閉環(huán)。

1. LaST?:構(gòu)建隱式時(shí)空思維基座

融合世界模型與VLA快慢思維,在潛空間聯(lián)合建模語言邏輯、視覺語義、3D結(jié)構(gòu)與機(jī)器人狀態(tài),提升物理動(dòng)態(tài)推理能力,解決“如何一邊想一邊快速動(dòng)”的難題。

2. ManualVLA:打通“推理到執(zhí)行”閉環(huán)

自動(dòng)生成多模態(tài)“操作說明書”,貫通高層推理與底層動(dòng)作控制,在樂高組裝等長(zhǎng)程任務(wù)中成功率比最優(yōu)方法高出32%,實(shí)現(xiàn)“想清楚再動(dòng)手”。

3. TwinRL:實(shí)現(xiàn)真實(shí)世界的持續(xù)進(jìn)化

借助數(shù)字孿生突破探索瓶頸,讓機(jī)器人在真實(shí)環(huán)境中少干預(yù)、快收斂、自適應(yīng),完成從“能做”到“越做越好”的躍遷。

結(jié)語:一體化VLA范式的落地元年

從LaST?的基座能力,到ManualVLA的任務(wù)理解,再到TwinRL的在線進(jìn)化,至簡(jiǎn)動(dòng)力構(gòu)建起完整的VLA技術(shù)三角。

這不僅是學(xué)術(shù)領(lǐng)先,更標(biāo)志著一體化VLA基礎(chǔ)模型正從論文走向真實(shí)產(chǎn)線與應(yīng)用場(chǎng)景,推動(dòng)具身智能邁向?qū)嵱没码A段。

【聲明】?jī)?nèi)容源于網(wǎng)絡(luò)
0
0
新智元
智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人革命對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。
內(nèi)容 14888
粉絲 0
新智元 智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人革命對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。
總閱讀118.9k
粉絲0
內(nèi)容14.9k