粉嫩av在线观看|无码视频网站亚洲理论在线|Av在线中文亚洲|99这里都是精品|国产精品成人女人久久|欧美日韩高清免费播放一区二区三区|久久久久久桃九九九国产精品|成人一级黄片国外超级A片|欧美特级毛片国产精品H视频|看特黄A级片亚洲另类区

<code id="w4k6e"></code>

>

真機(jī)RL殺瘋了！機(jī)器人自學(xué)20分鐘100分，數(shù)字孿生封神

>

0

0

真機(jī)RL殺瘋了！機(jī)器人自學(xué)20分鐘100分，數(shù)字孿生封神

真機(jī)RL殺瘋了！機(jī)器人自學(xué)20分鐘100分，數(shù)字孿生封神

新智元

2026-02-13

8

導(dǎo)讀：這背后，有一家正在快速崛起的具身智能公司——至簡(jiǎn)動(dòng)力。

編輯：犀牛

【新智元導(dǎo)讀】TwinRL用手機(jī)掃描場(chǎng)景構(gòu)建數(shù)字孿生，讓機(jī)器人先在虛擬環(huán)境中探索試錯(cuò)，再回到真實(shí)世界執(zhí)行任務(wù)，20分鐘內(nèi)實(shí)現(xiàn)桌面全區(qū)域100%操作成功率——較現(xiàn)有方法提速30%，人類干預(yù)減少超50%。

讓機(jī)器人真正「走出演示數(shù)據(jù)」的那一刻，發(fā)生了什么？

你花兩周時(shí)間教機(jī)械臂抓香蕉放盤子。左邊練得好好的，一旦把香蕉往右移15厘米，機(jī)械臂就“失聯(lián)”了——不是沒學(xué)會(huì)，而是那個(gè)位置對(duì)它而言屬于“另一個(gè)宇宙”。

這正是2025年多數(shù)視覺-語言-動(dòng)作（VLA）模型在現(xiàn)實(shí)中的困境：依賴人類示范、泛化能力弱、難以自主學(xué)習(xí)。

VLA模型雖在論文中表現(xiàn)亮眼，成功率動(dòng)輒90%以上，但真實(shí)部署時(shí)卻高度依賴人工遙操作。問題核心在于：

人類示范成本高、覆蓋有限：一天操控只能覆蓋桌面一小片區(qū)域
真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)效率低、風(fēng)險(xiǎn)大：一次失誤可能損壞設(shè)備
探索空間被SFT數(shù)據(jù)鎖定：機(jī)器人只能在“見過的位置”打轉(zhuǎn)，無法真正拓展

這一長(zhǎng)期被忽視的瓶頸，正被TwinRL打破。

TwinRL：數(shù)字孿生驅(qū)動(dòng)的真實(shí)機(jī)器人強(qiáng)化學(xué)習(xí)框架

由至簡(jiǎn)動(dòng)力、北京大學(xué)、清華大學(xué)、香港科技大學(xué)聯(lián)合提出的TwinRL（Digital Twin-Driven Reinforcement Learning），首次系統(tǒng)性解決真實(shí)機(jī)器人在線強(qiáng)化學(xué)習(xí)的探索局限問題。

其核心洞察是：RL的問題不在算法本身，而在探索空間受限于SFT階段的數(shù)據(jù)分布。

TwinRL通過構(gòu)建高保真數(shù)字孿生環(huán)境，將“探索”前置到仿真中完成，形成“數(shù)字孿生—真實(shí)機(jī)器人”協(xié)同強(qiáng)化學(xué)習(xí)閉環(huán)。

三大核心技術(shù)模塊

1. 探索空間擴(kuò)展（Exploration Space Expansion）

使用手機(jī)拍攝真實(shí)場(chǎng)景，基于3D Gaussian Splatting快速重建數(shù)字孿生
在孿生環(huán)境中生成遠(yuǎn)超人類示范范圍的合成軌跡
在SFT階段即拓寬數(shù)據(jù)分布支持，提升策略對(duì)OOD（分布外）區(qū)域的可達(dá)性

2. 數(shù)字孿生中的并行在線RL

在部署前于數(shù)字孿生中高效并行執(zhí)行在線強(qiáng)化學(xué)習(xí)
生成RL風(fēng)格高質(zhì)量探索軌跡，橋接離線訓(xùn)練與真實(shí)在線學(xué)習(xí)
緩解真實(shí)世界RL冷啟動(dòng)和性能波動(dòng)問題

3. Sim-to-Real引導(dǎo)的人在回路探索

利用數(shù)字孿生識(shí)別失敗高發(fā)且信息密集的關(guān)鍵配置
精準(zhǔn)引導(dǎo)人類僅在最具價(jià)值的位置介入示范
大幅降低無效干預(yù)，使人類從“操作員”變?yōu)椤安呗砸龑?dǎo)者”

實(shí)驗(yàn)結(jié)果：20分鐘收斂，100%成功率

在4項(xiàng)真實(shí)機(jī)器人操作任務(wù)（包括積木插入、擦白板等）中驗(yàn)證：

平均約20分鐘完成在線強(qiáng)化學(xué)習(xí)收斂
在分布內(nèi)（ID）與分布外（OOD）區(qū)域均實(shí)現(xiàn)接近100%成功率
相比現(xiàn)有方法提速至少30%
顯著減少人類干預(yù)需求

即使面對(duì)物體位置擾動(dòng)或光照變化等未見環(huán)境干擾，TwinRL仍保持穩(wěn)定性能，展現(xiàn)出強(qiáng)魯棒性與空間泛化能力。

圖1：TwinRL整體框架（a）通過數(shù)字孿生擴(kuò)展探索空間，在仿真中執(zhí)行并行RL，并引導(dǎo)真實(shí)世界定向探索；（b）四項(xiàng)任務(wù)實(shí)驗(yàn)顯示，TwinRL收斂更快，在ID與OOD區(qū)域均達(dá)近100%成功率。

具身智能的“三部曲”：從基座到進(jìn)化

作為至簡(jiǎn)動(dòng)力VLA技術(shù)體系的關(guān)鍵一環(huán)，TwinRL與其LaST?、ManualVLA共同構(gòu)成“推理—執(zhí)行—進(jìn)化”的完整閉環(huán)。

1. LaST?：構(gòu)建隱式時(shí)空思維基座

融合世界模型與VLA快慢思維，在潛空間聯(lián)合建模語言邏輯、視覺語義、3D結(jié)構(gòu)與機(jī)器人狀態(tài)，提升物理動(dòng)態(tài)推理能力，解決“如何一邊想一邊快速動(dòng)”的難題。

2. ManualVLA：打通“推理到執(zhí)行”閉環(huán)

自動(dòng)生成多模態(tài)“操作說明書”，貫通高層推理與底層動(dòng)作控制，在樂高組裝等長(zhǎng)程任務(wù)中成功率比最優(yōu)方法高出32%，實(shí)現(xiàn)“想清楚再動(dòng)手”。

3. TwinRL：實(shí)現(xiàn)真實(shí)世界的持續(xù)進(jìn)化

借助數(shù)字孿生突破探索瓶頸，讓機(jī)器人在真實(shí)環(huán)境中少干預(yù)、快收斂、自適應(yīng)，完成從“能做”到“越做越好”的躍遷。

結(jié)語：一體化VLA范式的落地元年

從LaST?的基座能力，到ManualVLA的任務(wù)理解，再到TwinRL的在線進(jìn)化，至簡(jiǎn)動(dòng)力構(gòu)建起完整的VLA技術(shù)三角。

這不僅是學(xué)術(shù)領(lǐng)先，更標(biāo)志著一體化VLA基礎(chǔ)模型正從論文走向真實(shí)產(chǎn)線與應(yīng)用場(chǎng)景，推動(dòng)具身智能邁向?qū)嵱没码A段。

【聲明】?jī)?nèi)容源于網(wǎng)絡(luò)

0

0

新智元

智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人革命對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

內(nèi)容 14888

粉絲 0

新智元智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人革命對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

總閱讀118.9k

粉絲0

內(nèi)容14.9k