2026年6月15日:机器人学习数据接口现状怎么样?
- 时间:
- 浏览:134
- 来源:华见咨询管理(深圳)有限公司
人类视频训练机器人新突破:30分钟零机器人数据达92.5%成功率
在2026年6月15日, 国际机器人学习领域出现了重大进展, 由马里兰大学研究团队王治所主导的HumanEgo项目, 首次达成了仅凭借30分钟人类第一人称视频来训练双手机器人策略, 在4个真实世界任务里平均成功率高达92.5%, 这一成果完全摆脱了对传统机器人遥操作数据的依赖, 标志着机器人学习的数据接口从实验室迈向日常生活。
瓶颈打破:从机器人遥操作到人类视频
传统机器人的操作策略, 是依靠专业操作员借助控制器远程去演示机器人动作, 每一次的抓取以及放置, 都得在装备完备的实验室里完成。依据行业数据所显示的情况, 如此的方式成本非常高昂, 而且效率十分低下, 机器人的数据与硬件存在很强的耦合性, 在更换机器人或者工作站之后, 数据几乎完全没办法再被复用。王治团队表明, 当下的SOTA策略受到了“数据接口和机器人硬件绑死”这一困境的限制, 对规模化应用造成了制约。
创新方法:交互中心表征与流匹配策略
HumanEgo的核心创新之处在于, 把每一只手以及每一个物体都看作是实体, 进而计算29维交互中心Token。这个Token对实体在参考系下的6D位姿、左右手相对位姿以及抓取状态进行了编码。团队运用流匹配策略并配合三个密集辅助目标, 从分钟级人类数据里高效学出双手机器人动作。关键突破就在于形态无关性, 人手被抽象成了“虚拟双指夹爪”, 无论是人手或者Trossen、UR5、Franka夹爪, 都会产生同样的Token。
数据效率:8分钟人类视频超越30分钟遥操作
将人类数据曲线搁置于数据的效率对比范畴之内进行审视, 其全程所处状态表现为高于机器人遥操作所对应的那一条数据曲线。仅仅需要耗费8分钟的时间, 人类以第一人称视角所生成的视频, 便能够在性能展现方面对拥有30分钟时长的遥操作数据实现反向超越之举。团队在深入开展的实验进程当中, 仅仅借助大约60条轨迹所形成的时长为30分钟的视频, 就达成了主流模范效法研习应用方式之中倘若要像ACT、Diffusion Policy这般就难以望其项背的广泛化能力。达成上述成效是借助了三个具备互补性质的空间所产生的密集信号而得以实现的, 这三个空间分别是3D物理空间和2D视觉空间以及潜在空间, 并且每一条演示实际上能够产生多种具备监督性质的信号, 事实便是如此。
零样本迁移:9种分布外条件下稳守85-95%成功率
HumanEgo策略展现出令人惊叹的鲁棒性, 在9种分布外条件之中, 包含不同机器人、相机、光照以及物体状态, 成功率全都维持于85%至95%, 并不需要任何重训练或者微调。另外, 同一策略能够零样本部署至不同机器人手臂, 达成跨本体迁移。相比较而言, 五个零样本基线方法在需要精准手 - 物推理的任务之上最高不超过45%成功率, HumanEgo成为唯一在四个任务之上都保持高成功率的方法。
未来方向:可穿戴视频成为通用数据接口
王治所在的团队着重表明, 在第一人称视频摇身一变成为全新的数据接口之际, 其中机器人数据的收集状况会从以往那种“实验室里的稀缺资源”, 转变成为“每个人都能够参与进去的工作流程”。不管是谁皆能够借助 Aria Gen1 眼镜, 于任何一种环境当中达成演示操作, 而且每一条演示仅仅需要花费短短几秒时间, 根本用不着进行标定操作, 也无需专门的工作站。该团队表明接下来会朝着多手指灵巧操作、长距离工业流程以及从大规模人类视频里持续开展学习的方向去扩展。就如同论文里面所记述的那样: 只要具备了恰当的表征以及学习目标, 那么人类第一人称视频能够成为机器人学习的通用数据接口。
要是你存在着能够运用智能眼镜去训练机器人的机会, 首要念头会是让它协助你去达成什么样的任务呢? 欢迎于评论区间分享你所抱持的想法, 点赞并且接着转发这一篇文章, 使得更多的人知悉这一项具有突破性的进展!
猜你喜欢