2024-12-24,由清华大学、Galbot、上海启智研究所和上海人工智能实验室联合创建了Mimicking-Bench数据集,这个数据集首次为通过模仿人类动作学习通用人形机器人场景交互技能提供了大规模的参考,对于机器人学和现实世界应用具有重要意义。


一、研究背景:

随着人形机器人技术的发展,学习通用技能以在3D场景中与人互动成为了一个关键研究挑战。这不仅对机器人技术的进步至关重要,也对现实世界中的应用有着深远的影响。

目前遇到困难和挑战:

1、现有的方法和基准测试受限于小规模、手动收集的演示数据,缺乏有效探索场景几何泛化所需的大规模数据集和基准支持。

2、人形机器人的复杂动态使得从头开始探索环境并学习泛化交互技能面临重大挑战。

3、将人类技能数据转化为人形机器人可执行的控制信号,并从中推导出泛化策略存在技术障碍。

数据集地址:Mimicking-Bench|机器人技术数据集|人形机器人数据集

二、让我们一起来看一下Mimicking-Bench

Mimicking-Bench是一个全新的、全面的基准测试,旨在通过模仿大规模人类动作参考数据,学习通用的人形机器人与场景的交互技能。

Mimicking-Bench包含了六个家庭全身体人形机器人场景交互任务,涵盖了11K种不同的物体形状和20K合成及3K真实世界人类交互技能参考。

Mimicking-Bench构建:

通过整合真实世界和自动合成的人机交互数据构建,利用了计算机视觉和图形领域的人类场景交互数据集和交互生成网络的进展。

Mimicking-Bench的特点:

Mimicking-Bench的特点包括大规模和多样化的人类技能参考数据集,以及支持从人类到人形机器人知识转移的技能学习范式。

研究人员可以通过Mimicking-Bench来比较不同的人形机器人技能学习流程和模块算法,促进对关键技术的综合研究。

基准测试:

Mimicking-Bench支持对运动重定向、运动跟踪、模仿学习和它们的各种组合进行基准测试。

Mimicking-Bench:首个通过模仿大规模人类动作数据学习通用人形机器人场景交互技能的综合基准(具有 11K 对象形状和 23K 人机交互动作)_机器学习数据集

Mimicking-Bench 是通过模拟人类数据来学习可推广的人形场景交互技能的第一个基准,包括六个家庭交互任务。它利用动作捕捉数据集和交互生成网络的进步,整合了多样化的人类技能参考数据集,构建了人到人知识转移的技能学习范式。

Mimicking-Bench:首个通过模仿大规模人类动作数据学习通用人形机器人场景交互技能的综合基准(具有 11K 对象形状和 23K 人机交互动作)_人形机器人_02

Mimicking-Bench 与现有机器人技能学习基准的比较。

Mimicking-Bench:首个通过模仿大规模人类动作数据学习通用人形机器人场景交互技能的综合基准(具有 11K 对象形状和 23K 人机交互动作)_数据_03

模拟基准仿真配置。(a) 举例说明了 Isaac Gym 中 H1 的交互场景。(b) 和 (c) 显示了从四个以自我为中心的相机捕获的高程图和彩色图像。

Mimicking-Bench:首个通过模仿大规模人类动作数据学习通用人形机器人场景交互技能的综合基准(具有 11K 对象形状和 23K 人机交互动作)_人形机器人_04

人类技能参考的统计数据。

Mimicking-Bench:首个通过模仿大规模人类动作数据学习通用人形机器人场景交互技能的综合基准(具有 11K 对象形状和 23K 人机交互动作)_机器学习数据集_05

类人交互技能学习范式。

Mimicking-Bench:首个通过模仿大规模人类动作数据学习通用人形机器人场景交互技能的综合基准(具有 11K 对象形状和 23K 人机交互动作)_数据集_06

坐着沙发上数据驱动的人类模拟和无数据 RL 的定性比较。RL 尽管以运动学方式完成了任务,但仍难以获得合理的姿势。

Mimicking-Bench:首个通过模仿大规模人类动作数据学习通用人形机器人场景交互技能的综合基准(具有 11K 对象形状和 23K 人机交互动作)_数据集_07

不同技能学习管道的任务成功率。

三、让我们一起展望Mimicking-Bench应用场景

比如,我们有一个动画片,里面的角色动作都是真人演员表演然后捕捉下来的。但是这些动作是为真人设计的,如果我们想把这些动作用在人形机器人上,问题就来了:人和机器人的身体结构不一样啊,直接复制粘贴肯定不行,机器人动起来会很奇怪,甚至动不了。以前,我们得手动调整每个动作,让它们适合机器人的身体。这活儿特别费劲,需要很多专业知识,而且效率很低。有时候,为了让动作看起来自然,还得请动画师来一点点调整,这成本就上去了。

现在的情况:

现在有了Mimicking-Bench数据集,情况完全不一样了。这个数据集包括了6个家庭全身人形机器人场景交互任务,涵盖了11K种不同的物体形状,以及20K合成和3K真实世界的人体交互技能参考。有了这些数据,我们就可以训练一个系统,让它自动把人类的动作转换成机器人能做动作。

比如说,我们要让机器人“坐在椅子上”。以前,我们可能需要手动去调整每一个动作细节,确保机器人的关节能够正确地模仿人类坐下的动作。现在,我们可以用Mimicking-Bench数据集中的数据来训练一个模型,这个模型能够自动理解人类的动作,并将其适配到机器人的身体结构上。这样,我们就能够快速、准确地让机器人模仿人类的动作,而不需要人工去一点一点地调整。

具体案例:

武汉大学和腾讯AI LAB的研究团队提出了一种新的残差重定向网络(R2ET)结构,这个结构依靠两个神经修饰模块来逐步调整源运动以适应目标骨架和形状。特别地,引入了骨架感知模块来保持源运动语义,设计了一个形状感知模块来感知目标特征的几何形状,以减少相互交互和接触缺失。这样,我们就能够自动地、准确地将人类的动作重定向到人形机器人上,而不需要复杂的手动调整。

通过Mimicking-Bench数据集,我们不仅能够提高运动重定向的效率,还能够确保重定向后的动作更加自然和准确。这就是Mimicking-Bench数据集带来的变化,让机器人动作更加自然,更接近人类。


更多开源的数据集,请打开:遇见数据集

https://www.selectdataset.com/