Meta Releases HOT3D Dataset to Advance Hand-Object Interaction in Computer Vision Research

2025-01-06

虽然人类天生善于运用双手进行交流和操作物体,但许多现有的机器人系统只能执行基本的手动任务。近年来,世界各地的计算机科学家致力于开发基于机器学习的新模型,这些模型能够处理与人类手动任务相关的图像,并利用所获得的信息来提升机器人的操作性能,从而有可能增强机器人与人类及周围环境的互动。

类似的模型也可用于构建依赖计算机视觉的人机交互界面,或扩展AR和VR系统的功能。为了训练这些机器学习模型,研究人员需要高质量的数据集,其中包含标注了人类完成各种现实世界手动任务的视频。

Meta Reality Labs的研究团队最近发布了一个名为HOT3D的新数据集,旨在加速手物交互领域的机器学习研究。该数据集在arXiv预印本服务器上的一篇论文中进行了介绍,包含了从第一人称视角拍摄的高质量3D视频,展示了人类用户抓取并操作多种物体的过程。

HOT3D数据集包括超过833分钟(超过370万张图像)的多视角RGB/灰度图像流,展示了19名参与者与33种不同刚性物体的交互,以及多模态信号如视线注视点、场景点云等,还提供了全面的真实值标注,包括物体、手和相机的3D姿态,以及手和物体的3D模型。

Meta Reality Labs团队编译的新数据集不仅包括简单的抓取动作,还包括更复杂的操作,如在办公室和家庭环境中常见的拿起厨房用具、操作食物、在键盘上打字等。

该数据集中使用的标注视频是由Meta开发的两种设备收集的:Project Aria眼镜和Quest 3头戴设备。Project Aria眼镜是一种为增强现实应用设计的轻便感应眼镜,可以捕捉视频和音频数据,并跟踪佩戴者的眼球运动。Quest 3是另一种用于数据收集的设备,是Meta开发的商用虚拟现实头戴设备。

研究人员通过专业动作捕捉系统获取真实值姿态,该系统使用附着在手和物体上的小型光学标记。手的姿态以UmeTrack和MANO格式提供,而物体则由内部扫描仪生成的具有物理基渲染材料的3D网格表示。

为了评估HOT3D数据集在机器人学和计算机视觉研究中的潜力,研究人员使用它训练了三个不同任务的基准模型。他们发现,相比于仅使用单一视角演示训练的模型,在HOT3D的多视角数据上训练的模型表现显著更好。

HOT3D数据集是开源的,全球研究人员可以在Project Aria网站上下载。未来,它可能有助于推动人机界面、机器人技术以及其他基于计算机视觉系统的开发与进步。