本文针对机器人手内操作中物体姿态估计数据匮乏的问题,首次提出了融合视觉、触觉与本体感觉的大规模多模态数据集VinT-6D。该数据集包含200万仿真样本与10万真实世界样本,通过定制平台收集,提供全手触觉感知的高质量对齐数据。基于此数据集构建的基准方法证明,多模态信息融合能显著提升物体姿态估计性能
                    Zhaoliang Wan, Yonggen Ling, Senlin Yi, Lu Qi, Wangwei Lee, Minglei Lu, Sicheng Yang, Peng Lu, Xu Yang, Ming-Hsuan Yang, Hui Cheng*
                    ICML