多模态灵巧操作

一种适用于认知机器人的功能区域检测方法

Fusing Object Context to Detect Functional Area for Cognitive Robots

默认图片
在没有额外标注数据的情况下,如何利用目标检测数据集和目标的周围环境提升功能区域检测性能?我们设计了一个端到端的双流网络,该网络融合了对象相关和功能相关的特征用于功能区检测
Hui Cheng, Junhao Cai, Quande Liu, Zhanpeng Zhang, Kai Yang, Chen Change Loy, Liang Lin
IEEE ICRA

基于功能可见性网络的抓取训练系统

MetaGrasp: Data Efficient Grasping by Affordance Interpreter Network

默认图片
如何从仿真中高效获取机械臂的抓取数据,并将仿真中训练的抓取策略应用于物理世界的机械臂抓取任务?我们提出了一个抓取训练系统,该系统包括仿真平台抓取数据收集模块和抓取可行性预测模块。通过反关节抓取规则辅助的纠正策略收集有效的抓取样本,用以高效训练我们提出的像素级的可行性解释网络
Junhao Cai, Hui Cheng*, Zhangpeng Zhang, Jingcheng Su
IEEE ICRA

基于半监督领域自适应的未知物体抓取

Grasping Novel Objects by Semi-supervised Domain Adaptation

默认图片
如何有效提高提高训练数据的利用效率?我们提出了一个深度自适应方法,将只有已知物体的源域中的抓取知识迁移到含有未知物体的目标域中,并通过Baxter机器人验证了该算法对于未知物体的抓取效果
Junhao Cai, Zhanpeng Zhang, Hui Cheng*
IEEE RCRA

面向实例抓取的有约束协同注意力网络算法

CCAN: Constraint Co-Attention Network for Instance Grasping

默认图片
我们提出了一种新型的端到端实例抓取方法,即自监督的约束共同关注网络(CCAN),包含一个约束共同注意模块和一个抓取能力预测器。约束共同注意模块负责提取查询图像中的特征并在工作区图像中建立对应的特征,级联的抓取能力解释网络用于预测抓取的可行性
Junhao Cai, Xuefeng Tao, Hui Cheng*, Zhanpeng Zhang
IEEE ICRA

基于多模态约束注意力网络的物体6D位姿估计

GCCN: Geometric Constraint Co-attention Network for 6D Object Pose Estimation

默认图片
为了有效地利用物体模型先验信息,将显式几何约束添加到协同注意模块中,以估计场景中的点云与物体模型先验信息之间的几何对应关系,我们提出了一种基于几何约束协同注意力网络的端到端的物体6D位姿估计方法
Yongming Wen, Yiquan Fang, Junhao Cai, Kimwa Tung, and Hui Cheng*
ACM MM

堆叠场景中吸盘机械臂对未知物体的自主抓取

Uncertainty-based Exploring Strategy in Densely Cluttered Scenes for Vacuum Cup Grasping

默认图片
针对密集堆叠场景中利用低成本深度传感器实施未知物体抓取的问题,我们提出一个考虑感知数据存在不确定性的吸盘抓取方法。该工作基于概率有向距离函数的方法重建出场景的三维模型,并显式表达场景的不确定性;同时设计了一种考虑模型不确定性的空间探索策略,迭代地优化三维重建模型和目标抓取位姿
Kimwa Tung, Junhao Cai, Jingcheng Su, Zhaoliang Wan, and Hui Cheng*
IEEE ICRA

接触点检测抓取法

Volumetric-based Contact Point Detection for 7-DoF Grasping

默认图片
本文提出了一种基于TSDF体积接触点检测的新型抓取管道,通过在杂乱环境中进行多视角融合、接触点采样与碰撞检测,实现实时闭环7-DoF抓取。该方法利用接触点表征解决传统法向量方法的歧义问题,生成更精准灵活的无碰撞抓取位姿。仿真与实物实验表明,该 pipeline 在抓取成功率和稳定性上均优于基于法向量的基线方法
Junhao Cai, Jingcheng Su, Zida Zhou, Hui Cheng, Qifeng Chen, Michael Y Wang
CoRL

视触本体多模态数据集VinT-6D

VinT-6D: A Large-Scale Object-in-hand Dataset from Vision, Touch, and Proprioception

默认图片
本文针对机器人手内操作中物体姿态估计数据匮乏的问题,首次提出了融合视觉、触觉与本体感觉的大规模多模态数据集VinT-6D。该数据集包含200万仿真样本与10万真实世界样本,通过定制平台收集,提供全手触觉感知的高质量对齐数据。基于此数据集构建的基准方法证明,多模态信息融合能显著提升物体姿态估计性能
Zhaoliang Wan, Yonggen Ling, Senlin Yi, Lu Qi, Wangwei Lee, Minglei Lu, Sicheng Yang, Peng Lu, Xu Yang, Ming-Hsuan Yang, Hui Cheng*
ICML

机器人自主整理桌面:从大模型蒸馏功能性桌面物品布局知识

LVDiffusor: Distilling Functional Rearrangement Priors from Large Models into Diffusor

默认图片
本文针对物体重排任务中功能先验学习依赖人工标注的问题,提出了一种基于大模型蒸馏功能重排先验的新方法。该方法利用语言与视觉大模型自动收集多样化布局样本,通过扩散模型学习物体位置与功能需求的关系,在测试时根据初始配置生成符合功能要求的目标位姿。实验表明,该方法在多个领域均能有效生成兼容性目标,性能显著优于基线方法
Yiming Zeng, Mingdong Wu, Long Yang, Jiyao Zhang, Hao Ding, Hui Cheng*, Hao Dong
IEEE RAL

一种基于非模态分割的遮挡环境下目标物体抓取的推抓策略

OPG-Policy: Occluded Push-Grasp Policy Learning with Amodal Segmentation

默认图片
本文针对密集遮挡环境中目标抓取任务的不确定性挑战,提出了OPG-Policy框架。该方法通过非完整分割预测被遮挡目标的全貌,并构建自适应推抓策略:利用分割掩码训练动作评价网络,再通过协调器生成最优动作序列
Hao Ding, Yiming Zeng, Zhaoliang Wan, Hui Cheng*
IEEE IROS