#Meta机器人触觉项目##首个基于视觉的触觉编码器#Meta发布了机器人触觉项目——Sparsh的代码、数据集、预训练模型和和论文。Sparsh是印地语触觉的意思,它是全球首个基于视觉的触觉通用编码器,能够与多种传感器兼容,并在执行不同任务时自适应地调整接触压力和力度。该编码器基于46万张触觉图像,从大量未标注的触觉图像中进行自监督学习,具体用到了下列技术:1. 掩码图像建模:Sparsh采用掩码图像建模技术,通过遮盖部分触觉图像像素,训练模型在像素空间中重建被遮盖的部分,从而学习有效的触摸表示。2. 自蒸馏(Dyno):自蒸馏方法被用于进一步优化触觉表示。通过将模型自身的输出作为学习目标,Sparsh能够在无需额外标签的情况下,提升表示的质量和鲁棒性。3. 潜在空间掩码策略:在潜在空间中应用掩码策略,遵循联合预测架构范式,使模型能够在更高层次上捕捉触觉信息的内在结构,提高了表示的表达能力。为了全面评估Sparsh的性能,研究团队引入了Stackbench,它是一个触觉任务基准测试平台,包括多个任务数据集和标签,例如:1. 力估计:回归法向力和切向力。2. 滑动检测:利用触摸表示,检测运动中的滑动。3. 姿态估计:估计对象相对于传感器的2D转换。4. 抓取稳定性:预测抓取成功率。5. 纺织品识别:区分20种纺织材料。6. 珠子迷宫(Bead Maze):引导珠子沿电线路径移动。实验结果表明,Sparsh在评估任务中表现出色,相较于端到端方法,整体性能提升达95.1%。感兴趣的小伙伴可以点击: