在人工智能与人机交互领域,如何实现更自然、更直观的用户界面一直是研究的热点。近日,上海交大的研究团队在Nature子刊上发表了一篇名为"Capturing forceful interaction with deformable objects using a deep learning-powered stretchable tactile array"的论文,提出了一种基于深度学习的视触觉动态重建方案,为这一领域带来了新的突破。
人机交互(HMI)系统作为连接物理世界与数字世界的桥梁,其发展对于推动元宇宙等新兴技术的应用具有重要意义。传统的非力量型界面如手势识别,虽然可以通过IMU、EMG传感器、应变传感器、视频录制和摩擦电传感器等技术进行跟踪,但对于力量型界面如物体交互的捕捉仍存在挑战。而力量型交互的捕捉对于虚拟现实、远程医疗、机器人技术以及大型人工智能模型的训练都具有广泛的应用前景。
为了解决这一问题,研究团队提出了一种名为ViTaM(视觉-触觉记录与跟踪系统)的方案。该方案结合了高密度、可拉伸的触觉手套和深度学习框架,能够实时捕捉和重建手部与物体之间的力量型交互。
触觉手套设计与制造:研究团队设计并制造了一种高密度、可拉伸的触觉手套,其中包含1152个触觉感知单元,能够覆盖手部与物体接触的多个区域。该手套采用纺织技术制造,确保了良好的可穿戴性和适应性。
应变干扰抑制方法:为了提高力量测量的准确性,研究团队提出了一种应变干扰抑制方法。该方法通过检测和抑制可拉伸界面上的应变干扰,实现了对力量的准确测量。具体而言,该方法利用了正负应变电阻效应,通过检测正负效应膜的电阻变化来判断是否存在应变干扰,并根据干扰的大小进行相应的校正。
视觉-触觉联合学习框架:为了实现对物体状态的全面估计,研究团队提出了一种视觉-触觉联合学习框架。该框架通过将视觉信息和触觉信息进行融合,能够重建物体的完整几何形状和接触区域的精细变形。该框架采用两个独立的神经网络分支来分别编码视觉和触觉信息,并利用时序交叉注意力机制来融合时序特征,最终通过预测缠绕数场(WNF)来重建物体的几何形状。
为了验证该方案的有效性,研究团队进行了一系列的实验。实验结果表明,该方案能够实现对物体状态的准确估计,包括对可变形物体如塑料和弹性物体的变形重建,以及对刚性物体的几何重建。具体而言,该方案在24种不同类别的物体上进行了测试,包括可变形物体和刚性物体,平均重建误差仅为1.8厘米。
此外,研究团队还比较了该方案与其他方法的性能,包括纯视觉方法和基于光学触觉传感器的方法。实验结果表明,该方案在物体重建的准确性和鲁棒性方面都表现出了明显的优势。例如,在重建弹性物体时,该方案的重建误差比基于光学触觉传感器的方法低了36%。
该研究的提出,为力量型人机交互的捕捉和重建提供了一种全新的思路和方法。其创新之处在于将可拉伸触觉传感器与深度学习相结合,实现了对物体状态的全面估计。这一成果对于推动虚拟现实、远程医疗、机器人技术等领域的发展具有重要意义。
然而,该研究也存在一些局限性。例如,该方案目前主要关注于手部与物体的交互,对于其他形式的力量型交互如脚部与地面的交互尚未涉及。此外,该方案的实现依赖于高密度的触觉传感器和复杂的深度学习模型,对于实际应用的推广可能存在一定的挑战。