穹彻智能-上交大最新Nature子刊速递:解析深度学习驱动的视触觉动态重建方案

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 上海交大研究团队在Nature子刊发表论文,提出基于深度学习的视触觉动态重建方案,结合高密度可拉伸触觉手套与视觉-触觉联合学习框架,实现手部与物体间力量型交互的实时捕捉和重建。该方案包含1152个触觉感知单元,通过应变干扰抑制方法提高测量准确性,平均重建误差仅1.8厘米。实验结果显示,其在物体重建的准确性和鲁棒性方面优于现有方法,为虚拟现实、远程医疗等领域带来新突破。

在人工智能与人机交互领域,如何实现更自然、更直观的用户界面一直是研究的热点。近日,上海交大的研究团队在Nature子刊上发表了一篇名为"Capturing forceful interaction with deformable objects using a deep learning-powered stretchable tactile array"的论文,提出了一种基于深度学习的视触觉动态重建方案,为这一领域带来了新的突破。

人机交互(HMI)系统作为连接物理世界与数字世界的桥梁,其发展对于推动元宇宙等新兴技术的应用具有重要意义。传统的非力量型界面如手势识别,虽然可以通过IMU、EMG传感器、应变传感器、视频录制和摩擦电传感器等技术进行跟踪,但对于力量型界面如物体交互的捕捉仍存在挑战。而力量型交互的捕捉对于虚拟现实、远程医疗、机器人技术以及大型人工智能模型的训练都具有广泛的应用前景。

为了解决这一问题,研究团队提出了一种名为ViTaM(视觉-触觉记录与跟踪系统)的方案。该方案结合了高密度、可拉伸的触觉手套和深度学习框架,能够实时捕捉和重建手部与物体之间的力量型交互。

  1. 触觉手套设计与制造:研究团队设计并制造了一种高密度、可拉伸的触觉手套,其中包含1152个触觉感知单元,能够覆盖手部与物体接触的多个区域。该手套采用纺织技术制造,确保了良好的可穿戴性和适应性。

  2. 应变干扰抑制方法:为了提高力量测量的准确性,研究团队提出了一种应变干扰抑制方法。该方法通过检测和抑制可拉伸界面上的应变干扰,实现了对力量的准确测量。具体而言,该方法利用了正负应变电阻效应,通过检测正负效应膜的电阻变化来判断是否存在应变干扰,并根据干扰的大小进行相应的校正。

  3. 视觉-触觉联合学习框架:为了实现对物体状态的全面估计,研究团队提出了一种视觉-触觉联合学习框架。该框架通过将视觉信息和触觉信息进行融合,能够重建物体的完整几何形状和接触区域的精细变形。该框架采用两个独立的神经网络分支来分别编码视觉和触觉信息,并利用时序交叉注意力机制来融合时序特征,最终通过预测缠绕数场(WNF)来重建物体的几何形状。

为了验证该方案的有效性,研究团队进行了一系列的实验。实验结果表明,该方案能够实现对物体状态的准确估计,包括对可变形物体如塑料和弹性物体的变形重建,以及对刚性物体的几何重建。具体而言,该方案在24种不同类别的物体上进行了测试,包括可变形物体和刚性物体,平均重建误差仅为1.8厘米。

此外,研究团队还比较了该方案与其他方法的性能,包括纯视觉方法和基于光学触觉传感器的方法。实验结果表明,该方案在物体重建的准确性和鲁棒性方面都表现出了明显的优势。例如,在重建弹性物体时,该方案的重建误差比基于光学触觉传感器的方法低了36%。

该研究的提出,为力量型人机交互的捕捉和重建提供了一种全新的思路和方法。其创新之处在于将可拉伸触觉传感器与深度学习相结合,实现了对物体状态的全面估计。这一成果对于推动虚拟现实、远程医疗、机器人技术等领域的发展具有重要意义。

然而,该研究也存在一些局限性。例如,该方案目前主要关注于手部与物体的交互,对于其他形式的力量型交互如脚部与地面的交互尚未涉及。此外,该方案的实现依赖于高密度的触觉传感器和复杂的深度学习模型,对于实际应用的推广可能存在一定的挑战。

论文链接:https://www.nature.com/articles/s41467-024-53654-y

目录
相关文章
|
2月前
|
数据可视化 前端开发 测试技术
接口测试新选择:Postman替代方案全解析
在软件开发中,接口测试工具至关重要。Postman长期占据主导地位,但随着国产工具的崛起,越来越多开发者转向更适合中国市场的替代方案——Apifox。它不仅支持中英文切换、完全免费不限人数,还具备强大的可视化操作、自动生成文档和API调试功能,极大简化了开发流程。
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
企业级API集成方案:基于阿里云函数计算调用DeepSeek全解析
DeepSeek R1 是一款先进的大规模深度学习模型,专为自然语言处理等复杂任务设计。它具备高效的架构、强大的泛化能力和优化的参数管理,适用于文本生成、智能问答、代码生成和数据分析等领域。阿里云平台提供了高性能计算资源、合规与数据安全、低延迟覆盖和成本效益等优势,支持用户便捷部署和调用 DeepSeek R1 模型,确保快速响应和稳定服务。通过阿里云百炼模型服务,用户可以轻松体验满血版 DeepSeek R1,并享受免费试用和灵活的API调用方式。
135 12
|
23天前
|
存储 人工智能 并行计算
2025年阿里云弹性裸金属服务器架构解析与资源配置方案
🚀 核心特性与技术创新:提供100%物理机性能输出,支持NVIDIA A100/V100 GPU直通,无虚拟化层损耗。网络与存储优化,400万PPS吞吐量,ESSD云盘IOPS达100万,RDMA延迟<5μs。全球部署覆盖华北、华东、华南及海外节点,支持跨地域负载均衡。典型应用场景包括AI训练、科学计算等,支持分布式训练和并行计算框架。弹性裸金属服务器+OSS存储+高速网络综合部署,满足高性能计算需求。
|
1月前
|
数据采集 监控 搜索推荐
深度解析淘宝商品详情API接口:解锁电商数据新维度,驱动业务增长
淘宝商品详情API接口,是淘宝开放平台为第三方开发者提供的一套用于获取淘宝、天猫等电商平台商品详细信息的应用程序接口。该接口涵盖了商品的基本信息(如标题、价格、图片)、属性参数、库存状况、销量评价、物流信息等,是电商企业实现商品管理、市场分析、营销策略制定等功能的得力助手。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习与自然语言处理的前沿技术:Transformer模型的深度解析
探索深度学习与自然语言处理的前沿技术:Transformer模型的深度解析
250 1
|
4月前
|
机器学习/深度学习 自然语言处理 语音技术
揭秘深度学习中的注意力机制:兼容性函数的深度解析
揭秘深度学习中的注意力机制:兼容性函数的深度解析
|
3月前
|
机器学习/深度学习 人工智能 算法
机器学习与深度学习:差异解析
机器学习与深度学习作为两大核心技术,各自拥有独特的魅力和应用价值。尽管它们紧密相连,但两者之间存在着显著的区别。本文将从定义、技术、数据需求、应用领域、模型复杂度以及计算资源等多个维度,对机器学习与深度学习进行深入对比,帮助您更好地理解它们之间的差异。
|
4月前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
141 2
|
2天前
|
移动开发 前端开发 JavaScript
从入门到精通:H5游戏源码开发技术全解析与未来趋势洞察
H5游戏凭借其跨平台、易传播和开发成本低的优势,近年来发展迅猛。接下来,让我们深入了解 H5 游戏源码开发的技术教程以及未来的发展趋势。
|
8天前
|
机器学习/深度学习 自然语言处理 算法
生成式 AI 大语言模型(LLMs)核心算法及源码解析:预训练篇
生成式 AI 大语言模型(LLMs)核心算法及源码解析:预训练篇

热门文章

最新文章

推荐镜像

更多