当 VR 遇上人工智能最火的“深度学习”,一种新的手势识别技术就诞生了

简介: 支持体感交互的VR设备能大大提高虚拟现实体验,不过像HTC Vive这种采用手柄交互的方式,并不能带来更接近现实的操作体验,笔者曾发表过一篇文章《目前主流动作捕捉技术深度解读,HTC Vive 等 VR 设备是如何实体感交互的?》谈到目前主流的交互技术,认为未来采用类似Leap Motion的手势识别技术才是王道。

支持体感交互的VR设备能大大提高虚拟现实体验,不过像HTC Vive这种采用手柄交互的方式,并不能带来更接近现实的操作体验,笔者曾发表过一篇文章《目前主流动作捕捉技术深度解读,HTC Vive 等 VR 设备是如何实体感交互的?》谈到目前主流的交互技术,认为未来采用类似Leap Motion的手势识别技术才是王道。

不过,这种技术并未发展成熟,准确率和精细度都有待提高,目前也有不少技术公司、机构等朝着这个方向努力,近日也有消息透露,普渡大学C Design Lab实验室研发出了一个名为“DeepHand”的新系统。


这个系统专为手势识别技术而打造,其特点是使用了卷积神经网络来模仿人类大脑,可进行深度学习,理解手部关节和运动的变化,提高识别的准确率和精细度。

1.gif


普渡大学的Karthik Ramani教授表示:“我们把它称为空间用户界面,因为你是在空间中与电脑进行交互,而不是通过触摸屏和键盘。如果用户想从虚拟桌面上捡起物品,驾驶虚拟汽车的话,很明显手部是关键。我们可以实时监测到你的手部位置,你的手指位置,以及你的手部和手指所有的动作。”


DeepHand采用类似Leap Motion的双摄像头深度感应相机来捕捉用户的手部,配备了专门的算法来解释手部运动,研究人员通过250万个手部姿势和形状组合来“训练”DeepHand。手指关节的位置被指定为“特征向量”,可以快速检索,然后,系统会从数据库中挑选一个最合适的数据来呈现给相机。


DeepHand可以识别出手部的关节角度,并通过数字组合来表达出这些角度的变化和形状组合。需要注意的是,这个系统需要“训练”,简单点说就是需要对各种手势动作进行录入,动作录入越多,识别的准确率则越高。

image.png


手势识别技术已越来越成熟,这其实是一种基于计算机视觉动作捕捉的技术,相比使用手柄交互其操作更接近真实体验,也无需像诺亦腾那种设备需要佩戴手套,使用起来更加自然。


不足的是,这种技术需要庞大的程序计算量,对硬件设备有一定配置要求,同时受外界环境影响大,比如环境光线昏暗、背景杂乱、有遮挡物等都无法很好的完成动作捕捉。


但这些问题迟早会被解决,比如光线昏暗无法捕捉的问题,使用红外夜视技术也许是个不错的解决方案。因此,在日后这种技术很可能会延伸到腿部甚至整个身体的识别以及交互。

相关文章
|
27天前
|
人工智能 JSON 前端开发
Agentic AI崛起:九大核心技术定义未来人机交互模式​
本文系统梳理AI智能体架构设计的九大核心技术,涵盖智能体基础、多智能体协作、知识增强、模型优化、工具调用、协议标准化及人机交互等关键领域,助力构建高效、智能、协同的AI应用体系。建议点赞收藏,持续关注AI架构前沿技术。
379 1
|
1月前
|
机器学习/深度学习 人工智能 程序员
Reflexion:让AI智能体学会反思的神奇技术
想象一下AI智能体能像人类一样从错误中学习,Reflexion技术让智能体不再需要重新训练就能自我改进。本文通过一个智能体助手小R的成长故事,带你轻松理解这个改变智能体学习方式的创新技术。
|
2月前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
262 4
|
21天前
|
存储 机器学习/深度学习 人工智能
​​解锁AI检索的7大Embedding技术:从稀疏到多向量,一文掌握!​
本文系统解析七种主流文本嵌入技术,包括 Sparse、Dense、Quantized、Binary、Matryoshka 和 Multi-Vector 方法,结合适用场景提供实用选型建议,助你高效构建文本检索系统。
149 0
|
2月前
|
人工智能 自然语言处理 机器人
智能体平台哪家值得选?盘点国内外12家AI Agent平台技术特色
智能体平台正引领人机协作新潮流,将“智能”交给机器,让“平台”服务于人。2024年被Gartner定义为“AgenticAI元年”,预示未来企业交互将由智能体主导。面对百余平台,可从三条赛道入手:通用大模型、RPA升级派与垂直场景定制。不同需求对应不同方案,选对平台,才能让AI真正助力工作。
|
2月前
|
存储 人工智能 算法
AI 图纸表格识别与智能文档协同处理技术介绍
针对制造业、工程建设等领域图纸表格数据提取效率低、误差高的问题,本文介绍了一套涵盖表格识别、数据导出、EBOM转MBOM及智能文档协同处理的技术方案,实现图纸数据结构化与全生命周期管理。
105 0
|
2月前
|
设计模式 人工智能 API
​​混合检索技术:如何提升AI智能体50%的响应效率?​
本文深入解析检索增强智能体技术,探讨其三大集成模式(工具模式、预检索模式与混合模式),结合实战代码讲解RAG组件链构建、上下文压缩、混合检索等关键技术,并提供多步检索工作流与知识库自更新机制设计,助力高效智能体系统开发。
252 0
|
27天前
|
数据采集 Web App开发 人工智能
如何让AI“看懂”网页?拆解 Browser-Use 的三大核心技术模块
Browser-Use 是一种基于大语言模型(LLM)的浏览器自动化技术,通过融合视觉理解、DOM解析和动作预测等模块,实现对复杂网页任务的自主操作。它突破了传统固定选择器和流程编排的限制,具备任务规划与语义理解能力,可完成注册、比价、填报等多步骤操作。其核心功能包括视觉与HTML融合解析、多标签管理、元素追踪、自定义动作、自纠错机制,并支持任意LLM模型。Browser-Use标志着浏览器自动化从“规则驱动”向“认知驱动”的跃迁,大幅降低维护成本,提升复杂任务的处理效率与适应性。
722 28

热门文章

最新文章