人机融合智能 | 可穿戴计算设备的多模态交互

简介: 本文介绍了可穿戴计算设备的多模态交互技术,阐述了以人为中心的设计目标与原则。内容涵盖设备的历史发展、特点及分类,并重点分析手指触控、手部动作、头部和眼睛动作等交互模态。同时探讨支持这些交互的传感器种类与原理,以及未来挑战。通过十个设计原则,强调自然高效、个性化、低认知负荷及隐私保护的重要性,为可穿戴技术的设计提供指导。

640.png

可穿戴计算设备可以对人体以及周围环境进行连续感知和计算,为用户提供随时随地的智能交互服务。本章主要介绍人机智能交互领域中可穿戴计算设备的多模态交互,阐述以人为中心的智能穿戴交互设计目标和原则,为可穿戴技术和智能穿戴交互技术的设计提供指导,进而简述支持智能穿戴交互的传感器种类、原理和应用,并重点介绍在不同类型传感器基础上实现的多模态智能穿戴交互技术。本章围绕可穿戴设备上的动作交互,重点介绍手指触控交互、手部动作交互、头部动作交互和眼睛动作交互等多种智能穿戴交互模态及技术。最后分析可穿戴计算设备交互技术的未来发展和挑战,希望本章可以帮助读者更好地了解可穿戴计算设备上的多模态智能交互技术的设计原则、传感器基础、多模态动作交互以及学术界在智能穿戴交互方面的最新研究进展。

01、引言

可穿戴计算设备指的是可以穿戴在人体身上,包括但不限于身体表面、衣服上、衣服内等的微型计算机或者计算设备、感知设备,以对人体以及周围环境进行感知和计算。由于这些设备与人体紧密相关并依附于用户身体,因此可以实现连续监测人体日常行为以及生理指标的目的。随着嵌入式硬件、传感器技术以及人工智能技术的发展,可穿戴计算已成为信息科技、医疗健康等领域重要的计算载体,支撑了运动健康等大规模、不可缺少的日常穿戴应用。 2022 年,含智能手表、手环、耳机、眼镜等在内的可穿戴设备的出货量达 4.9 亿台 ① ,成为重要的用户智能终端设备之一。

可穿戴计算的概念从 20 世纪后叶便开始频繁出现在各种科幻片中,从 1985 年上映的《回到未来》到 2002 年的《少数派报告》再到 2008 年的《钢铁侠》,可穿戴计算成为科幻电影中必不可少的元素。《少数派报告》中,汤姆·克鲁斯在未来感超强的混合现实指挥场景中使用智能手套通过手势控制显示元素的场景,为可穿戴人机交互打开了全新的一扇窗,进而成为学界和工业界一直追求的技术场景。

可穿戴计算设备的历史可以追溯到 1700 年的清朝时期,当时的算盘戒指真正实现了“掐指一算”,被认为是人类历史上首个可穿戴设备。 1961 年,数学家爱德华·索普(EdwardO.Thorpe )和克劳德·香农(ClaudeShannon )发明了多种用于赢得轮盘赌游戏的计算机计时设备,索普称自己是“穿戴计算机”的首位发明者。 20 世纪 70 年代,多伦多大学的 SteveMann 教授展示了虚拟现实头戴设备的原型系统,并首先提出了可穿戴计算的概念。但是,由于当时的电子信息科技发展仍然有限,可穿戴计算的进步主要局限于学术界,并鲜有相应的产品问世。到了 2000 年代初,尤其是 2003 年的CES 国际消费电子展,微软的比尔·盖茨向公众展示了智能手表的原型设计,这也标志着可穿戴计算设备正式走入大众视野。 2010 年后,如 Fitbit 这样的智能健康监测设备纷纷涌现,推动了智能穿戴技术的飞速发展,并使之成为一个规模庞大的消费电子产业。这些突破性的设备加深了人们对普适计算和可穿戴交互技术的了解,为未来的技术进步奠定了基础。

可穿戴设备的形态多种多样,但是可穿戴设备的形态整体受限于人因工程要求,应在满足应用需求的同时减少对用户日常活动的影响。按照佩戴位置分类,包括腕戴设备(智能手表、智能手环等)、颈戴设备(智能项链、坐姿提醒器等)、头戴设备(智能眼镜、智能头盔等)、耳戴设备(智能耳机、降噪耳机等)以及四肢、躯干佩戴设备(智能腰带、智能胸带等)。不同的设备形态通常对应着不同的功能,例如,佩戴在手腕上的可穿戴设备通常具有心率检测的功能,捆绑在四肢上的可穿戴设备通常具有运动监测的功能,而头戴式设备则通常可以提升使用者的视觉或者听觉能力等。

可穿戴计算设备具备以下几个基本特点:(1)穿戴便携性,可穿戴设备设计为直接佩戴在身体上或与服装和配饰相结合,通常由轻量化的供电系统、计算单元以及感知单元组成,具有随身携带并在移动过程中使用的能力;(2)连续感知性,可穿戴设备通常具有多种传感器,通常可以持续地对用户生理指征、动作行为以及环境因素进行连续感知以及数据获取;(3)随时随地性,可穿戴设备旨在实现随时随地智能服务的提供,同时在尽量不影响用户的日常行为前提下实时收集、处理和分析用户数据,以提供及时的反馈、建议和预警;(4)用户个性化,可穿戴设备可以根据用户的需求和偏好进行订制,提供高度个性化的应用和服务。

以上可穿戴计算设备的特点使得传统基于鼠标的二维表面的指点交互不再适用,按照可穿戴设备的形态以及使用场景逐渐形成触控、手势、眼动、语音等多模态交互范式。亟需随时随地、轻便易用的新型感知与交互技术的创新。近些年,学术界与工业界采用“以人为中心”的设计理念,以人工智能、传感器技术为基础,一方面创新了可穿戴计算设备上的多模态交互技术,逐步实现可穿戴设备上人机之间有效的信息传递,解决了可穿戴计算设备无法交互的问题;另一方面,可穿戴计算设备的特点也为新型的交互技术提供了感知与计算基础,为人机交互技术的创新提供了支撑。以上两点逐步推动了可穿戴计算领域的蓬勃发展,使得智能穿戴交互成为人机智能交互的重要研究问题之一。

02、以人为中心的智能穿戴交互设计

“以人为中心”的设计思想是智能穿戴交互的重要设计原则,即将人置于设计过程的中心,以满足用户需求为目标,本节以智能穿戴交互为核心,重点介绍智能穿戴交互的设计目标与设计原则,考虑用户的认知、情感和行为,通过交叉应用多个领域的知识,包括工效学、心理学、计算科学、传感器技术、软件设计开发、时尚设计、人工智能、人因工程、电子工程、分布式网络等,实现自然高效的智能穿戴交互体验。

1. 智能穿戴交互的设计目标

智能穿戴交互旨在实现人与可穿戴设备之间高效自然的信息交换,满足佩戴者的需求,帮助用户更轻松、更高效地完成任务,设计目标包括以下几点:(1)交互自然高效性最大化,智能穿戴交互脱离了特定空间与接口,需要兼顾交互的自然性与高效性;(2)交互随时随地可用,智能穿戴交互需要可以随时随地提供可穿戴计算设备的交互能力,保证交互技术始终在线;(3)用户注意力占用最小化,智能穿戴交互需要尽可能少地占用用户注意力,降低用户与可穿戴设备之间交互的认知负荷;(4)用户双手占用最小化,智能穿戴交互需要支持无须手部操作的交互模态;(5)情境感知的交互界面自适应化,智能穿戴交互需要具有上下文感知能力,建模佩戴者自身及其周围环境状态,进而相应地做出信息反馈。

2. 智能穿戴交互的设计原则

为了提高用户对可穿戴设备的接受度与持续使用率,其交互界面必须采取一系列设计原则,这些原则可以帮助设计者在设计、开发和评估阶段进行有效的迭代,以不断优化用户界面和用户交互。为此, Dibia 等围绕智能穿戴技术提出了以下六个设计原则,本节在此基础上进一步补充,形成了以下十个设计原则,并将十个原则按照信息技术手段实现交互能力增强、交互满足用户个性化需求与偏好、提升交互高效性与用户友好性、高效调度穿戴设备的计算功耗以及保护用户隐私并提升用户的信任度五方面进行如下归类。

1)信息技术手段实现交互能力增强

原则 1 :感知驱动的智能交互

通过人工智能赋能传感技术扩展可穿戴设备的有限交互空间,例如,可以利用触摸手势(如轻敲、滑动、捏和缩放)、动作和语音作为输入命令,进而扩展可穿戴设备上的交互能力。

原则 2 :计算负荷可动态转移

由于可穿戴设备的固有限制,复杂或资源密集型任务应尽可能地转移到其他具有更高处理能力的设备上。例如,可穿戴设备可以将诸如音频采样或数据处理等高计算负荷的任务在连接的智能手机或平板电脑上执行,仅将最终结果呈现给用户。

原则 3 :具备补充或增量价值

可穿戴应用程序的价值取决于它在执行重点任务时的表现,这种基于性能的价值可能来自特定情境的应用程序或软件过滤。例如,专用于跟踪运动计划的可穿戴设备比较于其他智能设备在健身房中使用时更方便。

2 )交互满足用户个性化需求与偏好

原则 4 :遵从可穿戴视觉规范

智能穿戴交互界面应该设计成符合穿戴时尚与用户心理的期望。例如,智能手表的表盘应该被设计成既有意义又优雅,佩戴者在公共场合中使用时感到舒适,不会因为硬件或软件的设计决策而感到尴尬或不适。

原则 5 :应用功能独立个性化

可穿戴设备的每个交互式应用程序应该明确开发,以满足特定和明确定义的用户需求,而不是具有多个功能的通用应用程序,应用程序应该与特定的结果和专用功能相关联,以便它们对特定的用户群体具备个性化适配能力。

原则 6 :考虑用户的背景差异

用户存在包括文化在内的背景差异,这直接影响着用户对交互界面的感受、交互效率与交互满意度,因此,设计者需要深入考虑潜在用户的背景差异及其在使用设备时是否会遇到不同的困难。

3 )提升交互高效性与用户友好性

原则 7 :信息呈现需高效易懂

无论使用哪种交互模式,可穿戴设备上的交互反馈方式都应该设计成易于阅读的,在简短的一瞥中便可以理解,并能通过简单的用户操作高效响应。

原则 8 :降低用户的认知负荷

受限于可穿戴计算设备的随时随地服务特性,用户与可穿戴计算设备在交互过程中可能需要同时操作多项任务,因此智能穿戴交互需要以消耗用户较低的注意力水平为原则,通过简单有效的方式完成人与设备之间的信息交换。

4 )高效调度穿戴设备的计算功耗

原则 9 :权衡交互功能与功耗

可穿戴设备的计算能力有限且体积小,交互功能受限于电源消耗以及散热等问题,丰富的交互功能需要调用更多的传感器与算力,导致功耗与发热问题严重,因此设计者需要根据实际需要在交互能力以及功耗之间做出取舍。

5 )保护用户隐私并提升用户的信任度

原则 10 :数据安全与隐私保留

用户需要提供相应的数据来享受智能交互服务,设计者需要以隐私数据最小化使用为原则,确定数据类型、访问权限、用户对数据可用性的偏好、数据保留时长等多维度特征,并确保交互界面符合法规的标准,从而提升用户对设备的信任程度。

以上十个设计原则相互支持和补充,旨在提供优化的智能穿戴交互体验,从不同角度综合考虑用户需求、技术限制和界面设计的因素(图 23.1)。

640 (1).png

目录
相关文章
|
2月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
222 113
|
3月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
814 2
|
5月前
|
存储 运维 数据挖掘
革新智能驾驶数据挖掘检索效率!某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎
在智能驾驶技术快速发展中,数据成为驱动算法进步的核心。某新能源汽车领军企业基于阿里云Milvus向量数据库构建智能驾驶数据挖掘平台,利用其高性能、可扩展的相似性检索服务,解决了大规模向量数据检索瓶颈问题,显著降低20%以上成本,缩短模型迭代周期,实现从数据采集到场景挖掘的智能化闭环,加速智能驾驶落地应用。
革新智能驾驶数据挖掘检索效率!某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎
|
5月前
|
前端开发 搜索推荐 开发工具
通义灵码与颜色板生成器,为前端开发提供智能配色解决方案
在前端开发中,色彩搭配对用户体验和界面美观至关重要。通义灵码提供的颜色板生成器通过自动推荐配色方案、随机生成颜色组合及支持自定义调整,帮助开发者高效完成配色任务。该工具支持一键导出为 CSS 样式表,并提供简洁的中文指令交互方式,大大提升开发效率,助力开发者打造美观和谐的用户界面。
|
2月前
|
存储 监控 算法
1688 图片搜索逆向实战:CLIP 多模态融合与特征向量落地方案
本文分享基于CLIP模型与逆向工程实现1688图片搜同款的实战方案。通过抓包分析破解接口签名,结合CLIP多模态特征提取与Faiss向量检索,提升搜索准确率至91%,单次响应低于80ms,日均选品效率提升4倍,全程合规可复现。
|
3月前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
484 12
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
3月前
|
机器学习/深度学习 人工智能 测试技术
探索 Qwen2.5-Max 的智能:大规模 MoE 模型的飞跃
Qwen2.5-Max 是通义实验室推出的最先进MoE模型,在推理、知识和代码任务中表现卓越,已在超20万亿token上预训练,并通过SFT和RLHF优化。在多项基准测试中领先,如Arena-Hard达89.4,MMLU-Pro为76.1,性能超越DeepSeek V3、GPT-4o等模型,成为当前最佳开源模型。可通过Qwen Chat和API使用,适用于开发者、研究者及AI爱好者探索前沿AI能力。
445 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
88_多模态提示:图像与文本融合
在人工智能领域的快速发展中,多模态融合已成为突破单一模态限制、实现更全面智能理解的关键技术方向。人类理解世界的方式天然是多模态的——我们同时通过视觉、听觉、语言等多种感官获取信息并进行综合分析。例如,在餐厅点餐时,我们会同时处理菜单上的图片、服务员的介绍和菜品的文字描述,最终做出决策。这种自然的多模态信息整合能力,正是人工智能系统长期以来努力追求的目标。

热门文章

最新文章