AI之HCI:人机交互Human-Computer Interaction的简介、发展历史、案例应用之详细攻略(一)

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: AI之HCI:人机交互Human-Computer Interaction的简介、发展历史、案例应用之详细攻略(二)

人机交互Human-Computer Interaction的简介


        人机交互、人机互动(英文:Human–Computer Interaction或Human–Machine Interaction,简称HCI或HMI),是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板,或发电厂的控制室。人机交互界面的设计要包含用户对系统的理解(即心智模型),那是为了系统的可用性或者用户友好性。人机交互技术是计算机用户界面设计中的重要内容之一,与认知学、人机工程学、心理学等学科领域有密切的联系。

        人机交互(Human-Computer Interaction,简写HCI):是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。有很多著名公司和学术机构正在研究人机交互。在计算机发展历史上,人们很少注意计算机的易用性。现在,很多计算机用户抱怨计算机制造商在如何使其产品“用户友好”这方面没有投入足够的精力。而反过来,这些计算机系统开发商也在抱怨,他们的理由是:设计和制造计算机是一个很复杂的工作,光是研究如何在新领域能够应用计算机的问题就已经占用了他们的大部分精力,实在是没有多余的精力来研究如何提高计算机的易用性了。



1、人机交互的三种定义


        目前关于人机交互的定义主要有三种:


一是ACM(Association for Computing Machinery)的观点,它将人机交互定义为:有关交互计算机系统设计、评估、实现以及与之相关现象的学科;

二是伯明翰大学教授AlanDix的观点:他认为人机交互是研究人、计算机以及他们之间相互作用方式的学科,学习人机交互的目的是使计算机技术更好地为人类服务;

三是宾夕法尼亚州立大学JohnM.Carroll的观点:他认为人机交互指的是有关可用性的学习和实践,是关于理解和构建用户乐于使用的软件和技术,并能在使用时发现产品有效性的学科。

        无论是哪一种定义方式,人机交互所关注的首要问题都是人与计算机之间的关系问题。



2、人机交互的意义


        人机交互技术的发展与国民经济发展有着直接的联系,它是使信息技术融入社会,深入群体,达到广泛应用的技术门槛。任何一种新交互技术的诞生,都会带来其新的应用人群,新的应用领域,带来巨大的社会经济效益。


从企业的角度,改善人机交互能够提高员工的生产效率;学习人机交互能够降低产品的后续支持成本。

从个人的角度,可以帮助用户有效地降低错误发生的概率,避免由于错误引发的损失。

        在现代和未来的社会里,只要有人利用通信、计算机等信息处理技术进行社会活动时,人机交互都是永恒的主题,鉴于它对科技发展的重要性,人机交互是现代信息技术、人工智能技术研究的热门方向。




人机交互Human-Computer Interaction的发展历史


        人机交互的发展历史,是从人适应计算机到计算机不断地适应人的发展史。交互的信息也由精确的输入输出信息变成非精确的输入输出信息。


1、简单人机交互—GUI、Web端

image.png



        由于受到制造技术和成本等原因限制,早期的人机交互在设计上较少考虑人的因素,强调输入输出信息的精确性,使用不够自然和高效。


早期的手工作业:这个时期交互的特点是由设计者(或本部门同事)来使用计算机,他们采用手工操作和依赖机器(二进制机器代码)的方法去适应计算机。

作业控制语言及交互命令语言:这一阶段特点是计算机的主要使用者—程序员可采用批处理作业语言或交互命令语言的方式和计算机打交道,虽然要记忆许多命令和熟练地敲键盘,但已可用较方便的手段来调试程序、了解计算机执行情况。

图形用户界面(GUI):图形用户界面的主要特点是桌面隐喻、WIMP(Window / Icon / Menu / Pointing Device)技术、直接操纵和“所见即所得(WYSIWYG)”。由于GUI简明易学、减少了敲键盘、实现了“事实上的标准化”。因而使不懂计算机的普通用户也可以熟练地使用,开拓了用户人群。它的出现使信息产业得到空前的发展。

网络用户界面:以超文本标记语言HTML及超文本传输协议HTTP为主要基础的网络浏览器是网络用户界面的代表。由它形成的万维网(World Wide Web, WWW)已经成为当今Internet的支柱。这类人机交互技术的特点是发展快,新的技术不断出现,如搜索引擎、网络加速、多媒体动画、聊天工具等。


2、自然人机交互—VR、IUI、NLP

image.png




        随着网络的普及性发展和无线通讯技术的发展,人机交互领域面临着巨大的挑战和机遇,传统的图形界面交互已经产生了本质的变化,人们的需求不再局限于界面美学形式的创新,用户更多的希望在使用多媒体终端时,有着更便捷、更符合他们使用习惯,同时又有着比较美观的操作界面。利用人的多种感觉通道和动作通道(如语音、手写、姿势、视线、表情等输入),以并行、非精确的方式与(可见或不可见的)计算机环境进行交互,使人们从传统的交互方式的束缚解脱出来,使人们进入自然和谐的人机交互时期。这一时期的主要研究内容包括:多通道交互、情感计算、自然语言理解、虚拟现实、智能用户界面等方面。


多通道交互:多通道交互(Multi Modal Interaction,MMI)是近年来迅速发展的一种人机交互技术,它既适应了“以人为中心”的自然交互准则,也推动了互联网时代信息产业(包括移动计算、移动通信、网络服务器等)的快速发展。

MMI是指“使用多种通道与计算机通信的人机交互方式。通道(modality)涵盖了用户表达意图、执行动作或感知反馈信息的各种通信方法,如言语、眼神、脸部表情、唇动、手动、手势、头动、肢体姿势、触觉、嗅觉或味觉等”。采用这种方式的计算机用户界面称为“多通道用户界面”。目前,人类最长使用的多通道交互技术包括手写识别、笔式交互、语音识别、语音合成、数字墨水、视线跟踪技术、触觉通道的力反馈装置、生物特征识别技术和人脸表情识别技术等方面。

情感人机交互:让计算机具有情感能力首先是由美国MIT大学Minsky教授(人工智能创始人之一)提出的。他在1985年的专著“The Society of Mind”中指出,问题不在于智能机器能否有任何情感,而在于机器实现智能时怎么能够没有情感。从此,赋予计算机情感能力并让计算机能够理解和表达情感的研究、探讨引起了计算机界许多人士的兴趣。这方面的工作首推美国MIT媒体实验室Picard教授领导研究小组的工作。情感计算一词也首先由Picard教授于1997年出版的专著“Affective Computing(情感计算)”中提出并给出了定义,即情感计算是关于情感、情感产生以及影响情感方面的计算。

MIT对情感计算进行全方位研究,正在开发研究情感机器人,最终有可能人机融合。其媒体实验室与HP公司合作进行情感计算的研究。IBM公司的“蓝眼计划”,可使计算机知道人想干什么,如当人的眼瞄向电视时,它竟然知道人想打开电视机,它便发出指令打开电视机。此外该公司还研究了情感鼠标,可根据手部的血压及温度等传感器感知用户的情感。CMU主要研究可穿戴计算机。日本在对感性信息处理的研究中,有众多研究单位参与,主要集中在研究所和高校。特别值得一提的是,日本欧姆龙公司研制生产的机器玩具曾风行一时,最高价达4000美元。随后其它公司也进行机器狗等玩具的生产。情感计算的研究不仅具有重要的科学和学术价值,也存在着巨大的商机,有很好的经济效益。

虚拟现实:虚拟现实(Virtual Reality, VR)是以计算机技术为核心,结合相关科学技术,生成与一定范围真实环境在视、听、触感等方面高度近似的数字化环境,用户借助必要的装备与数字化环境中的对象进行交互作用、相互影响,可以产生亲临对应真实环境的感受和体验。虚拟现实是人类在探索自然、认识自然过程中创造产生,逐步形成的一种用于认识自然、模拟自然,进而更好地适应和利用自然的科学方法和科学技术。

虚拟现实技术具有很强的应用性。军事方面,将VR技术应用于军事演练,带来军事演练观念和方式的变革,推动了军事演练的发展。如美国的SIMNET、ACTDSTOW、WARSIM2000和虚拟之旗2006等一系列分布式虚拟战场环境。医学方面,VR技术已初步应用于虚拟手术训练、远程会诊、手术规划及导航、远程协作手术等方面,某些应用已成为医疗过程不可替代的重要手段和环节。工业领域方面,VR技术多用于产品论证、设计、装配、人机工效和性能评价等。代表性应用,如模拟训练、虚拟样机技术等已受到许多工业部门的重视。教育文化领域方面,VR已经成为数字博物馆/科学馆、大型活动开闭幕式彩排仿真、沉浸式互动游戏等应用系统的核心支撑技术。纽约大都会博物馆、大英博物馆、俄罗斯冬宫博物馆和法国卢浮宫等都建立了自己的数字博物馆。

智能用户界面:智能用户界面(Intelligent User Interface,IUI)是致力于改善人机交互的高效率、有效性和自然性的人机界面。它通过表达、推理,按照用户模型、领域模型、任务模型、谈话模型和媒体模型来实现人机交互。智能用户界面主要使用人工智能技术去实现人机通信,提高了人机交互的可用性:如知识表示技术支持基于模型的用户界面生成,规划识别和生成支持用户界面的对话管理,而语言、手势和图像理解支持多通道输入的分析,用户建模则实现了对自适应交互的支持等。当然,智能用户界面也离不开认知心理学、人机工程学的支持。

智能体、代理(Agents)在智能技术中的重要性已“不言而喻”了。Agent是一个能够感知外界环境并具有自主行为能力的以实现其设计目标的自治系统。智能的Agent系统可以根据用户的喜好和需要配置具有个性化特点的应用程序。基于此技术,我们可以实现自适应用户系统、用户建模和自适应脑界面。自适应系统方面,如帮助用户获得信息,推荐产品,界面自适应,支持协同,接管例行工作,为用户裁剪信息,提供帮助,支持学习和管理引导对话等。用户建模方面,目前机器学习是主要的用户建模方法,如神经网络、Bayesian学习以及在推荐系统中常使用协同过滤算法实现对个体用户的推荐。自适应脑界面方面,如神经分类器通过分析用户的脑电波识别出用户想要执行什么任务(该任务既可以是运动相关的任务如移动手臂,也可以是认知活动如做算术题)。

自然语言人界交互:在“计算机文化”到来的社会里,语言已不仅是人与人之间的交际工具,而且是人机对话的基础,是最自然的一种人机交互方式。自然语言处理(Natural Language Processing, NLP)是使用自然语言同计算机进行通讯的技术,因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(Natural Language Understanding, NLU)。

近年来自然语言理解技术在搜索技术方面得到了广泛的应用,现在,已经有越来越多的搜索引擎宣布支持自然语言搜索特性,自然语言人机交互界面在智能短信服务、情报检索、人机对话等方面也具有广阔的发展前景和极高的应用价值,并有一些阶段性成果出现在商业运用中。

3、未来前景——结合AI+云计算


        人机交互技术领域热点技术的应用潜力已经开始展现,比如智能手机配备的地理空间跟踪技术,应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术,应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术,应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术。


对于有语言障碍的人士的无声语音识别,应用于广告、网站、产品目录、杂志效用测试的眼动跟踪技术;

针对有语言和行动障碍人开发的“意念轮椅”采用的基于脑电波的人机界面技术等。

        人机交互解决方案供应商不断地推出各种创新技术,如指纹识别技术、侧边滑动指纹识别技术 、TDDI技术、压力触控技术等。热点技术的应用开发是机遇也是挑战,基于视觉的手势识别率低,实时性差,需要研究各种算法来改善识别的精度和速度,眼睛虹膜、掌纹、笔迹、步态、语音、唇读、人脸、DNA等人类特征的研发应用也正受到关注,多通道的整合也是人机交互的热点,另外,与“无所不在的计算”“云计算”等相关技术的融合与促进也需要继续探索。

        AI通过感知系统与算法来为人类提供各种数据与分析结果,而IA则用来辅助人类快速做出决策,进而通过各种自动化技术落地执行。两种技术的合理利用,使得商业智能更加完善,同时人类的能力也得到了增强。


相关文章:增强智能与人工智能趋向融合,人机协同新时代正在到来




相关文章
|
1月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
400 29
|
1月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
311 1
|
1月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
230 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?
|
1月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
347 121
|
1月前
|
人工智能 搜索推荐 数据可视化
当AI学会“使用工具”:智能体(Agent)如何重塑人机交互
当AI学会“使用工具”:智能体(Agent)如何重塑人机交互
313 115
|
1月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
245 117
|
1月前
|
人工智能 缓存 运维
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
本文介绍联调造数场景下的AI应用演进:从单Agent模式到多Agent协同的架构升级。针对复杂指令执行不准、响应慢等问题,通过意图识别、工具引擎、推理执行等多Agent分工协作,结合工程化手段提升准确性与效率,并分享了关键设计思路与实践心得。
405 20
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
|
1月前
|
人工智能 安全 Serverless
再看 AI 网关:助力 AI 应用创新的关键基础设施
AI 网关作为云产品推出已有半年的时间,这半年的时间里,AI 网关从内核到外在都进行了大量的进化,本文将从 AI 网关的诞生、AI 网关的产品能力、AI 网关的开放生态,以及新推出的 Serverless 版,对其进行一个全面的介绍,期望对正在进行 AI 应用落地的朋友,在 AI 基础设施选型方面提供一些参考。
571 44
|
1月前
|
人工智能 安全 中间件
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,推出AgentScope-Java、AI MQ、Higress网关、Nacos注册中心及可观测体系,全面开源核心技术,构建分布式多Agent架构基座,助力企业级AI应用规模化落地,推动AI原生应用进入新范式。
439 26
|
1月前
|
人工智能 自然语言处理 供应链
超越聊天:AI代理——下一代人机交互的雏形
超越聊天:AI代理——下一代人机交互的雏形
139 22

热门文章

最新文章