1.2 智能语音产业应用的现状和挑战
智能语音产业应用,基本上都是从语音控制、语音识别和语音交互作为切入点建立起来的,根据不同的定位和形态,目前主要分为以下4类。
(1)APP类纯软语音应用。如Apple Siri和Microsoft Cortana等,在手机、平板或PC上以软件方式解决操作和聊天等问题,内置各种搜索、问答和对话服务。
(2)软硬一体的语音交互应用。如智能音箱Amazon Echo、智能电视、智能语音空调等应用,语音成为主要交互手段,实现控制和相关内容服务获取。
(3)垂直领域的语音转写应用。如医疗语音病例录入、法律语音转写、语音客服数据分析等,将语音数据进行实时或离线转录,后期做结构化分析。
(4)基于语音识别的口语评测等应用。对用户口语语音进行发音、流利度、韵律等评估,并检测口语发音、语法等错误,帮助用户提升口语水平。
智能语音产业应用,目前还面临着用户普及率、认可度和活跃度不够高的问题,原因是多样的,这些挑战主要包括下面4个方面。
(1)基础技术需要继续改进和完善。特别是复杂应用场景、噪声、口音和专业领域的语音识别稳定性和适应性,是扩大实用范围的关键,更多的是针对具体应用问题进行优化,提高准确度;与此同时,还要提高语义理解和容错能力,减少用户人机交互过程出错的影响。
(2)统一的智能语音交互设计标准和规范。语音是新兴人机交互方式,与传统的触屏交互相比,优势在于表达丰富和快速一键直达的能力;劣势在于不像GUI所见即所得那么直观,还有一定出错率,会给用户造成一定的交互心理障碍。
(3)高集成度的智能语音交互方案。除了手机、平板之外,智能设备普遍没有录音功能,降噪更难解决,开发者对语音相关引擎的优势、局限理解不清晰,加上用户对语音交互的认知还缺乏统一规范,高集成度的智能语音交互方案,对快速落地就特别重要。
(4)标准和开放的内容和服务接口。智能语音交互方案,解决的是用户以更加快捷和自然的方式获取内容服务的问题,但内容和服务本身,需要针对智能语音交互方式进行优化,是一个重要的问题。