lzg_ad:在WES中添加语音识别功能

简介:
如果我们希望在WES操作系统中添加语音识别和语音朗读功能,那么我们需要关注以下组件:
Speech Control Panel:
添加该组件可以在控制面中添加语音控制图标,我们可以通过这个功能来选择或者配置Speech recognition(SR-语音识别)或者 text-to-speech engine(TTS-文本语音转化引擎)。 这些设置取决与可选择的语言,声音输出和声音质量, 也包括可选择的麦克风输入。 在语音属性中可以制定和更新用户配置文件。通过用户配置文件,使语音识别引擎能够更好地认识到一个发言者的习惯和在一个特定的环境下的背景声音。
Text To Speech Core:
该组件作为一个文本语音转换的核心组件为文本语音转换和语音识别提供了一个公共的、基础的组成文件。 因为任何系统以外的语音或讲话都直接访问这些动态链接库的情况是不可能的。
注意:SAPI的共同组成部分文件无法直接测试。因为这些文件需要的语音业务,而成功的测试功能需要包括相关讲话来证实他们的存在和目前的状态。
Speech API English Text To Speech Engine:
该组件包含一个设备驱动程序,负责的文字转换成语音。该动态链接库( DLL )无法直接被应用程序所访问,但可以通过语音的API ( SAPI模块)获得。这一组件默认提供了微软英文支持和至少包含一个英文的声音。一般来说,每一种语言,都需要自己的DLL和支持文件。此外,至少有一个朗读声音是需要为每种语言所必需的可用发音。制造商可以提供他们自己的语言格式,或符合现有的Microsoft模式。
Speech API English Text To Speech Voice (Sam):
该组件包含一个程序,输入或储存转换的文字语言。通过该程序可以用语音描述文本。 Microsoft提供了一个默认的声音-Microsoft Sam。可以从独立的语音引擎制造商购买到更多的第三方厂商提供的声音,并在安装过程中加载到语音识别系统中。
Speech API Core:
该组件提供了基本的语音功能所提供的语音应用程序编程接口( SAPI模块) 。sapi.dll文件是组件的一个组成部分,需要依赖所有的语音功能组件。组件的其他文件-sapisvr.exe,用于语音识别,该功能不能在操作系统初始安装后安装。
Speech Text Services v1.1:
该组件是一个是基于文本服务框架的API的Windows输入服务。结合语音的API( SAPI模块)和语音识别引擎,该组件提供听写和文字转换语音服务。
Text Services Framework:
文字服务框架(TSF)的组成部分是一个组件对象模型(COM)为基础的系统服务,它提供了一种简单且可扩展的框架,以便提供先进的文本输入和自然语言技术。TSF可以启用在应用程序中或作为TSF文字服务启动。TSF提供多国语言文字服务的支持,并提供文字服务,如键盘输入服务,手写识别和语音识别。
TSF是一个独立于设备的,语言中立,和可扩展的系统提供文字和语言的技术。TSF的应用程序可以使用任何文字服务来支持TSF。
下面的列表介绍了这部分的内容:
  • 一个具有TSF的应用程序将会与文本服务框架交互。
  • TSF文字服务,提供了多种输入编辑功能。文字服务控制软键盘输入,语音识别,文字转换,和文本编辑。
  • 作为TSF文字服务和启用了TSF的应用程序之间的接口。除了从TSF文字服务响应输入,TSF也回应改变的文件,这将启动更多的文字服务。
CUAS IME:
该组件允许以前版本的应用程序或文本服务框架不知道的控件免费的使用TSF。该组件还为所有的应用程序在桌面上提供了一个一致的用户界面。这部分还可以在任何应用程序上用于语音听写和手写输入的文字,例如记事本。
Accessibility Core:
该组件是一套组件对象模型(COM)界面和应用编程接口(API),用于提供了一个可靠的方式来表现和收集有关基于Windows的用户界面(UI)元素。利用此信息,可以查询技术供应商用于用户界面表现的替代格式,如语音、盲文、语音指挥和控制应用程序可以远程操作的界面。
Windows Narrator (Screen Reader):
该组件为弱视用户提供了文本语音转换工具。朗读文本内容显示在用户的屏幕上,例如,内容的活动窗口,菜单选项,并输入文字的网页。
该组件将能够读取记事本,写字板,控制面板程序, Internet Explorer , Windows桌面和Windows安装程序。在其他应用程序中,该组件可能无法正确地读词。
该组件允许通过用户定制的方式阅读屏幕的以下几个方面内容:
  • 在显示新的窗口,菜单或快捷菜单可以朗读。
  • 键入的字符可以朗读。
  • 鼠标指针可以按照项目在屏幕上的位置进行朗读。
  • 朗读速度,音量,或音调可以更改。
辅助工具在Microsoft Windows XP的目的是提供一个最低限度的功能以供有特殊需要的用户使用。
Microsoft Japanese IME Soft Keyboard Program:
微软日语IME软键盘扩展计划的组成部分为微软日语IME核心组件,允许用户通过软件键盘在屏幕上输入字符。这一组件提供了以下软件键盘。
  • 字母, QUERTY键盘布局
  • 字母数字,字母键盘布局
  • 平假名/片假名,日本JIS键盘布局
  • 平假名/片假名,拼音键盘布局
  • 软件键盘输入号码和日期
Utility Manager:
该实用程序管理器组件使用户能够检查无障碍计划中的状态和启动或停止的无障碍计划程序。用户管理员级访问权限可以通过管理器有计划的启动辅助工具。用户还可以在Windows登录之前,或者在登录到计算机欢迎屏幕时,按下Windows徽标键+u启动辅助程序。
开始时打开辅助工具管理器可以使用内置的辅助程序,像放大镜,朗读和屏幕键盘,叙述者,文字语音转换程序。这使低视力用户也能立即进入操作系统。
使用辅助工具管理器,用户可以通知Windows在每次登录到他们的电脑时自动启动无障碍程序,或当辅助工具管理器启动锁定他们的电脑桌面。例如,用户可以指定自动启动放大镜程序在下一次登录到计算机上的时候。这不需要在每次用户登录到计算机上按照标准步骤打开放大镜。
Microsoft Japanese IME Speech Recognition Program:
日文语音识别程序组件作为 Microsoft Japanese IME Core组件的扩展功能,允许用户输入日文文本并作为语音发音从麦克风中输出。另外,作为语音识别功能,该组件还提供能语音回放,text-to-speech engine(TTS-文本语音转化引擎和录音功能。
注意:该组件不包括语音识别引擎,你需要从WES的其他组件中添加语音识别引擎。 微软输入法的语音识别程序的设计目的是与 Microsoft IME Pad 功能协同工作。语音识别组件还需要依赖Microsoft Japanese IME Core组件。
Microsoft Japanese IME Character List/Stroke Count/Radical Programs:
微软日语IME字符列表/笔画数/基础程序组件扩展了微软日文输入法编辑器( IME )核心组件,允许用户输入未知的汉字字符。这部分支持以下的功能:
  • 字元列表程序,它允许用户从一个列表中输入一个字符。
  • 笔画数程序,它允许用户使用指定其笔画数输入一个字符。
  • 基础程序,它允许用户根据基础字符输入一个字符。
Microsoft Japanese IME Handwriting Program:
微软日语IME手写计划的组成部分扩展了微软日语IME核心组件,允许用户通过鼠标输入日文文本或手写笔。这部分采用日本的手写识别部分承认手绘日语字符,并发布了官方的字符输入法。
 
    以上组件是WES中关于语音识别相关功能的组件,如果我们需要在我们的WES操作系统中添加语音功能,首先应该保证的是添加了以上的组件并进行了完整的关联检查。在以上组件说明中,我是以日文语言包来描述各个组件功能的,如果我们需要添加中文语音识别功能,则需要替换成相应的中文语言包。WES中默认带的是英文的(Microsoft Sam),如果我们需要使用中文的,是必须在安装WES的时候,把中文语言包支持勾选上的。
    另外,由于WES\XPE均是局部汉化,而不是像XPP那样从内核开始汉化,所以对与中文语言的语音支持,可能不能像XPP那样完善。但是我们可以通过下载第三方的一些语音识别程序来达到一样的功能效果。


本文转自雷志刚 51CTO博客,原文链接:http://blog.51cto.com/leizhigang/237745
相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
8月前
|
人工智能 JSON API
HarmonyOS学习路之开发篇—AI功能开发(语音识别)
语音识别功能提供面向移动终端的语音识别能力。它基于华为智慧引擎(HUAWEI HiAI Engine)中的语音识别引擎,向开发者提供人工智能应用层API。该技术可以将语音文件、实时语音数据流转换为汉字序列,准确率达到90%以上(本地识别95%)。
|
4月前
|
JSON 语音技术 Android开发
【Android App】在线语音识别功能实现(使用云知声平台与WebSocket 超详细 附源码)
【Android App】在线语音识别功能实现(使用云知声平台与WebSocket 超详细 附源码)
35 0
|
4月前
|
XML Java 语音技术
Android App开发在线语音识别处理中实现中文转拼音(Pinyin4j库)功能(超详细 附源码和演示)
Android App开发在线语音识别处理中实现中文转拼音(Pinyin4j库)功能(超详细 附源码和演示)
68 0
|
10月前
|
语音技术 信息无障碍
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
回到我们的直播源码平台开发上来,对于直播源码平台来说实时语音识别字幕呈现功能也是重要的功能之一,好了,正式进入我们今天的主题内容:直播源码搭建平台技术知识:实时语音识别字幕呈现功能!
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
|
自然语言处理 监控 Java
通过 SDK 使用语音识别功能 | 学习笔记
快速学习 通过 SDK 使用语音识别功能
287 0
|
JSON 语音技术 开发工具
使用APICloud & 科大讯飞SDK快速实现语音识别功能
语音识别功能已经是一个很普及的功能,在特定情境下,能带给人们方便的交互的体验,比如驾驶时使用语音进行唤醒手机,各类智能音响产品,语音控制智能电视等。本文主要介绍在APICloud平台使用科大讯飞的SDK快速实现语音识别功能。
419 0
使用APICloud & 科大讯飞SDK快速实现语音识别功能