lzg_ad:在WES中添加语音识别功能-阿里云开发者社区

lzg_ad:在WES中添加语音识别功能

2017-11-13 1850

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

如果我们希望在WES操作系统中添加语音识别和语音朗读功能，那么我们需要关注以下组件：

Speech Control Panel：

添加该组件可以在控制面中添加语音控制图标，我们可以通过这个功能来选择或者配置Speech recognition(SR-语音识别)或者 text-to-speech engine(TTS-文本语音转化引擎)。这些设置取决与可选择的语言，声音输出和声音质量, 也包括可选择的麦克风输入。在语音属性中可以制定和更新用户配置文件。通过用户配置文件，使语音识别引擎能够更好地认识到一个发言者的习惯和在一个特定的环境下的背景声音。

Text To Speech Core：

该组件作为一个文本语音转换的核心组件为文本语音转换和语音识别提供了一个公共的、基础的组成文件。因为任何系统以外的语音或讲话都直接访问这些动态链接库的情况是不可能的。

注意：SAPI的共同组成部分文件无法直接测试。因为这些文件需要的语音业务，而成功的测试功能需要包括相关讲话来证实他们的存在和目前的状态。

Speech API English Text To Speech Engine：

该组件包含一个设备驱动程序，负责的文字转换成语音。该动态链接库（ DLL ）无法直接被应用程序所访问，但可以通过语音的API （ SAPI模块）获得。这一组件默认提供了微软英文支持和至少包含一个英文的声音。一般来说，每一种语言，都需要自己的DLL和支持文件。此外，至少有一个朗读声音是需要为每种语言所必需的可用发音。制造商可以提供他们自己的语言格式，或符合现有的Microsoft模式。

Speech API English Text To Speech Voice (Sam)：

该组件包含一个程序，输入或储存转换的文字语言。通过该程序可以用语音描述文本。 Microsoft提供了一个默认的声音-Microsoft Sam。可以从独立的语音引擎制造商购买到更多的第三方厂商提供的声音，并在安装过程中加载到语音识别系统中。

Speech API Core：

该组件提供了基本的语音功能所提供的语音应用程序编程接口（ SAPI模块）。sapi.dll文件是组件的一个组成部分，需要依赖所有的语音功能组件。组件的其他文件-sapisvr.exe，用于语音识别，该功能不能在操作系统初始安装后安装。

Speech Text Services v1.1:

该组件是一个是基于文本服务框架的API的Windows输入服务。结合语音的API（ SAPI模块）和语音识别引擎，该组件提供听写和文字转换语音服务。

Text Services Framework：

文字服务框架（TSF）的组成部分是一个组件对象模型（COM）为基础的系统服务，它提供了一种简单且可扩展的框架，以便提供先进的文本输入和自然语言技术。TSF可以启用在应用程序中或作为TSF文字服务启动。TSF提供多国语言文字服务的支持，并提供文字服务，如键盘输入服务，手写识别和语音识别。

TSF是一个独立于设备的，语言中立，和可扩展的系统提供文字和语言的技术。TSF的应用程序可以使用任何文字服务来支持TSF。

下面的列表介绍了这部分的内容：

一个具有TSF的应用程序将会与文本服务框架交互。
TSF文字服务，提供了多种输入编辑功能。文字服务控制软键盘输入，语音识别，文字转换，和文本编辑。
作为TSF文字服务和启用了TSF的应用程序之间的接口。除了从TSF文字服务响应输入，TSF也回应改变的文件，这将启动更多的文字服务。

CUAS IME：

该组件允许以前版本的应用程序或文本服务框架不知道的控件免费的使用TSF。该组件还为所有的应用程序在桌面上提供了一个一致的用户界面。这部分还可以在任何应用程序上用于语音听写和手写输入的文字，例如记事本。

Accessibility Core：

该组件是一套组件对象模型（COM）界面和应用编程接口（API），用于提供了一个可靠的方式来表现和收集有关基于Windows的用户界面（UI）元素。利用此信息，可以查询技术供应商用于用户界面表现的替代格式，如语音、盲文、语音指挥和控制应用程序可以远程操作的界面。

Windows Narrator (Screen Reader)：

该组件为弱视用户提供了文本语音转换工具。朗读文本内容显示在用户的屏幕上，例如，内容的活动窗口，菜单选项，并输入文字的网页。

该组件将能够读取记事本，写字板，控制面板程序， Internet Explorer ， Windows桌面和Windows安装程序。在其他应用程序中，该组件可能无法正确地读词。

该组件允许通过用户定制的方式阅读屏幕的以下几个方面内容：

在显示新的窗口，菜单或快捷菜单可以朗读。
键入的字符可以朗读。
鼠标指针可以按照项目在屏幕上的位置进行朗读。
朗读速度，音量，或音调可以更改。

辅助工具在Microsoft Windows XP的目的是提供一个最低限度的功能以供有特殊需要的用户使用。

Microsoft Japanese IME Soft Keyboard Program：

微软日语IME软键盘扩展计划的组成部分为微软日语IME核心组件，允许用户通过软件键盘在屏幕上输入字符。这一组件提供了以下软件键盘。

字母， QUERTY键盘布局
字母数字，字母键盘布局
平假名/片假名，日本JIS键盘布局
平假名/片假名，拼音键盘布局
软件键盘输入号码和日期

Utility Manager：

该实用程序管理器组件使用户能够检查无障碍计划中的状态和启动或停止的无障碍计划程序。用户管理员级访问权限可以通过管理器有计划的启动辅助工具。用户还可以在Windows登录之前，或者在登录到计算机欢迎屏幕时，按下Windows徽标键+u启动辅助程序。

开始时打开辅助工具管理器可以使用内置的辅助程序，像放大镜，朗读和屏幕键盘，叙述者，文字语音转换程序。这使低视力用户也能立即进入操作系统。

使用辅助工具管理器，用户可以通知Windows在每次登录到他们的电脑时自动启动无障碍程序，或当辅助工具管理器启动锁定他们的电脑桌面。例如，用户可以指定自动启动放大镜程序在下一次登录到计算机上的时候。这不需要在每次用户登录到计算机上按照标准步骤打开放大镜。

Microsoft Japanese IME Speech Recognition Program：

日文语音识别程序组件作为 Microsoft Japanese IME Core组件的扩展功能，允许用户输入日文文本并作为语音发音从麦克风中输出。另外，作为语音识别功能，该组件还提供能语音回放,text-to-speech engine(TTS-文本语音转化引擎和录音功能。

注意：该组件不包括语音识别引擎，你需要从WES的其他组件中添加语音识别引擎。微软输入法的语音识别程序的设计目的是与 Microsoft IME Pad 功能协同工作。语音识别组件还需要依赖Microsoft Japanese IME Core组件。

Microsoft Japanese IME Character List/Stroke Count/Radical Programs：

微软日语IME字符列表/笔画数/基础程序组件扩展了微软日文输入法编辑器（ IME ）核心组件，允许用户输入未知的汉字字符。这部分支持以下的功能：

字元列表程序，它允许用户从一个列表中输入一个字符。
笔画数程序，它允许用户使用指定其笔画数输入一个字符。
基础程序，它允许用户根据基础字符输入一个字符。

Microsoft Japanese IME Handwriting Program：

微软日语IME手写计划的组成部分扩展了微软日语IME核心组件，允许用户通过鼠标输入日文文本或手写笔。这部分采用日本的手写识别部分承认手绘日语字符，并发布了官方的字符输入法。

以上组件是WES中关于语音识别相关功能的组件，如果我们需要在我们的WES操作系统中添加语音功能，首先应该保证的是添加了以上的组件并进行了完整的关联检查。在以上组件说明中，我是以日文语言包来描述各个组件功能的，如果我们需要添加中文语音识别功能，则需要替换成相应的中文语言包。WES中默认带的是英文的（Microsoft Sam），如果我们需要使用中文的，是必须在安装WES的时候，把中文语言包支持勾选上的。

另外，由于WES\XPE均是局部汉化，而不是像XPP那样从内核开始汉化，所以对与中文语言的语音支持，可能不能像XPP那样完善。但是我们可以通过下载第三方的一些语音识别程序来达到一样的功能效果。

本文转自雷志刚 51CTO博客，原文链接:http://blog.51cto.com/leizhigang/237745

lzg_ad:在WES中添加语音识别功能

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

lzg_ad:在WES中添加语音识别功能

热门文章

最新文章

相关课程

相关电子书