微软不愿意提及的软肋:Win10的语音识别

简介:

据PCWorld 网站报道,Windows有一项微软不愿意提及的功能。虽然Windows可以让用户使用触控笔“写写画画”,借助Windows Hello利用脸部登录系统(或保护Web安全),甚至命令小娜设置提醒事项,但它明显不想让用户使用的一项功能是,利用其语音识别引擎对系统发号施令或让用户利用语音输入编辑文档。

微软不大力宣扬Windows语音识别功能的原因可以追溯到10年前,当时微软产品经理谢恩·博切(Shanen Boettcher)在演示Windows Vista的语音输入功能时搞砸了。之后Windows的语音输入技术一直相当“低调”,目前几乎没有用户知道Windows有语音输入功能。

微软不愿意提及的软肋:Win10的语音识别

如果说Windows有机会再战语音输入领域,目前似乎是个时机——计算机和人工智能的进展为语音输入提供了好得多的基础。

在被问及语音输入技术在Office中的未来时,微软负责语音识别研究以及小娜和必应的执行副总裁哈里·舒姆(Harry Shum)表示,“这是一个重大问题。语音输入没有扮演更重要的角色是不可理解的。”

语音识别不完美的原因

微软不愿意提及的软肋:Win10的语音识别

部分用户仍然认为语音输入还是《杜恩斯比利》(Doonesbury)系列漫画中苹果牛顿 PDA的水平,把用户说的“I am writing a test sentence”,听为“Siam fighting atomic sentry”。用户有这种想法是可以原谅的:Windows语音识别功能仍然采用微软Speech Recognizer 8.0技术,自Vista以来,这一技术就基本上没有什么变化。舒姆称之为“祖父”级技术。

PCWorld表示,但硬件已经发生了很大变化:听和解释语音要求的处理能力远低于10年前。Surface Book等PC产品中的集成式麦克风阵列的质量,意味着无需使用专用麦克风语音识别就可以达到很高的准确率。只是,语音输入技术的发展已经适合大众使用了吗?

在使用语音输入软件输入长度为1028个单词的文章时,95%的准确率意味着用户必须修正逾15个错误。在测试中,Windows语音输入准确率为93.6%,从理论上说这一数值并不高,低于测试的其他专用语音输入软件。Windows有个奇怪的习惯,在输入逗号时,它会在文档中插入“comma”(逗号)这个词汇。语音输入社区似乎对这类相对较小的失误是否有重要影响有不同看法。

当然,这还不是全部。使用过语音输入软件的人都知道,准确率的关键是训练。随着时间推移,语音输入软件会了解用户口音,“apricot”中“a”的发音与“bad”还是“ape”中的“a”相同,和如何过滤无意识的痉挛性语言障碍。微软员工曾声称,经过适当训练,Windows语音识别技术的准确率可以达到99%.。1000个单词出现10个错误还不算太坏。

很少有用户愿意花时间训练使用语音识别软件。Windows语音识别软件,要求用户用10分钟时间训练数个句子,会让用户有度日如年的感觉。小娜和Siri不要求用户进行训练,那是因为它们已经被训练了数以百万计的语音样本。

小娜(可以在PC和手机上使用)在语音识别方面表现远优于Windows语音输入系统的原因是,它利用了微软云服务的计算能力。微软会对用户的语音进行分析,使用户语音与其其他数据相关联,生成作为小娜灵魂的智能。

微软重视语音识别

微软不愿意提及的软肋:Win10的语音识别

鉴于小娜的出色表现,用户会认为语音应当成为上周微软Ignite会议的中心。但Ignite期间没有任何与语音输入有关的会议,只有一次会议与语音识别有关。微软首席执行官萨蒂亚·纳德拉(Satya Nadella)在主旨演讲中把语音识别称作是微软未来的关键元素。

以SkypeTranslator为例。据纳德拉称,Skype Translator依赖三个方面的研究:语音识别、语音合成和机器翻译。在演讲中,纳德拉称微软语音识别算法的误字率为6.9%,这是一个糟糕的成绩:准确率仅为93.1%.

PCWorld称,如果微软真正看好办公软件,语音识别在PC中的未来不仅仅是利用Skype在孟加拉国订宾馆,而是撰写体验,不过是通过语音而非手指。

本文转自d1net(转载)

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
6月前
|
机器学习/深度学习 人工智能 安全
实测亚马逊 AI 编程助手 Amazon CodeWhisperer
CodeWhisperer是一款由亚马逊开发的基于机器学习的通用代码生成器。它能够实时提供代码建议,帮助我们在编写代码时提供自动化的建议。通过分析我们现有的代码和注释,它可以生成各种大小和范围的个性化建议,从单行代码建议到完整的函数。此外,CodeWhisperer还可以扫描我们的代码,以便突出显示和定义安全问题。
50 0
|
11月前
|
人工智能 自然语言处理 Kubernetes
【Microsoft】与 Bing AI 进行 ⌈狂飙⌋
【Microsoft】与 Bing AI 进行 ⌈狂飙⌋
233 0
|
人工智能 JSON 前端开发
吾剑未尝不利,国内Azure平替,科大讯飞人工智能免费AI语音合成(TTS)服务Python3.10接入
微软Azure平台的语音合成(TTS)技术确实神乎其技,这一点在之前的一篇:[含辞未吐,声若幽兰,史上最强免费人工智能AI语音合成TTS服务微软Azure(Python3.10接入)](https://v3u.cn/a_id_260),已经做过详细介绍,然则Azure平台需要信用卡验证,有一定门槛,对国内用户不太友好,放眼神州,科大讯飞的讯飞开放平台也有语音合成服务接口,可以通过语音合成流式接口将文字信息转化为声音信息。
吾剑未尝不利,国内Azure平替,科大讯飞人工智能免费AI语音合成(TTS)服务Python3.10接入
|
Web App开发 开发工具 Android开发
程序人生 - 推出 5 年后,微软想用设计「全面复兴」Windows 10
程序人生 - 推出 5 年后,微软想用设计「全面复兴」Windows 10
116 0
程序人生 - 推出 5 年后,微软想用设计「全面复兴」Windows 10
|
边缘计算 机器人 物联网
微软推出 Win 10 机器人:看上去呆萌,但集 N 项黑科技于一身
机器人在这个科技圈里面一直是个不温不火的领域,这几年来,推出的机器人产品无数,但依然没有迎来爆发时期,不过这只是时机尚未成熟,未来肯定会是一个机器人的社会。
240 0
|
人工智能 Android开发 数据安全/隐私保护