揭秘：美国国安局(NSA)的语音识别技术-阿里云开发者社区

揭秘：美国国安局(NSA)的语音识别技术

2017-09-01 1488

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

斯诺登泄密各种美国国安局(NSA)的“黑科技”之后，米国人民似乎意识到了无论什么样的通信方式都逃不过来自政府的监控，NSA甚至早在40年前就可以识别语音了。

语音识别技术可追溯到20世纪70年代

要想更好的理解这是怎么一回事，就要追溯到20世纪70年代：当时美国国防高级研究计划局(DARPA)首次出资研究语音识别技术，在此阶段有好几个项目都可以将语音转换成文本格式。尽管当时的进程很缓慢，但是，通过技术的不断提升，识别的进程变得越来越快，获得的数据也越来越多。

DARPA信息创新办公室主任Dan Kaufman称：

将语音转换成文本的方法是非常困难的，因为通话中往往会有很多其他的噪音信号干扰，我们不是很擅长排除这类的干扰，但是我们也正在慢慢的擅长翻译这些信息。

2001年之后，对间谍工具投入的资本有了显著的增加，从斯诺登文件中甚至可以发现，十年前NSA分析师对“Google for Voice”的诞生是非常开心的。

然而任何工具都不能做到完美的翻译语音对话，至少现在还没有这样的工具;但是不可否认的是当前的一些工具着实很强大，通过大范围的关键词搜索、提取语音对话信息、使用算法标记对话等方式使得翻译更加的准确。

斯诺登文件还指出，美国情报中心已经在一些战区(如，伊拉克、阿富汗、拉丁美洲)使用这种工具进行监听了，但是他们却不会监听美国公民的通话信息。也许全球的公民都应该保持警惕了，因为美国情报机构是使用雷达进行活动的，就连美国国会也觉察不到他们的活动。

语音转换工具及其发展史

2001年爆发的一次恐怖分子攻击活动，攻击者就是用类似的工具，以自动化的方式搜集到了大量的语音通信数据。

第一代语音转化工具：RHINEHART

第一代工具叫做“RHINEHART”，首次出现在2004年。NSA一个叫做For Media Mining, the Future Is Now!的内部文件(2006年)中指出：

语音搜索技术可以帮助分析师快速的查找情报内容，并能根据情报内容优先拦截部分通话。RHINEHART同时支持实时搜索和回顾搜索，这样一来分析师们即可查到当前的通信信息，还可以查到过去的通信信息。

2006年的时候RHINEHART就能够在多种语言中进行翻译了。其中西班牙语在转换中的准确率最高。

第二代语音转化工具：VoiceRT

2009年，VoiceRT开始出现，首次用在巴格达地区，它的目标是每天能检索并标记100万份信息。

第三代语音转化工具：SPIRITFIRE

在2011-2012年间又出现了一个新工具，叫做“SPIRITFIRE”。它能处理更多的数据，并且速度更快，在语音-文本的关键字搜索和配对对话转录功能基础之上拥有更加稳健的语音处理能力。

作为一个普通的公民，我们希望相关机构充分尊重我们的权利，严格管理这类工具，并立法保护我们的隐私。

作者：cindy

来源：51CTO

相关实践学习

一键创建和部署高分电影推荐语音技能

本场景使用天猫精灵技能应用平台提供的技能模板，在2-5分钟内，创建一个好玩的高分电影推荐技能，使用模板后无须代码开发，系统自动配置意图、实体等，新手0基础也可体验创建技能的乐趣。

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

揭秘：美国国安局(NSA)的语音识别技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景