音频监控,如何让”好声音”从听得见到听得懂?

简介:

10月,在东半球最好的相声晚会——“锤子手机”发布会上,科大讯飞的语音识别技术意外火了。罗永浩花了二十分钟来讲锤子手机采用的这项技术。

而在安防领域,音频系统早已是安全防范系统的重要组成部分。虽然超过70%的网络摄像机拥有单向或多向的音频功能,但真正实际应用音频功能的监控摄像机却很少。对未来音频监控市场的分析认为,会保持稳步增长的趋势,增幅会在10%左右。IHS预测未来音频功能将在视频监控系统中得到更多的重视。

在很多事件中,我们调取录像资料,发现只有画面没有声音,一切只靠当事人的口供,无疑给公安机关侦破案件带来障碍,公众的质疑很难避免。加装音频监控无疑将会解决质疑的问题并且增加证据的说服力。

因此,现在很多的智慧安防系统,已经要求增加音频采集,例如在平安城市、公检法办案区、金融机构、公共交通、教育监考、行政服务、执法取证等领域,越来越多的优质项目需要高清晰、高保真的音视频同步监控系统,在优质安防工程中已凸显出音频监控的重要性。

如何从“听得见”到“听得懂”?

声纹识别

音频监控经过多年的发展,已经可以做到通过声音的识别来判断说话人的情绪、所处的环境等问题。而在音频监控环节中,声纹识别提供了重要的技术支撑。

20161116042002154.png

声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。这里需要强调的是,和语音识别不同,声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性,而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。

同时,与其他生物识别相比,声纹识别的应用有一些特殊的优势:

(1)蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;

(2)获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;

(3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;

(4)声纹辨认和确认的算法复杂度低;

(5)配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率;

这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐,声纹识别的世界市场占有率15.8%,仅次于指纹和掌纹的生物特征识别,并有不断上升的趋势。

声音定位

人们经常借助听觉来判断发音物体的位置。例如,当你独自行走时,突然听到一个响声,你会立刻判断出这个声音是什么声音、对你有无威胁、它来自何方等等。确定声音的方向和距离需要比较来自两耳信息,虽然你会很快做判断和反应,但声音定位过程是听觉系统复杂综合的功能。

而声音定位则是通过强度差、时间差、因色差、相位差等来实现。

音频场景分析

作为人们感知外界环境的一个重要通道,听觉在视线障碍、不利光照条件等情况中可起到视觉无法替代的作用,是视觉的重要补充。相比于图像数据,音频信号往往可使用相对简单的设备进行采集并且占用更少的存储空间和处理时间。随着当前移动平台计算能力的不断提高,出现了越来越多基于音频的各类应用,所涉及的音频处理算法一直是相关研究领域的重点。

20161116042004973.png

其中,提取、分析和有效利用音频数据所携带的语义信息,对基于内容的多媒体检索、摘要以及开发上下文自适应的应用等具有重要意义。

音频场景分析主要是为了分析、决策、预警所监听环境下发生的异常行为。其核心技术是基于各类异常声音在时域、频域的特征,结合模式识别的分类方法对异常事件报警。

语音识别

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

语音识别技术经过几十年的发展,基于深度学习的人工智能语音将得到大范围的应用。

音频监控在安防领域大有可为

20161116042005923.png

由于传统视频监控系统,受摄像机镜头和安装角度限制,监控区域很难做到无死角覆盖,即使通过多角度安装摄像机,也无法保证全覆盖,由于摄像机图像采集受诸多环境因素(例如:现场照明、强光源干扰等)影响而无法有效采集现场图像。而音频监控技术由于音频本身的技术特性,基本上不存监控死角,能更有效的掌控现场的实时情况。所以音频监控技术越来可以更好的弥补视频监控技术的不足。

同时,声音具有一系列独有的特征,如不受白天和黑夜的影响,不容易遮挡,具有方向性等等。在球机上安置拾音器,对声音的方向进行定位,当检测到异常声音时控制球机到相应位置,这样一来,在一定程度上就可以第一时间看到异常声音所处位置的实时视频,为判定事态提供了多种信息。(本文部分技术支持来源于快鱼电子)

人工智能时代,语音技术以及和语音技术相关的应用、图像技术以及相关应用在今天变得格外重要。而围绕着语音、图像以及其他传感器所产生的数据,以及这些数据的生产、分析、组织和消费,在之后的很长的时间里,注定会成为智能领域中最重要的发展方向。我们期待智能音频带给安防的巨大变化。

本文转自d1net(转载)

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
1月前
文字转语音后的音频结束以后,再播放一段时间的背景音乐。什么方案能实现
【2月更文挑战第13天】文字转语音后的音频结束以后,再播放一段时间的背景音乐。什么方案能实现
14 2
|
3月前
|
编解码
音视频录制播放原理
音视频录制播放原理
63 1
|
9月前
|
编解码 监控 Linux
采集音频和摄像头视频并实时H264编码及AAC编码
采集音频和摄像头视频并实时H264编码及AAC编码
72 0
|
人工智能 语音技术
如何基于YoC播放器实时播放语音合成码流
如何基于YoC播放器实时播放语音合成码流
如何基于YoC播放器实时播放语音合成码流
|
编解码 缓存 监控
浅析云控平台画面传输的视频流方案
本文将小结本次云控平台画面传输的视频流方案。
浅析云控平台画面传输的视频流方案
声音的录制
声音的录制 (一) —— 使用AVAudioRecorder进行录制(一)
962 0
|
Web App开发 API