为何机器学习识别声音还做不到像识别图片那么容易？-阿里云开发者社区

为何机器学习识别声音还做不到像识别图片那么容易？

2017-05-24 2310

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

声音是传递信息的重要方式之一。大多数开车的人都熟悉汽车皮带打滑的声音。我爷爷甚至能靠耳朵来判断高载火车的刹车问题。还有很多专家都能通过听他们常用机器发出来的声音来检测机器运行的问题。

如果能找到一种自动监听的方法，我们就可以24小时监控我们生活的世界中存在的各种机器。 当我们被通知机器声音发生异常时，我们便可以预测出发动机、铁路基础设施、石油钻井和发电厂的运行故障。

自动监听技术能减少运行事故造成的人员伤亡。尽管最近机器学习领域取得了很大发展，利用机器学习实现自动监听的技术仍处于研发阶段。我们已经获得许多音频数据，但这些数据往往没有关键的分类标签（译者注：即标注每段音频来自正常还是异常的运行情况）。在深度学习的模型里，这样的“黑箱”问题让我们很难确定某段音频被标记为异常的原因。我们仍然在努力解决真实的机器学习的边缘问题中的难题。。而且这些音频常常带有比信号更强的噪音，从而限制了我们能从音频数据里提取到的可用于机器学习的特征。

声音的鸿沟

大多数机器学习领域的研究者认为人工智能作为一颗冉冉升起的新星，将征服一个又一个领域，偶尔还能有些影响广泛的大突破。根据这个预测，我们已经征服了图像字幕和语音识别领域，但使用更广泛的机器声音识别仍落在后面。

众多机器学习的突破背后依赖于一个精心组建的数据集。比如：在研究对象识别的时我们可以用 ImageNet（译者注：ImageNet是一个被广泛应用于图像识别研究的图像数据库），而在研究语言数据联盟和语音识别时则可以参考GOOG-411（译者注：GOOG-411是Google公司在2007年推出的一个以语音识别为基础的商业性电话公司咨询服务，该服务已于2010年11月12日终止）。但要找到一个合适的数据集来区分列车门关闭和卧室门关闭的声音仍然具有一定的挑战性。

Deepgram（一家帮助其他公司搜索和分类音频数据的创业公司）的首席执行官Scott Stephenson认为：“如果你能正确地构建模型，深度学习可以做很多事情。你所需要的只是很多机器的数据。十五年前还没有那些好的数据集的时候，语言识别技术也没有现在这么成熟。 ”

尽管亚马逊土耳其机器人（AmazonMechanical Turk）上有大量公众可以使用的带标签的狗和猫的图片（译者注：这些大规模猫狗图片数据集已被广泛用于深度学习的研究），但要收集100,000个滚珠轴承的声音和那些带标记的猫狗数据集是完全不同的。（译者注：亚马逊土耳其机器人是一个Web服务应用程序接口（API），开发商通过它可以将人的智能整合到远程过程调用（RPC）。）

这些问题已经折磨着单一用途的声学分类器，而更加难以实现的目标是建造一个可用于识别所有的声音（而不仅仅是建一个区分这些门的声音的模型）的工具。

通过内省欣赏

人类的归纳能力使我们特别擅长给声音进行分类。回想一下上一次你听到一辆救护车从你的公寓楼下冲过，即使多普勒效应造成声波的变化频率会影响你听到的警笛的音调，你仍然能很容易地识别出冲过的是辆救护车。

然而研究人员需要发挥出创造性才能把这个过程自动化。其中一个原因是从收集移动物体（声音）信息的固定传感器中提取的特征是有限的。

缺乏源分离可能使问题进一步复杂化。（译者注：在数字信号处理领域，源分离问题指从几个信号混合成的合成信号中恢复原始的分量信号。）即使是人类自己也不容易分离这些混合的声音信号。如果你曾经尝试在一个喧哗的餐厅里试图听清楚其中一个桌子上的对话，你就知道理解混合在一起的声音有多么困难。

英国萨里大学（University ofSurrey）的研究人员能使用深度卷积神经网络（deepconvolutional neural network）在许多歌曲中分离人声和背景乐器。他们的诀窍是把50首歌拆分成的单个乐器和人声来训练他们的模型。然后将这些声轨切割成每段20秒来创建许多个谱图。利用这50首歌的谱图，他们的模型能在新的歌曲中分离人声和背景乐器。

但这仅仅是把一首歌分成五个易于识别的部分。如果我们要记录一个近60英尺高（译者注：约18米高）的MANB＆W 12S90ME-C Mark 9.2型柴油发动机的声音，并要求机器学习模型切分出来自发动机各元件的声音，就不是一件容易的工程了。

声音领域的开拓者

Spotify是一家雄心勃勃地要把机器学习应用到音频信号上的公司。虽然Spotify仍然依赖于其他数据堆，但他们的推荐特征里也包括了歌曲本身的信号。

音乐推荐传统上依赖于协同过滤（collaborative filtering）的启发。（译者注：协同过滤是机器学习中基于对其他相似顾客对哪些产品感兴趣的分析来推荐给某位特定顾客他可能感兴趣的东西的一种模型。）这些基本模型推荐给你与你有相似喜好的用户所播放的歌曲。

上图，根据Spotify，滤波器以不同频率的红色和蓝色波带来表示声音的内容。倾斜表示上升和下降的音调。

在可控的音乐环境之外，工程师提出了大致两类解决方案。第一个我把它称作“定制解决方案”模型，公司从客户端收集数据，唯一目的是识别预设的声音范围。实施这个方案如同“建造一只熊”，成本昂贵，通常为工业应用。

第二种方法是一种“捕捉”可以标记任何声学异常的深度学习模型。这些模型通常需要专业人士手动分类声音，然后进一步训练模型去寻找什么。随着时间的推移，这些系统需要越来越少的人为干预。

一家名为“3D信号”的公司正在结合这两种方法进行创业。该公司在旋转设备的声学异常检测方面拥有专利。这些设备包括电动机、泵、涡轮机、齿轮箱和发电机等。

3D信号公司的首席执行官Amnon Shenfeld说：“我们构建了一个非常庞大的架构，将大量分布式机器连接到我们的监控平台，当这些机器发生故障时，我们的算法会检测到这些故障。

上图，MAN B＆W12S90ME-C Mark 9.2型柴油发动机

他们也利用现有工程师对特别重要的问题进行分类。如果技术人员识别到问题，他们可以标记为声学异常，这有助于训练学习算法以便在未来区分这些类型的声音。

另一家公司OtoSense则在其网站上提供了一个“设计实验室”。客户可以查找他们想要的识别特定声音事件的样板，公司将提供一个可以满足他们特定需要的软件平台。

预测性维护不仅是可实现的，而且将随时可以使用。像3DSignals和OtoSense这样的公司都瞄准了这个领域：利用商品化的物联网传感器来帮助用户准确无误地替换刚出问题的部件，从而避免了代价高昂的停机时间。

明天的机器

在未来的几年内，我们将为广泛的声音检测问题提供解决方案。新的声学分析系统将跟踪机器的生命周期成本，并帮助企业估计未来的预算。

ATS咨询公司（该公司从事噪声和振动分析工作）的工程师ShannonMcKenna表示：“美国联邦运输管理局（FederalTransit Administration）强烈推动交通资产管理（Transit Asset Management）的状态评估。我们认为这是一种帮助运输机构为其铁路系统提供状态评估指标的方法。“

除了像轮哨声这样的短路指示器，铁路监控工程师开始陷入如同在干草堆里寻找一个漂亮的粗糙的针头这样的问题。 McKenna解释说，普通声信号只代表大约50％的复杂铁路系统可能面临的问题。与规范性检查的框架相反，真正的风险管理需要一个通用系统 ––没有人希望遇到由于罕见情况而导致的灾难。

原文发布时间为：2017-02-22

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

为何机器学习识别声音还做不到像识别图片那么容易？

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

为何机器学习识别声音还做不到像识别图片那么容易？

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景