MIT开发听觉神经网络模型,学会从2秒片段识别音乐类型

简介: 麻省理工学院(MIT)的研究人员利用机器学习算法中的深度神经网络,创造出了第一个可以在识别音乐类型等听觉任务上模拟人类表现的模型。

该模型由许多信息处理单元组成,通过输入大量的数据来训练此模型,以完成特定的任务。研究人员利用该模型来阐明人脑是如何执行同样的任务的。

Josh McDermott说:“这些模型第一次给我们提供一个能够执行对人类有意义的感官任务的机器系统,并且是在人类的水平等级上进行这项工作。”他是麻省理工学院大脑和认知科学系的神经科学Frederick A.和Carole J. Middleton的助理教授,也是这项研究的资深作者。 “从历史上看,这种感官的处理方式很难理解,部分原因是我们没有一个非常明确的理论基础,也没有一个很好的方法来对可能正在发生的事情进行开发建模。”

这项研究发表在4月19日的《Neuron》杂志上,这项研究也证明了人类的听觉皮层排列在在一个等级分明的组织中,就像视觉皮质一样。在这种类型的排列中,感官信息经过连续的处理,基本信息处理得更早,而像单词含义一样的更高级特征在后期处理。

麻省理工学院研究生Alexander Kell和斯坦福大学助理教授Daniel Yamins是论文的主要作者。其他作者是麻省理工学院前访问学生Erica Shook和前麻省理工学院博士后Sam Norman Haignere。

大脑建模:模型学会了像人类一样准确地执行任务

当神经网络在20世纪80年代首次出现时,神经科学家们希望这种系统可以用来模拟人脑。然而,来自那个时代的计算机不够强大,无法建立足够大的模型来进行一些实际任务,如物体识别或语音识别等。

在过去的五年里,随着计算能力和神经网络技术的进步,使用神经网络来执行这些困难的现实任务已经成为一种可能,而且它们已经成为许多工程应用程序中的标准方法。与此同时,一些神经科学家对这些系统是否能够来模拟人脑进行了重新审视。

Kell说:“这对于神经科学来说是一个激动人心的机会,因为我们可以创造出可以代替人类来执行某些工作的系统,然后我们可以对这些模型进行测试并将它们与大脑进行比较。”

麻省理工学院的研究人员训练他们的神经网络来执行两个听觉任务,一个涉及语音,另一个涉及音乐。在语音任务中,研究人员给模型提供了成千上万的两秒钟长的录音。任务是识别音频中单词。在音乐任务中,该模型被要求识别那些两秒钟音乐片段的类型。每个片段还包括背景噪音,使任务更加现实也更加困难。

在完成了成千上万的数据训练之后,模型学会了像人类一样准确地执行任务。

Kell说:“这个想法是随着时间的推移,模型在任务中变得越来越好。希望它正在学习一些一般的东西,所以如果你给模型输入一种它以前从未听过的新声音,它会做得很好,这已经在实验中得到了证明。”

该模型还倾向于在人类最容易犯错误的片段上犯错误。

组成神经网络的处理单元可以以多种方式组合在一起,形成可以影响模型的性能的不同模型结构。

麻省理工研究团队发现,这两项任务的最佳模型是将处理分为两组阶段。第一阶段是在任务之间共享的,但在此之后,它分成两个分支,用于进一步的分析:一个用于语音处理任务,另一个用于音乐处理任务。

分级的证据:初级听觉皮层和其他有区别

然后,研究人员用他们的模型对一个长期存在的关于听觉皮层结构的问题进行了探索:它是否分级。

在分级系统中,一系列的大脑区域在流经系统的感官信息上执行不同类型的计算。有证据表明,视觉皮层有相同类型的组织结构。前期的区域,被称为初级视觉皮质,对简单的特征如颜色或方向做出反应。后端的区域则执行更复杂的任务,如对象识别。

然而,很难测试这种类型的组织是否也存在于听觉皮层中,部分原因是没有一个好的模型来对人类的听觉行为进行复制。

McDermott说:“我们认为,如果我们可以构建一个和人类执行同样任务的模型,我们就能够比较将模型不同阶段的不同部分与大脑进行比价,这样可以得到一些证据来证明大脑中的一些部分是否是分级的组织。”

研究人员发现,在他们的模型中声音的基本特征,如频率在早期阶段更容易被提取。当信息在神经网上不断向后传输的过程中,一些基本特征越来越难提取,而更高层次的信息,例如词的含义变得更容易提取。

为了验证模型阶段是否可以复制人类听觉皮层处理声音信息的方式,研究人员使用了功能性磁共振成像(fMRI)来测量大脑处理真实声音时听觉皮层的不同区域。然后,他们比较了在处理相同的声音时,大脑和模型的区别。

他们发现,模型的中间阶段与大脑初级听觉皮层的活动相似性最高,随后的网络与初级皮质以外的活动相呼应。研究人员说,这为听觉皮层以一种类似于视觉皮层的分级方式排列提供了证据。

McDermott说:“我们非常清楚地看到,初级听觉皮层和其他所有东西之间的区别。”

作者现在打算开发一种可以执行其他类型的听觉任务的模型,例如特定声音的发声位置定位,来探讨这些任务是否可以通过本文中发现的思路来完成,或者说其他的一些任务通过对人脑进行研究,以获得新的思路。



原文发布时间为:2018-04-24

本文作者:小潘

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:MIT开发听觉神经网络模型,学会从2秒片段识别音乐类型

相关文章
|
4月前
|
网络协议 算法 Java
基于Reactor模型的高性能网络库之Tcpserver组件-上层调度器
TcpServer 是一个用于管理 TCP 连接的类,包含成员变量如事件循环(EventLoop)、连接池(ConnectionMap)和回调函数等。其主要功能包括监听新连接、设置线程池、启动服务器及处理连接事件。通过 Acceptor 接收新连接,并使用轮询算法将连接分配给子事件循环(subloop)进行读写操作。调用链从 start() 开始,经由线程池启动和 Acceptor 监听,最终由 TcpConnection 管理具体连接的事件处理。
171 2
|
4月前
基于Reactor模型的高性能网络库之Tcpconnection组件
TcpConnection 由 subLoop 管理 connfd,负责处理具体连接。它封装了连接套接字,通过 Channel 监听可读、可写、关闭、错误等
156 1
|
4月前
|
JSON 监控 网络协议
干货分享“对接的 API 总是不稳定,网络分层模型” 看电商 API 故障的本质
本文从 OSI 七层网络模型出发,深入剖析电商 API 不稳定的根本原因,涵盖物理层到应用层的典型故障与解决方案,结合阿里、京东等大厂架构,详解如何构建高稳定性的电商 API 通信体系。
|
1月前
|
机器学习/深度学习 数据采集 人工智能
深度学习实战指南:从神经网络基础到模型优化的完整攻略
🌟 蒋星熠Jaxonic,AI探索者。深耕深度学习,从神经网络到Transformer,用代码践行智能革命。分享实战经验,助你构建CV、NLP模型,共赴二进制星辰大海。
|
2月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
199 2
|
2月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
|
4月前
基于Reactor模型的高性能网络库之Poller(EpollPoller)组件
封装底层 I/O 多路复用机制(如 epoll)的抽象类 Poller,提供统一接口支持多种实现。Poller 是一个抽象基类,定义了 Channel 管理、事件收集等核心功能,并与 EventLoop 绑定。其子类 EPollPoller 实现了基于 epoll 的具体操作,包括事件等待、Channel 更新和删除等。通过工厂方法可创建默认的 Poller 实例,实现多态调用。
292 60
|
2月前
Vite使用svg-企业级开发(支持本地svg和网络svg渲染)
本教程介绍如何在Vite项目中集成SVG图标插件。首先安装`vite-plugin-svg-icons`,配置插件指向SVG图标目录,并注册全局组件。接着创建SVG图标组件,支持内部图标与外部图片展示。通过简单配置,即可在页面中灵活使用各类SVG图标,提升开发效率。
161 0
|
3月前
|
算法 安全 网络安全
【多智能体系统】遭受DoS攻击的网络物理多智能体系统的弹性模型预测控制MPC研究(Simulink仿真实现)
【多智能体系统】遭受DoS攻击的网络物理多智能体系统的弹性模型预测控制MPC研究(Simulink仿真实现)
181 0
|
2月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
325 0
下一篇
oss云网关配置