你是否对于Spotify之类的软件产生过这样的疑问:“Spotify,你放音乐的时候在想什么?”实际上这类软件可能会像你一样思考。
一项麻省理工学院的新研究表明,科学家们构建了一个机器学习系统,可以像人类一样处理声音,能够辨别歌词或按流派对音乐进行分类。
它是第一个模仿大脑来解读声音的人造系统,在准确性上能够与人类相媲美。这项研究发表在Neuron杂志上,为研究人脑提供了吸引人的新方法。
机器学习系统无处不在,例如各种有音乐推荐功能的软件。不过软件工程师们通常不知道这些系统如何“思考”,也不知道软件的内部工作方式是是否与人脑具有相似性。
研究人员的模型是基于著名的深度神经网络——受到人体神经元或脑细胞的启发发展而来。它可以通过分层来处理信息,且最深的层执行最复杂的工作。科学家可以训练这些模型来“学习”人类的行为,比如分析声音。
研究人员对模型建立了两个目标。第一,播放两秒钟的演讲片段,来测试模型识别演讲中出现的词。第二,播放两秒钟的音乐,来测试该模型如何将这段音乐分类。此外,研究人员还在每次测试时设置噪音来增加模型识别的难度。
实验需要数千个案例来训练模型,不过最终,模型的性能表现得和人脑一样不错。模型能够识别数十种音乐类型,比如它可以从ska或gothic摇滚中识别出dubstep。不过,在播放城市声音的片段时,和人脑一样,它也会犯错误。
但是研究人员仍然不确定所建立的模型是否能像大脑那样处理信号——或者说它有自己的方法来解决同样的问题。因此他们需要查看人脑的情况。
文章的第一作者Alex Kell来自麻省理工学院,他研究了fMRI扫描仪的数据,观察了人听到一系列大自然的声音的时候,大脑的哪个区域最活跃。
接着,他将这些声音输入到模型中。他发现,当模型处理一些相对基本的信息时(例如声音或模式的频率),其与大脑的某个区域相对应。而承担更复杂的任务时(例如识别音乐的含义),模型与人脑的另一区域相对应。
这表明模型从最简单到最复杂的层次结构,都能和人脑以相同的方式处理信息。
路易斯安那州立大学实验音乐和数字媒体(研究将神经网络云运用到音乐上的)的准博士Andrew Pfalz说,这种将深度神经网络的内部运作与大脑连接的能力太令人振奋了。
机器学习系统无处不在,例如各种有音乐推荐功能的软件。不过软件工程师们通常不知道这些系统如何“思考”,也不知道软件的内部工作方式是如何跟人脑相似的。
“这是一个黑匣子,”Pfalz说,“有趣的是,我们训练这些模型,也看到它们能够正确的分类和预测,然而我们并不知道里面发生了什么。”
但是经过探索,麻省理工学院的研究人员能够清楚地了解系统的哪些层面处于何种状态,以及模型是如何和人脑一样处理相同的声音的。
最初受大脑构造启发而来的机器学习系统(因此称为“神经网络”),现在正在帮助科学家们更好的研究大脑。Pfalz觉得这个想法很有趣。
不过,主要研究使用机器学习系统创作音乐的北佛罗里达大学的计算机学家Ching-Hua Chuan强调了这一说法的广泛性。“[神经网络]从来没有打算模拟我们的大脑是如何工作的,”她补充道,窥探“黑匣子”内部情况的困难性表明,需要更多研究来证明该模型确实模拟了大脑。
麻省理工学院的团队认为他们已经快要达成这个目标了。这项研究的资深作者——麻省理工学院的Josh McDermott说,如果他们是对的,模型可以帮助科学家们理解和模拟大脑如何处理声音和其他感官信号。而且,由于在模型上进行测试比在真正的大脑上进行实验更快,更安全,成本更低,这可能会加速一些神经科学的研究进展。
Kell说,计算能力和神经网络技术并不总是能够模拟部分人脑,但过去的五年开创了一个新的时代。“在机器学习领域,历史上许多难以克服的问题实际上现在已经可以解决了。”