MIT又出新玩法,利用AI可轻松分离视频中的乐器声音

简介: 均衡器是大概是被用来在音乐中加入低音的一种常用方式,但近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员研发了一个更好的解决方案。他们的深度学习系统PixelPlayer,可以通过人工智能来分离乐器演奏视频中的乐器声音,同时还能改变音量,让它们变得更响亮或更柔和。

均衡器是大概是被用来在音乐中加入低音的一种常用方式,但近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员研发了一个更好的解决方案。他们的深度学习系统——PixelPlayer——可以通过人工智能来分离乐器演奏视频中的乐器声音,同时还能改变音量,让它们变得更响亮或更柔和。

经过充分训练的PixelPlayer系统,以视频作为输入,可以对相应的音频进行分割,识别声音来源,然后根据每个像素的声音进行“空间定位”,即识别剪辑片段中产生类似声波的区域。详细信息在论文《The Sound of Pixels》中有所解释,这篇论文已被欧洲计算机视觉大会(ECCV)接收,此会议将于今年9月在德国慕尼黑举行。

“我们期望中最好的情况是系统可以识别出哪种乐器会发出哪种声音,”CSAIL的博士生和该论文的共同作者Hang Zhao说道。“结果我们惊讶的发现,真的可以在像素级别上对乐器进行空间定位。这一结果给我们开辟了更多的可能性,比如只需点击一下视频就能编辑各个乐器的音频。“

PixelPlayer的核心是一个在现有音乐视频(一个由YouTube提供的714个未经修改的且未标记的数据视频集)上进行训练的神经网络。据悉,该系统在超过60个小时的视频上进行了训练,它能够观看之前未看过的音乐表演视频,在像素级别上识别特定乐器,并提取出该乐器的声音。

这只是PixelPlayer多管齐下机器学习框架的一部分。经过训练的视频分析算法从剪辑的帧中提取视觉特征之后,第二个神经网络——音频分析网络, 将声音分成小片段并从中提取特征。最后,一个音频合成器网络使用来自两个网络的输出来将特定像素与声波进行关联。

PixelPlayer完全是自我监督的,这意味着它不需要人类对乐器或乐器声音进行任何标注。现在这一系统可以识别超过20种乐器的声音。Zhao称,如果具备更多训练数据,该系统还可以识别更多乐器,不过,它在处理乐器子类别之间的细微差异时可能还存在问题,比如中音萨克斯和次中音萨克斯。

研究人员认为PixelPlayer可以帮助进行声音编辑,或者用于帮助机器人更好地理解动物、车辆和其他物体所产生的环境声音。

他们写道:“我们希望我们的工作可以开辟新的研究途径,通过视觉和听觉信号来理解声源分离的问题。”

原文发布时间为:2018-07-06
本文作者:Sandy
本文来自云栖社区合作伙伴“人工智能观察”,了解相关信息可以关注“人工智能观察”。

相关文章
|
27天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
109 19
|
22天前
|
人工智能 知识图谱
成熟的AI要学会自己搞研究!MIT推出科研特工
MIT推出科研特工SciAgents,结合生成式AI、本体表示和多代理建模,实现科学发现的自动化。通过大规模知识图谱和多代理系统,SciAgents能探索新领域、识别复杂模式,加速新材料发现,展现跨学科创新潜力。
38 12
|
2月前
|
人工智能
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
57 1
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
|
2月前
|
存储 人工智能 开发者
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
90 0
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
|
2月前
|
人工智能 编解码 API
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
|
2月前
|
人工智能 自然语言处理 机器人
MIT新研究揭秘AI洗脑术!AI聊天诱导人类编造记忆,真假难辨
麻省理工学院的一项新研究《基于大型语言模型的对话式AI在证人访谈中加剧虚假记忆》显示,使用生成式聊天机器人进行犯罪证人访谈会显著增加参与者的虚假记忆,且影响持久。研究设置了对照组、问卷访谈、预设脚本及生成式聊天机器人四种条件,结果显示生成式聊天机器人诱导的虚假记忆数量远超其他方法。尽管AI技术在效率和准确性方面潜力巨大,但在敏感领域需谨慎应用,并需进一步评估风险,制定伦理准则和监管措施。论文详细内容见[这里](https://arxiv.org/abs/2408.04681)。
49 2
|
3月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
70 4
|
3月前
|
人工智能 算法 程序员
程序员为何容易爱上AI?MIT学者诊断:智性恋浓度过高!
【9月更文挑战第20天】近日,一篇由MIT学者撰写的论文在网络上引发热议,探讨了程序员为何易对AI产生深厚情感,即“智性恋”。论文指出,程序员在开发和使用AI时,因对其智能和能力的钦佩而形成依赖与认同,但这可能导致过度依赖AI,忽视自身价值或其局限性,甚至引发不健康的竞争。论文链接:https://arxiv.org/pdf/2407.14933。
45 5
|
2月前
|
人工智能 自然语言处理 搜索推荐
Sora - 探索AI视频模型的无限可能
这篇文章详细介绍了Sora AI视频模型的技术特点、应用场景、未来展望以及伦理和用户体验等方面的问题。
28 0
|
3月前
|
人工智能 安全 API
AI数据荒雪上加霜!MIT:网页数据的公开共享正走向衰落
【9月更文挑战第7天】麻省理工学院的一项新研究表明,尽管人工智能(AI)领域迅速发展,但网页数据的公开共享正在减少,加剧了AI数据短缺的问题。AI模型训练依赖大量数据,而网页数据是关键来源之一,其共享减少将影响AI进步,并引发数据隐私和安全方面的担忧。然而,这也推动了对数据隐私保护的关注及新型数据获取方式的探索。研究详情参见:[论文链接](https://www.dataprovenance.org/consent-in-crisis-paper)。
89 9