MIT又出新玩法,利用AI可轻松分离视频中的乐器声音

简介: 均衡器是大概是被用来在音乐中加入低音的一种常用方式,但近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员研发了一个更好的解决方案。他们的深度学习系统PixelPlayer,可以通过人工智能来分离乐器演奏视频中的乐器声音,同时还能改变音量,让它们变得更响亮或更柔和。

均衡器是大概是被用来在音乐中加入低音的一种常用方式,但近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员研发了一个更好的解决方案。他们的深度学习系统——PixelPlayer——可以通过人工智能来分离乐器演奏视频中的乐器声音,同时还能改变音量,让它们变得更响亮或更柔和。

经过充分训练的PixelPlayer系统,以视频作为输入,可以对相应的音频进行分割,识别声音来源,然后根据每个像素的声音进行“空间定位”,即识别剪辑片段中产生类似声波的区域。详细信息在论文《The Sound of Pixels》中有所解释,这篇论文已被欧洲计算机视觉大会(ECCV)接收,此会议将于今年9月在德国慕尼黑举行。

“我们期望中最好的情况是系统可以识别出哪种乐器会发出哪种声音,”CSAIL的博士生和该论文的共同作者Hang Zhao说道。“结果我们惊讶的发现,真的可以在像素级别上对乐器进行空间定位。这一结果给我们开辟了更多的可能性,比如只需点击一下视频就能编辑各个乐器的音频。“

PixelPlayer的核心是一个在现有音乐视频(一个由YouTube提供的714个未经修改的且未标记的数据视频集)上进行训练的神经网络。据悉,该系统在超过60个小时的视频上进行了训练,它能够观看之前未看过的音乐表演视频,在像素级别上识别特定乐器,并提取出该乐器的声音。

这只是PixelPlayer多管齐下机器学习框架的一部分。经过训练的视频分析算法从剪辑的帧中提取视觉特征之后,第二个神经网络——音频分析网络, 将声音分成小片段并从中提取特征。最后,一个音频合成器网络使用来自两个网络的输出来将特定像素与声波进行关联。

PixelPlayer完全是自我监督的,这意味着它不需要人类对乐器或乐器声音进行任何标注。现在这一系统可以识别超过20种乐器的声音。Zhao称,如果具备更多训练数据,该系统还可以识别更多乐器,不过,它在处理乐器子类别之间的细微差异时可能还存在问题,比如中音萨克斯和次中音萨克斯。

研究人员认为PixelPlayer可以帮助进行声音编辑,或者用于帮助机器人更好地理解动物、车辆和其他物体所产生的环境声音。

他们写道:“我们希望我们的工作可以开辟新的研究途径,通过视觉和听觉信号来理解声源分离的问题。”

原文发布时间为:2018-07-06
本文作者:Sandy
本文来自云栖社区合作伙伴“人工智能观察”,了解相关信息可以关注“人工智能观察”。

相关文章
|
9天前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
15 4
|
15天前
|
人工智能 算法 程序员
程序员为何容易爱上AI?MIT学者诊断:智性恋浓度过高!
【9月更文挑战第20天】近日,一篇由MIT学者撰写的论文在网络上引发热议,探讨了程序员为何易对AI产生深厚情感,即“智性恋”。论文指出,程序员在开发和使用AI时,因对其智能和能力的钦佩而形成依赖与认同,但这可能导致过度依赖AI,忽视自身价值或其局限性,甚至引发不健康的竞争。论文链接:https://arxiv.org/pdf/2407.14933。
30 5
|
28天前
|
人工智能 安全 API
AI数据荒雪上加霜!MIT:网页数据的公开共享正走向衰落
【9月更文挑战第7天】麻省理工学院的一项新研究表明,尽管人工智能(AI)领域迅速发展,但网页数据的公开共享正在减少,加剧了AI数据短缺的问题。AI模型训练依赖大量数据,而网页数据是关键来源之一,其共享减少将影响AI进步,并引发数据隐私和安全方面的担忧。然而,这也推动了对数据隐私保护的关注及新型数据获取方式的探索。研究详情参见:[论文链接](https://www.dataprovenance.org/consent-in-crisis-paper)。
61 9
|
1月前
|
机器学习/深度学习 人工智能
AI模型提早5年预警乳腺癌,MIT研究登Science获LeCun转发
【9月更文挑战第1天】麻省理工学院(MIT)研究人员开发的深度学习AI模型,在乳腺癌早期预警方面取得突破性进展,相比传统方法提前5年预警癌症,准确率超过90%。此成果不仅在医学界引起轰动,还获得了人工智能领域知名学者Yann LeCun的高度评价。尽管面临准确性和可解释性的挑战,但该研究展示了AI在医疗领域的巨大潜力,有望革新乳腺癌的早期筛查和诊断方式。论文详情见[链接]。
31 3
|
2月前
|
人工智能 文字识别 算法
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
36 4
|
2月前
|
机器学习/深度学习 人工智能 编解码
|
2月前
|
人工智能 自然语言处理 语音技术
使用AI识别语音和B站视频并通过GPT生成思维导图原创
AI脑图现新增语音及B站视频内容识别功能,可自动生成思维导图。用户可通过发送语音或上传语音文件,系统自动转换为文本并生成结构化的思维导图;对于B站视频,仅需提供链接即可。其工作流程包括:语音转文本、文本结构化、生成Markdown、Markdown转思维导图HTML以及输出最终的思维导图图片给用户。
38 0
|
2月前
|
人工智能 搜索推荐
影视与游戏行业AI视频制作的第3步:为角色生成说话视频
继 影视与游戏行业AI视频制作实战:第一步,角色形象设计的一致性以及影视与游戏行业AI视频制作实战:第二步,为角色生成个性化语音 后,实现角色生动化的下一步动作就是能让图像动起来。
|
2月前
|
机器学习/深度学习 人工智能 算法
|
8天前
|
机器学习/深度学习 数据采集 人工智能
探索AI技术在文本生成中的应用与挑战
【9月更文挑战第26天】本文深入探讨了AI技术在文本生成领域的应用,并分析了其面临的挑战。通过介绍AI文本生成的基本原理、应用场景以及未来发展趋势,帮助读者全面了解该技术的潜力和局限性。同时,文章还提供了代码示例,展示了如何使用Python和相关库实现简单的文本生成模型。
33 9

热门文章

最新文章

下一篇
无影云桌面