MIT又出新玩法,利用AI可轻松分离视频中的乐器声音

简介: 均衡器是大概是被用来在音乐中加入低音的一种常用方式,但近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员研发了一个更好的解决方案。他们的深度学习系统PixelPlayer,可以通过人工智能来分离乐器演奏视频中的乐器声音,同时还能改变音量,让它们变得更响亮或更柔和。

均衡器是大概是被用来在音乐中加入低音的一种常用方式,但近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员研发了一个更好的解决方案。他们的深度学习系统——PixelPlayer——可以通过人工智能来分离乐器演奏视频中的乐器声音,同时还能改变音量,让它们变得更响亮或更柔和。

经过充分训练的PixelPlayer系统,以视频作为输入,可以对相应的音频进行分割,识别声音来源,然后根据每个像素的声音进行“空间定位”,即识别剪辑片段中产生类似声波的区域。详细信息在论文《The Sound of Pixels》中有所解释,这篇论文已被欧洲计算机视觉大会(ECCV)接收,此会议将于今年9月在德国慕尼黑举行。

“我们期望中最好的情况是系统可以识别出哪种乐器会发出哪种声音,”CSAIL的博士生和该论文的共同作者Hang Zhao说道。“结果我们惊讶的发现,真的可以在像素级别上对乐器进行空间定位。这一结果给我们开辟了更多的可能性,比如只需点击一下视频就能编辑各个乐器的音频。“

PixelPlayer的核心是一个在现有音乐视频(一个由YouTube提供的714个未经修改的且未标记的数据视频集)上进行训练的神经网络。据悉,该系统在超过60个小时的视频上进行了训练,它能够观看之前未看过的音乐表演视频,在像素级别上识别特定乐器,并提取出该乐器的声音。

这只是PixelPlayer多管齐下机器学习框架的一部分。经过训练的视频分析算法从剪辑的帧中提取视觉特征之后,第二个神经网络——音频分析网络, 将声音分成小片段并从中提取特征。最后,一个音频合成器网络使用来自两个网络的输出来将特定像素与声波进行关联。

PixelPlayer完全是自我监督的,这意味着它不需要人类对乐器或乐器声音进行任何标注。现在这一系统可以识别超过20种乐器的声音。Zhao称,如果具备更多训练数据,该系统还可以识别更多乐器,不过,它在处理乐器子类别之间的细微差异时可能还存在问题,比如中音萨克斯和次中音萨克斯。

研究人员认为PixelPlayer可以帮助进行声音编辑,或者用于帮助机器人更好地理解动物、车辆和其他物体所产生的环境声音。

他们写道:“我们希望我们的工作可以开辟新的研究途径,通过视觉和听觉信号来理解声源分离的问题。”

原文发布时间为:2018-07-06
本文作者:Sandy
本文来自云栖社区合作伙伴“人工智能观察”,了解相关信息可以关注“人工智能观察”。

相关文章
|
24天前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
293 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
3月前
|
人工智能 自然语言处理 数据可视化
AI视频培训|格律诗AI 视频创作与自媒体传播——某诗词学会
近日,TsingtaoAI派驻专家团队为某诗词学会学员交付《格律诗AI 视频创作与自媒体传播》培训。本课程精准切中行业痛点——传统诗词创作与现代传播方式的断层。课程摒弃泛泛而谈,直击实操:首日聚焦"工具认知+创作逻辑",系统梳理即梦、可灵等国产AI工具在格律诗意象可视化中的差异化应用,如将"月光在指尖碎裂"转化为动态场景;次日深入"语音表达+自媒体运营",传授用魔音工坊生成情感化配音、坤行数字人打造诗人形象的秘技,更结合抖音、小红书平台特性,解析"前5秒高光片段设计"等流量密码。
154 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
376 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
人工智能 编解码 自然语言处理
重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!
很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。
440 14
|
3月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
|
2月前
|
机器学习/深度学习 人工智能 编解码
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
|
3月前
|
存储 人工智能 自然语言处理
让你拥有一个AI大脑,这个32.1k Github项目是你不错的选择,支持PDF、Markdown、代码、视频成为你的知识内容
Quivr 是开源全栈 RAG 平台,助你打造“第二大脑”,支持多文档类型与多种 LLM,实现智能搜索与聊天。具备语义检索、本地部署、隐私保护等功能,适用于个人知识管理与企业知识库,界面简洁易用,是高效智能问答的理想选择。
168 0
|
12天前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
|
26天前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
274 20

热门文章

最新文章