谷歌AI模型ML-Jam激发音乐家创作,人机合作或成未来大势!

简介: 谷歌AI研究人员兼钢琴演奏者PabloCastro正在开发一款可深度生成AI模型,让音乐家与之合作即兴创作音乐,以发掘人类即兴音乐的特点,进而打破人类创造性的界限。

image.png

智造观点

谷歌AI研究人员兼钢琴演奏者PabloCastro正在开发一款可深度生成AI模型,让音乐家与之合作即兴创作音乐,以发掘人类即兴音乐的特点,进而打破人类创造性的界限。

谷歌AI研究人员兼钢琴演奏者Pablo Castro 表示音乐家很容易会进入舒适区。

Castro在一支爵士乐队PSCTrio中演奏钢琴,他们在渥太华、蒙特利尔以及加拿大其他地区演出。他表示,“我们已经接受了很长时间的训练,所以可以使用音乐训练来创造性地发现更多的未知区域,这很可能会带来新的音乐表现形式。

image.png

经典的音乐是音乐家主要的收入来源,但是长此以往音乐可能会变得无聊并且一尘不变。为了突破音乐创造的界限,Castro决心开发一款可深度生成AI模型,鼓励音乐家通过即兴创作来挖掘更加独特的音乐。

GoogleBrain的Magenta项目中ML-Jam通过机器学习操纵音乐,意图展现音乐即兴创作的人格特征。ML-Jam利用了Magenta的DrumsRNN和MelodyRNN,有意将自己限制在预制模型中。

2016年6月,Google Brain就发布Magenta项目,该项目旨在让电脑合成具有冲击力、艺术性、并且充满惊喜的音乐,但到目前为止,投入产出比并不理想。2016年9月,谷歌旗下的英国人工智能公司DeepMind发布了一项实验的最终结果,该公司最初进行这项实验完全是出于兴趣。

DeepMind将钢琴曲样本放入WaveNet系统中以生成诸如演讲类的音频,虽然DeepMind并未披露该系统是如何运作合成音乐的,但该系统利用初始音频所合成的一段10秒钟的爵士乐颇为前卫。IBM也成立了一个名为“WatsonBeat”的研究项目,音乐家可以通过它来改变自己的曲风,使歌曲听起来具有中东风格或者“幽灵风”。

Castro表示:“实质上,我想要做的是保持我的旋律,因为这反映了我演奏的方式,但要用模型制作的音符取代我本身的音符,达成所谓的混合即兴创作。在自己的经历中,这通常不是我自己能想到的节奏,因为这不是一种有机地适合我的节奏。但它通常会成为我感兴趣的东西。

image.png

最近,Castro在北卡罗来纳州夏洛特举行的国际计算创新大会(ICCC)上发布了ML-Jam及其开源Python代码。

据他所作的介绍,ML-Jam 的运作从一种确定性鼓槽开始。有人演奏低音提琴,并添加其他乐器,然后将凹槽发送到 DrumsRNN,以生成一个独特的模型。然后,一个控制节奏模型的音乐家用 MelodyRNN 创作的旋律即兴创作一个音乐短语。

研究人员使用 Python 的多线程使 ML-Jam 的推理在一个单独的线程中运行,允许生成模型,然后在演出期间实时播放。由于生成一个模型可能会带来不可预测的时间,所以音乐家必须在舞台上使用他们未现场听到的声音。

Castro尝试让ML-Jam和他的爵士乐三人组一起演奏,但他们之间缺乏“化学反应”。所以,他计划将AI融入他自己的音乐中。他的下一步计划是使用ML-Jam或衍生系统为现场表演提供独特内容。

他开始研究的这件事本质上就是个人秀,只有他和......即兴创作围绕的这项技术。过程中,ML-Jam 变得更加有机,让他很感兴趣的是,它迫使他以一种非常不同于平常的方式来处理作曲。

“我必须考虑它是否适用于我所使用的系统类型。它像鼓一样使用一个循环,所以我必须有一些适合循环的东西,不会太重复,也不会很无聊,但仍然很适合这个想法……,所以每当我完成它的时候,无论从中得到什么,如果我没有对我自己施加这些限制,那么 100%与我想出的任何东西都会非常不同。”

最近,音乐制作也涌现出了其他杰出AI模型包括Magenta的钢琴精灵。上个月Flaming Lips在I / O表演舞台上使用了一个名为Fruit Genie的钢琴精灵版本。

Castro与AI的合作演奏可能会融入其他新颖的音乐模型,例如,Magenta音乐变换器可以制作钢琴旋律以及OpenAI的MuseNet,都可以激发更多即兴创作。 3月份,Google创建了一个以音乐转换器驱动的工具,它可以从一个人选择的键开始,然后生成听起来巴赫风格的音乐。

image.png

Castro表示,音乐生成模型的全部意义在于探索人机合作的空间,因此这些合成音乐体现的是合作,而不是试图采用外部构建的系统并将其放入人类创作的歌曲中。

“每首歌都探索一种不同类型的机器学习模型,它们不一定都是产生音乐的模型。我们的想法是看看如何将不同的机器学习技术整合到作曲或即兴创作中,以一种产生音乐的方式,如果你没有尝试将这些机器学习技术整合进来,就不会产生这样的音乐。”他说。

Castro将他的模型与其他模型区分开来,因为这款模型必须接受人工输入才能操作。对于Castro来说,人的目的—由人的历史和人性塑造—构成艺术的定义

“对我来说,问题是’艺术与否?’真的归结为’目的从何而来?’”他说。“我认为目前还没有任何模式有任何目的。这是我把人放进去的原因。”

事实上,很多音乐家并不排斥AI的介入,反而把它们作为新的灵感。法国摇滚音乐家Mathieu Peudupi(常称作Lescop)说:“如果没用人工智能,我永远无法创作这些歌曲,它带领我进入了一个全新的境遇,这就像和乐队成员一起创作一样,虽然我会忽略乐队成员大部分的建议,但在这个世界上哪有听同伴建议的歌手?
来源:微信公众号 人工智能观察

目录
相关文章
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
40 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
15天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
83 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
134 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
25天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
76 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
27天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
66 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
27天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
65 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
1月前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
170 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
23天前
|
人工智能 自然语言处理 API
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。
69 3
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
|
1天前
|
人工智能 Python
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
ImBD是一款由复旦大学、华南理工大学等机构联合推出的AI内容检测器,能够快速识别机器修订文本,适用于多种场景,显著提升检测性能。
18 6
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
|
30天前
|
机器学习/深度学习 人工智能 编解码
【AI系统】Transformer 模型小型化
本文介绍了几种轻量级的 Transformer 模型,旨在解决传统 Transformer 参数庞大、计算资源消耗大的问题。主要包括 **MobileVit** 和 **MobileFormer** 系列,以及 **EfficientFormer**。MobileVit 通过结合 CNN 和 Transformer 的优势,实现了轻量级视觉模型,特别适合移动设备。MobileFormer 则通过并行结构融合了 MobileNet 和 Transformer,增强了模型的局部和全局表达能力。
61 8
【AI系统】Transformer 模型小型化