平安首创AVM自动变奏模型,探秘全球首部AI交响变奏曲背后硬核技术

简介: 在新中国成立 70 周年之际,平安人工智能研究院的学者们构建了首个交响乐创作模型,推出了全球首部 AI 交响变奏曲《我和我的祖国》。这首交响曲作为新中国成立 70 周年的献礼之作,于 10 月 11 日由深圳交响乐团进行全球首次公演。


微信图片_20211202014522.jpg

AI 交响变奏曲演奏现场


想要听听 AI 创作的交响变奏曲?读者们可以点击下面音频看看 AI 在艺术创作领域的潜力到底有多少。


微信图片_20211202014635.png


《我和我的祖国》原本就是家喻户晓的经典曲目,在保留原曲风格的基础上进行二次创作,使其具有鲜明的时代特色、赋予其新时期新的内涵,无疑对人工智能是一个挑战。机器之心就此采访了AI交响变奏曲《我和我的祖国》曲目团队技术负责人,揭秘这首国庆献礼乐曲背后的硬核技术。


据了解,AI 交响变奏曲《我和我的祖国》运用了平安首创且行业中尚未发表的具有独创性的 AVM 自动变奏模型,它会利用深度学习技术对音乐作品实现多维度的特征学习与提取,并结合强化学习技术让机器学会变奏手法。总体上,结合规则系统的作曲经验,以及深度模型的学习能力,AI 能找出最能表示主题情感的音乐片段。


声声闻来皆辛苦,AI 谱曲不寻常


能够谱写出波澜壮阔的交响变奏曲,需要的不仅仅是模型与数据的交汇。在 AI 生成《我和我的祖国》交响变奏曲的过程,团队遇到了很多不同的挑战,随之而来的则是诸多技术领域的创新和突破。据悉,这是全球领域首次尝试借助 AI 谱写交响变奏曲。尽管在这一阶段,很多问题都需要用专家规则判断和约束,但通过 AI 与专家知识的结合,使得「AI+音乐」能在教育、配乐等更广泛的实现不同形式的探索和尝试。
两个世界第一


利用 AVM 架构模型生成的 AI 交响曲,实现了两个世界第一:全世界第一个能够进行多旋律交响曲谱曲的 AI 以及全世界第一个可变谱曲风格的 AI。尽管过去很多研究都进行了 AI 谱曲的工作,但生成的乐曲都是单旋律的,其中没有和声、对位,也没有区分声道等音乐中的必备要素。这样的生成结果仅仅只是音符的组合,和实际生活中我们听到的真实歌曲还差了很远。


背后原因在于,目前大部分算法模型并没有完整地输入乐曲的全部信息,而仅仅只是单个音符的序列。研究院在生成乐曲的过程中,采用了多种类别标签的音乐数据,使 AI 同时学习到了曲子的节奏、和声、对位、调式等八种类别的音乐信息,并根据这些信息进行谱曲工作。


此外,过去的多个 AI 生成的结果都带有同样的弊病:仅能实现一种曲风。以谷歌在巴赫诞辰日的产品为例,AI 仅能根据人们输入的旋律进行巴赫风格的模仿,无法换成其他风格。


而据平安研究院介绍,他们的人工智能算法使用了 VAE 模块,其目的就是为了让模型能够根据用户提出的语义信息要求,调整模型的超参数,使得最终生成的乐曲符合用户的需求。这样一来,AI 实现了真正意义上的「按需谱曲」,而不是带着以模仿为核心功能的传声筒。
谱曲到演奏的「最后一公里」由人类专家完成


要保证生成的曲子在实际演出达到预期效果,这是有相当大难度的。
首先,如何将语义信息利用 AI 融入曲子中呢?利用神经网络强大的拟合能力,平安人工智能研究院选择了数万个旋律片段,并根据其表达的情感打上情感标签,然后在模型中使用 transformer 进行训练。这样一来,隐层向量可以学习到特定模式的旋律所对应的语义标签信息,对谱曲中设定好的语义要求进行旋律上的关联。


另一个问题则是 AI 谱曲和真实演奏之间出现的断层问题。我们知道,很多时候序列的生成时不太好控制和约束,难免会出现异常的音符旋律组合。这样会导致 AI 生成的结果无法在实际中进行演奏。例如,一些音符的组合对于人类而言难以演奏(比如指法无法切换),或者生成的旋律不符合乐理规律等。


对于这样的问题,研究者引入了专家知识,使用规则和人类专家干预进行调整和约束。例如,用乐理规则自动化地对错误的序列进行调整,并引入专家进行评价,让人类作曲家进行调整和改进,使得乐队可以演奏最终的谱好的曲子。


AI+音乐:应用场景广阔


为什么要做 AI 和音乐结合的应用?在平安看来,AI 在音乐场景中有很多应用,有广阔的市场空间待挖掘。


用 AI 辅助歌曲生成,在乐理和文化研究、音乐教育和娱乐消费市场有大量的应用场景。首先,通过 AI 生成特定风格的音乐,有助于研究乐理理论、研究特定地域、文化中的乐曲风格。同时,使用 AI 生成音乐,可以辅助教师教授音乐知识。在娱乐领域,很多短视频和场景有音乐生成的需求,有了 AI,可以针对视频中的语境,或用户对使用场景的需求进行定制,快速生产音乐产品。


平安也已开始尝试将 AI 作曲与营销活动场景相融合,刚刚收官的「平安 920:以 AI 之名」大型综合金融营销活动中,通过个性化的人人作曲游戏,吸引消费者注意力,降低获客门槛,提升主业价值。未来,「AI+音乐」还将结合平安的金融、医疗、智慧城市等生态,探索音乐治疗、音乐生活、音乐教育等多领域的结合情景,可预期,在 AI 音乐的商业价值层面将无可限量。


未来,平安人工智能研究院希望能够进一步探索 AI+音乐的各种应用,让 AI 不仅能够谱曲,还能够作词,并在生成谱子的时候更为智能,更符合真实的演奏环境。AI 交响变奏曲技术负责人表示:「AI 在音乐场景中的应用依然处于『婴儿时期』,我们愿意挑战尖端领域的研究。」


多架构融合谱写变奏交响曲


采访中,平安人工智能研究院相关负责人首先介绍了这一大型献礼项目的创作流程。首先,研究院对国庆献礼进行了讨论,确定使用《我和我的祖国》作为基础曲目,结合《在希望的田野上》等经典曲目,进行整体的创作工作。在此基础上,负责创作的研究者需要为歌曲确定大致的故事脉络走向,为交响乐整体确定故事主题,帮助 AI 约束乐曲变奏过程中的语义信息。


微信图片_20211202014532.jpg


如上所示为首部 AI 交响变奏曲主要生成技术,在海量乐曲数据和体系化的标注下,Transformer 等深度模型能学习到该如何生成变奏段落。但生成的好坏并不能直接判断,因此就需要音乐评价模型与专家规则系统来确定什么是好的变奏曲。下面,让我们具体看看 AVM 模型整体的谱曲过程。


AI 作曲主导,专家评价修改


从算法角度来说,交响变奏曲的谱曲过程类似于对序列数据进行处理和重新生成的过程。输入数据是一段音符序列,而输出则是和输入类似,但进行了修改,和原曲有一定差异的新音符序列。在生成过程中,模型还需要能够根据创作方提出的需求,不断调整模型的参数,使其能够根据要求在生成的序列中融入特定情感语义信息。在完成作品后,乐曲会交由专业人士进行修改和调整,确保符合交响乐的创作规则,具备传承经典性。


尽管谱写乐曲时,模型需要对序列数据进行处理,因此会用到 Seq2Seq 模型。但是,机器之心从平安人工智能研究院了解到,与一般的 Seq2Seq 模型不同,谱写变奏交响乐要求变奏段落以基本段落为基础,并表达不同的情感或语义。这就需要 Seq2Seq 模型同时具有迁移风格的能力。


为了使模型能够达到设计要求,研究院使用了大量的乐曲和带标注的旋律数据训练模型,然后用训练好的模型对《我和我的祖国》等基础曲目进行处理。总共生成了 4 个版本的曲目,交由音乐家进行评价、调优,并最终交由专业的演出乐队进行演奏。


在模型的学习过程中,模型会对音乐作品进行多维度的特征学习,它会融合不同的音乐元素,从而衍生出各段落的音乐主题与对位形式,这就是一种自动变奏技术。评价模型其实后面还会对生成的变奏曲进行评估,从而选择最佳的音乐片段。


自动变奏模型


平安 AI 团队表示,他们对变奏的不同需求使用了不同模型。首先,平安 AI 团队基于 Transformer 架构构建了一种基本变奏模型,然后基于 VAE 架构开发出风格迁移模型,这其中还包括对位算法及节奏量化算法等等。


如下图所示,团队会在生成变奏曲之前预训练 Transformer 编解码器,将长序列音乐主题进行降维表征,让他学会主题的音乐特征。如果将预训练 Transformer 的编码器与解码器分离来看,编码器能将输入信息编码为一个隐向量。这一隐向量包含了音乐主题的特征信息;而解码器则能将隐向量解码为不同的变奏曲。


训练过程中,Transformer 编码器构建的隐向量会被强化学习的 Agent 作为状态表征,用于表示不同的音乐风格与主题特性。Agent 利用 DQN 构建 Q 值函数,用于生成主题低维表征作为 action,这些低维表征之后可以通过 Transformer 解码器生成完整的变奏曲。当前阶段,模型需要通过专家变奏规则库与奖励函数来评价生成变奏曲的好坏,并将好坏程度转换为对模型的奖励反馈给 Agent。Agent 会在奖励的驱使下生成符合预期的变奏曲。


微信图片_20211202014536.jpg


在生成阶段,Transformer 解码器生成的变奏曲会直接经过配器和后期处理,从而创造出真实环境下交响乐的音响效果,这个时候专家就可以对生成的乐曲进行判断,如果达到要求就可以直接输出曲谱。


上面只是简要的整体流程,其中 Transformer、DQN、专家变奏规则库等模块都起到了非常重要的作用。但是对于生成特定风格的变奏段落,预训练的 Transformer 和能加入风格特征的 VAE(变分自编码器)显得非常重要。
Transformer+VAE:AVM 的两大模块


Transformer 在 NLP 中是非常优秀的生成模型,不论是机器翻译还是知识问答,它能够利用自注意力机制都能很好地完成这些任务。而变分自编码器(VAE)在图像生成领域也大展身手,它最优秀的特点是能学习到数据中某些隐藏的特性。比如说,VAE 学习到的隐向量中,某个元素能够表达数据「欢快」的程度,而另一个元素则能够表达「民族风」的倾向程度。


如果能够利用好两个模型的优势,在预训练过程中让它们学会各自的本领,那么模型在谱曲的过程中就能把需要表达的音乐元素融合在一起。


如下所示,左右两图分别为使用 Transformer 和 VAE 构建的自动变奏模型。其中,Transformer 可以很好地编码乐谱这种序列数据,如果我们将基本段落作为源序列,再将标注的变奏段落作为目标序列,那么模型就会自动学会怎样将基本段落变换为变奏段落。


微信图片_20211202014540.jpg


那么,这两个模型该如何合作才能构建更合理的变奏段落呢?平安 AI 团队表示,Transformer 是一种基本变奏模型,它学习到的是基本段落与变奏段落之间的差别,但是,无法按照使用者的需求,将变奏曲中需要表达的各种特性手动地加进去。例如我们希望变奏曲变得更「欢快」一些,同时又带有一些「民族风」特色。


但是 VAE 则正好能学习到这些特征。通过调整 VAE 的隐向量,我们可以为变奏段落赋予同的风格。平安 AI 团队表示,因为整个交响曲反映了从鸦片战争到现在中华民族复兴的奋斗主题,因此不同的音乐元素还需要融合,它们需要通过 VAE 加到标准变奏曲中。


AI 编曲的数据之本


对于机器学习模型,数据是最重要的,要学会生成一般的变奏段落,就要求有海量的基本段落和变奏段落;要学会各种曲调风格特征,就要求有各种音乐标签,从而确定不同的旋律到底代表什么语义标签。平安 AI 团队表示,训练数据使用了超过 70 万首乐曲,包括各类题材的古典音乐作品、红色歌曲,以及民歌等作品。研究者用此数据集进行结构化训练,让机器学习及理解音乐重要特征。


除了乐曲的积累,平安 AI 团队表示,他们还积累了全方位的音乐数据,包括歌词、各种专家规则、多种乐器的音源、人类的声音源等声音相关的数据。只有累积了多领域、全方位的音乐数据,才能将它们组合在一起构建更优秀的模型。


多样化的音乐特征标注


有了海量的音乐数据后,这些乐曲应该经过什么样的标注才能满足训练机器学习模型的要求?


在项目中,平安 AI 团队主要从两个层面对结构化的乐曲进行标注。第一,团队需要确定训练用的乐曲表达了什么样的主题、描述了什么样的内容、呈现了什么样的情绪,并按照确定好的主题内容对对应的旋律进行标注。有了这些标注,才能向模型灌输带有语义标签的音乐数据,创造出描述故事脉络和特定主体情绪的变奏曲,这一层面的标注由音乐家和自动化的程序配合完成。


第二,团队需要对音乐作品进行定量分析,根据分析结果进行数据标注。音乐作品本身的结构化信息主要表现为发展手法、和声、曲式、对位、配器、调性、调式、拍号等八个维度。数据标注遵从音乐理论知识,由音乐理论专家团队标注完成。


现在,了解数据的主要结构后,就能更清晰地理解模型结构了。首先将音乐曲谱转变成特定编码格式的词序列,再将上述标注数据作为条件约束嵌入其中。在生成阶段,可以对这些维度进行操控,比如变调、约束和声序进等。


最后,数据与机器学习的配合是非常强大的,像变奏曲这种需要大量原创性的工作,这项研究工作也表明 ML 拥有强大的能力。虽然目前自动变奏模型还有很多改进方向与可能性,但平安的 AI 变奏交响曲确实证明了 ML 在艺术领域的潜力。



文为机器之心原创,转载请联系本公众号获得授权


相关文章
|
5天前
|
机器学习/深度学习 自然语言处理 算法
AI 世界生存手册(一):从LR到DeepSeek,模型慢慢变大了,也变强了
大家都可以通过写 prompt 来和大模型对话,那大模型之前的算法是怎样的,算法世界经过了哪些比较关键的发展,最后为什么是大模型这条路线走向了 AGI,作者用两篇文章共5.7万字详细探索一下。
AI 世界生存手册(一):从LR到DeepSeek,模型慢慢变大了,也变强了
|
12天前
|
人工智能 Kubernetes jenkins
容器化AI模型的持续集成与持续交付(CI/CD):自动化模型更新与部署
在前几篇文章中,我们探讨了容器化AI模型的部署、监控、弹性伸缩及安全防护。为加速模型迭代以适应新数据和业务需求,需实现容器化AI模型的持续集成与持续交付(CI/CD)。CI/CD通过自动化构建、测试和部署流程,提高模型更新速度和质量,降低部署风险,增强团队协作。使用Jenkins和Kubernetes可构建高效CI/CD流水线,自动化模型开发和部署,确保环境一致性并提升整体效率。
|
6天前
|
机器学习/深度学习 人工智能 并行计算
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。
129 15
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
|
6天前
|
编解码 人工智能 测试技术
CogView4开源发布!智谱AI文生图模型支持任意长度双语输入,汉字生成能力突出,可商用!
今天智谱AI正式发布并开源了最新的图像生成模型——CogView4。
93 10
CogView4开源发布!智谱AI文生图模型支持任意长度双语输入,汉字生成能力突出,可商用!
|
4天前
|
人工智能 机器人 物联网
SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型
SpatialVLA 是由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,赋予机器人强大的3D空间理解能力,支持跨平台泛化控制。
41 7
SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型
|
9天前
|
人工智能 智能设计 物联网
阿里云设计中心携手金鸡电影节青年创作人,用AI技术加速电影工业升级
阿里云设计中心携手金鸡电影节青年创作人,用AI技术加速电影工业升级
|
10天前
|
人工智能 云计算
阿里云AI技术亮相春晚!独家揭秘背后的故事!
阿里云AI技术亮相春晚!独家揭秘背后的故事!
|
10天前
|
机器学习/深度学习 人工智能 监控
鸿蒙赋能智慧物流:AI类目标签技术深度解析与实践
在数字化浪潮下,物流行业面临变革,传统模式的局限性凸显。AI技术为物流转型升级注入动力。本文聚焦HarmonyOS NEXT API 12及以上版本,探讨如何利用AI类目标签技术提升智慧物流效率、准确性和成本控制。通过高效数据处理、实时监控和动态调整,AI技术显著优于传统方式。鸿蒙系统的分布式软总线技术和隐私保护机制为智慧物流提供了坚实基础。从仓储管理到运输监控再到配送优化,AI类目标签技术助力物流全流程智能化,提高客户满意度并降低成本。开发者可借助深度学习框架和鸿蒙系统特性,开发创新应用,推动物流行业智能化升级。
|
10天前
|
人工智能
一图看懂| 2024AI云重点产品技术升级
一图看懂| 2024AI云重点产品技术升级
|
6天前
|
人工智能 自然语言处理 搜索推荐
HiFox AI:一站式 AI 应用平台,多模型快速接入,自由选用
HiFox AI 是一站式AI应用平台,整合了30多个主流AI模型,提供文本生成、对话交流、图片生成等多种应用场景。平台内置1000+预构建AI应用,支持无代码搭建个性化应用和复杂工作流,帮助用户高效处理重复任务,显著提升工作效率。无论是普通用户还是技术专家,都能在HiFox AI上找到适合自己的解决方案,实现“人人都能使用AI”的愿景。

热门文章

最新文章