AI助力语音克隆,人和自己“对话”的障碍在哪?

简介: 如果有一天,你可以将你的声音通过人工智能技术“克隆”出来,而且你还能和“你”进行各种对话,你是否愿意尝试?

如果有一天,你可以将你的声音通过人工智能技术“克隆”出来,而且你还能和“你”进行各种对话,你是否愿意尝试?


这个场景并不遥远,不久前,“AI First”的谷歌表示,其最新版本的人工智能语音合成系统——Tacotron2合成出来的语音几乎和真人声音一模一样。它拥有两个深度神经网络,第一个能够将文本转化为频谱图,第二个则负责将频谱图生成相应的音频。


而麻省理工评论则认为百度的技术则更进一步,百度在最近发布的新论文中表示,该技术只要通过一个半小时的语音数据的学习,就能“克隆”出原对象的声音。虽然以前百度的“Deep Voice”也能够生成语音,但让生成出来的语音附带不同的语言特色正是语音生成的一大突破,而且它除了能“克隆”之外,还能对该声音的性别或口音进行更改,甚至还能赋予该克隆声音一些简单的情感。


语音克隆技术是什么?又能做些什么?



语音合成的技术有三种,但只有AI技术才能称为语音克隆

最早的语音合成技术通过预先录制好的字词、短句来实现的,把各个部分串成一行,以此产生完整的句子。生活中各种服务热线的自助语音系统就是用这种方式实现的,所以会经常存在卡顿,音色不一样等问题,语气也很冰冷。


第二种手段虽然能够使语音更加自然,但其中也需要大量的人工处理,首先是制作语音库,确定音色、风格、特性、角色等要求后,投入音库生产线,设计录音脚本、训练录音资源、进行效果优化,在输出的时候还要进行各类语言处理,包括文本规整、词的切分,然后是韵律处理,为其划出音段特征,如音高、音长和音强等等,使合成的语音给人的感觉更加自然些。


但这类合成系统因为进行韵律预测处理方面的工作量巨大、所以也存在表现能力不足等问题,如合成语音对不同情感的表达会不够恰当,使得合成语音听起来缺乏人情味。而语音合成的技术发展不仅要让说话的声音达到真人水准,也应当在情感表达方面有所突破,使语音交互带有情感,达到更好的交流体验。


最近爆出的百度Deep Voice技术,则是通过深度学习技术实现“语音克隆”的,通过真实语音的训练,能在“听”的过程中学会每个人说话时字词、音位和句子的发音特点,并通过模仿这个人声音中的情感和语调,“说”出全新的语句;“一听一说”之间,整个过程基本不用人工干预,深度学习技术可以自行完成所有工作。


具体来说,百度的研究人员是通过两种具体的方法来实现的:说话人适应(speaker adaption)和说话人编码(speaker encoding)。它们可以只用最少的音频数据来完成任务,并且在深度语音系统中,即使处于一个多扬声器模型,也不会降低质量。


其中“说话人适应”是使用多个克隆样本,基于反向传播的优化方法对多个说话人语音生成模型做精细调节。这个方法可以只作用于低维度的说话人嵌入,或者作用于整个模型;在低纬度的嵌入时,每个说话人所需的参数量比较少,而且需要较长的克隆时间,生成语音的质量也会差一些。


其中“说话人编码”则需要训练一个单独的模型,用它直接从语音样本中推断出一个新的嵌入数据,然后再把这个嵌入数据用在多个讲话人语音生成的模型中。而且这个方法还带有时域和频域的处理模块,可以从音频样本分析中提取到有关说话人的身份信息,然后用注意力模块把各种信息以最优的方式结合起来。这个方法的好处是克隆耗时少、标明说话人信息所需要的参数少,使得这种方法在输入资源有限的场景中也能够使用。


0bda84c428836bfe45bdebd6f9249d28.jpg




语音克隆的功与过

在人机交互的个性化场景中,研究人员预期语音克隆可能会有很重要的作用,如可以用来订制个人AI助手、读书音频以及残疾人语音系统等,且对有语言障碍人来说,这个程序能帮助他们练习发声,使他们更容易与人交流,这种过程就像是在和一个善解人意的朋友在聊天一样,可能会成为一个重要的社交工具。


而在心理医疗领域,如果能复原出逝者的声音,这对于痛失亲人后在心理上造成了创伤的人们来说,也无疑是巨大的安慰。


不过语音克隆也会带来一些麻烦,它可能会被用来对公众人物进行恶意攻击;也可能会使声纹识别形同虚设,因为据《新科学家》报道,使用人工智能技术做出声音识别软件,在测试中,准确率已经超过了95%;也可能破坏录音作为法律证据的可信度;还可能会用来假冒他人身份,成为语音诈骗的帮凶。它预示着未来的声音可能会像照片一样,可以很容易地进行伪造。


但克隆出的人类声音,这其中还是会有些细微差别,经不起详细推敲——取证专家可能会通过分析语音中的数字签名,从而证明其为合成语音;而研究人员也开始在研究一种“声纹”系统,以期其能很容易的分辨出原声和生成的语音;不过语音克隆还是存在着很多隐患,因为在普通的生活当中,足以造成相当严重的误导性效果。



要实现“完美”的语音克隆,最大的一道坎在哪?

智能相对论(微信ID:aixdlun)认为,完美的语音克隆,也应该能够克隆出说话人携带的情感,而不仅仅是音色等表象的元素,就像是这个声音拥有自己的灵魂。而目前语音克隆能够进行的情感表达,更多的是研究人员修改完成的,而且还需要对各类情感进行标注


谷歌的Tacotron2系统也还只能进行模式化的情感表达,如根据输入文本的标点符号的不同而在语气上有所区分;在读大写单词时加重语气等。


百度和谷歌的语音合成技术暂时不能达到自行合成情感,这也是语音克隆其技术本身所限,要实现合成出的每一句话有其恰当的情感,这里面有情感识别、情感自动标注、、语气调整等大量的数据和工程难度,费用和技术也暂时难以逾越。


而更进一步,想要和机器进行有情感语音的交互就更加困难了,因为这并不是单一技术所能完成的,它除了能输出情感之外,还必须要求自然语言处理技术能够识别出人类表达中的各种情感,以此作为回应的前提,而这已经超出了语音克隆的技术范围。


在语音交互中,让机器能够自然、顺畅的说话是人机交互的一大要求,表现力、音质、复杂度和自然度一直是语音合成所追求的。


而随着AI技术的发展,语音交互的音质、流畅度、自然度都得到了很大的提高,但在表现力方面依旧是其最大的痛点,不过随着各大厂商的持续发力,未来使机器也能像朗读者一样,抑扬顿挫、情感起伏、拿捏到位也不是梦想。


相关文章
|
21天前
|
人工智能 算法 搜索推荐
AI大模型发展对语音直播交友系统源码开发搭建的影响
近年来,AI大模型技术的迅猛发展深刻影响了语音直播交友系统的开发与应用。本文探讨了AI大模型如何提升语音交互的自然流畅性、内容审核的精准度、个性化推荐的智能性以及虚拟主播的表现力,并分析其对开发流程和用户体验的变革。同时,展望了多模态交互、情感陪伴及元宇宙社交等未来发展方向,指出在把握机遇的同时需应对数据安全、算法偏见等挑战,以实现更智能、安全、有趣的语音直播交友平台。
|
22天前
|
人工智能 自然语言处理 JavaScript
Aider:27.6K Star!这个终端AI编程神器能用语音改代码,自动生成Git记录并提交,接入DeepSeek斩获编程基准最高分
Aider 是一款基于命令行的开源 AI 编程助手,支持多种编程语言和主流 LLM,可自动完成代码修改、Git 提交及语音交互。
117 1
|
26天前
|
存储 人工智能 自然语言处理
FoloUp:比HR更懂岗位需求!开源语音面试平台爆火:1份岗位需求生成100问,语音AI追问逻辑漏洞
FoloUp 是一个开源的 AI 语音面试平台,能够根据职位描述自动生成定制化的面试问题,并与候选人进行自然对话式的语音面试,帮助企业高效招聘。
98 9
FoloUp:比HR更懂岗位需求!开源语音面试平台爆火:1份岗位需求生成100问,语音AI追问逻辑漏洞
|
2月前
|
人工智能 自然语言处理 API
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。
1108 5
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
|
2月前
|
Web App开发 机器学习/深度学习 人工智能
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
293 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
|
2月前
|
人工智能 JavaScript 前端开发
一段 JavaScript 代码,集成网站AI语音助手
根据本教程,只需通过白屏化的界面操作,即可快速构建一个专属的AI智能体。
|
2月前
|
人工智能 数据处理 语音技术
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
Pipecat 是一个开源的 Python 框架,专注于构建语音和多模态对话代理,支持与多种 AI 服务集成,提供实时处理能力,适用于语音助手、企业服务等场景。
149 23
Pipecat实战:5步快速构建语音与AI整合项目,创建你的第一个多模态语音 AI 助手
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
RealtimeSTT 是一款开源的实时语音转文本库,支持低延迟应用,具备语音活动检测、唤醒词激活等功能,适用于语音助手、实时字幕等场景。
407 18
三行代码实现实时语音转文本,支持自动断句和语音唤醒,用 RealtimeSTT 轻松创建高效语音 AI 助手
|
3月前
|
人工智能 自然语言处理 API
Mathtutor on Groq:AI 数学辅导工具,实时计算并展示解题过程,支持通过语音提出数学问题
Mathtutor on Groq 是一款基于 Groq 架构的 AI 数学辅导工具,支持语音输入数学问题,实时计算并渲染解题过程,适用于代数、微积分等领域的学习和教学辅助。
302 5
Mathtutor on Groq:AI 数学辅导工具,实时计算并展示解题过程,支持通过语音提出数学问题
|
3月前
|
人工智能 Serverless 视频直播
活动实践 | AI智能体实时语音互动
AI智能体实时语音互动方案提供端到端的实时音频交互,用户通过终端SDK与云端AI智能体进行音频通话。AI智能体接收音频输入,依据预定义工作流处理并生成响应,通过ARTC网络推送结果。该方案支持灵活编排AI组件如语音转文字、大语言模型等,确保高可用、低延迟的通信体验。用户可轻松创建和管理智能体及实时工作流,实现高效对话,并可通过示例网站体验功能。

热门文章

最新文章