音色逼真、韵律自然的AI人声克隆限时福利!

简介: 人声克隆大众版正式上线!
声音,为数字人注入灵魂。


2023云栖大会上,阿里云视频云接受了CCTV-2财经频道的采访,分享并演示了如何利用云端智能剪辑,一站式完成数字人渲染及视频精编二创。


正如视频开头所呈现的AI重现演员“原声”,近年来,随着AI技术的发展,越来越多的AI之声也被运用于虚拟数字人、语音社交、咨询播报等场景。


视频:生成式大模型进军视频领域 “数字人”应用场景拓展

(视频来源:CCTV-2 财经频道)


#01 AI之声,如何重现生动


僵硬感、机器感、电音、语流语调不自然......这是过去语音合成技术主要面临的效果难题。


如何实现音色逼真、韵律自然的AI复刻效果?


首先,阿里云视频云技术团队会对用户语料数据的音频进行降噪、修复等预(前)处理,降低语料质量要求,提升语料清晰度和音质;


同时,基于视频云多场景、多来源、多语言的基础物料训练模型,可以模拟对话的自然效果及方言能力,并支持自定义调节情感和色彩;


当音频合成后,再对其进行超分修复等后处理,从而全流程、多维度提升推演合成音频的音质及播报自然度


这也意味着减少了真实声音的录音条件限制,在极少量的语料数据下,最短甚至20句话的简单录制,也能完成声音克隆。



在此基础之上,智能媒体服务人声克隆还充分考虑了自主灵活定制的便捷性、安全性、高效性


在便捷性上,基于视频云多年算法积累对原声质量提升预处理,用户收集日常播报语料即可形成训练素材,以保证训练语料的情绪场景贴合度和声音自然度。


在内容安全性上,用户可通过按系统设定的文案录制从流程上限制输入的内容,或自由发挥再叠加定向录制、声纹比对的方式,规避侵权风险


在当完成素材录制后,即会高效生成捕捉了重点声纹特征的克隆人声Code,可快速投入语音合成应用。


#02 高保真还原音色,满足各类场景


当前人声克隆定制服务,分为高级定制版、轻量定制版和基础版三档定制方案。


l 基础版:


在线可用,系统自动分配20句文案简单录制,覆盖故事、交互、导航三大细分场景,便捷快速复刻人声。通过用户上传的录音内容,30min即可快速、低成本捕捉关键声纹特征克隆人声,达到用户级娱乐效果。基础版适用于快速捕捉典型声纹特征的互娱应用。


基础版-20句语料录制界面及步骤


l 大众版(轻量定制):


自助提交丰富、清晰、高质量的语音物料,融合音质检测、音频降噪和数字克隆的多维度算法,基于15-30min有效音频,即可高保真还原音色。同时还可随着使用需求不同,指定音色情绪,满足不同应用场景的声音灵活适配。大众版(轻量定制)适用于大众互联网级高清人声应用。(NEW 推荐)


原始训练声音(截取)

声音克隆结果

(人声克隆大众版效果)


l 高级定制版:


阿里云提供专业的录制导师、训练算法和结果调优的全流程服务,针对单个人声进行训练算法定制,预期可达到广电传媒级的拟真效果,实现个性化高标准人声还原。高级版适用于广电传媒级超高清人声应用。


#03 产品力与生动力


当完成人声克隆定之后,不仅可以通过文字转语音TTS,智能生成配音。也可通过文字驱动的方式,完成数字人视频合成。


阿里云「云端智能剪辑」提供专业的音视频剪辑(多层级元素、专业字幕、转场过渡、特效滤镜)能力及完善的视频模版工具。


浏览器剪辑界面


通过浏览器非线性编辑器或AE制作模版库,将复刻后的声音结合数字人自动化渲染,可实现数字人名片、数字人慕课等标准模版组合方案,满足短视频、教学视频、广告宣传等各类数字人视频制作的要求。


#04 打造一个“声动”数字人



“限时福利”倒计时!在活动有效期内发起定制数字人和人声克隆大众版(轻量定制)服务,即可享受终身免费续期的特权!


活动有效期

限时福利活动有效期为2023年12月31日24点前请在规定期内完成数字人定制任务提交操作。


适用平台

当前限时福利仅适用于通过阿里云智能媒体服务发起数字人定制的用户。


活动开始前已定制的数字人是否适用当前活动?

适用。只要在活动结束时间之前发起定制任务,均满足活动条件,自动享受福利特权。


福利页详情链接:https://www.aliyun.com/activity/cdn/avatar_free_renewal_activity


欢迎加入官方答疑「钉钉群」咨询交流:48335001108

相关文章
|
人工智能 搜索推荐
阿里语音AI提供了个性化人声定制功能
【2月更文挑战第24天】阿里语音AI提供了个性化人声定制功能
1309 2
|
3月前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
905 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
10月前
|
人工智能 API 语音技术
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。
1392 43
EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控
|
10月前
|
数据采集 机器学习/深度学习 人工智能
SongGen:三秒克隆音色!开源AI一键生成专业级歌曲,创作人必备神器
SongGen是由上海AI Lab、北京航空航天大学和香港中文大学联合推出的单阶段自回归Transformer模型,能够通过文本生成高质量歌曲,支持混合模式和双轨模式,显著提升生成歌曲的自然度和人声清晰度。
1098 3
SongGen:三秒克隆音色!开源AI一键生成专业级歌曲,创作人必备神器
|
11月前
|
机器学习/深度学习 人工智能 机器人
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。
1130 6
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
|
11月前
|
人工智能
逼真到离谱!1000个人类克隆进西部世界,AI相似度85%细节太炸裂
《生成式代理:1000人的模拟》由斯坦福大学等机构完成,利用AI技术成功模拟了1000个真实个体的态度和行为,准确率达85%。研究结合大型语言模型与定性访谈数据,旨在为社会科学研究提供新工具,减少偏见,提升公平性。论文还探讨了隐私和伦理问题,并强调了代理的局限性。
264 13
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
人工智能 数据安全/隐私保护
Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会
【4月更文挑战第27天】OpenAI公司的新型AI工具Sora能根据文字提示生成超逼真视频,引发关注。尽管已有类似产品,如Runway的Gen-2和谷歌的Lumiere,Sora以其高质量生成效果领先。该技术的进步可能导致2024年全球政治格局的颠覆,同时带来虚假信息的挑战。OpenAI已组建“红队”评估风险,但虚假视频识别仍是难题。尽管有水印解决方案,其有效性尚不确定。Sora在教育、医疗和科研等领域有潜力,但也对创意产业构成威胁。
280 2
|
人工智能 自然语言处理 API
[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部
微软VASA-1项目通过单张肖像照片和语音音频,生成具有精确唇音同步、栩栩如生的面部行为和自然头部运动的超逼真对话脸部视频。该技术展现了在实时效率、分布外泛化和解耦能力方面的显著优势,并强调了负责任的AI开发和应用的重要性。
[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部