音色逼真、韵律自然的AI人声克隆限时福利!

简介: 人声克隆大众版正式上线!
声音,为数字人注入灵魂。


2023云栖大会上,阿里云视频云接受了CCTV-2财经频道的采访,分享并演示了如何利用云端智能剪辑,一站式完成数字人渲染及视频精编二创。


正如视频开头所呈现的AI重现演员“原声”,近年来,随着AI技术的发展,越来越多的AI之声也被运用于虚拟数字人、语音社交、咨询播报等场景。


视频:生成式大模型进军视频领域 “数字人”应用场景拓展

(视频来源:CCTV-2 财经频道)


#01 AI之声,如何重现生动


僵硬感、机器感、电音、语流语调不自然......这是过去语音合成技术主要面临的效果难题。


如何实现音色逼真、韵律自然的AI复刻效果?


首先,阿里云视频云技术团队会对用户语料数据的音频进行降噪、修复等预(前)处理,降低语料质量要求,提升语料清晰度和音质;


同时,基于视频云多场景、多来源、多语言的基础物料训练模型,可以模拟对话的自然效果及方言能力,并支持自定义调节情感和色彩;


当音频合成后,再对其进行超分修复等后处理,从而全流程、多维度提升推演合成音频的音质及播报自然度


这也意味着减少了真实声音的录音条件限制,在极少量的语料数据下,最短甚至20句话的简单录制,也能完成声音克隆。



在此基础之上,智能媒体服务人声克隆还充分考虑了自主灵活定制的便捷性、安全性、高效性


在便捷性上,基于视频云多年算法积累对原声质量提升预处理,用户收集日常播报语料即可形成训练素材,以保证训练语料的情绪场景贴合度和声音自然度。


在内容安全性上,用户可通过按系统设定的文案录制从流程上限制输入的内容,或自由发挥再叠加定向录制、声纹比对的方式,规避侵权风险


在当完成素材录制后,即会高效生成捕捉了重点声纹特征的克隆人声Code,可快速投入语音合成应用。


#02 高保真还原音色,满足各类场景


当前人声克隆定制服务,分为高级定制版、轻量定制版和基础版三档定制方案。


l 基础版:


在线可用,系统自动分配20句文案简单录制,覆盖故事、交互、导航三大细分场景,便捷快速复刻人声。通过用户上传的录音内容,30min即可快速、低成本捕捉关键声纹特征克隆人声,达到用户级娱乐效果。基础版适用于快速捕捉典型声纹特征的互娱应用。


基础版-20句语料录制界面及步骤


l 大众版(轻量定制):


自助提交丰富、清晰、高质量的语音物料,融合音质检测、音频降噪和数字克隆的多维度算法,基于15-30min有效音频,即可高保真还原音色。同时还可随着使用需求不同,指定音色情绪,满足不同应用场景的声音灵活适配。大众版(轻量定制)适用于大众互联网级高清人声应用。(NEW 推荐)


原始训练声音(截取)

声音克隆结果

(人声克隆大众版效果)


l 高级定制版:


阿里云提供专业的录制导师、训练算法和结果调优的全流程服务,针对单个人声进行训练算法定制,预期可达到广电传媒级的拟真效果,实现个性化高标准人声还原。高级版适用于广电传媒级超高清人声应用。


#03 产品力与生动力


当完成人声克隆定之后,不仅可以通过文字转语音TTS,智能生成配音。也可通过文字驱动的方式,完成数字人视频合成。


阿里云「云端智能剪辑」提供专业的音视频剪辑(多层级元素、专业字幕、转场过渡、特效滤镜)能力及完善的视频模版工具。


浏览器剪辑界面


通过浏览器非线性编辑器或AE制作模版库,将复刻后的声音结合数字人自动化渲染,可实现数字人名片、数字人慕课等标准模版组合方案,满足短视频、教学视频、广告宣传等各类数字人视频制作的要求。


#04 打造一个“声动”数字人



“限时福利”倒计时!在活动有效期内发起定制数字人和人声克隆大众版(轻量定制)服务,即可享受终身免费续期的特权!


活动有效期

限时福利活动有效期为2023年12月31日24点前请在规定期内完成数字人定制任务提交操作。


适用平台

当前限时福利仅适用于通过阿里云智能媒体服务发起数字人定制的用户。


活动开始前已定制的数字人是否适用当前活动?

适用。只要在活动结束时间之前发起定制任务,均满足活动条件,自动享受福利特权。


福利页详情链接:https://www.aliyun.com/activity/cdn/avatar_free_renewal_activity


欢迎加入官方答疑「钉钉群」咨询交流:48335001108

相关文章
|
6月前
|
人工智能 搜索推荐
阿里语音AI提供了个性化人声定制功能
【2月更文挑战第24天】阿里语音AI提供了个性化人声定制功能
664 2
|
2月前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
6月前
|
人工智能 数据安全/隐私保护
Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会
【4月更文挑战第27天】OpenAI公司的新型AI工具Sora能根据文字提示生成超逼真视频,引发关注。尽管已有类似产品,如Runway的Gen-2和谷歌的Lumiere,Sora以其高质量生成效果领先。该技术的进步可能导致2024年全球政治格局的颠覆,同时带来虚假信息的挑战。OpenAI已组建“红队”评估风险,但虚假视频识别仍是难题。尽管有水印解决方案,其有效性尚不确定。Sora在教育、医疗和科研等领域有潜力,但也对创意产业构成威胁。
83 2
|
6月前
|
人工智能 自然语言处理 API
[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部
微软VASA-1项目通过单张肖像照片和语音音频,生成具有精确唇音同步、栩栩如生的面部行为和自然头部运动的超逼真对话脸部视频。该技术展现了在实时效率、分布外泛化和解耦能力方面的显著优势,并强调了负责任的AI开发和应用的重要性。
[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部
|
6月前
|
人工智能 缓存 自然语言处理
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!
884 1
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
Python进行AI声音克隆的端到端指南
人工智能语音克隆是一种捕捉声音的独特特征,然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音,还可以创造全新的声音。它是一种彻底改变内容创作的工具,从个性化歌曲到自定义画外音,开辟了一个超越语言和文化障碍的创意世界。
228 0
|
机器学习/深度学习 人工智能 Python
深度学习AI克隆人声模型
深度学习AI克隆人声模型
209 0
|
人工智能 云栖大会
限时免费领票!来云栖大会,探讨AI驱动下的企业办公数字化转型
10月31日至11月2日,2023云栖大会将在杭州云栖小镇举办。两场主论坛、500+热点话题、1000+行业实干家40000㎡科技展、72小时沉浸式科技体验……期待与你见面! 今年,阿里巴巴企业智能将带来在“人、财、法、事、物、场”各领域的数字化实践及AI技术创新。邀您前来,一起探讨AI 驱动下的企业办公数字化转型!
下一篇
无影云桌面