视频创作SAAS产品介绍

简介: 本文摘自虚拟数字人新品发布会中王朝的发言

——望朝

机器智能技术-PD

一、产品介绍

image.png

目前的 SaaS 产品包含智能直播间视频创作、数字人视频客服、手语翻译等。今天我们重点来介绍一下虚拟数字人视频创作这个SaaS产品。

虚拟数字人视频创作是一项离线渲染数字人并且生成视频的技术应用方案,能够支持 2D 真人形象的离线渲染和 3D 虚拟数字人形象的离线渲染。方案会提供简约便捷的 web 网页操作界面,可以实现输入文本驱动数字人形象生成视频下载视频内容等能力

基于数字人开放平台的技术能力,以计算机视觉、语音合成、智能决策等底层技术为基础,并结合应用了唇形驱动、动作拼接等算法技术能力,帮助创作者快速进行内容创作,广泛适用于多媒体播报、知识教育和内容宣导等场景。

比如传媒行业,国家广电总局规划指出,需要推动虚拟主持人应用在新闻播报、天气预报、综艺科教等节目的生产,提高播的效率和智能化水平。又比如教育行业老师录制讲解视频通常需要耗费大量时间和人力成本,新媒体运营也需要低成本生产视频,投放到各个短视频平台。而产品能够帮助客户高效低成本完成视频创作。

二、产品架构图

image.png

产品整体架构分为三个部分,算法层、资产层以及应用层。

算法层整合了图像视觉、语音智能以及决策智能三大能力,包括 TTA TTF 和 TTS 等。在之上搭建了资产层能够提供预置的 2D 和 3D 数字人资产,同时给予用户自定义数字人形象的能力。应用层提供了 2D 和 3D 数字视频的应用,通过输入文本和音频产生视频,同时也支持用户在页面中进行数字人形象、音色、字幕背景的配置以及 TTS 和动作的编辑,最大限度保证用户的创作自由度。

三、2D数字人视频

image.png

平台内置 2D 真人形象,同时也支持用户自定义 2D 真人形象。用户可以自行安排真人模特,按照标准化的拍摄流程录制素材,即可生成属于自己的 2D 数字人形象。

此外,平台提供了一套标准的动作录制参考,用户也可以录制专属于自己的特殊动作,打造属于自己的独一无二的数字人形象。

平台提供了多种设置入口,可以对背景数字人大小的位置、音色动作等进行设置。例如通过 TTS 编辑器可以对合成语音的发音进行调整比如多音字的调整数值念法的调整;也可以在预览页面上直接缩放数字人大小或进行移动等用户可以自主灵活进行视频创作。

通过唇形驱动以及肢体驱动的技术,得到的视频播报流畅自然富有感染力。平台也支持导出透明背景视频,用户可以在更专业的剪辑软件中添加图片、音乐以及动画效果等。

2D 数字同时也支持输入音频进行驱动。对于在各个平台都已经有过透出的 IP 真人形象,用户希望通过平台减轻真人的录制成本,但又希望保持声音和形象的一致。通过能力,真人仅需要录制播报频,即可驱动自己的数字人形象播报,保持了 IP 的一致性。

image.png

虚拟数字人视频创作技术优势有如下三个方面:

第一,算法模型预先完成训练,新增 2D 真人形象时无需复杂操作,仅需要录制少量素材即可快速应用到生产中。

第二,动作插入时,算法会提供平滑过渡技术,使得动作更加自然流畅。

第三,目前平台支持生产 1080p 视频,能够细腻呈现人物的唇形以及面部细节,满足用户各类的投放需求。

三、3D数字人视频

image.png

3D 数字人视频生成整合了三大技术,分别为文本生成动作、文本生成表情以及语音合成。

TTA 和 TTF 对文本进行语义分析,能够驱动数字人做出符合文本语义的表情和动作而 TTS 使数字人能够像真人一样表达自。通过以上三个技术,数字人拥有自然流畅的动作、生动丰富的面部表情以及真实饱满的语音表达。

image.png

目前平台提供了 A 级和 B 级两种类型的 3D 数字形象A 级美型形象更接近于真人,细节生动表现力强B 级卡通型形象驱动灵活,生动活泼。平台提供了各类服饰妆容,用户可以对数字人进行服化道的配置,从而得到 100 多种不同形象。

同时,平台也支持 3D 模型的自定义只需按照平台的制作规范制作 3D 模型,即可无缝导入平台进行创作。

在声音方面,关联了阿里云语音资源库,提供 30 多种声音,包括多情感音色平台通过文字即可生成视频,对比于传统的拍摄效率大幅提升。

相比于 2D 数字,3D数字人的基本表现会更加丰富,能够支持不同的角度,比如正面左侧 45 度右侧45 画面呈现。3D 数字人视频也可以导出透明背景的视频,供用户导入更专业的剪辑软件进行高阶创作。

五、操作视频演示

image.png

平台提供了 SaaS 应用,点击数字人应用下的数字人视频 tab,即可进行视频创作。

输入一段文本,选择 2D 或 3D 数字人的形象声音,并进行画面设置,可以让数字人根据文本进行播报,视频生成后还可进行下载。

image.png

具体的操作流程如下:点击新建视频进入 2D 视频创作界面,填视频名称,输入要播报的文本或者上传音频。算法会根据文字内容识别读音并播报,同时也可以通过多音文本数值等 tab 来进行细微调整。右上方选择数字人形象、选择声音以及进行画面设置,最后点击生成视频。

image.png

完成后会自动跳转到 2D 视频管理页面,视频生成后即可观看以及下载。需要注意的是,平台生成视频保存1个月。

3D 数字人也可以进行视频创作操作,操作流程与 2D 数字人一致。

六、典型客户应用

image.png

客户A:为短视频平台一真人IP,在各短视频平台上均有账号,粉丝数达400万,主要是科普内容的介绍。由于IP打造之后,本人受邀参与各种活动,拍摄的时间较少,又因为需要保证IP的一致性,因此使用了我们音频驱动的2D数字人视频生成,在前期进行人物的视频录制后,仅需在空闲时间录音,上传到平台,即可驱动自己的真人形象进行播报,大幅减少拍摄的时间和人力成本

客户B:为一疾病科普创新项目,希望对潜在发病人群进行教育和宣导,以预防疾病的发生希望录制一套医生的形象,通过输入文本来制作一整套科普教育节目,通过更换背景、Logo以及当地相关数据的介绍来制作不同省市、乡镇的版本,输出到各个基层卫生院进行宣导,能过通过背景、Logo的更换来拉近与当地居民的亲切感。

客户C:为一教育机构,线上线下均有教学课程,其中一些知名讲师经常承接团队培训课程,教学压力比较大,对于一些互动性较少的线上课程,通过2D真人数字人的视频生成来完成视频的录制以减轻讲师负担。

 

相关文章
|
12月前
|
存储 Kubernetes NoSQL
【SaaS架构】构建 SaaS 产品所需的技术——第一部分
【SaaS架构】构建 SaaS 产品所需的技术——第一部分
|
存储 测试技术 BI
SaaS创业:这一篇文章让你搞懂SaaS产品的数据库架构设计!
在SaaS产品平台,本质上是多租户订阅使用的服务模式,因此在技术架构实现层面,需要对不同租户的数据库存储(甚至包括文件存放)进行隔离和划分。那具体怎么设计,既能满足前期快速MVP版本迭代,又能符合未来更多客户、更多海量数据增长而不是系统崩溃卡顿呢?
SaaS创业:这一篇文章让你搞懂SaaS产品的数据库架构设计!
有哪些免费好用的优质的协同办公类SaaS产品推荐?
随着互联网技术的不断发展,越来越多的企业开始采用多人协同办公软件,以提高团队的工作效率和协同能力。以下是几款免费且好用的优质的协同办公类SaaS产品推荐
有哪些免费好用的优质的协同办公类SaaS产品推荐?
|
存储 SQL 弹性计算
飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute | 学习笔记(五)
快速学习飞天大数据产品价值解读— SaaS 模式云数据仓库 MaxCompute
201 0
|
存储 分布式计算 运维
飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二)| 学习笔记
快速学习飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二),介绍了飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二)系统机制, 以及在实际应用过程中如何使用。
359 0
飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二)| 学习笔记
|
机器学习/深度学习 存储 分布式计算
Saas 模式云数据仓库 MaxCompute 产品 价值解读|学习笔记
快速学习 Saas 模式云数据仓库 MaxCompute 产品 价值解读
242 0
|
数据挖掘 BI
一些有关SaaS产品的平台与双边性的想法
数据产品里也藏着生产者与消费者,如何让两者更好地协同?
140 0
一些有关SaaS产品的平台与双边性的想法
|
SQL 分布式计算 运维
企业级 SaaS 模式云数据仓库MaxCompute实战案例|阿里云产品内容精选(二十八)
本文给大家推荐一下关于MaxCompute的实战案例及相关探索。
|
SQL 分布式计算 NoSQL
SaaS模式云数据仓库Maxcompute使用指南|阿里云产品内容精选(十八)
本文主要推荐阿里云大数据计算服务MaxCompute使用指南。
|
存储 弹性计算 运维
云原生数据仓库AnalyticDB MySQL 助力蜂创提升营销SAAS平台和CDP产品性能
阿里云AnalyticDB满足了蜂创营销SAAS平台海量数据实时分析秒级返回的诉求,弹性模式的冷热存储分离能力帮助他们节约了很大的数据存储成本。
369 0
云原生数据仓库AnalyticDB MySQL 助力蜂创提升营销SAAS平台和CDP产品性能