——望朝
机器智能技术-PD
一、产品介绍
目前的 SaaS 产品包含智能直播间、视频创作、数字人视频客服、手语翻译等。今天我们重点来介绍一下虚拟数字人视频创作这个SaaS产品。
虚拟数字人视频创作是一项离线渲染数字人并且生成视频的技术应用方案,能够支持 2D 真人形象的离线渲染和 3D 虚拟数字人形象的离线渲染。方案会提供简约便捷的 web 网页操作界面,可以实现输入文本、驱动数字人形象生成视频、下载视频内容等能力。
基于数字人开放平台的技术能力,以计算机视觉、语音合成、智能决策等底层技术为基础,并结合应用了唇形驱动、动作拼接等算法技术能力,帮助创作者快速进行内容创作,广泛适用于多媒体播报、知识教育和内容宣导等场景。
比如传媒行业,国家广电总局规划指出,需要推动虚拟主持人应用在新闻播报、天气预报、综艺科教等节目的生产,提高制播的效率和智能化水平。又比如教育行业老师录制讲解视频通常需要耗费大量时间和人力成本,新媒体运营也需要低成本地生产视频,投放到各个短视频平台。而该产品能够帮助客户高效低成本地完成视频创作。
二、产品架构图
产品整体架构分为三个部分,算法层、资产层以及应用层。
算法层整合了图像视觉、语音智能以及决策智能三大能力,包括 TTA、 TTF 和 TTS 等。在此之上搭建了资产层,能够提供预置的 2D 和 3D 数字人资产,同时给予用户自定义数字人形象的能力。应用层提供了 2D 和 3D 数字视频的应用,通过输入文本和音频产生视频,同时也支持用户在页面中进行数字人形象、音色、字幕背景的配置以及 TTS 和动作的编辑,最大限度地保证用户的创作自由度。
三、2D数字人视频
平台内置 2D 真人形象,同时也支持用户自定义 2D 真人形象。用户可以自行安排真人模特,按照标准化的拍摄流程录制素材,即可生成属于自己的 2D 数字人形象。
此外,平台提供了一套标准的动作录制参考,用户也可以录制专属于自己的特殊动作,打造属于自己的独一无二的数字人形象。
平台提供了多种设置入口,可以对背景、数字人大小的位置、音色、动作等进行设置。例如通过 TTS 编辑器可以对合成语音的发音进行调整,比如多音字的调整、数值念法的调整;也可以在预览页面上直接缩放数字人大小或进行移动等,用户可以自主灵活进行视频创作。
通过唇形驱动以及肢体驱动的技术,得到的视频播报流畅自然、富有感染力。平台也支持导出透明背景视频,用户可以在更专业的剪辑软件中添加图片、音乐以及动画效果等。
2D 数字同时也支持输入音频进行驱动。对于在各个平台都已经有过透出的 IP 真人形象,用户希望通过平台减轻真人的录制成本,但又希望保持声音和形象的一致。通过该能力,真人仅需要录制播报音频,即可驱动自己的数字人形象播报,保持了 IP 的一致性。
虚拟数字人视频创作的技术优势有如下三个方面:
第一,算法模型预先完成训练,新增 2D 真人形象时无需复杂操作,仅需要录制少量素材即可快速应用到生产中。
第二,动作插入时,算法会提供平滑的过渡技术,使得动作更加自然流畅。
第三,目前平台支持生产 1080p 视频,能够细腻呈现人物的唇形以及面部细节,满足用户各类的投放需求。
三、3D数字人视频
3D 数字人视频生成整合了三大技术,分别为文本生成动作、文本生成表情以及语音合成。
TTA 和 TTF 对文本进行语义分析,能够驱动数字人做出符合文本语义的表情和动作,而 TTS 使数字人能够像真人一样表达自我。通过以上三个技术,数字人拥有自然流畅的动作、生动丰富的面部表情以及真实饱满的语音表达。
目前平台提供了 A 级和 B 级两种类型的 3D 数字形象。A 级美型形象更接近于真人,细节生动表现力强;B 级卡通型形象驱动灵活,生动活泼。平台提供了各类服饰妆容,用户可以对数字人进行服化道的配置,从而得到 100 多种不同形象。
同时,平台也支持 3D 模型的自定义,只需按照平台的制作规范制作 3D 模型,即可无缝导入平台进行创作。
在声音方面,关联了阿里云语音资源库,提供 30 多种声音,包括多情感音色。平台通过文字即可生成视频,对比于传统的拍摄效率大幅提升。
相比于 2D 数字,3D数字人的基本表现会更加丰富,能够支持不同的角度,比如正面、左侧 45 度、右侧45 度等画面呈现。3D 数字人视频也可以导出透明背景的视频,供用户导入更专业的剪辑软件进行高阶创作。
五、操作视频演示
平台提供了 SaaS 应用,点击数字人应用下的数字人视频 tab,即可进行视频创作。
输入一段文本,选择 2D 或 3D 数字人的形象声音,并进行画面设置,可以让数字人根据文本进行播报,视频生成后还可进行下载。
具体的操作流程如下:点击新建视频,进入 2D 视频创作界面,填写视频名称,输入要播报的文本或者上传音频。算法会根据文字内容识别读音并播报,同时也可以通过多音、文本、数值等 tab 来进行细微调整。右上方选择数字人形象、选择声音以及进行画面设置,最后点击生成视频。
完成后会自动跳转到 2D 视频管理页面,视频生成后即可观看以及下载。需要注意的是,平台生成视频可保存1个月。
3D 数字人也可以进行视频创作操作,操作流程与 2D 数字人一致。
六、典型客户应用
客户A:为短视频平台一真人IP,在各短视频平台上均有账号,粉丝数达400万,主要是科普内容的介绍。由于IP打造之后,本人受邀参与各种活动,拍摄的时间较少,又因为需要保证IP的一致性,因此使用了我们音频驱动的2D数字人视频生成,在前期进行人物的视频录制后,仅需在空闲时间录音,上传到平台,即可驱动自己的真人形象进行播报,大幅减少拍摄的时间和人力成本
客户B:为一疾病科普创新项目,希望对潜在发病人群进行教育和宣导,以预防疾病的发生。希望录制一套医生的形象,通过输入文本来制作一整套科普教育节目,通过更换背景、Logo以及当地相关数据的介绍来制作不同省市、乡镇的版本,输出到各个基层卫生院进行宣导,能过通过背景、Logo的更换来拉近与当地居民的亲切感。
客户C:为一教育机构,线上线下均有教学课程,其中一些知名讲师经常承接团队培训课程,教学压力比较大,对于一些互动性较少的线上课程,通过2D真人数字人的视频生成来完成视频的录制以减轻讲师负担。