当被大模型输入技术内功,数字人「文画两开花」,还在手机里随时陪你聊天

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 当被大模型输入技术内功,数字人「文画两开花」,还在手机里随时陪你聊天

能互动、擅写作、会作画,百度数字人度晓晓应了这样一句话,「天空才是她的极限」。


这年头,数字人直播带货、虚拟主播、银行客服,这些应用场景已经不再是多稀奇的事了。从时尚娱乐到文化商业,数字人迎来了全面开花。国内大厂也纷纷抓住数字人这个发展机遇,推出花样百出的娱乐和实用性数字人产品,致力于让数字人更智能化更服务化。

百度 2020 年 9 月推出的国内首个可交互虚拟偶像度晓晓,最近用她的智能互动、写作和绘画表现让人们见识到了 AI 大模型的能力。

6 月 14 日,一段由百度打造的度晓晓和龚俊数字人联袂出演的《每分 每秒 每天》歌曲 MV 刷屏全网,并登上各大音乐电台、多个音乐排行榜,播放量更是超过 1300 多万。与一般通过人工换声实现虚拟人唱歌不同,度晓晓参与演唱的这首歌从作词到编曲都是由 AI「操刀」,成为国内首个虚拟偶像 AIGC(AI generated content, 人工智能创造内容)歌曲。

度晓晓变身为 AI 唱作人,而在唱歌的表象下,歌词中「每分每秒每天,我都在这里;等着你,来邀请,我随时给你回应 …… 」点出了度晓晓更深层次的身份 —— 入端百度 APP、每分每秒每天陪伴人类的虚拟助手。度晓晓为用户提供全程 AI 陪聊功能,升级搜索体验,情感聊天、定外卖、寄快递、讲故事等,几乎你能想到的需求都可以一呼即达。

如你所见,度晓晓实现自然的多轮聊天互动,在对话中识别用户的搜索和服务需求,其中多轮聊天能力由百度文心大模型提供强大的底层技术支持,尤其是全球首个基于隐空间的生成式开放域对话大模型文心 PLATO


除了 APP 端更拟人的智能对话之外,百度文心大模型还一度让度晓晓变身为高考作文写手和 AI 画家,分别要归功于融合任务相关知识的千亿大模型 ERNIE 3.0 Zeus 和跨模态图文生成模型 ERNIE-ViLG

6 月 7 日高考语文考试之后,度晓晓化身数字人考生挑战全国新高考 Ⅰ 卷作文题《本手、妙手、俗手》,40 秒的时间内完成了 40 篇高考作文,平均 1 秒生成 1 篇,写作速度远超了人类。那么度晓晓生成的作文能满足高考写作的审题、逻辑和创意等要求吗?

这一担心也被证明是多余的,曾任北京高考语文阅卷组组长的申怡为她随机生成的一篇作文打出了 48 分的成绩(满分 60 分),从历年统计数据来看,这个分数超过了 75% 的人类考生。称呼她一声写作高手绝不为过。

度晓晓生成的高考作文示例。

给出一段话就能输出一幅图,这种神奇的跨模态能力成为近年来各大 AI 公司追捧的热点,如英伟达的 GauGAN 和 GauGAN2、OpenAI 的 DALL·E 和 DALL·E 2。度晓晓数字人也拥有了这种绘画能力,完成的 AI 画作甚至得到了专业人士的认可。

6 月初,度晓晓创作的「无界」系列数字藏品上线百度 APP 开启限时抢购,该系列共有 4 幅画作。作为国内首个数字人创作的艺术数字藏品,这些画作在 24 小时内就卖出了 17 万元。更令人想不到的是,每幅画作的创作时间仅需几十秒,这种画画速度大概会令通常仔细斟酌、耗时很长的专业画家羡慕吧。

随后,度晓晓带着她的画作现身西安美术学院 2022 年「时空留痕・无界西美」本科毕业展,在自己的专属展区展出了此前制成数字藏品的四幅作品以及两幅有关西安大雁塔的本地特色作品。这些画作的水平又如何呢?西安美院教授评价称「已经达到了本科美术生的基本要求」。

度晓晓化身 AI 美术生,开了自己的专属展区。

度晓晓出圈的背后 —— 百度 AI 技术赋予她内涵

但应看到,数字人的背后少不了技术的支撑,百度文心大模型为度晓晓的一系列外在能力展现提供了技术内核。在 5 月 20 日的 WAVE SUMMIT 2022 深度学习开发者峰会上,文心大模型迎来了自发布以来的最大一次升级,新增 10 个大模型,包括基础通用大模型、任务大模型、行业大模型三大类,比如基础 NLP 大模型中新增的融合任务相关知识的千亿大模型 ERNIE 3.0 Zeus。


同属文心 NLP 大模型范畴的全球首个基于隐空间的生成式开放域对话大模型文心 PLATO ,保证了度晓晓在百度 APP 端不再尬聊。

作为百度研发的具有大规模参数的中英文对话预训练生成模型,文心 PLATO 历经多个版本。2019 年推出了通用领域的对话生成预训练模型 PLATO,在 NLP 领域国际顶会 ACL 2020 上正式展示;到 2020 年升级为 PLATO-2,涵盖中英文版本,实现了开放域话题深度畅聊。现在升级到了百亿参数的文心 PLATO- XL 版本,在开放域对话效果上得到了持续的提升。

既然说到了 文心 PLATO,那我们就先来看在它的加持下,度晓晓如何在百度 APP 端实现接近真人水平的多轮流畅对话以及更拟人的智能化搜索?度晓晓和龚俊数字人目前实现了四大功能,即个性化聊天陪伴、辅助搜索、服务分发和互动玩法。其中个性化聊天可以实现多轮对话以及人设定制化能力,这也正是文心 PLATO 大模型的用武之地。

首先,为了学习通用对话生成能力,文心 PLATO 采用了完全生成方式,并根据多轮对话上下文(Context)生成对话回复(Response),在大规模对话语料上进行预训练。PLATO 只有 8.3M 的训练样本;PLATO-2 的英文和中文训练集样本分别为 684M 和 1.2B,模型规模最高达到了 1.6B;到了 PLATO-XL,英文和中文训练集样本分别 811M 和 1.2B,模型规模更是来到了 11B。

预训练时,针对开放域中涉及上下文的对话理解和回复的对话生成,文心 PLATO 采用编码器和解码器共享参数的 Unified Transformer 作为基础框架,使对话理解和对话生成进行充分的信息融合交互。此外,考虑到对话答复与场景、意图等对话情景信息相关,相同上下文不同的情境会对应不同的答复(即一对多关系),而情境信息又难以用显示文本进行表示,文心 PLATO 又提出用隐变量因子表示情境信息,如下图所示。

大规模预训练样本和预训练技术创新的基础上,文心 PLATO 为度晓晓带来了多轮流畅的开放域对话能力

文心 PLATO 的模型架构。

人工智能发展至今,数据价值正在不断得到体现和提升,可以说,数据即 “石油”。同样,在开放域对话中,高质量的对话语料也同样重要,对模型训练起着重要作用,但我们都知道,高质量的对话语料少之又少,另外语料所依附的人设信息千差万别,导致模型在效果上参差不齐。

如何赋予对话机器人稳定一致的人设一直是对话技术领域面临的重要挑战,文心 PLATO 在预训练对话模型的基础上进一步学习不同画像信息下的对话生成能力,使模型具备了围绕人设的定制化对话能力,还能在答复过程中始终保持人设的一致性。

这一能力加持到度晓晓身上,她便更加彰显了自己的人设或个性化 IP。用一句流行的话说,度晓晓的人设要保持一致。同时,在对话时,度晓晓充分考虑用户上下文的联系,生成的回复始终不脱离语境,像人与人聊天那样不偏题。

百度 APP 端内度晓晓的多轮聊天能力展示。

最后,即使度晓晓已经具备了一定的知识对话能力,但受限于预训练语料存在的知识稀疏性,生成回复中仍然会有不知如何答复或答非所问的情况出现。

针对这一问题,文心 PLATO 提出了问答生成任务 + 预训练对话任务的连续预训练策略,将海量问答知识内化到模型参数中,使模型及其支持的度晓晓在知识问答时更准确、更全面。

这么一套技术组合拳下来,文心 PLATO 成就了现在的度晓晓, 更拟人化、更具针对性、更贴合用户真实需求成为了她在百度 APP 内的标签。她可以与用户进行语境连续的多轮自然对话,支持文本、图片、表情包、音频等多样化聊天形态;当在对话中识别出用户的搜索意图时,要么直接回复答案要么呈现 APP 内相关问题的搜索结果;用户想要看电影、订车票时,她也会直接跳转至相应服务界面。

百度 APP 端内的多任务小能手度晓晓。

而此前,度晓晓 40 秒完成 40 篇高考语言作文的表现,背后利用的是文心大模型中的 NLP 千亿大模型 ERNIE 3.0 Zeus。它是知识增强大模型 ERNIE 3.0 系列模型的最新升级,更在国内首个开放了 API 调用。

在训练时,除了从海量无监督文本数据和百度知识图谱的学习之外,还针对上百种不同形式的任务数据进行持续学习,增强了模型效果,显著提升了在自由问答、信息抽取和情感分析等下游各类 NLP 任务上的零样本 / 小样本学习能力。

ERNIE 3.0 Zeus 大模型概览。

对于此次高考写作挑战,度晓晓一方面具有数据「底气」。得益于 ERNIE 3.0 Zeus 的千亿参数,度晓晓在写作训练时接受了大量风格各异的高考作文样本数据,在不断的吸收消化过程中,培养出了自己的写作风格以及对于高考作文的需求认知,在实战中「应题而作」

另一方面,在充足、多样化高考作文样本数据的基础上,度晓晓进一步确立了一整套自己的写作套路。在扣题立意方面,她始终不离给定的作文题目,围绕主题组织文字,输出支持该主题的积极正向观点;在行文结构上,面对 800 字的长文本生成要求,她能保持整体文章脉络清晰、逻辑完整,并在开篇和结尾双重扣题;在写作技巧上,历史典故、古诗词拈手就来,还学会了排比、比喻等修辞手法,文章可读性大大提升。


在 ERNIE 3.0 Zeus 的赋能下,度晓晓就像是众多见多识广的「尖子生」、「学霸」的集合体,理解能力和创作能力更强,写出高分作文也就不足为奇了。

除了以上 NLP 领域的智能对话和 AI 写作,跨模态也是文心大模型深耕已久的领域。度晓晓引起关注的「无界」系列画作采用的正是文心大模型跨模态图文生成大模型 ERNIE-ViLG,它不仅构建了包含 1.45 亿高质量中文文本 - 图像对的大规模跨模态对齐数据集,而且基于飞桨平台在该数据集上训练了百亿参数模型,在文本生成图像、图像描述等跨模态生成任务具有显著效果。

ERNIE-ViLG 大模型的流程图,其中文本生成图像模型中的两阶段训练和端到端方法是关键。

与上述高考写作一样,得益于 1.45 亿高质量中文文本 - 图像对,ERNIE-ViLG 学会了类似于人类的作画过程。整体可以分为两步,大模型首先要理解输入给自己的文字的含义,并结合背景知识扩展更丰富的信息,找到契合的元素和作画的灵感;然后构思生成初步的草稿图,再不断优化填充,从而逐步生成符合主题的高质量图片。

因此,对于使用了 ERNIE-ViLG 的度晓晓,仅仅输入一段话,便能在几十秒内做出一幅画作。她不仅可以根据不同的输入文字需求画出对应的场景,还在画作风格上博采众长,能够 hold 住水彩、油画、中国画、印象派等多种风格。

度晓晓生成的六幅画作。

这些画作具有充满想象力的构图、流畅的笔触和丰富的色彩,尤其第一幅大雁塔画作,远处山峰缥缈,落日金辉,近处大慈恩寺佛塔高耸,大雁略过,意境颇为深远。如果事先不告诉你,你大概猜不出它们是由度晓晓创作的。这就是 AI 的神奇之处。


相关文章
|
14天前
|
JavaScript 前端开发 开发者
ThreeJs控制模型骨骼实现数字人
这篇文章讲解了如何使用Three.js通过控制模型的骨骼来实现数字人的动态表现,包括加载模型、获取骨骼信息以及通过编程控制骨骼动作的具体方法。
35 1
|
28天前
|
移动开发 Android开发 数据安全/隐私保护
移动应用与系统的技术演进:从开发到操作系统的全景解析随着智能手机和平板电脑的普及,移动应用(App)已成为人们日常生活中不可或缺的一部分。无论是社交、娱乐、购物还是办公,移动应用都扮演着重要的角色。而支撑这些应用运行的,正是功能强大且复杂的移动操作系统。本文将深入探讨移动应用的开发过程及其背后的操作系统机制,揭示这一领域的技术演进。
本文旨在提供关于移动应用与系统技术的全面概述,涵盖移动应用的开发生命周期、主要移动操作系统的特点以及它们之间的竞争关系。我们将探讨如何高效地开发移动应用,并分析iOS和Android两大主流操作系统的技术优势与局限。同时,本文还将讨论跨平台解决方案的兴起及其对移动开发领域的影响。通过这篇技术性文章,读者将获得对移动应用开发及操作系统深层理解的钥匙。
|
1月前
|
人工智能 机器人 UED
数字人模型网页手机云推流语音交互
随着AI技术的发展,数字人与大型语言模型的结合迎来了新机遇,各类数字人服务不断涌现,应用于多种场景。点量小芹发现许多厂商仍在探索如何优化数字人在移动端的表现。通过云推流实时渲染解决方案。无论是直播中的数字人形象定制,还是网页客服与大屏讲解的应用,只需将数字人模型置于服务器端,借助云渲染技术,用户即可在网页或移动设备上轻松使用高精度的数字人,显著降低硬件需求,提升互动体验。
102 13
|
1月前
|
vr&ar 图形学 UED
电子沙盘VR模型大屏平板手机微信使用方案
数字孪生电子沙盘和VR模型被广泛应用在房地产等行业,为不同设备定制不同版本的模型是常见做法。然而,通过实时云渲染技术,可以将PC端的VR模型转化为网页版,使用户能够在平板或手机上流畅浏览详细信息,无需开发多个版本。这不仅提升了用户体验,还简化了模型提供商的工作流程,降低了成本。尤其在新楼盘发布时,可通过公众号或广告链接快速吸引潜在客户。成本主要取决于并发用户数及显卡性能要求,但该技术显著提高了跨设备访问的便利性。
41 1
|
2月前
|
网络协议 程序员 5G
IM开发者的零基础通信技术入门(十三):为什么手机信号差?一文即懂!
本系列文章尽量使用最浅显易懂的文字、图片来组织内容,力求通信技术零基础的人群也能看懂。但个人建议,至少稍微了解过网络通信方面的知识后再看,会更有收获。如果您大学学习过《计算机网络》这门课,那么一定不要错过本系列文章。
43 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】python之人工智能应用篇--数字人生成技术
数字人生成技术是基于人工智能技术和计算机图形学技术创建的虚拟人物形象的技术。该技术能够模拟人类的外貌、声音、动作和交流能力,为多个领域带来创新的应用可能性。数字人的本质是将所有信息(数字和文字)通过数字处理(如计算机视觉、语音识别等)再进行表达的过程,形成具有人类形态和行为的数字产物。 数字人的生成涉及到多种技术,如3D重建技术,使用三维扫描仪扫描人的外观、五官等,并通过3D模型重建三维人;虚拟直播技术,使用计算机技术生成人物或实体,并且可以实时直播、录制;数字人体数据集技术,利用数据构建数字人模型以及训练虚拟现实引擎等
88 4
|
3月前
|
新零售 人工智能 vr&ar
国家发展改革委等部门:鼓励利用数字人等技术拓展电商直播场景!
国家发改委推出措施鼓励创新消费场景,特别提到利用AI、VR等技术增强购物体验,支持数字人电商。青否数字人直播系统提供独立部署方案,适应抖音直播并解决封号问题,具备实时话术改写和AI智能回复功能,确保互动合规。此系统适用于24小时直播,降低商家成本,提升效率。欲了解更多信息,可访问:zhibo175。
国家发展改革委等部门:鼓励利用数字人等技术拓展电商直播场景!
|
3月前
|
机器学习/深度学习 人工智能 供应链
智能进化:AI技术如何重塑智能手机体验
【7月更文第31天】随着人工智能(AI)技术的飞速发展,智能手机已经成为AI应用的重要平台之一。本文将探讨AI如何改善智能手机的用户体验,分析AI技术在手机硬件中的具体应用案例,并讨论AI技术如何帮助智能手机制造商应对市场挑战。
144 2
|
4月前
|
算法
VASA-1:实时音频驱动的数字人说话面部视频生成技术
【6月更文挑战第8天】VASA-1是实时音频驱动的数字人面部视频生成技术,能根据输入音频精准生成匹配的面部表情。具备实时性、高准确性和适应性,适用于虚拟主播、在线教育和影视娱乐等领域。简单示例代码展示了其工作原理。尽管面临情感理解和硬件优化等挑战,但随着技术发展,VASA-1有望在更多领域广泛应用,开启生动数字世界的新篇章。
245 5
|
5月前
|
编解码 人工智能 自然语言处理
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机
【5月更文挑战第29天】苹果推出Ferret-UI,一个结合图像识别和自然语言处理的多模态大语言模型,允许用户通过自然语言指令操控手机。该系统能适应不同屏幕布局,识别UI元素并执行相应操作,有望变革手机交互方式,提升无障碍体验,并在测试和开发中发挥作用。但需面对屏幕多样性及准确性挑战。[论文链接](https://arxiv.org/pdf/2404.05719.pdf)
134 3