当被大模型输入技术内功,数字人「文画两开花」,还在手机里随时陪你聊天(2)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 当被大模型输入技术内功,数字人「文画两开花」,还在手机里随时陪你聊天

全新内容生产方式 ——AIGC

从对话到写作、作画,度晓晓俨然成为了数字人中的「多面手」。一方面,在百度文心大模型整合的多模态交互、3D 建模、机器翻译、语音识别等多项技术的助力下,度晓晓已经在百度 APP 端内实现了生动拟人智能的互动交流。另一方面,由于文心大模型超强的理解和生成能力,度晓晓的创作能力被充分地挖掘和展现出来。

可以这样说,此时的度晓晓已经脱离了传统意义上的 CG 数字人,有了「内涵」,而这些恰好契合了当下备受关注的新型内容生产方式 ——AIGC,即通过人工智能技术自动生产内容。继 UGC、PGC 之后,大模型赋能下的 AIGC 已经成为了过去一年来百度 AI 技术加速落地的着陆点。

不仅如此,度晓晓近来展现的编曲、互动交流、写作和作画,都只是百度大模型技术支撑下在 AIGC 层面的牛刀小试。随着底层 AI 大模型技术的不断完善,AIGC 的可用性和适用性势必会迎来提升和扩展,更多内容生产领域会被发掘出来。

像度晓晓这样的数字人,落地场景也就不再局限于单一的端内互动或图文创作,未来的舞台可以遍布影视、金融、文旅等各个领域,「天空才是她的极限」。

让大模型不再流于参数,终究还是要落地,实现应用价值

在近年来深度学习领域掀起这波「练大模型」潮流之际,百度持续发力文心大模型也是顺势而为,力争在 AI 巨头的竞争中始终保持领先优势。就之前的趋势而言,追逐参数的多、模型的大似乎在国内外巨头们之间形成了一种默契。

从 GPT-3 开始,千亿、万亿级大模型纷至沓来,如国外谷歌 1.6 万亿参数大模型 Switch Transformer、微软联合英伟达的 5300 亿参数模型 MT-NLG,国内浪潮 2457 亿参数单体模型源 1.0、阿里达摩院 10 万亿参数多模态大模型 M6。

慢慢地,当堆参数及其带来的巨额训练成本不再那么吸引 AI 巨头们时,如何使自身大模型更广泛地落地成为了他们新的目标。作为从 2019 年就开始积累预训练技术和大模型的 AI 头雁,百度在探索大模型过程中修炼了自己的武功秘诀 —— 知识增强

2021 年 12 月,百度发布全球首个知识增强千亿大模型鹏城 - 百度・文心发布,它的参数量达到了 2600 亿,是一个融合了 NLP 和 NLG 的全能模型。当时,百度产业级知识增强大模型文心全景图首次亮相。
今年 5 月的 Wave Summit 峰会上,百度聚焦「前沿大模型技术如何匹配真实场景中的方方面面要求」这一问题,提出了大模型产业落地的三个关键路径,包括更适配应用场景的模型体系、更有效的工具和方法以及更开放的生态。方方面面无不呼应着落地。

同时,文心大模型除了迎来新成员之外,还可以通过百度飞桨的一系列大模型开发套件、大模型API和集成文心大模型的飞桨企业版EasyDL和BML开发平台,全面释放使用效能,进一步降低应用门槛。在生态和社区层面,构建文心・旸谷社区,将大模型能力开放给普通开发者,人人皆可触碰 AI 的魅力。文心大模型的个人、企业开发者数量已超过 6 万人

文心・旸谷社区地址:https://wenxin.baidu.com/younger

全新升级的文心大模型在知识增强和产业级这两方面得到了进一步加强,10 个大模型新成员中的国网 - 百度・文心和浦发 - 百度・文心就分别将文心大模型的能力输入到了能源电力行业和金融服务行业,这也预示着文心大模型与行业的联系越来越紧密。

目前,以知识增强和产业级为指导的文心大模型已经逐渐在百度内外「兑现」了自己的能力。

在百度内部,搜索、信息流、百度地图等场景中可以看到文心大模型的身影,如上文在百度 APP 端智能互动的度晓晓以及小度智能屏等;在百度外部,文心大模型在工业、能源、金融、教育、通信、媒体、医疗等各行各业都有了实战场地,如工业领域的零部件质量检测、金融行业的合同信息抽取等,在赋能行业中真正实现了自身的应用价值。

度晓晓最近频频出圈,让更多人看到了其背后文心大模型的技术内驱力。然而,未来文心大模型的落地场景不应受限。

一方面,文心大模型可以按照能源行业国网 - 百度・文心和金融行业浦发 - 百度・文心的模式继续推出更多行业大模型,持续推进大模型在各行各业的深度应用,满足多样化场景任务需求。

另一方面,在 AI for Science 领域,文心大模型中已经有了两个生物计算大模型(HELIX-GEM 和 HELIX-Fold),未来同样有可能在数学、物理、化学等更多基础学科领域构建专属大模型。这样做可以持续探索大模型在科学领域解决问题的巨大潜力,更全面地推进 AI 与 Science 的融合。

大模型成为行业热点已经有两三年时间,在百度看来,2022 年是大模型产业落地的关键年。不管是度晓晓这一系列的创意应用,还是深入到更广泛的行业和前沿技术领域,百度势必会抓住大模型发展的这一机遇,在产业化落地的融合创新之路上继续又稳又快地走下去。

参考链接:https://arxiv.org/pdf/2109.09519.pdfhttps://arxiv.org/pdf/2006.16779.pdfhttps://aclanthology.org/2020.acl-main.9.pdfhttps://www.jiqizhixin.com/articles/2022-05-20-8https://wenxin.baidu.com/wenxin/modelbasedetail/plato/https://wenxin.baidu.com/wenxin/modelbasedetail/ernie_vilg/https://wenxin.baidu.com/wenxin/modelbasedetail/ernie3_zeus/

相关文章
|
23天前
|
JavaScript 前端开发 开发者
ThreeJs控制模型骨骼实现数字人
这篇文章讲解了如何使用Three.js通过控制模型的骨骼来实现数字人的动态表现,包括加载模型、获取骨骼信息以及通过编程控制骨骼动作的具体方法。
72 1
|
2月前
|
移动开发 Android开发 数据安全/隐私保护
移动应用与系统的技术演进:从开发到操作系统的全景解析随着智能手机和平板电脑的普及,移动应用(App)已成为人们日常生活中不可或缺的一部分。无论是社交、娱乐、购物还是办公,移动应用都扮演着重要的角色。而支撑这些应用运行的,正是功能强大且复杂的移动操作系统。本文将深入探讨移动应用的开发过程及其背后的操作系统机制,揭示这一领域的技术演进。
本文旨在提供关于移动应用与系统技术的全面概述,涵盖移动应用的开发生命周期、主要移动操作系统的特点以及它们之间的竞争关系。我们将探讨如何高效地开发移动应用,并分析iOS和Android两大主流操作系统的技术优势与局限。同时,本文还将讨论跨平台解决方案的兴起及其对移动开发领域的影响。通过这篇技术性文章,读者将获得对移动应用开发及操作系统深层理解的钥匙。
|
2月前
|
人工智能 机器人 UED
数字人模型网页手机云推流语音交互
随着AI技术的发展,数字人与大型语言模型的结合迎来了新机遇,各类数字人服务不断涌现,应用于多种场景。点量小芹发现许多厂商仍在探索如何优化数字人在移动端的表现。通过云推流实时渲染解决方案。无论是直播中的数字人形象定制,还是网页客服与大屏讲解的应用,只需将数字人模型置于服务器端,借助云渲染技术,用户即可在网页或移动设备上轻松使用高精度的数字人,显著降低硬件需求,提升互动体验。
114 13
|
2月前
|
vr&ar 图形学 UED
电子沙盘VR模型大屏平板手机微信使用方案
数字孪生电子沙盘和VR模型被广泛应用在房地产等行业,为不同设备定制不同版本的模型是常见做法。然而,通过实时云渲染技术,可以将PC端的VR模型转化为网页版,使用户能够在平板或手机上流畅浏览详细信息,无需开发多个版本。这不仅提升了用户体验,还简化了模型提供商的工作流程,降低了成本。尤其在新楼盘发布时,可通过公众号或广告链接快速吸引潜在客户。成本主要取决于并发用户数及显卡性能要求,但该技术显著提高了跨设备访问的便利性。
47 1
|
3月前
|
网络协议 程序员 5G
IM开发者的零基础通信技术入门(十三):为什么手机信号差?一文即懂!
本系列文章尽量使用最浅显易懂的文字、图片来组织内容,力求通信技术零基础的人群也能看懂。但个人建议,至少稍微了解过网络通信方面的知识后再看,会更有收获。如果您大学学习过《计算机网络》这门课,那么一定不要错过本系列文章。
46 0
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】python之人工智能应用篇--数字人生成技术
数字人生成技术是基于人工智能技术和计算机图形学技术创建的虚拟人物形象的技术。该技术能够模拟人类的外貌、声音、动作和交流能力,为多个领域带来创新的应用可能性。数字人的本质是将所有信息(数字和文字)通过数字处理(如计算机视觉、语音识别等)再进行表达的过程,形成具有人类形态和行为的数字产物。 数字人的生成涉及到多种技术,如3D重建技术,使用三维扫描仪扫描人的外观、五官等,并通过3D模型重建三维人;虚拟直播技术,使用计算机技术生成人物或实体,并且可以实时直播、录制;数字人体数据集技术,利用数据构建数字人模型以及训练虚拟现实引擎等
99 4
|
4月前
|
新零售 人工智能 vr&ar
国家发展改革委等部门:鼓励利用数字人等技术拓展电商直播场景!
国家发改委推出措施鼓励创新消费场景,特别提到利用AI、VR等技术增强购物体验,支持数字人电商。青否数字人直播系统提供独立部署方案,适应抖音直播并解决封号问题,具备实时话术改写和AI智能回复功能,确保互动合规。此系统适用于24小时直播,降低商家成本,提升效率。欲了解更多信息,可访问:zhibo175。
国家发展改革委等部门:鼓励利用数字人等技术拓展电商直播场景!
|
4月前
|
机器学习/深度学习 人工智能 供应链
智能进化:AI技术如何重塑智能手机体验
【7月更文第31天】随着人工智能(AI)技术的飞速发展,智能手机已经成为AI应用的重要平台之一。本文将探讨AI如何改善智能手机的用户体验,分析AI技术在手机硬件中的具体应用案例,并讨论AI技术如何帮助智能手机制造商应对市场挑战。
154 2
|
5月前
|
算法
VASA-1:实时音频驱动的数字人说话面部视频生成技术
【6月更文挑战第8天】VASA-1是实时音频驱动的数字人面部视频生成技术,能根据输入音频精准生成匹配的面部表情。具备实时性、高准确性和适应性,适用于虚拟主播、在线教育和影视娱乐等领域。简单示例代码展示了其工作原理。尽管面临情感理解和硬件优化等挑战,但随着技术发展,VASA-1有望在更多领域广泛应用,开启生动数字世界的新篇章。
247 5
|
6月前
|
编解码 人工智能 自然语言处理
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机
【5月更文挑战第29天】苹果推出Ferret-UI,一个结合图像识别和自然语言处理的多模态大语言模型,允许用户通过自然语言指令操控手机。该系统能适应不同屏幕布局,识别UI元素并执行相应操作,有望变革手机交互方式,提升无障碍体验,并在测试和开发中发挥作用。但需面对屏幕多样性及准确性挑战。[论文链接](https://arxiv.org/pdf/2404.05719.pdf)
151 3