数字人模型网页手机云推流语音交互

本文涉及的产品
应用实时监控服务-应用监控,每月50GB免费额度
应用实时监控服务-用户体验监控,每月100OCU免费额度
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
简介: 随着AI技术的发展,数字人与大型语言模型的结合迎来了新机遇,各类数字人服务不断涌现,应用于多种场景。点量小芹发现许多厂商仍在探索如何优化数字人在移动端的表现。通过云推流实时渲染解决方案。无论是直播中的数字人形象定制,还是网页客服与大屏讲解的应用,只需将数字人模型置于服务器端,借助云渲染技术,用户即可在网页或移动设备上轻松使用高精度的数字人,显著降低硬件需求,提升互动体验。

随着AI的出圈,数字人结合大语言模型也迎来了春天,市场上涌现了越来越多的数字人服务,深耕于不同的实际使用场景。点量小芹在和一些数字人厂家交流的过程中发现,很多厂家对于数字人如何更好地在网页、手机平板等移动端使用,还在找寻合适的方案。而作为云推流实时渲染厂家,这正是我所擅长的。

场景1:直播数字人

直播改变了我们获取信息、购物、娱乐的方式,也创造了很多新的岗位,比如一些直播间也是采用了数字人直播,这些数字人涵盖带货、娱乐、游戏等多个行业主播。一些专业数字人模型服务商,提供的数字人是通过UE引擎开发的,提供很多款数字人形象,用户可根据需要选择自己的形象,设计不同的外形和动作,从而做出自己的数字人形象。

但随着模型越来越精美,可自定义的内容越来越多,对于电脑性能的要求也越来越高,很多用户本身不具备这样的电脑配置。那有没有什么办法,让用户不用安装这些数字人模型也可以直接使用这些呢?实时云渲染推流是很好的解决方案,可以实现用户在网页直接就可以自定义自己的数字人形象,只要电脑可以观看1080P视频即可。

具体实现办法是:将数字人模型放在服务器端,通过点量云流渲染程序,获得可以在网页使用3D数字人模型的链接。注意数字人运行需要的GPU和CPU并没有被省略,只不过由原来需要用户侧提供变成了服务器端提供。除了传统的键鼠交互,还可以支持文字、语音和数字人互动。

digital person0904.png

场景2:网页客服数字人
网页客服随着技术的发展,从初期的QQ、微信等人工客服,到后来的机器人客服,现在一个数字人客服可能更能体现网站的科技和时代特点。但制作越是精美的数字人,在网页上直接使用越是困难,小芹之前有了解过有些数字人在4090显卡也只能同时运行2-3个,而这个显卡配置对于C端客户来说还是很难实现的。那是否就不可以在网页上实现数字人客服了呢?

其实现在大部分是通过录制视频的方式来展示能力,但如果想要实现直接数字人客服来引导用户浏览网页的话,需要网站所以者通过推流的方式,让数字人可以在网页中使用。具体的方案和上文中基本类似,将数字人客服模型放在服务器端,通过实时渲染推流系统获得网页直接访问的网址,这样用户就可以在网站上和用户交流了。

不过这类场景下,对一些浏览量比较大的网站,如果满足每个进入网站的用户都和数字人客服独立交互,需要的服务器成本会很高。比较好的方案是通过实时云渲染系统,设置一些用户访问逻辑,比如只允许30个或者50个用户独立访问,或许来的用户提示需等待或者引导看视频,或者随机分配在操作用户的一些画面。后续在根据实际需要增加服务器资源,已达到用户体验和服务器成本的平衡。

场景3:大屏数字人讲解

在文旅等场景下,使用大屏数字人形象进行讲解,因为先进的技术可能会更好的吸引用户参与。传统的方案是每个大屏配置一个高性能主机,在电脑上操作,通过HDMI线和大屏连接,但这种方式受限于时间和空间。

而实时云渲染推流的方案,可以在景区机房配置高性能的服务器,将数字人模型推流后再网页、手机平板等设备上使用,可以景区多个热门景点使用,可以更好的满足为游客讲解的需要。当然也可以开放一些,让用户在自己的手机平板上体验。给用户更好的旅游体验,提升景区的吸引力。
digital person090402.png

相关文章
|
4天前
|
人工智能 搜索推荐 物联网
3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放
《MimicTalk: 快速生成个性化3D数字人》介绍了一种创新方法,利用3D大模型在15分钟内训练出高质量、个性化的数字人模型。该方法基于NeRF技术,通过“静态-动态混合适应”实现高效训练,显著提升了数字人在视频会议、虚拟现实等领域的应用潜力。论文链接:https://arxiv.org/pdf/2410.06734
27 4
|
1月前
|
机器学习/深度学习 人工智能 算法
青否数字人声音克隆算法升级,16个超真实直播声音模型免费送!
青否数字人的声音克隆算法全面升级,能够完美克隆真人的音调、语速、情感和呼吸。提供16种超真实的直播声音模型,支持3大AI直播类型和6大核心AIGC技术,60秒快速开播,助力商家轻松赚钱。AI讲品、互动和售卖功能强大,支持多平台直播,确保每场直播话术不重复,智能互动和真实感十足。新手小白也能轻松上手,有效规避违规风险。
|
2月前
|
JavaScript 前端开发 开发者
ThreeJs控制模型骨骼实现数字人
这篇文章讲解了如何使用Three.js通过控制模型的骨骼来实现数字人的动态表现,包括加载模型、获取骨骼信息以及通过编程控制骨骼动作的具体方法。
249 1
|
3月前
|
vr&ar 图形学 UED
电子沙盘VR模型大屏平板手机微信使用方案
数字孪生电子沙盘和VR模型被广泛应用在房地产等行业,为不同设备定制不同版本的模型是常见做法。然而,通过实时云渲染技术,可以将PC端的VR模型转化为网页版,使用户能够在平板或手机上流畅浏览详细信息,无需开发多个版本。这不仅提升了用户体验,还简化了模型提供商的工作流程,降低了成本。尤其在新楼盘发布时,可通过公众号或广告链接快速吸引潜在客户。成本主要取决于并发用户数及显卡性能要求,但该技术显著提高了跨设备访问的便利性。
55 1
|
5月前
|
JavaScript
vue 项目/备案网页/ip网页打包成 apk 安装到平板/手机(含vue项目跨域代理打包成apk后无法访问接口的解决方案)
vue 项目/备案网页/ip网页打包成 apk 安装到平板/手机(含vue项目跨域代理打包成apk后无法访问接口的解决方案)
136 0
|
7月前
|
编解码 人工智能 自然语言处理
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机
【5月更文挑战第29天】苹果推出Ferret-UI,一个结合图像识别和自然语言处理的多模态大语言模型,允许用户通过自然语言指令操控手机。该系统能适应不同屏幕布局,识别UI元素并执行相应操作,有望变革手机交互方式,提升无障碍体验,并在测试和开发中发挥作用。但需面对屏幕多样性及准确性挑战。[论文链接](https://arxiv.org/pdf/2404.05719.pdf)
182 3
|
7月前
|
存储 iOS开发 流计算
R语言使用Bass模型进行手机市场产品周期预测
R语言使用Bass模型进行手机市场产品周期预测
|
7月前
|
机器学习/深度学习 自然语言处理 搜索推荐
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
【2月更文挑战第17天】手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
96 2
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
R语言SVM模型文本挖掘分类研究手机评论数据词云可视化
R语言SVM模型文本挖掘分类研究手机评论数据词云可视化
|
7月前
|
人工智能 算法 搜索推荐
慧鲤携手联发科技亮相MWC,端侧LoRA融合技术助力手机大模型技能扩充
慧鲤携手联发科技亮相MWC,端侧LoRA融合技术助力手机大模型技能扩充