重构计算,驱动视界:阿里云视觉计算思考与实践

简介: 2023年3月23日14:00(中国时间),NVIDIA GTC开发者大会阿里云开发者社区观看入口正式开放,阿里云弹性计算产品专家张新涛带来了题为《重构计算,驱动视界:阿里云视觉计算思考与实践》的分享


ECS.jpg

20233231400(中国时间),NVIDIA GTC开发者大会阿里云开发者社区观看入口正式开放,阿里云弹性计算产品专家张新涛带来了题为《重构计算,驱动视界:阿里云视觉计算思考与实践》的分享,以下是他的演讲内容整理:

 幻灯片2.JPG

数千年前有了文字,随后有了报纸媒介,大众可以通过报纸来获取信息该类方式得到的信息十分有限。20多年前,人们开始进入到PC互联网时代,得以通过图文甚至音视频获取信息人们有了更好的信息获取体验。


大约在10年前,我们进入了移动互联网的时代,信息的获取与交互得到了进一步加强。而现在,我们随时随地可以视频通话购物点外卖这在30多年前可能只会出现在科幻影视剧里。


今天,我们开始探索基于沉浸式交互的下一代互联网它能为我们带来更多的创新体验,但同时也带来了更多技术与商业上的挑战。

幻灯片3.JPG

想要实现沉浸式体验,将会面临四个层面的挑战,分别是基础设施支撑素材的构建应用的开发以及应用的发布。


首先要实现高画质大场景的沉浸式体验,需要高质量的画面渲染物理仿真与AI计算,这对于计算基础设施来说显然是一个挑战巨大。


其次,高画质的内容需要高精度的模型与素材构建,但传统的手工方式费时费力,需要更多高精度更低成本的素材构建方式。


再次,沉浸式应用生态的繁荣需要更低门槛的开发工具与平台,开发者方能打造更好的3D应用。


最后,沉浸式体验的3D应用也会面临成百上千终端的适配,开发者需要通过适配以获得更好的用户使用体验预期。但由于计算设备算力有限,沉浸式体验的普及挑战十分巨大。


那么阿里云如何帮助产业来应对挑战呢?

幻灯片4.JPG

在过去三年时间里,阿里云推出了阿里云视觉计算产品方案。这是一个面向视觉计算场景的写作矩阵,与伙伴一起为沉浸式交互上云提供了全流程的方案。


在阿里云视觉计算产品方案中,IaaS能力是实现沉浸式优质体验的底座,该层面的创新也解决基础设施层挑战的关键。


IaaS我们为沉浸式体验打造了AI计算与图像计算的SDK,以便帮助全行业解决计算效率的问题,也进一步提升了基础设施的能力。沉浸式体验面临的更大挑战依然内容开发与写作因此,我们面向素材创建应用开发与应用发布,构建了新的产品。从创意设计到发布运营,帮助客户构建完整的业务流程,帮助产业提高写作效率。


除此之外,我们还引入了各行业的行业编辑器与行业SaaS,为沉浸式体验在各行业的推广提供了低代码的产品方案。


有了产品协作方案,在过去三年时间里,我们协作了数十个优质的ISV,完成了数十个沉浸式体验在线上的业务展开。

幻灯片5.JPG

沉浸式体验带来的计算与通讯上的需求前所未有的,主要面临三种类型的计算负载,分别实时3D渲染编码推流物理仿真与实时AI计算。


针对上述需求,计算方面,我们基于英伟达的A10GPU阿里云的CIPU芯片以及IaaS+软件加速能力,实现了新一代的GPU云服务AI计算与视觉计算能力上有了大幅提升。


除了强悍的计算能力,网络通信也决定体验的另重要环节。在用户接入侧,阿里云提供了全球一张网的加速能力,帮助用户的业务接入。在数据中心内部,阿里云通过自研的CIPU技术架构,实现了转发加速与延迟降低阿里云的VPC网络最低延时可低至16us。同时增加了面向流媒体的编解码计算优化,进一步降低了延时,提升了用户体验。


今天客户进行业务创新时,我们依然建议用户基于云来构建与开发,因为只有云才能提供沉浸式体验所需的计算基础设施能力。


有了计算基础设施,便可以开始构建业务。

幻灯片6.JPG

3D互联网时代,人、物、场的3D素材构建新应用的原材料。然而当前构建高净度的3D模型成本依然十分高昂,原因在于建模师的人力成本十分可观。而另一方面,2D3D的算法精度与效率不如人意。


在过去的数十年间,非常多游戏工作室与3D引擎社区都有了大量优质素材的积累,鉴于素材在格式与接口上各异,导致无法形成有效的交易与继承,这导致产业不得不再次造轮子,也严重影响了产业的发展。


因此,我们开始探索将3D素材的构建与素材管理放在云上进行,并因此具备了诸多新的优势。


为什么要放在云上?

原因在于,AI3D构建与素材格式转换的领域中有了新的进展,并且它的实现需要大规模的计算与存储。


首先,可以通过AI逆向渲染实现2D3D的高效高精度转换,还可以通过AIGC产生更多高质量的素材与内容。


其次,可以通过云上的超强计算能力与存储能力,将不同格式的素材转换成统一的格式,以便进行下一步的应用开发。

幻灯片7.JPG

到了应用开发阶段,依然存在许多难题。以传统的游戏开发为例,在大场景开发中,无法同时编辑,需要相互等待,效率极低。另外在耗时计算方面,比如烘焙的过程占据了大量开发时间,导致开发效率降低。传统的开发环境限制较多,只能在固定场所进行,不利于高效的创作。


因此,我们开始考虑将3D应用的开发搬到云上,基于云上的无限算力与实时在线能力,帮助用户提升开发效率。

幻灯片8.JPG

完成了应用开发,还需要面临发布的难题。


传统的3D游戏以及应用在发布前要适配成百上千的终端,终端形态各异,比如手机平板或XR,计算能力也各异,因此难以实现开发者的预期,存在巨大的终端适配成本。


因此,我们面向云上发布场景,推出了云XR平台,用户可以在数分钟之内将自己的3D应用部署在云XR平台上,并将服务发布到全球任何角落。云XR平台中集成了英伟达的CloudXR套件,使得渲染编码与推流能力有了进一步提升。同时,平台还提供了用户管理应用管理与资源管理的能力,进一步提升了业务部署与运营的效率。


XR平台可以支持目前主流的所有终端设备,通过将3D应用部署在云端,减少了对终端设备的计算压力,用户也无需下载体积巨大的客户端安装包,可以随时随地接入,大幅提升了用户体验。对于开发者而言,也大幅提升了开发效率。

幻灯片9.JPG

基于上述产品能力,面向互联网行业虚拟活动数字人构建云上3D应用开发场景,我们帮助用户实现了许多业务的突破与创新。

幻灯片10.JPG

在不久前的2022年双十一购物节,阿里妈妈与江苏卫视联合打造了元宇宙明星歌唱会2060元音之境》,潘玮柏、刘雨昕、肖敬腾张含韵四位明星真人亮相江苏卫视而他们的数字化身同时也在虚拟空间曼塔沃斯”大陆的舞台上表演。

幻灯片11.JPG

曼塔沃斯大陆的场景非常丰富,有品牌馆数字场馆与中心舞台等多个场馆。“逻戈斯号”宇宙飞船传送点,用户可以听演唱会,也可以看藏品看品牌馆。同时,演唱会实时交互,观众可以通过虚拟化身在场景里走动。


如此巨大的场景,意味着场景人物形象与地图相关的高保真模型数据量也十分巨大。如果将素材封装成安装包运行在客户终端,安装包将达到数十GB


通过阿里云XR平台的支持的《2060元音之境》,实现了万人同时身临其境。观众无需提前预装软件,也不限于手机PC或平板终端,不占用任何存储空间,只需要扫码或链接即可进入。

幻灯片12.JPG

我们与彼真科技轴厂伙伴一起打造多场景3D科幻演唱会,完成了3个巨大挑战


第一,演出类的应用,会场与角色的模型十分巨大,无法通过客户端渲染实现,需要轻客户端或无客户端。


第二,高保真模型的渲染与音频的传输方面,要保证云与端同步同频,才能有极佳的沉浸感,这对于算力与通讯提出了极高的要求


第三,演唱会线上开放,会随时涌入大量玩家,需要有巨大的资源池来承载数十万甚至百万的玩家与观众。


基于阿里云XR平台,我们可以方便地将演出部署在云端,并且在云端完成渲染计算与推流。同时依托于阿里云遍布全球的基础设施,实现云与端的同频体验,并且能够同时容纳大量玩家与观众。

虚拟演唱会片段

幻灯片14.JPG

数字栩生是一家数字人技术服务商,也是我们的客户伙伴。他为众多知名企业制作了著名的虚拟人IP

在数字人场景,数字人的逼真与灵动最为重要


逼真要求模型特别精细。数字生所制作的虚拟人,面部+毛发+服装共计数十面的渲染还要通过AI驱动面部上百个标志点模仿表情驱动身上数十个关节点位模仿动作驱动毛发与衣服产生自然飘动带来了十分巨大的计算量。


数字人的另一关键在于流畅的交互与沟通。除了产生精确的表情与高仿真的声音之外,还需要极低的延迟与传输,并且要求终端对于人类的表情语言与情绪能够实现快速识别相应


针对以上两个计算与通讯的要求,阿里云提供了超强的渲染与AI计算能力,同时依靠阿里云的CIPU架构来降低延迟,使得交互更加流畅。阿里云的云XR平台还大幅帮助数字生提升了软件的交付能力与更新效率。AI模型3D模型与素材的迭代软件交付与部署全流程基于云完成,大幅提升了开发效率与业务的交付效率。


XR平台根据策略自动调度云上资源,数字栩生不需要关心底层的资源规划。

幻灯片15.JPG

人与人的交流除了文字与声音外,还有手势与手语的交流。数字栩生与千搏信息基于XR平台发布了自己的手语主播千言与千言的沟通方式十分自然,用户通过连接XR平台的语音与文字告知千言,千言会将语音与文字转换成听人士可以理解的手语。


通过AI计算XR计算,产生了如千言这样更接近于自然人的人交互方式,可以帮助更多人进入到数字世界,消除数字鸿沟。

幻灯片16.JPG

红星美凯龙是国内头部家居企业,它基于阿里云后端采用了领先的实时3D引擎,实现了家居设计的SaaS化。通过拖简单方式,实现所想所得,门店设计师顾客设计之后即可提交渲染。


得益于云端的渲染能力以及GPU强大的光能力,可以实现在10分钟之内产生最终效果顾客可以身临其境体验自己理想家的每一个细节与角落。


我们相信,其他行业也将会诞生类似的场景和应用,我今天的分享就到这里,希望能够给大家带来帮助和启发,谢谢大家。

张新涛.jpg


点击链接进入阿里云开发者社区直播间 / 扫描上方海报中的二维码进入NVIDIA GTC官网,均可观看完整视频。


相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
神经形态计算:模拟大脑的计算方式
【10月更文挑战第11天】神经形态计算作为一种新兴的计算范式,正以其独特的优势和广阔的应用前景吸引着越来越多的关注。通过模拟大脑的计算方式,神经形态计算不仅能够提高计算速度和能效,还能在处理复杂任务时展现出更高的智能水平。我们有理由相信,在未来的发展中,神经形态计算将为我们带来更多的惊喜和突破,引领我们进入一个全新的计算时代。
|
20天前
|
人工智能 自然语言处理 测试技术
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【10月更文挑战第29天】Playground v3(PGv3)是最新发布的文本到图像生成模型,其在多个测试基准上取得了最先进的性能。与传统模型不同,PGv3采用了一种全新的结构,将大型语言模型与图像生成模型深度融合,展现出卓越的文本提示遵循、复杂推理和准确的文本渲染能力。此外,PGv3还具备超越人类的图形设计能力,支持精确的RGB颜色控制和多语言理解,为设计师和创意工作者提供了强大的工具。尽管存在一些挑战,但PGv3的发布标志着文本到图像生成技术的重大突破。
32 6
|
3月前
|
分布式计算 负载均衡 数据处理
高通量计算框架HTCondor(四)——案例准备
高通量计算框架HTCondor(四)——案例准备
39 0
|
6月前
|
机器学习/深度学习 搜索推荐 物联网
微软开源创新LoRA组合方法,增强文生图复杂细节控制
微软研究团队推出Multi-LoRA Composition技术,改善文本到图像模型的细节控制。利用低秩适应(LoRA)提升图像生成精度,通过LORA SWITCH和LORA COMPOSITE解决组合复杂图像的挑战。新方法在ComposLoRA平台上测试,性能优于基线,为图像生成和个性化内容创作开辟新途径。尽管有学习曲线和定制需求优化的问题,但该研究仍为领域带来显著进步。
419 3
微软开源创新LoRA组合方法,增强文生图复杂细节控制
|
机器学习/深度学习 人工智能 Devops
破解自注意力推理缺陷的奥秘,蚂蚁自研新一代Transformer或实现无损外推
随着大语言模型的快速发展,其长度外推能力(length extrapolating)正日益受到研究者的关注。尽管这在 Transformer 诞生之初,被视为天然具备的能力,但随着相关研究的深入,现实远非如此。传统的 Transformer 架构在训练长度之外无一例外表现出糟糕的推理性能。
104 0
|
6月前
|
机器学习/深度学习 算法 C#
[视觉概述] 机器视觉应用方向、项目流程及学习思路总结
[视觉概述] 机器视觉应用方向、项目流程及学习思路总结
266 0
|
存储 机器学习/深度学习 人工智能
大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客(1)
大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客
196 1
|
机器学习/深度学习 人工智能 自然语言处理
大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客(2)
大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客
243 0
|
机器学习/深度学习 自然语言处理 资源调度
机器学习实战系列[一]:工业蒸汽量预测(最新版本下篇)含特征优化模型融合等
在进行归回模型训练涉及主流ML模型:决策树、随机森林,lightgbm等;在模型验证方面:讲解了相关评估指标以及交叉验证等;同时用lgb对特征进行优化;最后进行基于stacking方式模型融合。
|
人工智能 计算机视觉
通用视觉GPT时刻来临?智源推出通用分割模型SegGPT
通用视觉GPT时刻来临?智源推出通用分割模型SegGPT
151 0
下一篇
无影云桌面