基于扩散模型的3D智能创作引擎与内容投放算法最新实践

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 3D模型在智能设计领域以其可塑性,可编辑性有着属于自己的独特优势,扩展了2D设计的上限。但是其目前存在的局限性也是显而易见的:建模的效率,模型的数量,以及3D设计的成本。

背景


在商品展示侧,围绕人-货-场的商品展示重要性不言而喻,需要为每个消费者搭建最感兴趣的货-场匹配。尤其以3D,VR等新内容形态的发展,使得货-场的展示除了传统的图文,短视频展示方式之外,开始逐渐出现围绕3D模型的货场匹配内容创作形态。


一方面,站在用户的角度,除了基础商品信息之外,越来越多其他的信息会被纳入最终购买决策中,例如在购买大件家具的时候,用户会考虑家具的颜色和款式和家中的硬装是否搭配,功能性以及舒适性是否满足家人使用。


另一方面,站在卖家角度,也开始发现3D模型内容创作的提效作用:例如在手机行业,越来越多的手机厂商愿意投入资金使用3D模型进行短视频的制作,且为不同颜色的sku配置不同颜色的动态背景。基于3D模型的内容创作能进一步提升用户的体验,在一定程度上提升转化效率。因此本文将围绕3D内容创作上层应用的三块核心步骤展开:

  1. 创作:基于商品的3D模型/2D图片/文本的内容创作,解决素材创作内容多样性及效率需求问题。
  2. 投放:初步以商品头图,短视频的形式落地在实际的应用场景中,构建内容投放链路进行效率层面优化。
  3. 优化:同时基于线上流量反馈,通过拆解设计元素的原子化能力,指导创作更优质的3D内容。


这里把过程中的经验和成果分享给大家,欢迎感兴趣的同学和业务方进行交流和探讨。
素材创作


 业务方案现状


基于现有链路,目前在商品图和商品短视频创作的过程中存在以下瓶颈:

  1. 高质量素材需求量大:对于素材的数量,质量,和可控性都有非常高的要求。
  2. 新内容形态数据缺失:尤其以3D,AR,VR的全新内容形态,极度缺乏历史先验数据。
  3. 容易出现的版权纠纷:另一方面直接使用网络中的素材图会有较大的可能的版权问题。
  4. 专业人士制作成本高:需要花费极高的制作成本请专人进行内容制作。


因此我们针对3D相关内容资产的创作瓶颈进行优化。

 目前支持能力


首先,在素材创作层面目前已经能支持包括创意背景制作(txt2img),风格化AI(AI作画),内容补全(inpainting)等。我们将围绕效率提升和用户体验两个方面出发,分别讲解目前已具备的能力:
从效率层面进行考量:在进行商品头图或商品短视频制作时,与商品搭配的背景视频尤为重要。针对目前不同主色,不同配置的商品型号,我们有针对性的进行背景的生产,因此建设创意背景制作(txt2img)能力,用于生产对应商品的专属背景。

而从用户体验出发:目前AI作画风靡全国,让很多没有绘画经验,但是愿意进行二次创作的消费者,体验自己的二次元/油画/板画风格的作品。目前在抖音/贴吧/知乎/bilibili 都有相应的AI创作专区,日活超千万。因此我们着重展示以上两种能力:

  • 创意背景制作(txt2img)


为了构建多样性的短视频背景,从而实现更高效率的内容展现,我们首先进行创意背景制作相关能力的构建。可以实现多种多样化的内容生产,实现可编辑,可自由创作,不受关键词约束,例如输入“星空背景”:


星空背景的应用在手机详情页展示case1:


,时长00:09


  • 风格化内容创作(img2img)


围绕有趣的用户体验,我们分别给出了人像照片/商品照片的风格化效果:


商品图/详情图风格化:


 算法模型背景&优化


  • 扩散模型原理部分


在介绍算法背景之前,首先介绍一些原理层面的知识。对于扩散模型原理感兴趣的同学可以参看个人的相关解读:

  1. 《Diffusion Model (扩散模型)系列一(DDPM)Denoising diffusion probalistic models》
  2. 《Diffusion Model (扩散模型)系列二:(DDIM) denoising diffusion implicit models》。


  • 算法背景


首先在DDPM中,证明了当每一步添加的高斯噪声的均值和方差都足够小时,其逆向步骤同样能够满足高斯分布,这是扩散模型搭建和应用的理论基础。而这样带来的问题在于,大量小幅度变化的高斯噪声叠加带来了大量的计算量。因此很多研究者把目光放在了减少逆向分布采样步骤量的方向上。
而DDIM的核心优化点,就是在保证DDPM中的逆向步骤为高斯分布的条件下,构造了满足逆向步骤的迭代公式,从而大幅度减少了模型的训练,推理的计算量。
回到应用层面。以目前前沿的扩散模型相关的生成模型为例,更多的在下游任务中进行领域级别的优化:无论是Dalle-2系列,还是基于有效针对隐式特征空间进行压缩和扩散模型建模的Stable-Diffusion ,对于扩散模型的采样及运算优化涉及不多。更多的注重在特征的前/后处理以及生成模型上。而此类做法很容易导致最终运算效率受到扩散模型采样还原的效率影响。Stable-Diffusion巧妙的做法在于,将特征空间映射到低维进行操作,在建模进行特征的还原以及图像的生成,因此避开了计算量的问题。

  • 优化思路


而在本模型中,我们希望直面挑战,从扩散模型采样效率出发,将扩散模型所需的采样频率进一步下降,且保证生成效率基本持平甚至有所提升。这样可以直接在高维特征上进行模型优化,也为后续的优化建立了足够的空间。

从前述背景中我们可以知道,DDIM的核心优化点,就是针对DDPM的微小变化马尔可夫链采样函数优化,构建了一种同样能满足逆向传播条件的采样方程式,极大减少了采样需求量:

而如何想到是用这个公式进行逆向采样拟合呢?原文并没有给出答案,而使用了数学归纳法,验证了该式为逆向马尔可夫分布的充分条件,更多的给人一种灵光一闪的感觉。因此我们从这里入手,针对DDIM的采样方式进行进一步的优化。通过构建针对积分的离散近似表达,来实现基于DDIM的2阶段优化,首先我们给出一阶解析解的积分形式:

我们针对其积分形式进行泰勒展开,在展开的部分中我们可以使用泰勒展开的一阶/二阶展开近似积分的拟合形式,可以讲DDPM的采样需求量进一步简化。我们基于其二阶展开进行进一步优化,可以将DDIM的采样需求量进一步缩小。由于目前在准备相关论文及专利,详细推导公式在后续专栏中给出。


  • 实验效果对比


测试生成图(为了看效果尽量进行放大),前图为对比case,后图为优化后 case:


内容投放


 背景


在完成构建内容创作的能力之后,我们需要有一套完整的线上投放机制,以保证线上内容展示效率。此时我们遇到的第一个难点就是:缺少2-3D的特征体系和对比损失的统一性,即3D内容和商家制作2D内容的对比。因此我们首先有针对性的构建了维度统一的特征体系,同时为以下工作提供了基础能力:1.冷启动模型和流控模型的构建。首先保证线上投放链路的正收益。2.设计理解和优化设计能力。其次我们也希望利用线上的反馈数据,基于以上的特征体系对我们的设计能力进行优化。

这边额外提一些设计理解部分的能力的构建的思考和理解。在我们常规的理解中,在完成内容创作-冷启动-流控放大-过期下线 四个部分后,一整套的内容创作流程已经完成了,从平台侧出发,也已经实现了效率最大的优化。那么我们为什么仍然需要解构设计特征,给出设计元素级别的理解呢?
从平台层面:尽管以上链路已经完成了最优质的迭代,但是我们忽略了两个问题:1.冷启动流量测试中的劣质内容损耗。2.流控放大步骤中更优质内容的沉没成本。通过设计理解,进一步提升内容质量效率,能提升表达上限。


从商家/设计师层面:从商家工具的层面入手,商家也希望能够从历史数据中,提供指导商品主图及短视频的的建议,提升商品点击转化相关指标。


下面我们详细展开:


 3D内容和非3D内容特征体系/对比损失的统一性问题和解决


由于在部分场景中,需要和商家制作的2D主图的线上效率进行对比,而如果仅仅使用图像提取embedding,构建pairwise损失函数,一方面表达能力有限,另一方面,只使用图像embedding的黑盒模式无法对后续的设计起到优化和指导的作用。因此我们针对此问题,搭建了包括2D的机位特征获取,位姿特征获取模块在内的2/3D统一特征体系:



 完善的多级流量放大框架的搭建


和开发同学共建多级测试-投放的多级放大流量控制体系,针对投放过程中的新内容投放任务,我们构建了完善的测试-投放链路,保证了复用性能。


  • 内容冷启动


在内容冷启动链路中,我们基于前述构建的完备的统一特征体系,引入多层Attention模块,针对多模态特征进行高效的融合和处理,结合对比数据-如商家制作的商品主图,构建了Pairwise损失函数,完成价值预估模型的构建,在进行冷启动内容投放时,优先选择高预估分的内容进行测投。

  • 完善内容流量调控


针对通过步骤1.内容冷启动的,将符合条件的商品送入多级放大流量模块中,将其30日/14日/7日/3日/1日内的特征及效率表现作为输入,构建PID模型进行流量调优


 设计可解释性&设计优化


在完成线上多级放大链路的搭建之后,我们不仅可以进行整体效率维度的优化,对于具体的设计,结合前述构建的2/3D全面统一的特征体系,也可以尝试构建元素维度对于点击效率的影响,即设计可解释性。举例而言,当我们想使用Diffusion Model 进行带约束的内容创作时,需要加上特殊的关键词(prompt),以调整最终的生成创意内容。当我们掌握了设计元素维度对于点击率的影响之后,我们可以通过线上数据反馈进行关键词优化:例如“红色衣服适合白色主色调的氛围”,“灰绿色沙发放在简约风格的样板间中进行展示较合适”。
因此在设计可解释性层面,我们使用Shaply Value作为特征重要性标准,而针对Shaply Value存在的缺陷:在多维度交叉特征上的准确性及计算量问题,将采样进行进一步简化。采样方式参考《Polynomial calculation of the Shapley value based on sampling》,这边给出采样的伪代码


展示case:

以二维特征交叉为例,在灰色系的商品(训练数据为家具模型)背景创作/匹配时,可以加入蓝色背景相关关键字进行生成,而不适合放在纯白的背景中。
写在最后的“以终为始”

3D模型在智能设计领域以其可塑性,可编辑性有着属于自己的独特优势,扩展了2D设计的上限。但是其目前存在的局限性也是显而易见的:建模的效率,模型的数量,以及3D设计的成本。


我个人比较推崇的一种思考方式是“以终为始”:将理想中的目标作为起点,反推实现最终目标中所需要的必经之路。当我们想要实现3D相关应用所带来的高效,高质量内容创作,甚至改变整个生态的最终目标前:高质量且多样的的内容创作能力,以及高效的线上测/投链路是必不可少的,也即围绕本文开头部分的框架进行展开。
未来我们将围绕3D内容的效率和体验两方面内容,基于现有的经验进一步进行内容创作,进一步扩展3D内容创作的边界。

团队介绍


大淘宝技术Meta团队,目前负责面向消费场景的3D/XR基础技术建设和创新应用探索,创造以手机及XR 新设备为载体的消费购物新体验。团队在端智能、端云协同、商品三维重建、3D引擎、XR引擎等方面有着深厚的技术积累,先后发布深度学习引擎MNN、端侧实时视觉算法库PixelAI、商品三维重建工具Object Drawer、端云协同系统Walle等。团队在OSDI、MLSys、CVPR、ICCV、NeurIPS、TPAMI等顶级学术会议和期刊上发表多篇论文。欢迎视觉算法、3D/XR引擎、深度学习引擎研发、终端研发等领域的优秀人才加入,共同走进3D数字新时代。简历请投递至: chengfei.lcf@alibaba-inc.com

相关文章
|
2月前
|
存储 算法 安全
如何控制上网行为——基于 C# 实现布隆过滤器算法的上网行为管控策略研究与实践解析
在数字化办公生态系统中,企业对员工网络行为的精细化管理已成为保障网络安全、提升组织效能的核心命题。如何在有效防范恶意网站访问、数据泄露风险的同时,避免过度管控对正常业务运作的负面影响,构成了企业网络安全领域的重要研究方向。在此背景下,数据结构与算法作为底层技术支撑,其重要性愈发凸显。本文将以布隆过滤器算法为研究对象,基于 C# 编程语言开展理论分析与工程实践,系统探讨该算法在企业上网行为管理中的应用范式。
92 8
|
2月前
|
监控 算法 数据处理
基于 C++ 的 KD 树算法在监控局域网屏幕中的理论剖析与工程实践研究
本文探讨了KD树在局域网屏幕监控中的应用,通过C++实现其构建与查询功能,显著提升多维数据处理效率。KD树作为一种二叉空间划分结构,适用于屏幕图像特征匹配、异常画面检测及数据压缩传输优化等场景。相比传统方法,基于KD树的方案检索效率提升2-3个数量级,但高维数据退化和动态更新等问题仍需进一步研究。未来可通过融合其他数据结构、引入深度学习及开发增量式更新算法等方式优化性能。
90 17
|
2月前
|
人工智能 自然语言处理 算法
算法及模型合规:刻不容缓的企业行动指南
随着AI技术迅猛发展,算法与模型成为企业数字化转型的核心。然而,国家密集出台多项法规,如《人工智能生成合成内容标识办法》等,并开展“清朗·整治AI技术滥用”专项行动,标志着AI监管进入严格阶段。算法备案从“可选项”变为“必选项”,未合规可能面临罚款甚至刑事责任。同时,多地提供备案奖励政策,合规既是规避风险的需要,也是把握政策红利和市场信任的机遇。企业需系统规划合规工作,从被动应对转向主动引领,以适应AI时代的挑战与机遇。
|
2月前
|
存储 监控 算法
基于 C# 时间轮算法的控制局域网上网时间与实践应用
在数字化办公与教育环境中,局域网作为内部网络通信的核心基础设施,其精细化管理水平直接影响网络资源的合理配置与使用效能。对局域网用户上网时间的有效管控,已成为企业、教育机构等组织的重要管理需求。这一需求不仅旨在提升员工工作效率、规范学生网络使用行为,更是优化网络带宽资源分配的关键举措。时间轮算法作为一种经典的定时任务管理机制,在局域网用户上网时间管控场景中展现出显著的技术优势。本文将系统阐述时间轮算法的核心原理,并基于 C# 编程语言提供具体实现方案,以期深入剖析该算法在局域网管理中的应用逻辑与实践价值。
62 5
|
3月前
|
机器学习/深度学习 存储 算法
18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现
本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。
191 10
18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
155 6
|
4月前
|
算法
一次推理,实现六大3D点云分割任务!华科发布大一统算法UniSeg3D,性能新SOTA
华中科技大学研究团队提出了一种名为UniSeg3D的创新算法,该算法通过一次推理即可完成六大3D点云分割任务(全景、语义、实例、交互式、指代和开放词汇分割),并基于Transformer架构实现任务间知识共享与互惠。实验表明,UniSeg3D在多个基准数据集上超越现有SOTA方法,为3D场景理解提供了全新统一框架。然而,模型较大可能限制实际部署。
265 15
|
4月前
|
算法 数据挖掘 数据安全/隐私保护
基于CS模型和CV模型的多目标协同滤波跟踪算法matlab仿真
本项目基于CS模型和CV模型的多目标协同滤波跟踪算法,旨在提高复杂场景下多个移动目标的跟踪精度和鲁棒性。通过融合目标间的关系和数据关联性,优化跟踪结果。程序在MATLAB2022A上运行,展示了真实轨迹与滤波轨迹的对比、位置及速度误差均值和均方误差等关键指标。核心代码包括对目标轨迹、速度及误差的详细绘图分析,验证了算法的有效性。该算法结合CS模型的初步聚类和CV模型的投票机制,增强了目标状态估计的准确性,尤其适用于遮挡、重叠和快速运动等复杂场景。
|
4天前
|
传感器 算法 安全
机器人路径规划和避障算法matlab仿真,分别对比贪婪搜索,最安全距离,RPM以及RRT四种算法
本程序基于MATLAB 2022A实现机器人路径规划与避障仿真,对比贪婪搜索、最安全距离、RPM和RRT四种算法。通过地图模拟环境,输出各算法的路径规划结果,展示其在避障性能与路径优化方面的差异。代码包含核心路径搜索逻辑,并附有测试运行图示,适用于机器人路径规划研究与教学演示。
116 64
|
7天前
|
算法 调度
基于精英个体保留策略遗传优化的生产调度算法matlab仿真
本程序基于精英个体保留策略的遗传算法,实现生产调度优化。通过MATLAB仿真,输出收敛曲线与甘特图,直观展示调度结果与迭代过程。适用于复杂多约束生产环境,提升资源利用率与调度效率。

热门文章

最新文章