AIGC在天猫商品海报生成上的探索

简介: AIGC在天猫商品海报生成上的探索




灵感艺术家项目,旨在通过AIGC绘图能力,联合商家打造低门槛+高趣味性的宣传海报设计大赛,本文分享我们的方案和优化方向。建议对AIGC感兴趣的工程、算法方向的同学阅读。



项目背景

灵感艺术家项目,旨在通过AIGC绘图能力,联合商家打造低门槛+高趣味性的宣传海报设计大赛,为新品进行宣传和造势。同时也是为了给消费者提供参与新品宣发的通道。
目标拆解

GPT部分采用通义千问大语言模型,详见其技术文档。本文重点介绍海报风格的图像生成部分,分为商品海报、皮克斯,二次元,写实四种风格:


皮克斯、二次元、写实三个风格,实现思路比较清晰,属于标准的文生图,基于MJ、SD都可以实现。分析MJ和SD的优缺点的文章有很多,不做赘述,我们最终选择SD作为文生图的算法方案,核心在于SD开源,可塑性强。基于diffusers,我们重写了一套SD实现,支持VAE、ControlNet、Lora、Embedings等功能,根据业务特点,定制了warmup、auto_predict等能力。比较轻松的解决了这三个风格的生成问题。

算法的难点在于商品海报的风格生成,品牌方要求商品高度还原,并且生成的海报,像素清晰、细节丰富、具备高级感。要求是丰满的,而现实是骨感的。商品细节复杂,特别是带有文字时,很难生成。并且绘图灵感由用户文字随机输入,出图效果几乎是不可控的。为此,我们进行了大量调研,并做了一些优化尝试。
方案调研

以香奈儿5号香水为例,初步尝试了4套方案。

 方案一 SD + Outpainting


简述:固定商品位置,重绘商品之外的区域。优点:不会影响香水的外观。缺点:图片中人物、背景与香水的位置关系很难控制,有比较明显的违和感。

 方案二 SD Inpainting + Reference Only


简述:以商品图信息注入attention层中,来控制unet生成相似的图像。优点:可以完全保留预生成的背景。缺点:香水还原度低。

 方案三 基于Reference的Diffusion算法


简述:基于一张参考商品图,生成较相似的商品代表:PBE, IP Adapter, Anydoor…优点:泛化性强,无需对每个商品单独训练缺点:商品细节依旧不够还原copy&paste过于严重


 方案四 SD + Lora/Dreambooth


简述:微调模型,注入商品外貌信息优点:商品外貌还原度较高,且出图率较稳定缺点:文字等细节还原度仍然不够高;且细节部分越小,其扭曲失真程度就越严重方案四最接近想要的效果,但距离我们的要求,还有很大的差距。

优化方向

 探索一 VAE增强


对LDM(SD的主要引用论文)模型的结构进行分析,初步怀疑细节还原不足的核心原因在于VAE从像素空间到隐空间相互转换过程中,丢失了细节信息。


为了验证猜想,我们做了一个测试,对一张图片进行十次encoder和decoder操作,文字等图像细节已经开始模糊。我们想了一个方法,对VAE丢失的信息进行补偿,还原度有比较可观的增强。


但距离完美还原,依然还有差距。


 探索二 图像超分


既然细节难以还原,那么把细节放大,是否还原度就可以提升?为了验证这个猜想,我们做了如下的实验。
在256 * 256分辨率下,文字几乎无法辨认。

在512  512分辨率下,相对256  256有明显改善,而且 2.X版本的还原度优于1.X版本。


升级到SDXL后,文字还原度进一步增强。

像素提升,还原度确实有提升。很自然的,我们想到可以在生成的图像上,对文字等细节部分进行超分,然后在refiner阶段,训练专属的 controlnet,进一步提升还原度。


经过多次调整,细节还原度能达到90%以上。但距离完美还原,依然还有一点差距。


 探索三  贴图


既然文字等细节非常难还原,那么是否可以直接把文字部分复制粘贴回去?

通过提取原始商品的文字区域,贴图到生成商品的对应区域,完美还原文字细节。

线上方案


经过上述几个方向的探索,初步解决了香水等商品的海报生成问题,但对复杂图文的商品依然很难还原,例如:

既要完美还原,又要增加泛化性,索性,全图贴回去【狗头】。方案如下:

  1. 离线模块通过文生图产生一个背景图库。
  2. 离线模块预置多角度商品图,解决商品角度的多样性问题。
  3. 从背景图库中选择一张跟当前商品最相关的图作为引导图。解决商品和背景不协调的问题,提高出图率。
  4. 由商品图和背景图一起,生成线框图和商品白底图以及对应的mask。
  5. 通过Stable Diffusion+Canny Controlnet+Reference生成初步的商品海报。
  6. 使用SAM和LAMA抹除商品,防止后面贴图时,边缘出现对不齐的情况。
  7. 将抹去商品的图和步骤4中的商品白底图、对应的mask作为输入,合成新的图像。
  8. 提取步骤5中的生成商品的光影信息,投射到步骤7的商品上,生成最终的商品海报。


总结一下:

  1. 通过Copy&Paste的方式,保证无差别还原。
  2. 通过预置引导图解决了完全随机性,提高了出图率。
  3. 通过两步生成解决了倒影等问题。图像精美,具备高级感。
  4. 通过擦除重建以及图像融合技术,缓解了商品边缘的毛刺问题。
  5. 通过从生成图上提取光影,映射到贴图,解决了光影不和谐的问题。


测试效果



线上效果


出图率95%以上,基本每张图都能看,大部分图能抗打。A10 GPU上,单卡出图速度3-5秒。


下一步探索方向

初步看,效果可以接受了,但依然还有一些可以提升的空间,比如:


如何进一步提升复杂海报的生成效果,增加遮挡关系?


如何解决商品与背景的比例和谐,GLIGEN可能是答案?


贴图总显得不那么算法,是否有机会继续提升VAE的能力,或者去掉VAE。Consistency Decoder可以试试?


最后,探索从未停止,AIGC永不眠。

引用


[1] IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
[2] Paint by Example: Exemplar-based Image Editing with Diffusion Models
[3] AnyDoor: Zero-shot Object-level Image Customization
[4] High-Resolution Image Synthesis with Latent Diffusion Models
[5] SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
[6] GLIGEN: Open-Set Grounded Text-to-Image Generation
[7]
https://github.com/openai/consistencydecoder


36afae44ba09c35fc2e66174ab76d63b.png团队介绍

我们是大淘宝FC技术智能策略团队,负责手机天猫搜索、推荐、拍立享等业务研发和技术平台建设,综合运用搜推算法、机器视觉、AIGC等前沿技术,致力于依靠技术的进步支持场景的提效和产品的创新,为用户带来更好的购物体验。

相关文章
AIGC,我的神奇海报设计师!
作为一个业余平面设计师,我非常喜欢使用AIGC来辅助我的创作工作。我曾经在使用AIGC过程中,得到了许多令人惊奇的成果,让我的平面设计作品更加出色。
392 0
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术深度解析:生成式AI的革命性突破与产业应用实战
蒋星熠Jaxonic,AI技术探索者,深耕生成式AI领域。本文系统解析AIGC核心技术,涵盖Transformer架构、主流模型对比与实战应用,分享文本生成、图像创作等场景的实践经验,展望技术趋势与产业前景,助力开发者构建完整认知体系,共赴AI原生时代。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术发展与应用实践(一文读懂AIGC)
AIGC(人工智能生成内容)是利用AI技术生成文本、图像、音频、视频等内容的重要领域。其发展历程包括初期探索、应用拓展和深度融合三大阶段,核心技术涵盖数据收集、模型训练、内容生成、质量评估及应用部署。AIGC在内容创作、教育、医疗、游戏、商业等领域广泛应用,未来将向更大规模、多模态融合和个性化方向发展。但同时也面临伦理法律和技术瓶颈等挑战,需在推动技术进步的同时加强规范与监管,以实现健康可持续发展。
|
存储 自然语言处理 API
通义万相AIGC技术Web服务体验评测
随着人工智能技术的不断进步,图像生成技术已成为创意产业的一大助力。通义万相AIGC技术,作为阿里云推出的一项先进技术,旨在通过文本到图像、涂鸦转换、人像风格重塑及人物写真创建等功能,加速艺术家和设计师的创作流程。本文将详细评测这一技术的实际应用体验。
467 4
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
技术创新领域,AI(AIGC)是否会让TRIZ“下岗”?
法思诺创新直播间探讨了AI(AIGC)是否将取代TRIZ的问题。专家赵敏认为,AI与TRIZ在技术创新领域具有互补性,结合两者更务实。TRIZ提供结构化分析框架,AI加速数据处理和方案生成。DeepSeek、Gemini等AI也指出,二者各有优劣,应在复杂创新中协同使用。企业应建立双轨知识库,重构人机混合创新流程,实现全面升级。结论显示,AI与TRIZ互补远超竞争,结合二者是未来技术创新的关键。
192 0
|
9月前
|
人工智能 搜索推荐 数据库
实时云渲染技术赋能AIGC,开启3D内容生态黄金时代
在AIGC技术革命的推动下,3D内容生态将迎来巨大变革。实时云渲染与Cloud XR技术将在三维数字资产的上云、交互及传播中扮演关键角色,大幅提升生产效率并降低门槛。作为云基础设施厂商,抓住这一机遇将加速元宇宙的构建与繁荣。AIGC不仅改变3D内容的生成方式,从手工转向自动生成,还将催生更多3D创作工具和基础设施,进一步丰富虚拟世界的构建。未来,通过文本输入即可生成引人注目的3D环境,多模态模型的应用将极大拓展创作的可能性。
|
11月前
|
人工智能 自然语言处理 数据可视化
什么是AIGC?如何使用AIGC技术辅助办公?
2分钟了解AIGC技术及其如何提高日常办公效率!
3574 4
什么是AIGC?如何使用AIGC技术辅助办公?
|
9月前
|
编解码 人工智能 算法
国家扶持超高清产业背景下:视频云AIGC的超高清技术实践
本次分享由阿里云视频云高级产品解决方案架构师陈震主讲,聚焦国家扶持超高清产业背景下,视频云AIGC的超高清技术实践。内容涵盖超高清产业发展趋势与挑战、阿里视频云的应对方案及应用案例。通过全链路超高清解决方案,结合AI、云计算等技术,提供从内容生产、传输到播放的完整支持,助力行业应对超高清视频带来的技术与市场挑战。
317 0
|
9月前
|
人工智能 编解码 安全
全球AI新浪潮:智能媒体服务的技术创新与AIGC加速出海
本文介绍了智能媒体服务的国际化产品技术创新及AIGC驱动的内容出海技术实践。首先,探讨了媒体服务在视频应用中的升级引擎作用,分析了国际市场的差异与挑战,并提出模块化产品方案以满足不同需求。其次,重点介绍了AIGC技术如何推动媒体服务2.0智能化进化,涵盖多模态内容理解、智能生产制作、音视频处理等方面。最后,发布了阿里云智能媒体服务的国际产品矩阵,包括媒体打包、转码、实时处理和传输服务,支持多种广告规格和效果追踪分析,助力全球企业进行视频化创新。
288 0
|
12月前
|
人工智能 自然语言处理 数据挖掘
Claude 3.5:一场AI技术的惊艳飞跃 | AIGC
在这个科技日新月异的时代,人工智能(AI)的进步令人惊叹。博主体验了Claude 3.5 Sonnet的最新功能,对其卓越的性能、强大的内容创作与理解能力、创新的Artifacts功能、视觉理解与文本转录能力、革命性的“computeruse”功能、广泛的应用场景与兼容性以及成本效益和易用性深感震撼。这篇介绍将带你一窥其技术前沿的魅力。【10月更文挑战第12天】
456 1