达摩院视觉 AI 技术应用探索（三）|学习笔记-阿里云开发者社区

达摩院视觉 AI 技术应用探索（三）|学习笔记

2022-11-19 210

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习达摩院视觉 AI 技术应用探索（三）

开发者学堂课程【视觉 AI 应用开发教程：达摩院视觉 AI 技术应用探索（三）】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/289/detail/3410

达摩院视觉 AI 技术应用探索（三）

六、视觉迁移

1.视觉迁移—风格纹理变换

现有算法效果的缺点：

·要么风格化不足

•要么重要细节缺失和畸变

■如何充分风格化的同时保持重要细节不被损失或畸变？

·采用大感受野范围的特征进行匹配交换，导致原图细节缺失·采用小感受野范围的特征进行匹配交换，导致风格程度不足■实现方案：自适应多笔触布局(AttentionConsistency)

■图像区域重要度分析：Self Attention(自注意力 Ck 机制)

Self Attention GAN——感知远距离区域的特征相关性特征层计算，1x1卷积，降低计算开销

■多笔触融合

·强注意力区域采用精细粒度笔触，保证细节

弱注意力区域采用粗粒度笔触，充分风格化

2、视觉迁移——颜色拓展

视觉迁移一颜色拓展

■传统方案问题——效果差，效率低

·颜色不协调、单一

·受限：不支持位图，主视觉不突出，固定色卡，强交互

现有方案优势：

支持任意图作为参考色进行拓展：提取配色关系，学习参考配色与目标色间的对照关系，转换为二分图匹配问题，利用 Hungarian 算法求解最小分配代价

·计算两个颜色在色彩空间的距离，构建开销矩阵

·求解使得总颜色距离最小的映射，作为色卡的对应关系

√位图拓色效果优秀：通过约束空间一致性，对变换权重进行优化，解决颜色越阶跳变现象

√基于语义信息拓色尽可能保留了原稿主视觉信息：训练分类卷积神经网络(Inception)，避免强语义元素不合理拓色(Precision:95%，Recall：83%，毫秒级响应)

绘定目标色系——绘定参考图——自动模式

算法指标：

高时效性：7层的1920*500图像，7种拓色，仅需1.8秒

高合理性：支持全自动配色/元素分拣过滤，效果更稳更好

高拓展性：支持单图、结构化图输入，可参照图片、色卡、智能配色进行拓展输出

七、视觉制造

1.实体设计制造

·效率低：多次打样，多次沟通(服装设计平均30天)

.协同差：设计、营销、生成脱节、倒置

.定制难：无法实现柔性生产

2、视觉制造的核心逻辑

数字商品：{试点计算一致性计算视觉迁移（纹理、材质等）模型匹配材质匹配模型生成}→{实时渲染离线渲染}

可以渲染到一个具体的图像和模式，去用于商业途径。

1. 视觉制造——包装设计

智能设计的优势：

几何生成

材质工艺

智能设计

阵列布局

2D3D 融合

视觉效果逼真、一键出图

·模型通用、尺寸自适应

.多种展示方式，实时修改和定制

匹配包装刀版图，直接对接供应链

几何生成：自适应纹理的几何生成：覆盖目前大部分常见包装类型。

自动布局：显著性检测，商品自旋转，布局变换矩阵计算，摄像机试点计算

2D3D 融合：集合一致性计算，3D 朝向设计，HDR 光照估计和融合渲染

4.视觉制造——三维几何自动生成

5.视觉制造——多样性拓展

6. 视觉制造——视觉迁移及融合

三维服饰检索：根据图像以及结构化找到匹配的三维模型

八、视觉公共云平台

1.视觉 API 开放平台一定位

解决方案上层产品能力组件原子能力

本平台较关注能力组件和原子能力

例一：视觉智能开放平台——官网：vision.aliyun.com，里面有大概100中 API 能力

例二：视觉智能平台——能力布局

2.视觉智能开放平台的特点：

聚集达摩院及阿里巴巴经济体图像、视频、3D 视觉等领域的科学家和工程师沉淀的视觉 API 能力，打造全球领先的视觉智能技术商业化服务平台，让天下没有难用的视觉智能技术。

拥有阿里巴巴经济体海量场景和最佳案例中锤炼出来的视觉技术，为用户提供具备实战价值且有核心竞争力的视觉AI能力。

提供阿里巴巴经济体全方位视觉能力的输出，荟聚规模化、多样化、细粒度、场景化的视觉 AI 能力，为开发者和用户提供一站式能力选择。

依托阿里云智能坚实的基础设施服务，提供普惠易用的 AI 能力，采用通用且标准化的接口方式，让用户可以快速接入并使用视觉 API，省心省力。