视觉生产技术入门篇

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: 视觉生产技术入门学习,什么是视觉生产?视觉生产分割抠图、视觉生成、视觉编辑、视觉增强、视觉制造等。

视觉生产技术

1. 定义和分类

1.1 视觉生产——定义

  • 视觉一般分为两大类

    • 视觉理解:检测、识别、分割等等
    • 视觉生产:怎么产生视觉【通过一个/一系列视觉过程,产出新的视觉表达】

      • 产出:人或机器能够感知的图像视频,而不是标签或特征
      • 要求:新的,和输入不一样的

在这里插入图片描述

1.2 视觉生产——分类

  • 生成:从0到1
  • 拓展:从1到N
  • 摘要:从N到1
  • 升维:从An到An+1
  • 增强/变换:从A到B
  • 插入/合成:A+B=C
  • 擦除:A-B=C

1.3 视觉生产——通用基础框架

在这里插入图片描述

1.4 视觉生产——五个关键维度

  1. 满足视觉/美学表现
  2. 合乎语义/内容逻辑
  3. 保证结果的丰富性
  4. 提供用户预期的抓手【可控】
  5. 带来用户/商业价值【可用】

在这里插入图片描述

2. 精细理解——寻微入里

人要先认知世界才能再改造世界

2.1 精细理解——分割抠图

  1. 识别:知道是什么

在这里插入图片描述

  1. 检测:识别 + 知道在哪儿

在这里插入图片描述

  1. 分割:识别 + 检测 + 知道每一个像素是什么

视觉分割是生产的必要前提步骤
唯能理解,方能生成

在这里插入图片描述

2.2 分割抠图——难点

  • 复杂背景
  • 遮挡
  • 发丝精抠、
  • 边缘反色
  • 透明材质、
  • 多尺度/目标

数据严重不足,标注成本高

2.3 分割抠图——解题思路

在这里插入图片描述

  1. 复杂问题拆解:粗mask设计 + 精准matting
  2. 丰富数据样本:设计图像mask统一模型

2.4 分割抠图——模型框架

在这里插入图片描述

2.5 分割抠图——人像抠图

在这里插入图片描述

2.6 分割抠图——物体抠图

在这里插入图片描述

由于每个图的细节等有所不同,所以想用一个model实现分割所有的图是不太可能的

2.7 分割抠图——场景抠图

在这里插入图片描述

3. 视觉生成——从无到有

3.1 视觉生成——框架流程

在这里插入图片描述
在这里插入图片描述

3.2 视觉生成——电商设计

  • 照图生图

    • 参考原图,将风格、布局等信息学习并迁移到目标数据上

在这里插入图片描述

  • 个性化设计

    • 多元化设计风格,结合商品品类、投放场景、目标客群的差异进行定制化设计

在这里插入图片描述

3.3 视觉生成——场景智能美工

  • IN:营销场景 + 原始素材
  • OUT:营销图片
  • 调用方式:API

在这里插入图片描述

3.4 视觉生成——AlibabaWood

在这里插入图片描述

3.5 视觉生成——框架流程

在这里插入图片描述

4. 视觉编辑——移花接木

4.1 视频植入

  • 目前大部分广告都是与内容无关的,对用户不太友好,视频植入手段可将广告植入到视频中,提升用户体验
    在这里插入图片描述

在这里插入图片描述

4.2 视觉编辑——植入位检测与定位

在这里插入图片描述

4.3 视觉编辑——动态检测分割

  • 单独分割
  • 遮挡关系等

4.4 视觉编辑——视频内容擦除

在这里插入图片描述

4.5 视觉编辑——文字擦除

在这里插入图片描述

4.6 视觉编辑——画幅变化

在这里插入图片描述
在这里插入图片描述

4.7 视觉编辑——图像尺寸变化

  • 在不同场合图像尺寸可以自动变化

在这里插入图片描述

5. 视觉增强——修旧如新

5.1 视觉增强——视频增强

在这里插入图片描述

5.2 视觉增强——人脸修复增强

  • 人脸是最重要的目标对象,对人像进行细节修复增强,有很重要的意义和价值
  • eg:老照片修复

在这里插入图片描述

5.3 视觉增强——渲染图超分

  • CG渲染时间几乎与图像分辨率成正比,高质量真实感渲染需要30分钟才能产生一张图像
  • 针对CG渲染流水线研发的超高分辨率技术可以把低分辨率图像放大到与高清原图一样的清晰度
    在这里插入图片描述

5.4 视觉增强——HDR色彩扩展

在这里插入图片描述

5.5 视觉增强——风格迁移

在这里插入图片描述

5.5 视觉增强——颜色拓展

在这里插入图片描述
在这里插入图片描述

6. 视觉制造——由虚入实

6.1 实体设计制造

  • 效率低:多次打样,多次沟通
  • 协同差:设计、营销、生成脱节、倒置
  • 定制难:无法实现柔性生产

在这里插入图片描述

6.2 视觉制造——核心逻辑

在这里插入图片描述

6.3 视觉制造——几何生成

  • 包装几何生成

在这里插入图片描述

  • 服装几何生成

在这里插入图片描述

6.4 视觉增强——材质工艺

在这里插入图片描述

6.5 视觉增强——视觉迁移及融合

在这里插入图片描述

6.6 视觉制造——多样性拓展

在这里插入图片描述

6.7 视觉制造——2D 3D融合

在这里插入图片描述

7. 视觉开放平台——万剑归宗

  • 官网:vision.aliyun.com

在这里插入图片描述

目录
相关文章
|
6月前
|
人工智能 数据可视化 搜索推荐
Katalist官网体验入口 生成式AI视觉故事板工具
【2月更文挑战第26天】Katalist官网体验入口 生成式AI视觉故事板工具
190 4
Katalist官网体验入口 生成式AI视觉故事板工具
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI驱动的个性化学习平台构建###
【10月更文挑战第29天】 本文将深入探讨如何利用人工智能技术,特别是机器学习与大数据分析,构建一个能够提供高度个性化学习体验的在线平台。我们将分析当前在线教育的挑战,提出通过智能算法实现内容定制、学习路径优化及实时反馈机制的技术方案,以期为不同背景和需求的学习者创造更加高效、互动的学习环境。 ###
32 3
|
1月前
|
机器学习/深度学习 人工智能 小程序
做AI运动小程序有哪些解决方案,如何进行选型?
随着深度学习技术的发展,AI运动应用如“天天跳绳”和“百分运动”变得流行。本文探讨了将AI运动功能引入微信小程序的可行性,并介绍了几种解决方案。实现AI运动计数的关键技术包括视频抽帧、人体检测、姿态识别等。文中详细描述了离线方案(全离线和半离线)和原生方案(自研AI引擎和成熟插件)的不同实现方式,并对各种方案进行了对比,建议优先选择成本低、体验佳的AI运动识别插件方案。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
CosyVoice 与 SenseVoice:阿里FunAudioLLM两大语音生成项目的深度评测
近年来,基于大模型的语音人工智能技术发展迅猛,为自然语音人机交互带来新的可能。通义语音大模型无疑是这一领域的佼佼者。它涵盖了语音理解与语音生成两大核心能力,可支持多种语音任务,包括多语种语音识别、语种识别、情感识别、声音事件检测以及语音合成等
1097 1
|
5月前
|
存储 人工智能 运维
搭建生产级AI服务
搭建生产级AI服务
51 2
|
6月前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
122 0
|
6月前
|
存储 人工智能 搜索推荐
智能管理日常花销 — AI Coze打造个人财务小助手的全新体验(初版)(二)
智能管理日常花销 — AI Coze打造个人财务小助手的全新体验(初版)
152 0
|
6月前
|
人工智能 监控 搜索推荐
智能管理日常花销 — AI Coze打造个人财务小助手的全新体验(初版)(一)
智能管理日常花销 — AI Coze打造个人财务小助手的全新体验(初版)
271 0
|
机器学习/深度学习 人工智能 自然语言处理
课时1:视觉AI技术体系及趋势概述
课时1:视觉AI技术体系及趋势概述
|
人工智能 搜索推荐 物联网
如何用AI大模型升级升级产品
众所周知,从去年到今年,AI领域出现井喷版的火热景象,越来越多的基于AI大模型诞生的应用越来越多,功能也越来越强大。就拿传统的搜索引擎企业来讲,也不得不迅速加入到AI大模型开发的队伍中,以求提升自身搜索产品的功能升级。无论是国内还是国外,被chatGPT直接影响到的行业都在打造自己的AI大模型,为的就是跟上技术发展的脚步,使得自身产品能够保持持续的竞争力。
441 1
如何用AI大模型升级升级产品