视觉AI训练营——Day01

简介: 课程主题:视觉生产技术探索与应用课程讲师:谢宣松(星瞳)

视觉生产技术

定义和分类

视觉生产定义:

通过一个/一系列视觉过程,产出新的视觉表达。

  • 产出:人或机器能够感知的图像视频,而不是标签或特征;
  • 要求:新的,和输入不一样的;
    image.png

分类:

  • 生成:从0到1
  • 拓展:从1到N
  • 摘要:从N到1
  • 升维:从An到An+1
  • 增强/变换:从A到B
  • 插入/合成:A+B=C
  • 擦除:A-B=C

此系列的产品有:image.png

通用基础框架

image.png

五个关键维度

  • 满足视觉/美学表现:可看
  • 合乎语义/内容逻辑:合理
  • 保证结果的丰富性:多样
  • 提供用户预期的抓手:可控
  • 带来用户/商业价值:可用

精细理解

分割切图

视觉分割是生产的必要前置步骤。只有理解了,才能生成。

识别:知道是什么
检测:识别+知道在哪里
分割:识别+检测+知道每一个像素是什么

难点:

  • 复杂背景
  • 遮挡
  • 发丝精抠
  • 边缘反色
  • 透明材质
  • 多尺度/目标

主要来说:数据严重不足,标注成本高

image.png

解题思路:

  • 复杂问题拆解:粗mask估计+精准 matting
  • 丰富数据样本:设计图像mask统一模型

模型框架:

image.png

效果展示:

image.png

人像抠图拓展

image.png

物体抠图拓展

image.png

场景抠图拓展

image.png

以上都是抠图加场景

视觉生成

鹿班

image.png

框架流程

image.png

电商设计

image.png

智能美工

image.png

行业设计

image.png

AlibabaWood短视频生成

image.png

框架技术:
image.png

视频摘要:
image.png

视频封面:

image.png

视觉编辑

视频植入:
image.png

image.png

植入位检测与定位、动态检测分割

视频内容擦除:

image.png

包括文字擦除、Logo擦除、去掉台标、去掉广告

画幅变化:

image.png

图像尺寸变化:

image.png

视觉增强

image.png

人脸是最重要的目标对象,对人像进行细节修复增强,有很重要的意义和价值。

  • 人脸修复增强
  • 渲染图超分
  • 视频超分
  • 视频插帧
  • HDR色彩扩展

风格迁移:

image.png

颜色拓展:

image.png

视觉制造

实体制造:

image.png

数字制造:

image.png

  • 包装几何生成
  • 服装几何生成
  • 材质工艺
  • 视觉迁移及融合
  • 多样性拓展
  • 2D3D融合

视觉开发平台

定位:

image.png

能力分布:

image.png

特点:

image.png

能力选择:

image.png

普惠:

image.png

目录
相关文章
|
4天前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
12天前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
26 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
1月前
|
人工智能 UED
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
【2月更文挑战第17天】“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
77 1
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
59 1
|
1月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
18 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
|
3月前
|
机器学习/深度学习 存储 人工智能
如何在本地部署视觉AI系统呢
如何在本地部署视觉AI系统呢
|
3月前
|
存储 机器学习/深度学习 人工智能
视觉AI的公共云服务有哪些优势
视觉AI的公共云服务有哪些优势
|
3月前
|
人工智能 API 开发工具
视觉AI的公共云
视觉AI的公共云
|
9月前
|
机器学习/深度学习 存储 人工智能
|
9月前
|
人工智能 智能设计 达摩院