视觉AI训练 day1

简介: 视觉生产技术

一、定义和分类

  • 视觉生产的定义分为两大类:

    • 视觉理解:主要是检测、识别、分割等
    • 视觉生产:就是如何去产生视觉,主要是通过一个或者一系列视觉过程,产出新的视觉表达。

产出:人或机器能够感知的图像视频,而不是标签或特征。
要求:新的,和输入不一样
image.png

由过去人为进行变为AI进行

  • 视觉生产的分类

    • 生成:从0到1
    • 拓展:从1到N
    • 摘要:从N到1
    • 升维:从An到An + 1(图像由二维静态的视觉表达加入时间轴后,变为二维动态的视觉表达)
    • 增强/变换:从A到B
    • 插入/合成:A + B = C
    • 擦除:A - B = C
      image.png
  • 通用基础框架

image.png

  • 五个关键维度(保证结果)

    • 可看:满足视觉/美学表现(基本)
    • 合理:合乎语义/内容逻辑
    • 多样:保证结果的丰富性
    • 可控:提供用户预期的抓手
    • 可用:带来用户/商业价值(最重要)
      image.png

二、精细理解--寻微入理

如要生产一个视觉,首先需要理解视觉

  • 分割抠图

    • 识别:知道是什么
    • 检测:识别 + 知道在哪儿
    • 分割:识别 + 检测 + 知道没一个像素是什么
  • 分割抠图--难点
    image.png
  • 分割抠图--解题思路

    • 复杂问题拆解:粗mask估计 + 精准matting
    • 丰富数据样本:设计图像mask统一模型
  • 分割抠图--模型框架
    image.png

三、视觉生成--从无到有

  • 框架流程
    image.png
  • 照图生图(参考原图能够生成差不多的图)
  • 人性化设计(为不同的人产生不同的结果)
  • ALibabaWood
    image.png
  • 视频生成--框架流程
    image.png
  • 视觉生成--视频摘要
    对视频进行剪辑,去需要的那块
  • 视觉生成--视频封面
    image.png

四、视觉编辑--移花接木

  • 视觉编辑--视频植入
    主要应用于广告,根据视频内容插入合适的广告

image.png
image.png

  • 视觉编辑--视频内容擦除
    image.png
  • 视觉编辑--文字擦除
    字幕的应用
  • 视觉编辑--Logo擦除
  • 视觉编辑--画幅变化
    主题检测分割 + 背景拉伸 + 背景补全 + 智能构图裁剪 + 超分辨率 = 多保留50%有效画面
  • 视觉编辑--图像尺寸变化

五、视觉增强--修旧如新

  • 视频增加
    image.png
  • 人脸修复增强
  • 渲染图超分
  • 视频超分
  • 视频插帧
  • HDR色彩扩展
  • 风格迁移
    image.png
  • 视觉迁移--颜色拓展
    image.png

六、视觉制造--由虚入实

  • 现有实体设计制造,效率低、协同差、定制难
  • 核心逻辑
    image.png
  • 包装几何生成
  • 材质工艺
  • 视觉迁移及融合
  • 多样性拓展
    image.png
  • 2D3D融合
    image.png

七、视觉开放平台--万剑归宗

官网:视觉智能开发平台

注:本文由阿里云AI视觉训练营支持撰写

目录
相关文章
|
19天前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
2月前
|
机器学习/深度学习 人工智能 算法
AI加速引擎PAI-TorchAcc:OLMo训练加速最佳实践
阿里云机器学习平台PAI开发的Pytorch训练加速框架PAI-TorchAcc已接入最新开源的大语言模型 OLMo。在保证模型效果和易用性的前提下,PAI-TorchAcc相对 PyTorch 性能在 OLMo 1B 上加速比达到 1.64X,在 OLMo 7B 上加速比达到 1.52X。本文分析了 PAI-TorchAcc 的性能收益来源。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能(AI)之计算机视觉和自然语言训练文件
人工智能(AI)之计算机视觉和自然语言训练文件
47 0
|
5天前
|
数据采集 机器学习/深度学习 人工智能
【AI 生成式】LLM 通常如何训练?
【5月更文挑战第5天】【AI 生成式】LLM 通常如何训练?
|
27天前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
32 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
2月前
|
人工智能 自动驾驶 算法
只要千元级,人人可用百亿级多模态大模型!国产“AI模盒”秒级训练推理
云天励飞,中国AI独角兽,发布“AI模盒”,以千元成本实现多模态大模型的秒级训练推理,降低AI应用门槛。该产品凸显了公司在技术创新与普及中的努力,旨在构建智能城市并重塑日常生活,同时也面临数据安全、隐私保护及人才挑战。
28 3
只要千元级,人人可用百亿级多模态大模型!国产“AI模盒”秒级训练推理
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
|
2月前
|
人工智能 开发者 Python
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
202 1
|
2月前
|
人工智能 算法 UED
OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI
【2月更文挑战第26天】OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI
28 7
OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI
|
2月前
|
人工智能 UED
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
【2月更文挑战第17天】“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
104 1
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换