Class 1 达摩院视觉AI技术应用探索

简介: 阿里云高校计划视觉AI五天训练营教程

打卡截图:

一、视觉生产——定义

通过一个/一系列视觉过程,产出新的视觉表达。
产出:人或机器能够感知的图像视频,而不是标签或特征;
要求:新的,和输入不一样的。
输入(参数/素材)——>过程(视觉生产)——>产出(素材/成品)

二、视觉生产——分类

1.生成:从0到1
2.拓展:从1到N
3.摘要:从N到1
4.升维:从An到An+1(比如2D到3D,静态到动态等)
5.增强/变换:从A到B(改)
6.插入/合成:A+B=C(增)
7.擦除:A-B=C(删)

三、视觉生产——通用基础框架

(请求)输入(参数、素材等)
(分发)生产类型(通用生成、素材合成等)
(服务)视觉生产引擎(生成引擎、搜索引擎)
(响应)输出图像/视频/3D(素材、案例等)

四、视觉生产——五个关键维度(由下至上,由浅入深)

  • 带来用户/商业价值(可用)
  • 提供用户预期的抓手(可控)
  • 保证结果的丰富性(多样)
  • 合乎语义/内容逻辑(合理)
  • 满足视觉/美学表现(可看)

五、精细理解——分割抠图

识别:知道是什么
检测:识别+知道在哪儿
分割:识别+检测+每一个像素是什么

六、视觉生成——框架流程

1.理需求
2.定草图
3.选状态
4.调细节
5.生成图
6.评好坏

素材准备——基础特——智能特效——智能编排

七、视觉编辑






视觉植入:可实现在视频里进行文字、图片的拼接插入或者删除
画幅变化:调整画幅比例、图片尺寸等
八、视觉增强(分辨率、帧率、色彩)



人脸修复增强、渲染图超分、视频超分、插帧、HDR色彩扩展、风格迁移

九、视觉制造


实体设计制造、服装几何生成、多样性拓展等

十、视觉智能开放平台

视觉开放平台

相关文章
|
3天前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
2天前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
12 0
|
2天前
|
人工智能 监控 数据可视化
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】0. 一文全览Tracing功能,让你的程序运行过程一目了然
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】0. 一文全览Tracing功能,让你的程序运行过程一目了然
6 0
|
2天前
|
人工智能 API 开发者
【AI大模型应用开发】0.2 智谱AI API接入详细步骤和简单应用
【AI大模型应用开发】0.2 智谱AI API接入详细步骤和简单应用
5 0
|
7天前
|
机器学习/深度学习 人工智能 算法
未来AI技术的发展与应用前景
随着人工智能(AI)技术的迅速发展,其在各个领域的应用前景备受关注。本文将探讨未来AI技术的发展趋势,以及其在医疗、交通、教育等领域的潜在应用,展望AI技术对未来社会的影响和改变。
15 1
|
11天前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
21 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
13天前
|
机器学习/深度学习 人工智能 算法
AI战略丨AI原生时代,应用创新蓄势待发
通过热点AI应用创新项目的观察,我们可以看到新技术的突破方向,也能发现基于生成式AI迸发出的全新商业前景落地的可能性。
AI战略丨AI原生时代,应用创新蓄势待发
|
13天前
|
人工智能 数据可视化 大数据
从埃森哲《技术展望2024》看AI拐点下的数字化趋势
从埃森哲《技术展望2024》看AI拐点下的数字化趋势
16 0
|
13天前
|
机器学习/深度学习 数据采集 人工智能

热门文章

最新文章