AI视觉 DAY1学习笔记

简介: 初步学习

视觉产生

一、定义

通过一个/一系列视觉过程,产出新的视觉表达
产出:人或机器能够感知的图像视频,而不是标签火特征;
要求:新的,和输入的不一样的
22.png
在过去我们使用一些视频图像软件来生成他们,但是现在我们希望通过AI来自动生成这些。

视觉生产分类

生成:从0到1
拓展:从1到N
摘要:从N到1
升维:从An到An+1

增强/变换:从A到B
插入/合成:A+B=C
擦除:A-B=C

视觉生产通用框架

23.png

视觉生产五个关键维度

1.(可看)满足视觉/没学表现
2.(合理)合乎语义/内容逻辑
3.(多样)保证结果的多样性
4.(可控)提供用户预期的抓手
5.(可用)带来用户/商业价值

二、精细理解

分割抠图

1. 识别:知道是什么
例:人的识别、物的识别
2. 检测:识别+知道在哪
例:缺陷检测、多目标检测
3. 分割:识别+检测+知道每一个像素是什么
视觉分割是生产的必要前置步骤
例:全景分割、病灶分割

分割抠图难点

复杂背景
遮挡
边缘反色
透明材质
多尺度目标
精细抠图
主要问题:数据严重不足,标注成本高

解题思路:

**1. 复杂问题拆解:粗mask估计+精准matting

  1. 丰富数据样本:设计图像mask统一模型**

分割抠图模型框架

24.png

3.视觉生成—从无到有

视觉生产—框架流程

25.png

下面是一些例子:

鹿班场景智能美工
26.png

鹿班行业设计
27.png

视觉生产—AlibabaWood(短视频生成)
28.png
视频生成—框架流程
29.png

4.视觉编辑—移花接木

例1. 视频植入

30.png
31.png

视觉编辑—视频内容擦除

32.png

5.视觉增强—修旧如新

33.png
**例1. 人脸修复增强
例2. 渲染超分
例3. 视频超分
例4. 视频插帧
例5. HDR色彩拓展
例6. 风格迁移**

34.png

例7. 颜色拓展

35.png

6.视觉制造—由虚入实

实体设计制造缺点:

**效率低:多次打样,多次沟通(平均升级时间长)
协同差:设计、有效、生成脱节
定制难:无法实现柔性生产**

AI视觉核心逻辑:

36.png
解决方案示例:神荼

打卡

37.png

相关文章
|
8月前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
8天前
|
人工智能 UED
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。
30 8
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
|
21天前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
17小时前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
30 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
15天前
|
人工智能 API 数据库
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
Browser Use 是一款专为大语言模型设计的智能浏览器工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。
190 0
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
|
18天前
|
机器学习/深度学习 人工智能 安全
合合信息亮相CSIG AI可信论坛,全面拆解视觉内容安全的“终极防线”!
合合信息在CSIG AI可信论坛上,全面拆解了视觉内容安全的“终极防线”。面对AI伪造泛滥的问题,如Deepfake换脸、PS篡改等,合合信息展示了其前沿技术,包括通用PS检测系统和AIGC与换脸检测系统,有效应对视觉内容安全挑战。公司在国际赛事中屡获殊荣,并联合多方发布《文本图像篡改检测系统技术要求》,推动行业标准化发展。通过技术创新,合合信息为金融、政企等领域提供可靠保障,守护社会信任,引领视觉内容安全新方向。
31 0
|
3月前
|
机器学习/深度学习 人工智能 算法
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
NVIDIA TAO Toolkit 5.0 提供低代码框架,支持从新手到专家级别的用户快速开发视觉AI模型。新版本引入了开源架构、基于Transformer的预训练模型、AI辅助数据标注等功能,显著提升了模型开发效率和精度。TAO Toolkit 5.0 还支持多平台部署,包括GPU、CPU、MCU等,简化了模型训练和优化流程,适用于广泛的AI应用场景。
79 0
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
|
8月前
|
人工智能 Windows
LabVIEW将视觉生成器AI用作OPC服务器
LabVIEW将视觉生成器AI用作OPC服务器
80 2
|
4月前
|
人工智能 自然语言处理 Linux
Llama 3.2:开源可定制视觉模型,引领边缘AI革命
Llama 3.2 系列 11B 和 90B 视觉LLM,支持图像理解,例如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
|
5月前
|
机器学习/深度学习 人工智能 监控
探索视觉AI:超越计算机视觉的边界
【8月更文挑战第20天】
80 2