AI视觉 DAY1学习笔记

简介: 初步学习

视觉产生

一、定义

通过一个/一系列视觉过程,产出新的视觉表达
产出:人或机器能够感知的图像视频,而不是标签火特征;
要求:新的,和输入的不一样的
22.png
在过去我们使用一些视频图像软件来生成他们,但是现在我们希望通过AI来自动生成这些。

视觉生产分类

生成:从0到1
拓展:从1到N
摘要:从N到1
升维:从An到An+1

增强/变换:从A到B
插入/合成:A+B=C
擦除:A-B=C

视觉生产通用框架

23.png

视觉生产五个关键维度

1.(可看)满足视觉/没学表现
2.(合理)合乎语义/内容逻辑
3.(多样)保证结果的多样性
4.(可控)提供用户预期的抓手
5.(可用)带来用户/商业价值

二、精细理解

分割抠图

1. 识别:知道是什么
例:人的识别、物的识别
2. 检测:识别+知道在哪
例:缺陷检测、多目标检测
3. 分割:识别+检测+知道每一个像素是什么
视觉分割是生产的必要前置步骤
例:全景分割、病灶分割

分割抠图难点

复杂背景
遮挡
边缘反色
透明材质
多尺度目标
精细抠图
主要问题:数据严重不足,标注成本高

解题思路:

**1. 复杂问题拆解:粗mask估计+精准matting

  1. 丰富数据样本:设计图像mask统一模型**

分割抠图模型框架

24.png

3.视觉生成—从无到有

视觉生产—框架流程

25.png

下面是一些例子:

鹿班场景智能美工
26.png

鹿班行业设计
27.png

视觉生产—AlibabaWood(短视频生成)
28.png
视频生成—框架流程
29.png

4.视觉编辑—移花接木

例1. 视频植入

30.png
31.png

视觉编辑—视频内容擦除

32.png

5.视觉增强—修旧如新

33.png
**例1. 人脸修复增强
例2. 渲染超分
例3. 视频超分
例4. 视频插帧
例5. HDR色彩拓展
例6. 风格迁移**

34.png

例7. 颜色拓展

35.png

6.视觉制造—由虚入实

实体设计制造缺点:

**效率低:多次打样,多次沟通(平均升级时间长)
协同差:设计、有效、生成脱节
定制难:无法实现柔性生产**

AI视觉核心逻辑:

36.png
解决方案示例:神荼

打卡

37.png

相关文章
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
6月前
|
人工智能 计算机视觉
HarmonyOS NEXT AI基础视觉服务-背景替换
这是一个基于AI基础视觉服务的背景替换案例,通过调用设备相册选择图片并智能分割主体,支持动态更换背景颜色。主要步骤包括:1) 导入模块与定义组件;2) 实现图片选择与格式转换;3) 使用`subjectSegmentation.doSegmentation`接口完成主体分割;4) 通过随机RGB值实现背景色动态更换。代码结构清晰,功能完整,适合学习AI图像处理技术。
HarmonyOS NEXT AI基础视觉服务-背景替换
|
6月前
|
存储 人工智能 数据安全/隐私保护
HarmonyOS NEXT AI基础视觉服务-人脸对比
这是一套基于AI基础视觉服务实现的人脸对比系统,用户可通过调用设备相册选择两张图片,系统将提取人脸特征并计算相似度,最终以结构化数据形式展示对比结果(如相似度值和是否为同一人)。代码涵盖模块导入、双图选择、图像处理、人脸对比核心逻辑及UI界面构建,支持异常处理与权限管理,确保功能稳定性和兼容性。适配场景包括身份验证、人脸匹配等,具有较高的实用价值。
HarmonyOS NEXT AI基础视觉服务-人脸对比
|
6月前
|
人工智能 计算机视觉
HarmonyOS NEXT AI基础视觉服务-人脸识别
这是一个基于AI基础视觉服务的人脸识别案例,通过调用设备相册选择图片,利用MediaLibraryKit、ImageKit和CoreVisionKit等模块完成图像处理与人脸检测,并展示结构化结果。核心功能包括:相册访问授权、图像数据转换、人脸位置及特征点检测,最终以弹窗形式输出检测信息。代码涵盖模块导入、功能实现与UI构建,适合学习AI视觉应用开发流程。
|
4月前
|
人工智能 IDE 开发工具
📘 AI Clouder认证学习笔记|从初入江湖到晨光乍现
正如史蒂夫·乔布斯所言:“求知若渴,虚心若愚。”本文是一篇AI Clouder认证学习笔记,记录了一位初学者在探索AI领域的过程中所经历的挑战与成长。作者分享了从软件安装问题到技术工具掌握的心路历程,并强调了心态与自驱力的重要性。通过Python编程、通义灵码等工具的学习,以及对教学设计的深刻反思。
102 5
|
6月前
|
人工智能 文字识别 计算机视觉
HarmonyOS NEXT AI基础视觉服务-文字识别
本案例展示了一款基于AI基础视觉服务的文字识别应用,通过调用设备相机拍摄照片并识别图片中的文字内容。主要实现步骤包括:1) 导入所需功能模块;2) 调用相机获取图片URI;3) 将图片转换为可识别的像素图;4) 配置视觉识别参数并执行文字识别;5) 构建界面组件,实现拍照与结果显示交互。核心要点涵盖相机权限、图像格式兼容及结构化识别结果处理,完整代码整合了各功能模块的调用流程,确保功能顺畅运行。
|
8月前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
288 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
7月前
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
在电商中,制作精美的商品展示图成本高且流程复杂。AI 换装技术允许商家快速更换模特的服装或配件,无需重新拍摄,大大缩短准备时间。这项技术减少了对专业摄影师和后期团队的依赖,使中小商家也能轻松产出高质量的商品图片,灵活响应市场变化,有效降低成本,提升竞争力。本方案利用函数计算 FC 构建 Web 服务,采用百炼视觉模型 qwen-vl-max-latest、aitryon、aitryon-refiner、shoemodel-v1 来分别实现 AI 人物主体信息提取、模特试衣、试衣精修、模特换鞋。
|
7月前
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
有奖体验 AI 模特换装,解锁电商视觉新体验
有奖体验 AI 模特换装,解锁电商视觉新体验

热门文章

最新文章