AI视觉训练营——第一天学习记录

简介: 1、视觉生产2、分割抠图3、视觉生成4、视觉编辑5、视觉增强6、视觉制造

一、视觉生产
1、定义

通过一个/一系列视觉过程,产出新的视觉表达


· 视觉生产,把抽象的内容通过一系列算法转变成具象的内容,如视频,图片等。
2、分类

视觉生产分为 “生成 0->1”、“拓展 1->N”、“摘要 N->1”、“升维 An->An+1” 四个过程。另外还包括 “增强变换 A->B”,”插入合成 A+B->C“,“擦除 A-B->C”。


3、通用基础框架

Request (请求):


输入: 参数,素材,草案,成品,案例


Dispatch (分发):


生产类型:调用生成,素材合成,照图生图,视频摘要,编辑变换,视觉拓展


Service (服务):


视觉生产引擎:搜索引擎( 素材,案例 )<=>生成引擎( 模型,知识 )


Response (响应):


输出:图像,视频,案例


二、分割抠图
生产必要的前置步骤

识别:辨认内容


检测:确定图中识别对象内容


分割:精确到像素,对图片内的全部内容做区分


1、分割思路

1、复杂问题拆解:粗mask+精准matting


2、丰富数据样本:设计图象mask统一模型


运用 Semantic Segmentation 技术给图片添加蒙版


Instance Segmentation 技术给蒙版划分通道,这两项合称为Mask


Image Matting 将粗分割模型与精分割网络结合,精确辨认图像


2、分割模型
分割模型.png
三、视觉生成

通过视觉生成,让智能AI服务于工作。满足照图生图,海报广告设计,自动剪辑视频的个性化需求。

1、框架流程
视觉生成框架.png
2、视频生成-框架
视频合成.png
四、视觉编辑


植入广告:在视频中插入广告且与上下文内容不冲突


分镜检测,广告位检测,广告位跟踪,遮挡检测,素材匹配,光影渲染



字母擦除,台标擦除,广告擦除,场景文字擦除,人体擦除


擦除.png



画幅变化(变化视频分辨率,变化图片尺寸,保留内容)


五、视觉增强

修复画质,人脸修复,放大小图,视频分辨率,视频补帧,HDR色彩拓展(直观上增加像素对比度),风格迁移(如帆布效果,风格化),颜色拓展(在颜色合理搭配的情况下生成多样化的配色方案)


六、视觉制造

核心逻辑


视觉生产.png


可以运用在模拟包装盒打包,生成多样化服饰等领域

目录
相关文章
|
21天前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
2天前
|
人工智能 Windows
LabVIEW将视觉生成器AI用作OPC服务器
LabVIEW将视觉生成器AI用作OPC服务器
11 2
|
29天前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
33 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
1月前
|
人工智能 自然语言处理 Cloud Native
通义灵码×西安交通大学携手打造“云工开物-高校训练营”,解锁 AI 时代编程学习与实战
阿里云与西安交通大学计算机学院携手打造的“云工开物-高校训练营”,带你走近 AI 编程助手“通义灵码”。
|
2月前
|
人工智能 UED
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
【2月更文挑战第17天】“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
111 1
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
61 1
|
2月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
19 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
|
4月前
|
机器学习/深度学习 存储 人工智能
如何在本地部署视觉AI系统呢
如何在本地部署视觉AI系统呢
|
4月前
|
存储 机器学习/深度学习 人工智能
视觉AI的公共云服务有哪些优势
视觉AI的公共云服务有哪些优势
|
4月前
|
人工智能 API 开发工具
视觉AI的公共云
视觉AI的公共云