视觉AI训练营 DAY 1

简介: 了解如何使用阿里云视觉平台API快速开发在线视觉AI平台

定义和分类
定义
定义:通过一个或一系列视觉过程,产生一个新的视觉表达
视觉表达:人或机器能感知的图像视频
输入(素材/参数)——处理(视觉生产)——产出(成品)

分类
生成:从无到有
扩展:由一个扩展出更多的近似物
摘要:由多个一样/近似的素材取其主要部分摘要
生维:为输入的素材提升维度(时间维度,空间维度等)

增强/变换:对原本的素材进行增强或者变换使其变为另外一个素材
插入/合成:对两个素材进行插入或合成使其变为另外一个素材
擦除:对两个素材进行剪切使其变为另外一个素材

通用基础框架
输入(请求)>选择生产类型(分发)>视觉生产引擎(服务)>输出(响应)

五个关键维度
规范
重要性由下往上
1、 可看性:满足基本的视觉或美学表现
2、 合理性:内容的逻辑性
3、 多样性:结果的丰富性
4、 可控性:提供可供用户使用的抓手
5、 可用性:带来经济价值

分割抠图
分割抠图
识别:知道是什么
检测:识别+知道在哪
分割:识别+检测+知道每一个像素是什么
这是一个循序渐进的过程,每一步都是后续操作的必要前置步骤
只有先理解后,才能生成
难点
背景复杂
遮挡
发丝精抠
边缘反色
透明材质
多尺度/多目标
因为数据本身的严重不足,导致了标注成本高

解题思路
1、 对复杂问题拆解
2、 丰富数据的样本

模型框架
1、mask粗分割
2、mask质量统一
3、估计精确alpha

部分扩展
人像抠图:人:头——发——脸 提取动态活动的人物
物体抠图:细节问题等
场景抠图

视觉生成
以平面设计图像生成平台——<鹿班>为例
框架流程
1、 提取用户的需求,作为可控性的抓手
2、 获得草图,粗理图
3、 粗理图优化/增强得到细理图
4、 根据用户的需求进一步调整,得到成品图

鹿班电商设计
照图生图:通过参考原图的风格,布局等信息和其他特征学习并迁移到目标数据上。仿照原图。

个性化设计:通过不同的需求来进行多样化的生成。

鹿班场景智能美工
场景智能设计
1、人工智能还原学习
通过输入一定量的图片作为学习源来进行插入或合成操作,输入整图(JPG,PNG等)来还原PSD的多图层设计。
2、模板创作机器人
通过学习还原来的PSD进行扩展操作从而生成更多PSD文件模板以进行合成。
3、图片合成机器人
通过已创作的模板来进行合成,将PSD文件输出为成品图。

场景智能美工
输入:营销场景或原始素材
过程:调用API
输出:营销图片

以短视频设计生成平台——为例
框架流程
1、 准备素材(场景选择、关联商品、素材准备、参数设置)
2、 视频算法(可以使用编辑器微调。核心)

3、 渲染合成(将已编排好的视频进行视频合成后渲染出成品)
4、 投放上传平台

视频摘要
将生成的视频或原已有的视频或多个视频进行关键摘要(如15秒摘要,30秒摘要,60秒摘要等)

视频封面
图像增强:在内容理解的基础上对图片进行裁剪和组合。
内容分析:通过AI的分析功能来对全视频进行内容分析和挑选。
质量审核:将模糊、曝光等低质量图像进行过滤。

完成以上一系列操作后来抓取生成多帧静止图或动图。随后可以进行各个平台的分发。

视觉编辑
视频植入
PS:我个人认为这个功能比较有意思
场景:电视剧植入、电影植入、综艺植入等。
可以将广告内容与宿体内容本身不太符合的广告以没有太多【违和感】的形式植入,使广告的植入范围变得更广,大大提升了广告的植入效率,并且不会给用户造成太大的反感。

功能:
挖掘视频核心价值:提升广告的曝光渠道,创新的广告形式,并可以提升用户的体验。

扩大植入覆盖范围:通过自动化处理视频内容来挖掘大量短视频/UGC内容的广告价值来扩大植入内容的覆盖范围。

提升植入效果效率:一定程度的代替手工后期,缩短了植入周期并降低人力成本,给广告招商留出了充足的时间,且不需要修改与流出媒资。

流程
分镜检测——{广告位检测——广告位跟踪——遮挡检测}(关键环节)——素材匹配(场景标签)——光影渲染

处理位置,透视、尺寸、遮挡、时间的实现难度较高。

植入位检测与定位
空白区域自动检测
移除屏幕遮挡等复杂情况的跟踪

动态检测分割
高精度静态分割 再由静态转为动态
通过分割出部分进行跟踪

视频内容擦除
应用技术:字幕擦除、台标擦除、广告擦除、场景文字擦除、人体擦除
核心挑战与亮点:粗定位——精分割——像素填充——在线训练

示例模型:

PS:现在啥都看不懂

文字擦除
应用:去除字幕(样式相似)、去除原生文字(样式无限丰富)、去处台标( 标识有限)、去掉广告(区域大,标识无限)

这个功能的应用地方应该很多,其实际的可操作空间可能会更广。

画幅变化
主体检测分割+背景拉伸+背景补全+智能构图裁剪+超分辨率
目的:保留更多的有效画面
应用范围应该很广,因为现在为了适配各种各样的设备对视频的要求也更多(电视,电脑,平板,手机等),普遍依靠播放平台本身的适配来解决(范围拉伸,范围裁剪),如果使用智能画幅变化来处理的话就能解决这种问题,提升用户的体验,现在的视频平台很多,这个功能日后的需求应该会非常多。

图像尺寸变化
和上面的应用范围有重叠的地方,但更多应该是提高在网站或现实的应用范围,比如一份广告,同时植入在网站上,在网站上又分为banner广告,侧面广告,小窗广告等。而在现实中可以植入在地铁,书签,商场等地方。多样化提高使用范围。

视觉增强
视觉增强
核心技术:人脸增强、去噪声、通用场景超分、LDR生HDR、倍频、去划痕、
符合应用技术:人脸修复,标清转高清、LDR-HDR互转、4K重生、老片修复、端上实时增强
核心挑战:分辨率、帧率、色彩

这个功能在当下的需求就已经很多了,前景巨大。

人脸修复增强
目标:对人脸进行细节修复增强,应用范围很广,除了常规的应用外,还可以应用到寻人,日后可能也会应用到刑侦方面。

渲染图/视频超分

应用:通过渲染低分辨率的视频/图像后再对图片/视频进行超分处理,可以一定程度节省获得成品的时间。
此外还可以对模糊的图片或者视频进行处理,实现获得更清晰的视频或者图片需求。(甲方爸爸的需求终于实现了)

视频插帧
我有学习过部分视频剪辑和后期的知识,但是连入门的程度都不算。
我们大部分体验过视频比较卡,不流畅的场景,有时候是设备因素,有时候是人为因素或者软件因素。或者大部分游戏玩家在游戏运行不畅的时候会感觉游戏画面卡顿掉帧。
通过该功能来实现使视频更加流畅。

HDR色彩扩展
风格迁移

通过智能学习后提取视频/图片的风格而来生成一个智能的的“滤镜”(保留该保留的地方和细节)

视觉迁移-颜色拓展
给定目标色系——给定参考图——自动模式
智能更换配色,获得更加多样化的选择,也能避免一定程度的审美疲劳。

视觉制造
实体设计制造
效率低:多次打样,多次沟通,沟通本身的效率也不高。
协同差:设计、营销、生成脱节、倒置。
定制难:无法实现柔性生产,多样化能力几乎没有。

核心逻辑

降低人力成本,大幅提高多样化能力。

包装几何生成
包装的自适应纹理的几何生成
输入材质/纹理/关键元素>生成包装渲染图>通过视觉拓展的方式进而实现多样化生成更多的包装样式>生产

服装几何生成
同上。
2D板片>3D板片>3D服饰>成衣效果>试衣效果

材质工艺
对输入进行扩展和增强而获得更多的样式,以提升多样化的能力。

视觉迁移及融合
通过图片来获得和恢复纹理,随后进行扩展和升维操作,通过迁移来生成试板图用以预览。
原理应该和风格迁移类似。

多样性扩展
分割素材>提取>智能搭配>预览
操作更加复杂,但是应用前景巨大。
2D3D融合
几何一致性计算>3D朝向估计>HDR光照估计>融合渲染
用来生成更多样式的图片,提供及其强大的多样性,大幅提高生产效率。
视觉智能开放平台API
定位
聚能力>搭平台>建生态>树品牌
经过今天的学习,大致的对视觉AI有了个初步的了解,AI看起来复杂,学习起来也是复杂的,但是如果能实现那些强大而令人惊叹的功能,我想这种程度根本不算什么,40分钟的课程我受益匪浅。

相关文章
|
1月前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
72 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
1月前
|
人工智能 UED
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。
50 8
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
|
2月前
|
人工智能 API 数据库
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
Browser Use 是一款专为大语言模型设计的智能浏览器工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。
637 0
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
|
2月前
|
机器学习/深度学习 人工智能 安全
合合信息亮相CSIG AI可信论坛,全面拆解视觉内容安全的“终极防线”!
合合信息在CSIG AI可信论坛上,全面拆解了视觉内容安全的“终极防线”。面对AI伪造泛滥的问题,如Deepfake换脸、PS篡改等,合合信息展示了其前沿技术,包括通用PS检测系统和AIGC与换脸检测系统,有效应对视觉内容安全挑战。公司在国际赛事中屡获殊荣,并联合多方发布《文本图像篡改检测系统技术要求》,推动行业标准化发展。通过技术创新,合合信息为金融、政企等领域提供可靠保障,守护社会信任,引领视觉内容安全新方向。
59 0
|
2月前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
2月前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
3月前
|
机器学习/深度学习 人工智能 算法
AI赋能大学计划·大模型技术与应用实战学生训练营——吉林大学站圆满结营
10月30日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·吉林大学站圆满结营。
|
4月前
|
机器学习/深度学习 人工智能 算法
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
NVIDIA TAO Toolkit 5.0 提供低代码框架,支持从新手到专家级别的用户快速开发视觉AI模型。新版本引入了开源架构、基于Transformer的预训练模型、AI辅助数据标注等功能,显著提升了模型开发效率和精度。TAO Toolkit 5.0 还支持多平台部署,包括GPU、CPU、MCU等,简化了模型训练和优化流程,适用于广泛的AI应用场景。
90 0
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
|
5月前
|
人工智能 自然语言处理 Linux
Llama 3.2:开源可定制视觉模型,引领边缘AI革命
Llama 3.2 系列 11B 和 90B 视觉LLM,支持图像理解,例如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
|
6月前
|
机器学习/深度学习 人工智能 PyTorch
"揭秘AI绘画魔法:一键生成梦幻图像,稳定扩散模型带你开启视觉奇迹之旅!"
【8月更文挑战第21天】稳定扩散(Stable Diffusion)是基于深度学习的模型,能根据文本生成高质量图像,在AI领域备受瞩目,革新了创意产业。本文介绍稳定扩散模型原理及使用步骤:环境搭建需Python与PyTorch;获取并加载预训练模型;定义文本描述后编码成向量输入模型生成图像。此外,还可调整参数定制图像风格,或使用特定数据集进行微调。掌握这项技术将极大提升创意表现力。
84 0

热门文章

最新文章