视觉AI训练营-第一天

简介: 参加视觉AI训练营的第一天,初步认识了达摩院视觉AI技术的应用,学习了基本的视觉AI处理方式,了解到了多种商业应用场景。

视觉生产
一、定义:通过一个/一系列视觉过程,产出新的视觉表达
输入(参数/素材)->(视觉生产)过程->产出(素材/成品)
二、.分类:1.生成:0->1;2.拓展:1->n 3.摘要n->1; 4.升维An->An+1 5.增强/变换:A->B; 6.插入/合成:A+B=C; 7.擦除:A-B=C
三、通用基础框架
Request->Dispatch->Service->Response
四、五个关键维度
1.满足视觉/美学表现(可看)
2.合乎语义/内容逻辑(合理)
3.保证结果的丰富性(多样)
4.提供预期的抓手(可控)
5.*带来用户/商业价值(可用)

精细理解
一、分割抠图
1.识别 2.检测 3.分割
二、难点
数据严重不足,标注成本高
三、解题思路
1.复杂问题拆解:粗mask+精matting
2.丰富数据样本
四、应用场景
头发丝、相似背景、其他物体抠图..

视觉生成
一、框架流程
1.理需求->2.定草图->3.选状态->4.调细节->5.生成图->6.评好坏
二、鹿班场景智能美工
1.人工还原机器学习:JPG->PSD
2.模板创作机器人:1PSD->100PSD
3.图片合成机器人:PSD->PNG
三、视频
视频封面

视觉编辑
一、视频植入
广告:核心挑战与亮点:
位置、透视、尺寸、遮挡、时间
二、动态检测分割
三、视频内容擦除
核心挑战与亮点:
粗定位-精分割-像素填充-在线训练
应用:文字擦除、logo擦除
四、画幅变化
主体检测分割+背景拉伸+背景补全+智能构图裁剪+超分辨率

视觉增强
一、视频、图片增强
单点核心技术:人脸增强
核心挑战:分辨率、帧率、色彩
二、视频、图片超分
视频插帧、HDR色彩扩展
三、风格迁移、颜色拓展

视觉制造
一、实体设计制造
几何生成、视觉迁移及融合、多样性拓展、2D3D融合

视觉智能开放平台
https://vision.aliyun.com/

相关文章
|
6月前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
7天前
|
机器学习/深度学习 人工智能 算法
AI赋能大学计划·大模型技术与应用实战学生训练营——吉林大学站圆满结营
10月30日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·吉林大学站圆满结营。
|
28天前
|
机器学习/深度学习 人工智能 算法
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
NVIDIA TAO Toolkit 5.0 提供低代码框架,支持从新手到专家级别的用户快速开发视觉AI模型。新版本引入了开源架构、基于Transformer的预训练模型、AI辅助数据标注等功能,显著提升了模型开发效率和精度。TAO Toolkit 5.0 还支持多平台部署,包括GPU、CPU、MCU等,简化了模型训练和优化流程,适用于广泛的AI应用场景。
50 0
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
|
6月前
|
人工智能 Windows
LabVIEW将视觉生成器AI用作OPC服务器
LabVIEW将视觉生成器AI用作OPC服务器
62 2
|
2月前
|
人工智能 自然语言处理 Linux
Llama 3.2:开源可定制视觉模型,引领边缘AI革命
Llama 3.2 系列 11B 和 90B 视觉LLM,支持图像理解,例如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
|
3月前
|
机器学习/深度学习 人工智能 监控
探索视觉AI:超越计算机视觉的边界
【8月更文挑战第20天】
56 2
|
3月前
|
机器学习/深度学习 人工智能 PyTorch
"揭秘AI绘画魔法:一键生成梦幻图像,稳定扩散模型带你开启视觉奇迹之旅!"
【8月更文挑战第21天】稳定扩散(Stable Diffusion)是基于深度学习的模型,能根据文本生成高质量图像,在AI领域备受瞩目,革新了创意产业。本文介绍稳定扩散模型原理及使用步骤:环境搭建需Python与PyTorch;获取并加载预训练模型;定义文本描述后编码成向量输入模型生成图像。此外,还可调整参数定制图像风格,或使用特定数据集进行微调。掌握这项技术将极大提升创意表现力。
53 0
|
3月前
|
机器学习/深度学习 人工智能 算法
【机器学习】基于YOLOv10实现你的第一个视觉AI大模型
【机器学习】基于YOLOv10实现你的第一个视觉AI大模型
148 0
|
6月前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
87 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 推出 GPT-4o,免费向所有人提供GPT-4级别的AI ,可以实时对音频、视觉和文本进行推理,附使用详细指南
GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了
290 1

热门文章

最新文章

下一篇
无影云桌面