AI视觉DAY1

简介: 视觉生产技术

 定义和分类
视觉理解+视觉定义
输入(参数/素材)-> 视觉生产过程 -> 产出(素材/成品)
产生新的视觉表达

视觉生产---分类
生成(0-1),拓展(1-N),摘要(N-1),生维(An-An+1)
生维:二维+时间轴 二维-三维(静态到动态,二维到三维)

五个关键维度(可看,合理,多样,可控,可用)

 精细理解
识别-检测-分割
分割抠图-(关键,难点)
解题思路:语义分割-实例分割

 视觉生成
视频生成
素材准备-基础特效-只能特效-智能编排
视频摘要

 视觉编辑

 视觉增强
视频增强
视频超分
视频插帧
色彩扩展
风格迁移
颜色拓展
 视觉制造
由虚入实
多样性拓展
2D3D融合
 视觉开放平台

相关文章
|
4天前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
12天前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
26 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
1月前
|
人工智能 UED
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
【2月更文挑战第17天】“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
77 1
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
59 1
|
1月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
18 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
|
3月前
|
机器学习/深度学习 存储 人工智能
如何在本地部署视觉AI系统呢
如何在本地部署视觉AI系统呢
|
3月前
|
存储 机器学习/深度学习 人工智能
视觉AI的公共云服务有哪些优势
视觉AI的公共云服务有哪些优势
|
3月前
|
人工智能 API 开发工具
视觉AI的公共云
视觉AI的公共云
|
9月前
|
机器学习/深度学习 存储 人工智能
|
9月前
|
人工智能 智能设计 达摩院