开发者社区人工智能文章正文

AI视觉DAY1

2020-09-24 312

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 视觉生产技术

 定义和分类
视觉理解+视觉定义
输入（参数/素材）-> 视觉生产过程 -> 产出（素材/成品）
产生新的视觉表达

视觉生产---分类
生成（0-1），拓展（1-N），摘要（N-1），生维（An-An+1）
生维：二维+时间轴二维-三维（静态到动态，二维到三维）

五个关键维度（可看，合理，多样，可控，可用）

 精细理解
识别-检测-分割
分割抠图-（关键，难点）
解题思路：语义分割-实例分割

 视觉生成
视频生成
素材准备-基础特效-只能特效-智能编排
视频摘要

 视觉编辑

 视觉增强
视频增强
视频超分
视频插帧
色彩扩展
风格迁移
颜色拓展
 视觉制造
由虚入实
多样性拓展
2D3D融合
 视觉开放平台

文章标签：

计算机视觉

人工智能

关键词：

AI视觉

游客eb2v3o5d5b5fg

1808090903196729

4天前

人工智能编解码安全

[译][AI OpenAI-doc] 视觉

学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。

1808090903196729

35 0 0

楠竹11

12天前

人工智能编解码安全

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型（LMMs）在处理高分辨率图像时的局限，提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略，有效提升了处理任意比例和高分辨率图像的能力。实验显示，LLaVA-UHD在9个基准测试中超越现有模型，且在TextVQA任务上准确率提升6.4%，同时训练时间更短。然而，模型训练成本高、泛化能力待优化是未来需解决的问题。

楠竹11

26 8 8