开发者社区人工智能文章正文

视觉AI训练营 Day1

2020-11-27 630

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 视觉生产技术

什么是视觉生产?

通俗说就是由已经存在的视觉过程来产生新的视觉表达。即输入一个/系列视觉过程，产生出新的视觉表达

视觉生产分类:

生成:0→1
拓展:1→N

摘要:N→1
升维:An→An+1
增强/变换:A→B
插入/合成：A+B=C
擦除: A-B=C

精细理解

##图像分割
识别:知道是什么
检测:识别+知道在哪儿
分割:识别+检测+确认每个像素

视觉编辑

画幅变化，文字擦除，视频植入，视频检测与定位，视频插帧，图像与尺寸变换。

视觉增强

核心挑战：分辨率，掉帧，色彩。

单点核心技术:

人间增强
去噪声

通用场景超分
LDR升HDR
倍频
去划哼

复合应用技术:

人脸修复
标清转高清

LDR-HDR互转
4k重生
老片修复
端上实时增强

文章标签：

计算机视觉

编解码

人工智能

关键词：

AI训练营

视觉AI

AI视觉

视觉AI训练营

游客rruy5cm26fp3e

1808090903196729

6月前

人工智能编解码安全

[译][AI OpenAI-doc] 视觉

学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。

1808090903196729

83 0 0

宋晨明

1月前

机器学习/深度学习人工智能算法

使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程

NVIDIA TAO Toolkit 5.0 提供低代码框架，支持从新手到专家级别的用户快速开发视觉AI模型。新版本引入了开源架构、基于Transformer的预训练模型、AI辅助数据标注等功能，显著提升了模型开发效率和精度。TAO Toolkit 5.0 还支持多平台部署，包括GPU、CPU、MCU等，简化了模型训练和优化流程，适用于广泛的AI应用场景。

宋晨明

53 0 0

使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程

ModelScope内容运营小助手

15天前

机器学习/深度学习人工智能算法

AI赋能大学计划·大模型技术与应用实战学生训练营——吉林大学站圆满结营

10月30日，由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·吉林大学站圆满结营。

ModelScope内容运营小助手

41 0 0

LabVIEW开发

6月前

人工智能 Windows

LabVIEW将视觉生成器AI用作OPC服务器

LabVIEW开发

63 2 2

ModelScope内容运营小助手

2月前

人工智能自然语言处理 Linux

Llama 3.2：开源可定制视觉模型，引领边缘AI革命

Llama 3.2 系列 11B 和 90B 视觉LLM，支持图像理解，例如文档级理解（包括图表和图形）、图像字幕以及视觉基础任务（例如基于自然语言描述在图像中精确定位对象）。

ModelScope内容运营小助手

215 0 0

wljslmz

3月前

机器学习/深度学习人工智能监控

探索视觉AI：超越计算机视觉的边界

【8月更文挑战第20天】

wljslmz

57 2 2

土木林森

3月前

机器学习/深度学习人工智能 PyTorch

"揭秘AI绘画魔法：一键生成梦幻图像，稳定扩散模型带你开启视觉奇迹之旅！"

【8月更文挑战第21天】稳定扩散（Stable Diffusion）是基于深度学习的模型，能根据文本生成高质量图像，在AI领域备受瞩目，革新了创意产业。本文介绍稳定扩散模型原理及使用步骤：环境搭建需Python与PyTorch；获取并加载预训练模型；定义文本描述后编码成向量输入模型生成图像。此外，还可调整参数定制图像风格，或使用特定数据集进行微调。掌握这项技术将极大提升创意表现力。

土木林森

54 0 0

LDG_AGI

3月前

机器学习/深度学习人工智能算法

【机器学习】基于YOLOv10实现你的第一个视觉AI大模型

LDG_AGI

159 0 0

楠竹11

6月前

人工智能编解码安全

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型（LMMs）在处理高分辨率图像时的局限，提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略，有效提升了处理任意比例和高分辨率图像的能力。实验显示，LLaVA-UHD在9个基准测试中超越现有模型，且在TextVQA任务上准确率提升6.4%，同时训练时间更短。然而，模型训练成本高、泛化能力待优化是未来需解决的问题。

楠竹11

87 8 8

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

fw4jufwdlu26q

6月前

机器学习/深度学习人工智能自然语言处理

OpenAI 推出 GPT-4o，免费向所有人提供GPT-4级别的AI ，可以实时对音频、视觉和文本进行推理，附使用详细指南

GPT-4o不仅提供与GPT-4同等程度的模型能力，推理速度还更快，还能提供同时理解文本、图像、音频等内容的多模态能力，无论你是付费用户，还是免费用户，都能通过它体验GPT-4了

fw4jufwdlu26q

309 1 1

视觉AI训练营 Day1

什么是视觉生产?

视觉生产分类:

精细理解

视觉编辑

视觉增强

单点核心技术:

复合应用技术:

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

视觉AI训练营 Day1

什么是视觉生产?

视觉生产分类:

精细理解

视觉编辑

视觉增强

单点核心技术:

复合应用技术:

热门文章

最新文章

相关课程

相关电子书

相关实验场景