备案控制台

开发者社区阿里云高校学研支持计划文章正文

视觉AI训练 day1

2020-09-29 1368

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 视觉生产技术

一、定义和分类

视觉生产的定义分为两大类：
- 视觉理解：主要是检测、识别、分割等
- 视觉生产：就是如何去产生视觉，主要是通过一个或者一系列视觉过程，产出新的视觉表达。

产出：人或机器能够感知的图像视频，而不是标签或特征。
要求：新的，和输入不一样

由过去人为进行变为AI进行

视觉生产的分类
- 生成：从0到1
- 拓展：从1到N
- 摘要：从N到1
- 升维：从An到An + 1（图像由二维静态的视觉表达加入时间轴后，变为二维动态的视觉表达）
- 增强/变换：从A到B
- 插入/合成：A + B = C
- 擦除：A - B = C
通用基础框架

五个关键维度（保证结果）
- 可看：满足视觉/美学表现（基本）
- 合理：合乎语义/内容逻辑
- 多样：保证结果的丰富性
- 可控：提供用户预期的抓手
- 可用：带来用户/商业价值（最重要）

二、精细理解--寻微入理

如要生产一个视觉，首先需要理解视觉

分割抠图
- 识别：知道是什么
- 检测：识别 + 知道在哪儿
- 分割：识别 + 检测 + 知道没一个像素是什么
分割抠图--难点
分割抠图--解题思路
- 复杂问题拆解：粗mask估计 + 精准matting
- 丰富数据样本：设计图像mask统一模型
分割抠图--模型框架

三、视觉生成--从无到有

框架流程
照图生图（参考原图能够生成差不多的图）
人性化设计（为不同的人产生不同的结果）
ALibabaWood
视频生成--框架流程
视觉生成--视频摘要
对视频进行剪辑，去需要的那块
视觉生成--视频封面

四、视觉编辑--移花接木

视觉编辑--视频植入
主要应用于广告，根据视频内容插入合适的广告

视觉编辑--视频内容擦除
视觉编辑--文字擦除
字幕的应用
视觉编辑--Logo擦除
视觉编辑--画幅变化
主题检测分割 + 背景拉伸 + 背景补全 + 智能构图裁剪 + 超分辨率 = 多保留50%有效画面
视觉编辑--图像尺寸变化

五、视觉增强--修旧如新

视频增加
人脸修复增强
渲染图超分
视频超分
视频插帧
HDR色彩扩展
风格迁移
视觉迁移--颜色拓展

六、视觉制造--由虚入实

现有实体设计制造，效率低、协同差、定制难
核心逻辑
包装几何生成
材质工艺
视觉迁移及融合
多样性拓展
2D3D融合

七、视觉开放平台--万剑归宗

官网：视觉智能开发平台

注：本文由阿里云AI视觉训练营支持撰写

文章标签：

计算机视觉

编解码

人工智能

关键词：

AI训练

AI视觉

Exw

目录

相关文章

1808090903196729

|

19天前

|

人工智能编解码安全

[译][AI OpenAI-doc] 视觉

学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。

1808090903196729

39 0 0

阿里云大数据Al技术

|

2月前

|

机器学习/深度学习人工智能算法

AI加速引擎PAI-TorchAcc：OLMo训练加速最佳实践

阿里云机器学习平台PAI开发的Pytorch训练加速框架PAI-TorchAcc已接入最新开源的大语言模型 OLMo。在保证模型效果和易用性的前提下，PAI-TorchAcc相对 PyTorch 性能在 OLMo 1B 上加速比达到 1.64X，在 OLMo 7B 上加速比达到 1.52X。本文分析了 PAI-TorchAcc 的性能收益来源。

阿里云大数据Al技术

941 48 52

亚丁号

|

4月前

|

机器学习/深度学习人工智能自然语言处理

人工智能（AI）之计算机视觉和自然语言训练文件

人工智能（AI）之计算机视觉和自然语言训练文件

亚丁号

47 0 0

爱吃糖的范同学

|

5天前

|

数据采集机器学习/深度学习人工智能

【AI 生成式】LLM 通常如何训练？

【5月更文挑战第5天】【AI 生成式】LLM 通常如何训练？

爱吃糖的范同学

24 2 2

楠竹11

|

27天前

|

人工智能编解码安全

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型（LMMs）在处理高分辨率图像时的局限，提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略，有效提升了处理任意比例和高分辨率图像的能力。实验显示，LLaVA-UHD在9个基准测试中超越现有模型，且在TextVQA任务上准确率提升6.4%，同时训练时间更短。然而，模型训练成本高、泛化能力待优化是未来需解决的问题。

楠竹11

32 8 8

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

楠竹11

|

2月前

|

人工智能自动驾驶算法

只要千元级，人人可用百亿级多模态大模型！国产“AI模盒”秒级训练推理

云天励飞，中国AI独角兽，发布“AI模盒”，以千元成本实现多模态大模型的秒级训练推理，降低AI应用门槛。该产品凸显了公司在技术创新与普及中的努力，旨在构建智能城市并重塑日常生活，同时也面临数据安全、隐私保护及人才挑战。

楠竹11

28 3 3

只要千元级，人人可用百亿级多模态大模型！国产“AI模盒”秒级训练推理

汀丶人工智能

|

2月前

|

机器学习/深度学习人工智能自然语言处理

大模型落地实战指南：从选择到训练，深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章

大模型落地实战指南：从选择到训练，深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章

汀丶人工智能

225 0 1

大模型落地实战指南：从选择到训练，深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章

python兴趣圈

|

2月前

|

人工智能开发者 Python

Firefly：开源大模型训练工具助力AI技术进步，让你轻松训练各种主流大模型！

Firefly：开源大模型训练工具助力AI技术进步，让你轻松训练各种主流大模型！

python兴趣圈

202 1 1

楠竹11

|

2月前

|

人工智能算法 UED

OpenAI与法国和西班牙媒体巨头合作：利用内容进行训练AI

【2月更文挑战第26天】OpenAI与法国和西班牙媒体巨头合作：利用内容进行训练AI

楠竹11

28 7 7

OpenAI与法国和西班牙媒体巨头合作：利用内容进行训练AI

楠竹11

|

2月前

|

人工智能 UED

“视觉AI任意门”AnyDoor，只需点两下鼠标就可以实现任意场景物体交换

【2月更文挑战第17天】“视觉AI任意门”AnyDoor，只需点两下鼠标就可以实现任意场景物体交换

楠竹11

104 1 1

“视觉AI任意门”AnyDoor，只需点两下鼠标就可以实现任意场景物体交换

阿里云高校学研支持计划

热门文章

最新文章

如何用MongoDB Atlas和大语言模型，高效构建企业级AI应用？

AIGC创作活动 | 跟着UP主秋葉一起部署AI视频生成应用！

招募！阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用

Java语言开发的AI智慧导诊系统源码springboot+redis 3D互联网智导诊系统源码

fast.ai 深度学习笔记（五）（3）

fast.ai 机器学习笔记（四）（2）

fast.ai 深度学习笔记（二）（3）

fast.ai 深度学习笔记（七）（4）

fast.ai 深度学习笔记（六）（3）

fast.ai 机器学习笔记（一）（4）

F5怎么样？保障AI服务的安全性和交付

Google Gemma 模型服务：开放的生成式 AI 模型服务

悦数图数据库推出 AI 知识图谱构建器及图语言生成助手

C++ 实现对战AI五子棋

智领，万象新生：智谱AI推动大模型商业化迈向新阶段

哲学家解析Sora本质，AI视频离世界模拟器还有多远？

Inflection AI团队仅70人，Pi每日聊天消息数超40亿

全球AI人才报告：硅谷40万人大裁员，码农地狱级面试12场！

倚天产品介绍|倚天性能优化—YCL AI计算库在resnet50上的优化

印度投资1037亿加速AI发展，重点布局大语言模型

相关课程

更多

AI开发者的Docker实践

AI社区开源学习实践

趣味视觉AI应用入门与实战

AI数学基础

相关电子书

更多

释放算力潜能，加速 AI 应用构建

网易游戏机器学习云平台助力AI应用落地实践

智算时代，基于 ACK 落地云原生AI

相关实验场景

更多

基于函数计算实现AI推理

函数计算实战-云开发创建视觉AI应用

部署Stable Diffusion玩转AI绘画（GPU云服务器）

AIGC Stable Diffusion文生图Lora模型微调实现虚拟上装

【可换模型】基于函数计算一键部署 Stable Diffusion

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）