备案控制台

开发者社区

开发者社区阿里云高校学研支持计划文章正文

视觉AI训练营——Day01

2020-09-24 432

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 课程主题：视觉生产技术探索与应用课程讲师：谢宣松（星瞳）

视觉生产技术

定义和分类

视觉生产定义：

通过一个/一系列视觉过程，产出新的视觉表达。

产出：人或机器能够感知的图像视频，而不是标签或特征；
要求：新的，和输入不一样的；

分类：

生成：从0到1
拓展：从1到N
摘要：从N到1
升维：从An到An+1
增强/变换：从A到B
插入/合成：A+B=C
擦除：A-B=C

此系列的产品有：

通用基础框架

五个关键维度

满足视觉/美学表现：可看
合乎语义/内容逻辑：合理
保证结果的丰富性：多样
提供用户预期的抓手：可控
带来用户/商业价值：可用

精细理解

分割切图

视觉分割是生产的必要前置步骤。只有理解了，才能生成。

识别：知道是什么
检测：识别+知道在哪里
分割：识别+检测+知道每一个像素是什么

难点：

复杂背景
遮挡
发丝精抠
边缘反色
透明材质
多尺度/目标

主要来说：数据严重不足，标注成本高

解题思路：

复杂问题拆解：粗mask估计+精准 matting
丰富数据样本：设计图像mask统一模型

模型框架：

效果展示：

人像抠图拓展

物体抠图拓展

场景抠图拓展

以上都是抠图加场景

视觉生成

鹿班

框架流程

电商设计

智能美工

行业设计

AlibabaWood短视频生成

框架技术：

视频摘要：

视频封面：

视觉编辑

视频植入：

植入位检测与定位、动态检测分割

视频内容擦除：

包括文字擦除、Logo擦除、去掉台标、去掉广告

画幅变化：

图像尺寸变化：

视觉增强

人脸是最重要的目标对象，对人像进行细节修复增强，有很重要的意义和价值。

人脸修复增强
渲染图超分
视频超分
视频插帧
HDR色彩扩展

风格迁移:

颜色拓展：

视觉制造

实体制造：

数字制造：

包装几何生成
服装几何生成
材质工艺
视觉迁移及融合
多样性拓展
2D3D融合

视觉开发平台

定位：

能力分布：

特点：

能力选择：

普惠：

文章标签：

智能设计

计算机视觉

人工智能

关键词：

AI视觉

AI训练营

视觉AI训练营

lime2019

目录

相关文章

1808090903196729

|

4天前

|

人工智能编解码安全

[译][AI OpenAI-doc] 视觉

学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。

1808090903196729

35 0 0

楠竹11

|

12天前

|

人工智能编解码安全

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型（LMMs）在处理高分辨率图像时的局限，提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略，有效提升了处理任意比例和高分辨率图像的能力。实验显示，LLaVA-UHD在9个基准测试中超越现有模型，且在TextVQA任务上准确率提升6.4%，同时训练时间更短。然而，模型训练成本高、泛化能力待优化是未来需解决的问题。

楠竹11

26 8 8

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

楠竹11

|

1月前

|

人工智能 UED

“视觉AI任意门”AnyDoor，只需点两下鼠标就可以实现任意场景物体交换

【2月更文挑战第17天】“视觉AI任意门”AnyDoor，只需点两下鼠标就可以实现任意场景物体交换

楠竹11

77 1 1

“视觉AI任意门”AnyDoor，只需点两下鼠标就可以实现任意场景物体交换

Srlua

|

1月前

|

机器学习/深度学习人工智能自然语言处理

探索无限：Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章

探索无限：Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章

Srlua

59 1 1

楠竹11

|

1月前

|

机器学习/深度学习人工智能知识图谱

LeCun视觉世界模型论文，揭示AI学习物理世界的关键

【2月更文挑战第16天】LeCun视觉世界模型论文，揭示AI学习物理世界的关键

楠竹11

18 2 2

LeCun视觉世界模型论文，揭示AI学习物理世界的关键

唐家四少官微

|

3月前

|

机器学习/深度学习存储人工智能

如何在本地部署视觉AI系统呢

如何在本地部署视觉AI系统呢

唐家四少官微

88 0 0

唐家四少官微

|

3月前

|

存储机器学习/深度学习人工智能

视觉AI的公共云服务有哪些优势

视觉AI的公共云服务有哪些优势

唐家四少官微

26 0 0

唐家四少官微

|

3月前

|

人工智能 API 开发工具

视觉AI的公共云

视觉AI的公共云

唐家四少官微

20 0 0

ModelScope运营小助手

|

9月前

|

机器学习/深度学习存储人工智能

视觉AI技术体系及趋势概述（1）

视觉AI技术体系及趋势概述

ModelScope运营小助手

177 0 0

ModelScope运营小助手

|

9月前

|

人工智能智能设计达摩院

视觉AI技术体系及趋势概述（2）

视觉AI技术体系及趋势概述

ModelScope运营小助手

203 0 0

阿里云高校学研支持计划

热门文章

最新文章

如何用MongoDB Atlas和大语言模型，高效构建企业级AI应用？

AIGC创作活动 | 跟着UP主秋葉一起部署AI视频生成应用！

招募！阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用

大模型落地实战指南：从选择到训练，深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章

fast.ai 深度学习笔记（五）（3）

fast.ai 机器学习笔记（四）（2）

fast.ai 深度学习笔记（二）（3）

fast.ai 深度学习笔记（七）（4）

fast.ai 深度学习笔记（六）（3）

fast.ai 机器学习笔记（一）（4）

OpenAI与法国和西班牙媒体巨头合作：利用内容进行训练AI

一个接口白嫖四个AI平台, 五个翻译平台

ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文

F5怎么样？保障AI服务的安全性和交付

【SCI论文】“学术丑闻揭露：当AI写作遭遇学术审稿，ChatGPT意外成为论文共作者!“

Google Gemma 模型服务：开放的生成式 AI 模型服务

悦数图数据库推出 AI 知识图谱构建器及图语言生成助手

C++ 实现对战AI五子棋

智领，万象新生：智谱AI推动大模型商业化迈向新阶段

哲学家解析Sora本质，AI视频离世界模拟器还有多远？

相关课程

更多

【科技少年】AI领航员探索教程（赛前训练）

达摩院视觉AI精品课

AI开发者的Docker实践

AI社区开源学习实践

趣味视觉AI应用入门与实战

AI数学基础

相关电子书

更多

释放算力潜能，加速 AI 应用构建

网易游戏机器学习云平台助力AI应用落地实践

智算时代，基于 ACK 落地云原生AI

相关实验场景

更多

函数计算部署AI艺术字应用，生成新春文字头像

使用函数计算部署通义千问大模型实现AI对话

使用PAI-DSW x EasyPhoto快速完成AIGC人物写真生成

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

基于通义千问X函数计算部署AI助手

基于阿里云DeepGPU实例，让AI带你畅玩杭州

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）