Class 1 | 达摩院特别版-视觉AI训练营

简介: 达摩院视觉AI技术应用探索

达摩院视觉AI技术应用探索

此文章链接:https://tracytangyc.github.io/2020/0924_aliyun-visual-ai-class1/

简介与理解

1.定义

视觉AI的工作有两大部分:理解与生产。后者涉及三个步骤——一、输入参数或素材;二、过程中生产视觉;三、产出素材或成品。

  • 理解

    进行图像检测、分割等。
    
  • 生产

    产生新的(和输入不一样的)视觉表达,相当于以技术实现设计师、美工等用PS完成的工作过程。
    

视觉表达是人或机器能够感知的图像视频,不是用于机器学习的标签或特征。

2.分类

视觉生产的种类很多,以下以简单的方式抽象叙述:

  • 分割

    语义/全景/抠图
    
  • 生成

    制造/摘要/封面
    从0到1
    
  • 拓展

    从1到N
    
  • 摘要

    从N到1
    
  • 升维

    从An到An+1
    
  • 增强、变换

    超分/色彩/帧率
    从A到B
    
  • 编辑

    植入/擦除/互换
    A-B=C
    
  • 插入、合成

    A+B=C
    
    

以上技术的成熟产品有:鹿班、画蝶、视觉智能开放平台等,分别为公共或专有云、客户端应用等

而他们处理的内容有:

  • 3D
  • 视频
  • 图像

通用基础框架

  1. 请求 Request
    输入参数、素材、草案、成品、案例
  2. 分发 Dispatch
    生产不同类型:

    - 通用生成 General
    - 素材合成 Assemble
    - 照图生图 Imitate
    - 视频摘要 Summary
    - 编辑变换 Edit
    - 视觉拓展 Extend
    
  3. 服务 Service
    使用视觉生产引擎

    - 生成引擎(模型与知识)
    - 搜索引擎(素材与案例)
    
  4. 响应 Response

    • 输出图像/视频/3D 素材、成品、案例

五个关键维度

要把视觉生产技术投入工业应用,应当达到以下标准:

  1. 可看——满足视觉/美学表现
  2. 合理——合乎语义/内容逻辑
  3. 多样——保证结果的丰富性
  4. 可控——提供用户预期的抓手
  5. 可用——带来用户/商业价值


视觉理解

视觉理解有以下过程:

  • 识别——知道是什么(人?物?)
  • 检测——识别+知道在哪(缺陷检测、多目标检测等)
  • 分割——识别+检测+知道每一个像素是什么

    分割的步骤非常重要,体现在分离复杂的背景和各种遮挡关系,或者提取发丝、镂空等部分。这项工序标注成本高且随精度成倍上升、数据需求量大。
    

分割抠图

解题思路:拆解复杂问题为粗mask估计和精准mapping;设计丰富数据样本作为统一模型
成果:可达到分割人的头像、头发、人脸等静态分割;人物、动物、车辆、商品、动画等视频动态分割;天空、人物、物体等场景分割,并调整粒度。


视觉生成

1.鹿班

鹿班是一项针对平面图像设计生成的大规模在线AI设计服务,源于阿里巴巴内部,逐渐对外提供服务。包括理需求、定草图、选状态、调戏节、生成图、评好坏的完整流程。鹿班始用于电商,依靠“照图生图”和“个性化设计”,配合AI场景设计能力,进行高效、低成本、美观的场景智能美工。

2.视觉生成AlibabWood

AlibabWood专注于短视频生成,同时具有剧本生成、智能文案、自动简介、智能音乐推荐等功能,完成素材准备、基础特效、智能特效、智能编排四大业内需求。

3.视频摘要与封面

视频摘要(封面生成)包括质量审核、内容分析、图像增强、输出多帧静止图或动图


视觉编辑

1.视频植入

例如插入广告等原视频没有的片段。当中需要进行广告位检测、跟踪、避免屏幕内容遮挡、移位等,并匹配视频细节、光影渲染等,有利于大大挖掘视频价值、扩大植入范围、提高制作效率。

2.内容擦除

例如字幕、台标、广告等擦除,基于精确的视觉分割技术。

3.尺寸变化

需要适配视频画幅比例改变而进行裁剪或补全,改变构图,进行自动化图像(海报等)多尺寸设计。


视觉增强

实例

  1. 人脸修复:突出主要特征信息
  2. 渲染图或视频超分:用于CG,渲染低分辨率图后用AI技术放大成高清图,降低渲染时间
  3. 视频插帧:减少运动场景的视频晃动、在线视频的卡顿感
  4. HDR色彩扩展:增强视觉效果,提升广告等视频表达语义的能力
  5. 风格迁移与颜色拓展:例如名画滤镜等


视觉制造

融合虚实画面,提升生产(打样、沟通)效率、协同性(设计、营销、生成的配合)、定制化(柔性生产)。并结合2D、3D估计、渲染等生成技术。

视觉智能开放平台

网址:vision.aliyun.com
该平台聚合阿里巴巴的图像、视频、3D图形视觉原子能力,提供云上智能API,向广大开发者提供服务,有上百种细分能力,供应链、基础设施、部署场景、定制化服务齐全。

目录
相关文章
|
11天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
2天前
|
人工智能 UED
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。
20 8
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
|
14天前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
8天前
|
人工智能 API 数据库
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
Browser Use 是一款专为大语言模型设计的智能浏览器工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。
140 0
Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能
|
11天前
|
机器学习/深度学习 人工智能 安全
合合信息亮相CSIG AI可信论坛,全面拆解视觉内容安全的“终极防线”!
合合信息在CSIG AI可信论坛上,全面拆解了视觉内容安全的“终极防线”。面对AI伪造泛滥的问题,如Deepfake换脸、PS篡改等,合合信息展示了其前沿技术,包括通用PS检测系统和AIGC与换脸检测系统,有效应对视觉内容安全挑战。公司在国际赛事中屡获殊荣,并联合多方发布《文本图像篡改检测系统技术要求》,推动行业标准化发展。通过技术创新,合合信息为金融、政企等领域提供可靠保障,守护社会信任,引领视觉内容安全新方向。
30 0
|
2月前
|
机器学习/深度学习 人工智能 算法
AI赋能大学计划·大模型技术与应用实战学生训练营——吉林大学站圆满结营
10月30日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·吉林大学站圆满结营。
|
机器学习/深度学习 新零售 人工智能
阿里云高校计划视觉AI五天训练营 Day 1——视觉应用探索
在这个人工智能已经普及的时代,各行各业都充斥着AI的身影。大部分人认为人工智能起点高,入门难,想要使用AI服务又无法独立完成编写,开发者可以通过阿里云视觉平台提供的通用且标准化的接入方式,快速接入及使用阿里云视觉平台提供的包括人脸人体、文字识别、商品理解、内容安全、图像识别、图像生产、分割抠图、视觉搜索、目标检测、图像分析处理、视频理解、视频生产、视频分割13个类目多个API能力,为其提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术的应用能力的综合性视觉AI能力平台。
1304 0
阿里云高校计划视觉AI五天训练营 Day 1——视觉应用探索
|
人工智能 前端开发 算法
视觉AI五天训练营教程 Day 3
简介: 在这个人工智能已经普及的时代,各行各业都充斥着AI的身影。大部分人认为人工智能起点高,入门难,想要使用AI服务又无法独立完成编写,阿里云视觉平台是基于阿里巴巴视觉智能技术实践经验,面向视觉智能技术企业和开发商(含开发者),为其提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术的应用能力的综合性视觉AI能力平台。开发者可以通过阿里云视觉平台提供的通用且标准化的接入方式,快速接入及使用阿里云视觉平台提供的包括人脸人体、文字识别、商品理解、内容安全、图像识别、图像生产、分割抠图、视觉搜索、目标检测、图像分析处理、视频理解、视频生产、视频分割13个类目多个API能力。本期直播将带你
580 0
视觉AI五天训练营教程 Day 3
|
编解码 人工智能 文字识别
阿里云高校计划视觉AI五天训练营 Day 2——身份证识别系统
本文介绍了如何使用阿里云视觉智能开放平台相关服务的PHP SDK,具体包括SDK的获取和安装方法以及SDK代码示例。
468 0
阿里云高校计划视觉AI五天训练营 Day 2——身份证识别系统
|
人工智能
阿里云高校计划视觉AI五天训练营教程 Day 2 - 身份证识别系统搭建
实战讲述如何使用阿里云视觉平台API快速开发在线视觉AI平台,主要如何为如何搭建身份证识别系统,进而扩展到其他的识别系统。
阿里云高校计划视觉AI五天训练营教程 Day 2 - 身份证识别系统搭建