视觉AI训练营Day1-达摩院视觉AI技术应用探索

简介: 第一天学习笔记

视觉生产技术

  • 定义和分类
  • 精细理解—寻微入里
  • 视觉生成
  • 视觉编辑
  • 视觉增强—修复如新
  • 视觉制造—由虚入实
  • 视觉开放平台—万剑归宗

定义和分类

定义

  • 视觉理解,比如检测、识别、分割
  • 视觉生产,也可以理解为怎么去产生视觉,指通过一个/一系列视觉过程,产出新的视觉表达

分类

视觉生产主要包括生成、拓展、摘要、升维,另外还有增强/ 变换、插入/ 合成、擦除等

  • 生成:从0到1
  • 拓展:从1到N
  • 摘要:从N到1
  • 升维:从An到An+1
  • 增强/变换:从A到B
  • 插入/合成:A+B=C
  • 擦除:A-B=C

通用基础框架

请求(Request)、分发(Dispatch)、服务(Service)和响应(Response)四大部分

五个关键维度

  • 可看:满足视觉/美学表现
  • 合理:合乎语义/内容逻辑
  • 多样:保证结果的丰富性
  • 可控:提供用户预期的抓手
  • 可用:带来用户/商业价值

精细理解——分割抠图

  • 识别:人的识别、物的识别等
  • 检测:位置检测
  • 分割:识别+检测+知道每一个像素是什么

    • 视觉分割是生产的必要前置步骤

难点

复杂背景、遮挡、要求高精度(如发丝精抠)、边缘反色、透明材质、多尺度/目标

解题思路

  • 复杂问题拆解:粗mask估计+精准matting
  • 丰富数据样本:设计图像mask统一模型

 视觉生成——从无到有

鹿班

鹿班是针对平面图像设计生成的产品,其视觉生成大概过程包括理需求、定草图、选状态、调细节、生成图、评好坏6个步骤

  • 照图生图:参考原图,将风格、布局等信息学习并迁移到目标数据上
  • 个性化设计:多元化设计风格,结合商品品类、投放场景、目标客群的差异进行定制化设计

 AlibabaWood

当下最流行的媒体莫过于短视频,而AlibabaWood专注于短视频的生成,同时还有剧本生成、智能文案生成、自动剪辑、智能音乐推荐等实用功能。它的框架流程总体包括素材准备、基础特效、智能特效和智能编排四大步骤。

  • 视频摘要
  • 视频封面

视觉编辑——移花接木

视频植入

视频植入就是在视频中加入一些本来没有的内容,当前其应用最广泛的就是广告
视频植入是一项非常复杂的技术,需要考虑到方方面面,比如广告位检测、广告位跟踪等等,有时会遇到遮挡、移出屏幕等复杂情况跟踪,而且在视频植入之后还要考虑广告是否能够跟视频细节匹配、光影渲染等问题

 视频内容擦除

实用技术有字幕擦除、台标擦除、广告擦除、场景文字擦除、人体擦除等,其核心挑战与亮点是分割,只有更精确的分割才能够精确的擦除

画幅变化

在不同设备上播放视频时可能会出现尺寸不匹配的情况,这时候就要进行画幅变化,变化之后为了有完整的视觉效果,需要进行内容补全。

图像尺寸变化

事先准备好的图片在不同尺寸不同场合可以自动变化,适应各种情况。

视觉增强——修旧如新

视频增强

对视频效果的增强,包括包括单点核心技术和复合应用技术。

  • 单点核心技术:人脸增强、去噪声、通用场景超分、LDR升HDR、倍频、去划痕
  • 复合应用技术、人脸修复、标清转高清、LDR-HDR互转、4K重生、(磁带)老片修复、端上实时增强

实例

  • 人脸修复增强:人脸是最重要的目标对象,可以用视觉增强技术对人脸进行修复增强,突出主要信息
  • 渲染图超分:把低分辨率图像放大到与高清原图一样的清晰度
  • 视频超分:除了对图像进行超分外,还可以对视频进行超分,使得视频更加清晰,增加显示效果
  • 视频插帧:众所周知,帧率越高观感越流畅。对视频进行插帧可以有效的减少视频的卡顿感。
  • HDR 色彩扩展:除了帧率之外,色彩也是一个很重要的元素,也是视频高清的一个必要条件,运用视觉增强技术可以很好进行HDR 色彩扩展,增强视频显示效果
  • 风格迁移与颜色拓展:视觉增强还可以用来进行风格迁移,比如某些相机软件,可以将一些名画的风格迁移到用户所拍摄的照片上,实现照片的风格多样化。另外,视觉增强还可以进行颜色的拓展,同时产生不同色彩搭配的效果,满足不同的需求和色彩的多样性

 视觉制造——由虚入实

我们可以利用视觉制造技术来解决实际生产过程中面临的效率低、协同差、定制难等问题

目录
相关文章
|
8天前
|
人工智能 自然语言处理 算法
企业内训|AI赋能业务和研发实战训练营-某卫星通信公司
TsingtaoAI为北京某卫星通信公司交付AI赋能业务和研发实战训练营,课程一共3天,覆盖全体员工和研发人员。本课程基于该公司“天地海一体化”业务场景,融合最新AI工具链与大模型技术(如DeepSeek、Coze、通义法睿等),以“场景驱动、工具落地、技术深化”为核心逻辑,覆盖全员通用能力与研发专项能力,通过案例实战实现业务与技术的双提升。
40 0
|
18天前
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
有奖体验 AI 模特换装,解锁电商视觉新体验
|
20天前
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
在电商中,制作精美的商品展示图成本高且流程复杂。AI 换装技术允许商家快速更换模特的服装或配件,无需重新拍摄,大大缩短准备时间。这项技术减少了对专业摄影师和后期团队的依赖,使中小商家也能轻松产出高质量的商品图片,灵活响应市场变化,有效降低成本,提升竞争力。本方案利用函数计算 FC 构建 Web 服务,采用百炼视觉模型 qwen-vl-max-latest、aitryon、aitryon-refiner、shoemodel-v1 来分别实现 AI 人物主体信息提取、模特试衣、试衣精修、模特换鞋。
|
2月前
|
人工智能 达摩院 计算机视觉
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术,支持高效妆容迁移与动态对齐,适用于图像处理、虚拟试妆等多个领域。
118 9
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
|
2月前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
109 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
2月前
|
人工智能 UED
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。
57 8
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
|
人工智能
|
人工智能 前端开发 算法
视觉AI五天训练营教程 Day 3
简介: 在这个人工智能已经普及的时代,各行各业都充斥着AI的身影。大部分人认为人工智能起点高,入门难,想要使用AI服务又无法独立完成编写,阿里云视觉平台是基于阿里巴巴视觉智能技术实践经验,面向视觉智能技术企业和开发商(含开发者),为其提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术的应用能力的综合性视觉AI能力平台。开发者可以通过阿里云视觉平台提供的通用且标准化的接入方式,快速接入及使用阿里云视觉平台提供的包括人脸人体、文字识别、商品理解、内容安全、图像识别、图像生产、分割抠图、视觉搜索、目标检测、图像分析处理、视频理解、视频生产、视频分割13个类目多个API能力。本期直播将带你
599 0
视觉AI五天训练营教程 Day 3
|
人工智能 前端开发 JavaScript
视觉AI五天训练营教程 Day 3
在这个人工智能已经普及的时代,各行各业都充斥着AI的身影。大部分人认为人工智能起点高,入门难,想要使用AI服务又无法独立完成编写,阿里云视觉平台是基于阿里巴巴视觉智能技术实践经验,面向视觉智能技术企业和开发商(含开发者),为其提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术的应用能力的综合性视觉AI能力平台。开发者可以通过阿里云视觉平台提供的通用且标准化的接入方式,快速接入及使用阿里云视觉平台提供的包括人脸人体、文字识别、商品理解、内容安全、图像识别、图像生产、分割抠图、视觉搜索、目标检测、图像分析处理、视频理解、视频生产、视频分割13个类目多个API能力。本期直播将带你实战讲述
895 0
|
人工智能 文字识别 前端开发
视觉AI五天训练营教程 Day 2
使用阿里云视觉平台API快速开发在线视觉AI平台,了解如何搭建身份证识别系统,从而扩展到其他的识别系统。
823 0

热门文章

最新文章