视觉AI训练营Day1-达摩院视觉AI技术应用探索

简介: 第一天学习笔记

视觉生产技术

  • 定义和分类
  • 精细理解—寻微入里
  • 视觉生成
  • 视觉编辑
  • 视觉增强—修复如新
  • 视觉制造—由虚入实
  • 视觉开放平台—万剑归宗

定义和分类

定义

  • 视觉理解,比如检测、识别、分割
  • 视觉生产,也可以理解为怎么去产生视觉,指通过一个/一系列视觉过程,产出新的视觉表达

分类

视觉生产主要包括生成、拓展、摘要、升维,另外还有增强/ 变换、插入/ 合成、擦除等

  • 生成:从0到1
  • 拓展:从1到N
  • 摘要:从N到1
  • 升维:从An到An+1
  • 增强/变换:从A到B
  • 插入/合成:A+B=C
  • 擦除:A-B=C

通用基础框架

请求(Request)、分发(Dispatch)、服务(Service)和响应(Response)四大部分

五个关键维度

  • 可看:满足视觉/美学表现
  • 合理:合乎语义/内容逻辑
  • 多样:保证结果的丰富性
  • 可控:提供用户预期的抓手
  • 可用:带来用户/商业价值

精细理解——分割抠图

  • 识别:人的识别、物的识别等
  • 检测:位置检测
  • 分割:识别+检测+知道每一个像素是什么

    • 视觉分割是生产的必要前置步骤

难点

复杂背景、遮挡、要求高精度(如发丝精抠)、边缘反色、透明材质、多尺度/目标

解题思路

  • 复杂问题拆解:粗mask估计+精准matting
  • 丰富数据样本:设计图像mask统一模型

 视觉生成——从无到有

鹿班

鹿班是针对平面图像设计生成的产品,其视觉生成大概过程包括理需求、定草图、选状态、调细节、生成图、评好坏6个步骤

  • 照图生图:参考原图,将风格、布局等信息学习并迁移到目标数据上
  • 个性化设计:多元化设计风格,结合商品品类、投放场景、目标客群的差异进行定制化设计

 AlibabaWood

当下最流行的媒体莫过于短视频,而AlibabaWood专注于短视频的生成,同时还有剧本生成、智能文案生成、自动剪辑、智能音乐推荐等实用功能。它的框架流程总体包括素材准备、基础特效、智能特效和智能编排四大步骤。

  • 视频摘要
  • 视频封面

视觉编辑——移花接木

视频植入

视频植入就是在视频中加入一些本来没有的内容,当前其应用最广泛的就是广告
视频植入是一项非常复杂的技术,需要考虑到方方面面,比如广告位检测、广告位跟踪等等,有时会遇到遮挡、移出屏幕等复杂情况跟踪,而且在视频植入之后还要考虑广告是否能够跟视频细节匹配、光影渲染等问题

 视频内容擦除

实用技术有字幕擦除、台标擦除、广告擦除、场景文字擦除、人体擦除等,其核心挑战与亮点是分割,只有更精确的分割才能够精确的擦除

画幅变化

在不同设备上播放视频时可能会出现尺寸不匹配的情况,这时候就要进行画幅变化,变化之后为了有完整的视觉效果,需要进行内容补全。

图像尺寸变化

事先准备好的图片在不同尺寸不同场合可以自动变化,适应各种情况。

视觉增强——修旧如新

视频增强

对视频效果的增强,包括包括单点核心技术和复合应用技术。

  • 单点核心技术:人脸增强、去噪声、通用场景超分、LDR升HDR、倍频、去划痕
  • 复合应用技术、人脸修复、标清转高清、LDR-HDR互转、4K重生、(磁带)老片修复、端上实时增强

实例

  • 人脸修复增强:人脸是最重要的目标对象,可以用视觉增强技术对人脸进行修复增强,突出主要信息
  • 渲染图超分:把低分辨率图像放大到与高清原图一样的清晰度
  • 视频超分:除了对图像进行超分外,还可以对视频进行超分,使得视频更加清晰,增加显示效果
  • 视频插帧:众所周知,帧率越高观感越流畅。对视频进行插帧可以有效的减少视频的卡顿感。
  • HDR 色彩扩展:除了帧率之外,色彩也是一个很重要的元素,也是视频高清的一个必要条件,运用视觉增强技术可以很好进行HDR 色彩扩展,增强视频显示效果
  • 风格迁移与颜色拓展:视觉增强还可以用来进行风格迁移,比如某些相机软件,可以将一些名画的风格迁移到用户所拍摄的照片上,实现照片的风格多样化。另外,视觉增强还可以进行颜色的拓展,同时产生不同色彩搭配的效果,满足不同的需求和色彩的多样性

 视觉制造——由虚入实

我们可以利用视觉制造技术来解决实际生产过程中面临的效率低、协同差、定制难等问题

目录
相关文章
|
8月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
795 30
|
8月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
794 2
|
8月前
|
人工智能 缓存 运维
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
本文介绍联调造数场景下的AI应用演进:从单Agent模式到多Agent协同的架构升级。针对复杂指令执行不准、响应慢等问题,通过意图识别、工具引擎、推理执行等多Agent分工协作,结合工程化手段提升准确性与效率,并分享了关键设计思路与实践心得。
1242 20
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
|
人工智能 算法 自动驾驶
知乎对话阿里云:透视AI应用难题与未来趋势
自AlphaGo接连战胜李世石与柯洁后,越来越多从业者将AI看做科技行业的未来。大大小小的AI公司兴起,国内外巨头公司纷纷加速向AI转型。但经历祛魅后的AI,在过去几年间却并未获得观察者们预想的火箭式爆发。 “AI行业接下来可能有哪些发展?” “一线从业者如何看待其中的机会?”近日,知乎合伙人、CTO李大海与阿里巴巴副总裁、阿里云智能高级研究员贾扬清亮相知乎直播,与网友分享了他们对AI时代下行业趋势、技术应用、个人成长等多个层面的洞察和思考。
668 0
知乎对话阿里云:透视AI应用难题与未来趋势
|
8月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
2016 75
|
9月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1611 84
|
8月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
8月前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
500 3
|
8月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
793 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?
|
9月前
|
存储 人工智能 Serverless
函数计算进化之路:AI 应用运行时的状态剖析
AI应用正从“请求-响应”迈向“对话式智能体”,推动Serverless架构向“会话原生”演进。阿里云函数计算引领云上 AI 应用 Serverless 运行时技术创新,实现性能、隔离与成本平衡,开启Serverless AI新范式。
844 12