视觉AI技术体系及趋势概述（1）-阿里云开发者社区

内容概况

视觉技术是 AI 里应用最广,任务最多,技术方面非常复杂，发展非常快的一个AI的主要子方向。对人的各种信息的获取来说，视觉或者光线是信息获取最大的一个比例，在相关的 AI 技术中，视觉AI是人工

智能的主要组成部分。今天分享的内容主要目录有几大块：

一块是视觉 AI 技术的一个概况，以及它的一个大体的分类体系。

同时会就其中的三个最重要的组成部分来讲解，最主要的第一个是感知理解类的，对世界的感知/识别/整治可能这一系列最基础的技术，也是视觉技术发展最早的技术。

偏视觉生成以及编辑相关的技术分成两大块，一个就是经典的，第二块就是相对于现在 AIGC 领域发展得非常快的大模型相关的系列技术。

另外，达摩院在视觉 AI 提供了若干种类的服务，不管是学术界、学生还是工业界，都可以直接来使用。

视觉AI技术概况

视觉AI

视觉应用特别广泛：从感知增强，感知到视觉最初的一个信息，然后到怎么把这些信息传输出去，对这些信息的一个认知和理解，它安全性、搜索，还有生成、编辑重建、 3D 重建以及互动这一系列的技术。它实际上在感知端，云计算，或者交互端，它是无处不在的，这些也是它存在的非常广泛的一个原因。

视觉AI 在各个场景的应用

比如说我们在手淘就可能会用到其中的一个图像搜索（一个视觉相关的技术），这是当前在视觉搜索领域最大的搜索引擎基础。当然也会在特别大的城市级别例如数字平行世界，这上面也有非常多的视觉相关的核心技术，同时也包括像医疗，养猪或者生产安全等等这一系列上面都会用到各种各样的感知、理解类的视觉技术。

当然还有很多大类，例如生产编辑类的技术，比如说早期的时候做的像鹿班banner 的生成，或者服装设计、包装设计，视频的编辑、短视频生产等等，这上面用到了一系列的偏生产类的视觉技术，大家也能够感知到它在各个地方都有网上的一个应用。

“人”的一天中用到的视觉技术

用另外一个视角，比如说我们一个人一天当中从起床，到工作，到去玩或者社交等等一系列的动作中，其实也有很多能够用到视觉技术的地方。比如要打卡时要用自己的照片生成一个卡牌，从图片中抠出人像，然后要通过打卡机或考勤机识别是谁。或者除了识别人脸以外还需要识别有什么一系列的动作？比如说做一些仰卧起坐，俯卧撑等等这一系列的。

或者有时可能照片不是那么清晰，老照片做一些画质的提升或者美化或者变成数字人等等，这些都是在生活当中与视觉技术相关的。

视觉技术分类树

前面是一些示例，是从行业/人类生活碰到的视觉技术，接下来我们也可以从这几个维度去分享，视觉一般有这么几种模态：

最早研究的是平面图像-二维的图像，如果二维图像我们加上一个时间轴的信息，变成有时间序列的，那就变成视频的模态。

前一阵子元宇宙特别火的时候，就是在原来 2D 这种维度上再加一个维度，它变成一个 3D 的一个维度，然后从这些维度其实可以区分这种模态的一个分类的方式。

从另外一个维度看。视觉真正的目标千变万化的，针对人，文字或者商品的都有，所以从这个维度又可以分出若干个技术。

还有一个最基本的，视觉技术是为了完成什么样的功能，用来识别/检测/生成还是分割？从这个维度也可以去区分。

技术想要真的在行业当中应用，还根据不同的场景,可以细分成互娱互乐，社交，工业或电商。

所以从 4 个维度，可以对视觉技术进行一个相对比较合理的分类。从视觉树中可以看到视觉在模态、对象、功能、场景上面有各种各样的应用，这是从分类的体系来说。

趋势：从理解到生产

可以看到，人一出生而首先我要认识这个世界，理解世界。像读文章要先能够读懂，到后面可以写文章，然后可以去修改我的视觉内容，可以生产这些视觉内容。所以趋势肯定是从先理解，再到生产。

最近大家关注 AIGC 的内容是偏生产编辑这一类的。

趋势：从小到大，从单到多，从闭到开

（1）从小到大

另外一个趋势，像现在各种各样的模型，从早期的比较经典的、比较小的模型，到现在的模型越来越大，像初期的比较经典的 VGG 的，到现在 VIT 的再到现在多模态的这种技术，发展得越来越快，所以这个参数量也会越来越大。从万级别、百万级别、千万，再到亿，还有更大万亿级别的，模型参数从小到大，也是当前的一个趋势。

（2）从单模态到多模态

从单模态到多模态，尤其大模型开始流行起来以后，是非常典型的一种趋势。早期给一张图，打一个标，或者给个分值等。现在基本上是图相对自然语言的描述，作为训练模型的输入，同时进行encoding，然后再来进行训练。现在大部分都是文本，视觉或者图像这一块的多模态。当然在对声音或者对其他的东西也可能是多模态的方式。总而言之，从单模态到多模态这个趋势非常明显。

（3）从单任务到全能

以前只解决检测问题，或者只解决分割问题，甚至它只能解决对某一个特定对象，特定场景的。但是从不久以前，阿里做了一个新的模型开始，就开始强调全能/多功能的模态，既可以做视觉的任务，也可以做文本的任务等等。所以从单任务到多任务的进行，也是一种趋势。这种趋势最后会发展成什么样的状态？是不是真的能够从一个全能/全任务的模型解决所有问题？这个可能有待考察和发展。

（4）从闭集到开集

另外可能还有一个经常会遇到的方式，以前的模型或者数据集，只能在一些闭集当中去做，比如说我们在训练得到它的标签就是在这个集合当中，当出来openset 的一个问题，它能不能解？其实现在这个趋势也是比较明显的，尤其是像现在的多模态大模型，其实它很多的时候能够解决就这种这个问题，可以解决以前在训练的过程当中或者是闭集的状态走上一个开集的状态，这也是其中一个趋势。

趋势：基于知识和反馈的训练

在训练的时候，可能需要把这种人的知识以及反馈，例如像 ChatGPT 半监护，半反馈的强化学习（RHLF）的方式加入到训练当中去，这也是一个趋势，使得我们的模型的表征能力越来越强。

视觉感知理解技术

事实上视觉感知理解，应该是人类获取认识这个世界最主要的最基本的任务。

视觉理解

例如最基础需要先识别上方图像中有什么东西？想知道是个猫还是个狗？然后要知道这个猫和狗在图像当中的位置，这是更进一步。当要知道每一个像素是什么东西的时候，就要做分割的问题，这是最经典的几类任务。

当然视觉理解还有一些表征或者识别行为等等一系列的任务。总的来说，基本上它的模式是输一个图，然后出来一个标签，一个 tag 这种方式，也可能是一个 score 或者是一个数字等等，所以我们可以从日常的生活当中发现非常多的有关于识别或者检测、理解相关的一些任务。

人的识别及检测

最经典的是去地铁站坐车或者坐飞机，打卡等等，或者要识别一个人，或者识别有多少人等等这一系列的任务，都是属于这类的。

生物识别系列模型

识别系列模型其实有很多，这里只举个几个最典型的，比如说对人脸的一个关键点识别， 1: 1 的识别或者 1: n 的识别。

（1）对人脸的识别来说，有三个关键的核心的模块，对于人脸的检测，人脸关键点的识别，人脸的识别本身。当然还有一些前序的，例如人脸的质量，图像质量的纠正，还有事后的等等也有非常多的模型，在人脸这个最经典的研究的最早的视觉任务，上面也另外沉淀非常多的技术。这个技术可以在 Model Scope 的官网去访问。

（2）分类检测上面也有非常多实际的任务可以去研究。

（3）在工业场景下面，例如给一个电池版，或者给一个果冻，能不能检测到其中有些瑕疵？这些都可能是现实当中碰到的问题，这可能是检测问题，也可能是分割问题，或者是识别问题。这就是对这种工业场景下面的一个场景理解。

（4）达摩院也开放了DAMO-YOLO这个非常厉害的检测模型，它可以兼顾速度和精度同时去识别。大家都知道，视觉任务做到最后都面临精度、速度、成本等等的兼顾平衡，只有这样的话才能够使得这个模型真正的能够落到行业当中去，所以这是经典的检测模型，可以对单个人检测，也可以对多种目标、多种物体、动态的、静态的等等都可以去做检测。

（5）延展一下，自然图像例如手机照片，是普通的 RGB 图，但事实上还有很多，例如CT 图还是 X光，MRI ，超分，超声或者是 PET 等等这一系列的针对物体或者人体内部的扫描结构得到的影像，也算一种特殊的一种视觉。在这个层面也有很多事情可做，比如说对各个器官的一个分割/检测/识别，对病灶/病的种类等等这一系列，这些都是对人的内部，外部的感知理解的一系列的视觉技术。

（6）前面举的例子都是对静态的识别，同时可能对一个动态的视频，想要知道这个人做什么动作，识别出来是什么动作，以及做的标不标准，或者对人进行一个教学，做这个动作做得好不好？做了多少个？等等这一系列技术其实就是对人体的关键点，以及对人体连起来骨架，基于这个去做的动作识别。这个可以用于做一些app，或者记录今天做了哪些事情等有意思的应用。

（7）在城市级别或者是交通感知，交通事件等也有很多的视觉技术可以使用，比如识别车或者是交通是不是有拥堵，事故，违法等等都是视觉技术可以发挥价值的地方。此类发挥价值是通过城市级别，或者交通系统级别，对实时采集到的摄像头的数据，进行分析理解。所以这块除了算法技术以外，实际上还有一系列系统级的工程技术去配合的系统。

分割抠图-难点

除了前面的识别检测以外，还有技术相对不太一样的地方。比如说可能需要针对图像像素点是属于什么类别的检测识别问题，实际上属于分割抠图的问题。

如果经常使用PS等，就会经常使用到它。比如面对复杂背景/遮挡/发丝/或者是透明材质，像婚纱等等这一系列都是在识别当中会遇到的挑战。这些挑战还有一个很大的问题在于标注成本非常多，导致高质量的数据本身也会严重不足。

（1）分割抠图-模型框架

在解决这个问题上也有很多的方法，这里只列出一个例子。例如解决高质量的标注语料问题时，设计了粗分割精分割相互结合的方式，去促使这个方法可以快速的既能够兼顾粗分割，就是低级分割所带来的图像数量比较多，同时我们又能够利用精分割的质量比较高的情况，使得这个分割能够兼顾效果和数量上的统一。

（2）分割抠图-效果展示

发丝级别的这种精度，或者图像它是镂空，或者是它跟背景相似的时候，怎么把它分割出来？这是一个非常有技术含量和应用面在里面的事情。

（3）分割抠图-图元解析

同时还有一个非常有意思的分割，是更复杂的图源解析的一个问题。如果大家用过 PS 就应该知道，一张图如果是 PSD 结构的话，它实际上是多个图层合起来变成一个图像的。

但反过来给一张图，你是否能把里头的各种元素，各种图层反向识别出来，分割出来？这就是一个对图像的反向解析的过程，这是相对更复杂的一个对图像的理解的问题。

感知理解系列开放模型

在 ModelScope 上面开放了这么几大类，包括分类、检测、分割，还包括视频里的一系列的理解能力，这个是最基础的一系列能力。

当然另外一系列能力例如先认识世界、感知理解到了世界，然后这个时候我要改造或者是生成我们的视觉信息，那么我们就可以归结为生成编辑类。

经典生成编辑技术

编辑类的大家可能知道，由于现代 ATC 大模型技术发展，可以把它分成两个阶段，一个阶段是经典的生成编辑技术，这里主要是指这一块。

视觉生产的定义

相当于输入一个视觉，然后出来一个视觉，产生一个新的视觉表达，它产生的不是一个标签，也不是一个特征。而且它输出的和输入的还不一样。

比如说经典的我生成一个从 0 到1，或者是我有了一个图，我生成更多的图是从 1 到n，或者是我有一个摘要，或者是一个升维，包括前面的平面图像到视频，或者是从视频到 3D 的图像，当然还有一些从 a 到b 增强/变换，或者我把两张图合到一起，或者是想从一个视觉当中移除一个东西。

视觉生产通用框架

从上面可以看到，视觉生产实际上是包含了非常多的任务，这其中最经典的，是一个通用的框架，我们可以输入参数、素材或者是各种各的成品，当然也可以在早期的时候通过模型+知识的方式生成引擎去做，也可以通过一个搜索引擎去做，找相似的素材和案例，去产生一个输出，所以这是个通用框架。

视觉生成技术发展

当然视觉生成技术其实发展的时间也比较长，虽然它跟理解力技术对比还是在之后的。包括我们最早些时候，大家应该知道，大概11年 12 年的时候，一个非常火的模型叫 GAN，它可以通过对抗的方式，通过判别器和识别器然后对抗的方式来获得图像的生成。

它是早期的一个最经典的生成式模型。当然之后也有很多的技术在发展，像 GAN 技术它也会有很多一系列的发展，包括条件生成CGAN 或者是styleGAN等等这一系列技术在当前还在不断地往前发展。

当然现在也有两大类非常火的技术，像那个 VAE 技术，变分自动编码器，这里面也有条件生成。运用的面最广的，当前最火的是基于扩散模型方式的一个生成方式。

视觉生成-五个关键维度

要想使得视觉生产技术或者生产技术能满足业务的需要，那么我们应该在哪些方面来衡量它呢？

（1）比如说我们首先肯定要满足视觉或者美学的一个表现，是可看的，不能说我们生成一个东西你看起来都不认识或者不知道，那这个肯定是没法满足的。

（2）第二个它相对来说要合理，它要合乎语义的逻辑或者是内容的逻辑，这点也很重要，我不能说生成个a，结果你给我个b这也不行。

（3）还有一个你要保证你结果的丰富性，它是个多样可变的，你不能说每次生成的都一模一样，它也是一个不是那么可用的状态。

（4）还有它要是可控的，我想要生成什么样子，它就要生成什么样子。不能说生成a，结果它生成b，或者说我没法控制它，这个也是不成的，所以我们要提供一个给用户预期的抓手。

（5）最后达成一个目标，使得这个结果生成结果是可用的，它能够给用户带来使用价值或者商业价值，这是最核心的。

所以从可看、合理、多样、可控和可用上面这几个维度来看，我们可以回过头去看一看我们的视觉生产这个过程，这个技术是不是合理的。

视频增强相关能力

前面介绍到有若干种视觉生产，这里介绍两个最主要的。第一个就是视频增强技术，实际上是满足从 a 到 b 的一个过程。如果大家了解过底层视觉，就是比如说我一个视觉，那么我一出生以来，我不管是人，一只狗，或者是一个猫，或者是只要有眼睛能感知光的，那么它可能就对这个图像的清晰度、细节或者色彩或者它是否流畅等等这一方面东西它天然的就能够感知得到，这就是所谓的底层视觉。

对底层视觉我们永远是追求更高画质的视觉表现，包括我们在清晰度上面更清晰，然后在色彩上面要更鲜艳，然后在流畅度上面要刷新的更快，这些都是跟视频增强相关的一系列能力。

图像与视频的画质问题

视频增强的问题从哪来的？其实有很多，比如从采集，运输处理，还有存储等等各方面，由于我们早期的时候在拍摄图像，它的设备/环境/其它的东西导致的各种各样的内容不够，甚至更早期的时候图像只有黑白等情况。这些情况基本上可以分为三大类：

（1）一大类是细节损伤，分辨的不够，或丢失了一些信息，这是第一类的。

（2）第二类色彩表现不好，以前可能是黑白的，后面只有8bit，或者就是马赛克形式，10bit的像素的表达，所以这种色彩的表现，有可能是RGB三个通道，也可能ARGB的四个通道。这一系列也是属于色彩表现添加的问题。

（3）或者可能是跳帧的，它连续性不够流畅等等。从这几方面来说的话，从传统的图像处理理论当中来说，想要把这些问题修复其实是非常困难的。所以也就是相当于在这几个方面，可以有很多的技术去专门攻克这一块。

空域增长-超分

在空域增强上面，在细节上面做一些超分的任务，超分任务其实是比较典型的底层视觉的问题，而且这块问题其实发展的时间也非常长了，从早期的基于 CN 的图像超分，一直到现在利用这种domain手段去做这种增强任务，所以这一系列的技术也在不停地往前发展，使得的效果也不断地去往前提升，使得从早期的720P，到1080P，然后到后面的4K、2K，或者甚至到现在的 8K 的视频，细节越来越丰富，这是最基本的问题。

色彩增强示例

另外色彩，有时可能不是那么通透，或者是带有一点点灰蒙蒙这种感觉，使得从8位的一个像素深度变成一个 10 位，或使得色彩表现力更丰富。上图这里应该是从 SDR 到HDR，大家用过电视机或者是比较好的一些手机都支持 HDR 的方式，但早期的时候很多是都是 SDR 的格式，所以在这些方面都可以做很多的事情，使得即便当时的视频质量不是那么好，经过 AI 的处理以后它可以变得更好一些。

图像去噪开放模型

同时也开放了一些其他的跟底层视觉相关的一些模型或者算法，比如说两个最经典的。图像拍的特别模糊，或者是噪声点特别多，那么这个时候能不能有个办法呢？其实也有一些专门的办法去解，比如不管是对文字的噪点的去除，还是对拍摄过程当中因为运动模糊带来的一系列的问题都可以去解。

人像增强开放模型

还有针对人像的增强，在github 上很早就开放了GPEN 人像增强模型。基于 StyleGAN2 作为 decoder 的方式嵌进去的一个方式实现的。在这一块的话可以对一些老照片来进行修复。

例如早期拍的家庭合照或者早期的一些影视剧，质量不好的时候可以使用这个模型，把其中相对于人的这块识别做的更好一点。

生成编辑相关能力

增强相对来说偏底层视觉相关的，但是生成编辑还有非常多的其他任务。包括对这个风格变化，或者是从 0 到 1 生成一个东西，或者生成以后对它进行一个增、删、查、改等等一系列的视觉能力。

视觉AI技术体系及趋势概述（1）

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景