前言
计算机视觉可以分为以下几大方向:图像分类、目标检测、图像分割、风格迁移、图像重构、超分辨率、图像生成、人脸、其他。
1、图像分类
★ 图像分类是计算机视觉领域的重要研究内容之一,在许多领域得到了广泛的应用,如:遥感图像的分析、安防领域的人脸识别和智能视频分、交通领域的交通场景识别,互联网领域基于内容的图像检索和相册自动归类,医学领域的图像识、机器人领域的图像识别等。
★ 图像分类包括通用图像分类、细粒度图像分类等。左图展示了通用图像分类效果,即模型可以正确识别图像上的主要物体。右图展示了细粒度图像分类-花卉识别的效果,要求模型可以正确识别花的类别
2、目标检测
★ 目标检测的目标是在给定一张图像或是一个视频帧的条件下,让计算机找出其包含的所有目标,并标出它们处在图像中的具体位置。这意味着,计算机不仅要用算法来判断出图像中哪个物体是汽车、 自行车或者狗,还要在图像中标记出它们的坐标位置, 用边框或红色方框把它们圈起来, 这就是目标检测问题。如下图所示。
3 、图像分割
★ 图像分割的应用非常广泛,几乎出现在有关图像处理的所有领域,并涉及各种类型的图像。例如,在卫星遥感图像识别中,合成孔径雷达图像中目标的分割。在医学图像诊断应用中,脑部MR图像分割脑组织和其他组织区域。在交通车牌信息识别中,把车辆目标从背景中分割出来。
★ 那么什么是图像分割呢?所谓图像分割是指通过特征把图像划分成多个区域,同区域的特征一致或相似,不同区域的特则征截然不同。具体效果像如下图
★ 按照具体分割效果的不同,图像分割分为语义分割、实例分割和全景分割。语义分割:是对图像中每个像素都划分出对应的类别,即实现图像在像素级别上的分类。在开始图像分割处理之前,必须明确语义分割的任务要求,理解语义分割的输入与输出。近年来多应用在无人车驾驶技术、医疗影像分析中辅助诊断等。
(特殊)全景分割
★ 在实例分割的基础之上,还需对图中所有物体包括背景都要进行检测和分割,使用不同颜色区分不同实例。全景分割任务要求识别图像中的每个像素点,并且必须给出语义标签和实例编号。其中的语义标签是物体的类别,而实例编号对应的是同类但不同实例的标识。如下图分别展示了(a)原始图像,(b)语义分割,(c)实例分割,(d)全景分割。
4、风格迁移
★ 风格迁移是指将一个领域或者几张图片的风格应用到其他领域或者图片上。比如将抽象派的风格应用到写实派的图片上。
★ 一个风格迁移的例子如下, 图 A 是原图,后面的 B-D 三幅图都是根据不同风格得到的结果。
5、图像重构
★ 图像重构,也称为图像修复(Image Inpainting),其目的就是修复图像中缺失的地方,比如可以用于修复一些老的有损坏的黑白照片和影片。通常会采用常用的数据集,然后人为制造图片中需要修复的地方。
★ 一个修复的例子如下所示,总共是四张需要修复的图片,例子来自论文"Image Inpainting for Irregular Holes Using Partial Convolutions"。
6、超分辨率
超分辨率是指生成一个比原图分辨率更高、细节更清晰的任务。一个例子如下图所示:
6 ★通常超分辨率的模型也可以用于解决图像恢复(image restoration)和修复(inpainting),因为它们都是解决比较关联的问题。
6 ★常用的数据集主要是采用现有的数据集,并生成分辨率较低的图片用于模型的训练。
7、图像生成
7 ★ 图像生成是根据一张图片生成修改部分区域的图片或者是全新的图片的任务。这个应用最近几年快速发展,主要原因也是由于 GANs 是最近几年非常热门的研究方向,而图像生成就是 GANs 的一大应用。(styleGan2)
7 ★ 一个图像生成例子如下:
8、其他领域的应用
8 ★ 实际上还有其他很多方向,包括:
8 ★ 人脸识别、步态识别等身份识别:通过人体不同的独有特征识别个体身份。
8 ★ 图文生成(Image Captioning):给图片生成一段描述。
8 ★ 文本生成图片(Text to Image):基于文本来生成图片。
8 ★ 图片上色(Image Colorization):将图片从黑白变为彩色图。
8 ★ 人体姿态估计(human pose estimation):识别人的行为动作。