分析”圣诞帽“代码,入门OpenCV

简介: 分析”圣诞帽“代码,入门OpenCV

01.基础知识准备


在计算机中,图像是以矩阵的形式保存的,先行后列。所以,一张宽×高×颜色通道=480×256×3的图片会保存在一个256×480×3的三维张量中。图像处理时也是按照这种思想进行计算的(其中就包括 OpenCV 下的图像处理),即 高×宽×颜色通道。


数字图像

对于一幅的数字图像,我们看到的是 肉眼可见的一幅真正的图片,但是计算机看来,这副图像只是一堆亮度各异的点。一副尺寸为 M × N 的图像可以用一个 M × N 的矩阵来表示,矩阵元素的值表示这个位置上的像素的亮度,一般来说像素值越大表示该点越亮。

一般来说,灰度图用 2 维矩阵表示,彩色(多通道)图像用 3 维矩阵(M× N × 3)表示。


图像通道

描述一个像素点,如果是灰度,那么只需要一个数值来描述它,就是单通道。如果一个像素点,有RGB三种颜色来描述它,就是三通道。而四通道图像,就是R、G、B加上一个A通道,表示透明度。一般叫做alpha通道,表示透明度的。

ROI和mask

Setting Region of Interest (ROI),翻译成白话为,设置感兴趣的区域。mask是做图像掩膜处理,相当于把我们不关心的部位覆盖住,留下ROI部分。上面说的alpha就可以作为mask。


矩阵(Numpy)知识

矩阵索引、切片等,这里我自己掌握的也不好,就不多说了,小伙伴儿们可以自行学习。


02.代码分析


有了基础知识后,我们来简单分析下冰神的代码。


首先冰神上来先说要用到OpenCV和dlib,好吧,安装搞起。使用pip分别安装之

pip install python-opencv

pip install dlib

发现找不到代码里提到的”shape_predictor_5_face_landmarks.dat“,原理这个需要手动到网上下载,地址如下:http://dlib.net/files/。下载后放到项目目录下。有兴趣的同学可以玩玩那个shape_predictor_68_face_landmarks.dat,识别出的人脸关键点有68个之多呢。

image.png

提取帽子图片的rgb和alpha值,

# 帽子图片
hat_img3 = cv2.imread("hat2.png", -1)
r, g, b, a = cv2.split(hat_img3)
rgb_hat = cv2.merge((r, g, b))
cv2.imwrite("rgb_hat.jpg", rgb_hat)
cv2.imwrite("alpha.jpg", a)
print(a)
print(hat_img3.shape)
print(rgb_hat.shape)

效果如下

rgb图

image.png

alpha图

image.png


印出的a数值如下:

[[0 0 0 ... 0 0 0]

[0 0 0 ... 0 0 0]

[0 0 0 ... 0 0 0]

...

[0 0 0 ... 0 0 0]

[0 0 0 ... 0 0 0]

[0 0 0 ... 0 0 0]]


下面进行人脸检测,使用dlib处理,并没有什么难度,读代码就能明白。


接下来是按照比例缩小帽子的图片

#  根据人脸大小调整帽子大小
factor = 1.5
resized_hat_h = int(round(rgb_hat.shape[0] * h / rgb_hat.shape[1] * factor))
resized_hat_w = int(round(rgb_hat.shape[1] * w / rgb_hat.shape[1] * factor))
if resized_hat_h > y:
    resized_hat_h = y - 1

这里冰神写的很复杂,也没有看懂其中的逻辑,我把这里改写了

# 帽子和人脸转换比例
hat_w = int(round(dets[0].right()/1.5))
hat_h = int(round(dets[0].bottom()/2))
if hat_h > y:
    hat_h = y - 1

直接按照比例缩放,经过多张图片验证,这个比例是合适的。


进行ROI提取

# 用alpha通道作为mask
mask = cv2.resize(a, (resized_hat_w, resized_hat_h))
mask_inv = cv2.bitwise_not(mask)

mask图片,取出了帽子区域

image.png

mask_inv图片,用来取出人脸图片中安装帽子的区域

image.png

在人脸图片中取出安装帽子的区域(ROI)

# 原图ROI
# bg_roi = img[y+dh-resized_hat_h:y+dh, x+dw:x+dw+resized_hat_w]
bg_roi = img[y + dh - resized_hat_h:y + dh,
         (eyes_center[0] - resized_hat_w // 3):(eyes_center[0] + resized_hat_w // 3 * 2)]

这里其实是用到了矩阵的切片用法,不过我这个学渣还没搞明白,要回去重线性代数了。


在人脸图片中取出帽子形状区域

# 原图ROI中提取放帽子的区域
bg_roi = bg_roi.astype(float)
mask_inv = cv2.merge((mask_inv, mask_inv, mask_inv))
alpha = mask_inv.astype(float) / 255
# 相乘之前保证两者大小一致(可能会由于四舍五入原因不一致)
alpha = cv2.resize(alpha, (bg_roi.shape[1], bg_roi.shape[0]))
# print("alpha size: ",alpha.shape)
# print("bg_roi size: ",bg_roi.shape)
bg = cv2.multiply(alpha, bg_roi)
bg = bg.astype('uint8')

这里是把图片默认的uint8类型转换成了float类型进行运算,最后又转换回来。

合成的图片

image.png

黑黑的部分就是我们要放置帽子的地方

在帽子图片中提取帽子部分

# 提取帽子区域
hat = cv2.bitwise_and(resized_hat, resized_hat, mask=mask)

使用刚刚调整大小的帽子图片来提取

image.png

可以看到,除了帽子部分,其他区域已经掩模处理了。

以上就是提取ROI的过程,比较难懂,需要好好琢磨,尤其是矩阵的切片、mask处理部分。


然后把人脸空余帽子部分的图片区域和帽子只展示帽子区域的图片区域(有点拗口)合并在一起

# 相加之前保证两者大小一致(可能会由于四舍五入原因不一致)
hat = cv2.resize(hat, (bg_roi.shape[1], bg_roi.shape[0]))
# 两个ROI区域相加
add_hat = cv2.add(bg, hat)

效果如下

image.png

刚刚好,完美叠加。


最后把这个片段放回人脸原图中,展示图片

img[y+dh-hat_h:y+dh, (eyes_center[0]-hat_w//3):(eyes_center[0]+hat_w//3*2)] = add_hat

image.png


美美的图片就出来啦!


03.代码重构


用类封装了下,看起来更加规范些,然后简单测试了几张图片,发现有些还不错,但是有些帽子却”飞“了,看来帽子和脸的距离还是有待优化的。

image.png

test01

image.png

上来就是一张失败作品,next

test02

image.png

这。。。。不开心啊

test03

image.png

哎呦,这张还不错哦

test04

image.png

嗯嗯,基本算成功吧。


04. 思考


通过如上的简单分析,可以看出,图片处理,主要还是矩阵的处理,同时OpenCV和dlib都是炒鸡强大的库,里面有太多的宝藏等着我们去探索啦!

相关文章
|
6月前
|
算法 开发工具 计算机视觉
【零代码研发】OpenCV实验大师工作流引擎C++ SDK演示
【零代码研发】OpenCV实验大师工作流引擎C++ SDK演示
86 1
|
4月前
|
算法 计算机视觉 Python
python利用opencv进行相机标定获取参数,并根据畸变参数修正图像附有全部代码(流畅无痛版)
该文章详细介绍了使用Python和OpenCV进行相机标定以获取畸变参数,并提供了修正图像畸变的全部代码,包括生成棋盘图、拍摄标定图像、标定过程和畸变矫正等步骤。
python利用opencv进行相机标定获取参数,并根据畸变参数修正图像附有全部代码(流畅无痛版)
|
4月前
|
计算机视觉 Python
opencv在pycharm不能自动补全代码
opencv在pycharm不能自动补全代码
31 0
|
6月前
|
计算机视觉
OpenCV轮廓分析
OpenCV轮廓分析
|
6月前
|
计算机视觉
【轻松入门】OpenCV4.8 + QT5.x开发环境搭建
【轻松入门】OpenCV4.8 + QT5.x开发环境搭建
89 0
【轻松入门】OpenCV4.8 + QT5.x开发环境搭建
|
6月前
|
监控 安全 计算机视觉
实战 | 18行代码轻松实现人脸实时检测【附完整代码与源码详解】Opencv、人脸检测
实战 | 18行代码轻松实现人脸实时检测【附完整代码与源码详解】Opencv、人脸检测
|
6月前
|
并行计算 IDE 开发工具
【竹篮打水】OpenCV4.x 中新增并行代码执行演示
【竹篮打水】OpenCV4.x 中新增并行代码执行演示
55 0
|
6月前
|
机器学习/深度学习 监控 算法
OpenCV一文入门
OpenCV 是一个开源的计算机视觉库,用于图像处理、视频分析和机器学习。它包含数千种算法,涉及滤波、几何变换、特征检测、机器学习等多个领域。支持图像和视频读取、显示、处理,例如图像转灰度、高斯模糊和边缘检测。安装 Python 版本可通过 `pip install opencv-python`。OpenCV 广泛应用于自动驾驶、安防监控、医疗影像和制造业等,未来将加强深度学习支持和跨平台性能。
62 0
|
2月前
|
计算机视觉
Opencv学习笔记(三):图像二值化函数cv2.threshold函数详解
这篇文章详细介绍了OpenCV库中的图像二值化函数`cv2.threshold`,包括二值化的概念、常见的阈值类型、函数的参数说明以及通过代码实例展示了如何应用该函数进行图像二值化处理,并展示了运行结果。
412 0
Opencv学习笔记(三):图像二值化函数cv2.threshold函数详解
|
3月前
|
算法 计算机视觉
opencv图像形态学
图像形态学是一种基于数学形态学的图像处理技术,它主要用于分析和修改图像的形状和结构。
51 4