目录
相关文章
CV:计算机视觉技术之图像基础知识(二)—图像内核的可视化解释
CV:计算机视觉技术之图像基础知识(二)—图像内核的可视化解释实现
图像内核的可视化解释
原作者: Victor Powell
图像内核是一个小的矩阵,用于应用在Photoshop或Gimp中可能发现的效果,如模糊、锐化、轮廓或压纹。它们还被用于机器学习的“特征提取”,一种确定图像最重要部分的技术。在这种情况下,这个过程通常被称为“卷积”(详见卷积神经网络)。
为了了解它们是如何工作的,让我们从检查一个黑白图像开始。左边的矩阵包含0到255之间的数字,每个数字对应一张人脸图像中一个像素的亮度。大的、颗粒状的图像被放大,以便更容易看到;最后一个图像是“真实”大小。
测试九种卷积核
官方Demo
- blur
- bottom sobel
- emboss
- identity
- left sobel
- outline
- right sobel
- sharpen
- top sobel
接下来,看看如何将下面的3x3锐化内核应用到上面的一张脸的图像上。下面,对于左边图像中每3x3个像素块,我们将每个像素乘以核中对应的项,然后求和。这个和就变成了右边图像中的一个新像素。将鼠标悬停在图像上的一个像素上,看看它的值是如何计算的。
blur | |
bottom sobel | |
emboss | |
identity | |
left sobel | |
outline | |
right sobel | |
sharpen | |
top sobel |
这个过程的一个微妙之处在于如何沿着图像的边缘进行处理。例如,输入图像的左上角只有三个邻居。解决这个问题的一种方法是将原始图像的边缘值扩展一,同时保持新图像的大小不变。在这个演示中,我们将这些值设置为黑色,从而忽略了它们。
DIY图片测试
自己测试,你可以选择不同的核矩阵,看看他们如何影响原始图像或建立你自己的核。如果你的浏览器支持的话,你也可以上传你自己的图片或者使用实时视频。
DIY实时视频测试