开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算:数字图像基础(上)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/811/detail/15672
数字图像基础(上)
内容介绍
一、图像的定义和数字化
二、数字图像与位图图像
三、图像数据量对比
一、图像的定义和数字化
1、图像的定义
我们有一句话叫一图胜千言。图像是多媒体中携带信息极其丰富的。也是最重要的一种媒体。
图像它是自然界中多姿多彩的这种景物和生物,通过视觉感官在我们大脑中留下的印象。
清明上河图我们用语言来表达这幅图的内容未见得表达清楚,说明我们的图像很重要。反问自己如果自己没有眼睛,生活就会失去色彩。所以这就是为什么要帮助盲人。
我们的数字图像里面,我们多媒体其实就是希望让计算机有眼睛。计算机的眼睛是摄像头,是能够理解图像的,我们的人的眼睛是一个传感设备,把图像采集到大脑里面。
而我们之所以能够认识这个图像,实际上我们的大脑起作用。而我们计算机也好,我们的手机也好是处理我们要计算的模型,我们要让 CPU 能够驱动算法,要理解这个图像。这个就是我们计算机视觉里面所用到的最主要的内容。计算机视觉就是处理图像和视频。我们这节课讲的其实是多媒体里面的图像的它的基本的概念,同时也是我们计算机视觉他的一个基础知识。举个例子,比如说左边这个图是我带着女儿在海边照的背影。
之所以用背影。比如说你看到这个背影,估计除了熟知我的人,看到这个头像认出是我了。其他的你认不出来。那另外一张图片是我在搜索通过搜索引擎搜到的。你说我把我的图片带着女儿这张照片放到互联网上去找。认出是我的难度就太大了。比如说这里人群里的人的识别。大家说现在这个人脸识别的特别好,我们在各种地方,比如说我们单位的签到,我们门禁系统,甚至去火车站我们都用了人脸识别。为什么你去火车站需要带身份证。如果不带身份证,你能不能刷脸进站了。
而你的单位里面的人脸签到是不需要带工作证或者身份证就可以见到。原因是你的单位的人数是有限的。华中科技大学人多也就六七万人,教师和学生全部在一起。而你的单位如果少就几十个人。你去刷脸就相当于从几万个人里边选出你来。而小单位是从几十到几百个人里面去做人脸识别。
而如果是在火车站你不带身份证去的话,只凭一张脸去相当于你要从14亿人口里面找你自己,而通常还有老外等等,就不是14亿来讲。我们这种交通设施里面,如果全仅凭一张脸,那么就是全世界人口的总数去里面找符合你的。这个难度太大了,准确度极低。而我们在这种火车站里面,你把身份证往这一放。那身份证起通过芯片找到你的身份证号码,通过这个身份证号码到库里面把你身份证里面那个证件的照片找到。
然后拍的就是说你进站的时候,这个摄像头拍到你的人脸进行匹配,看一看是不是你自己。他是一对一的做匹配,而不是到库里面去通过脸来找你,身份证找到了你的照片,再拿你的照片跟你本人进行匹配。其实就是代替了我们原来的进站工作人员拿着身份证,然后再看你一眼这一过程,其他的他们做不了。而那里面你想想都是正面照。你拍身份证的时候是有规定的。你距离镜头多远拍多大。而你到火车站去通道机那块呢,也是拍到正脸的。这有东倒西歪的这些照片,你是从这里面把每一个人脸识别出来,难度很大。
比如说人群的背影识别我怎么能识别出来,其实难度是很大,再比如说这里面的。
视频中的图像帧我们去找进球,我们识别这里面人是谁,难度非常大。
2、图像的数字化
图像是多媒体计算机处理了一个对象,那我们要把这个图像进行数字化。我们必须把我们连续的这个图像。我们把它变成离散的二进制的值。
比如这是故宫博物馆的故宫的门口的照片。那么这个照片我们把它变成数字图像。第一步采样,我们在空间连续的坐标系, x y 就是个点在哪儿。采集出来,就是说我们的屏幕里面就是这个照片,我们究竟采取多少个点。这是故宫博物院,这个“故”看我们采取了很多遍,每一个点放大以后就是个小方块。这个点越密集图像就越清晰。这就是我们空间的材料。
而这个颜色的这个采的那个点。他是一个颜色的值。他原来是个连续的,是我们现在变成一个数字。那我们要对它进行离散,这就叫量化。这个用的位数越多,所描述的颜色的纸越多。它表达的就越精确。我们图像的数字图像。把它离散成一个点之后。那个点呢就是图像的基本单元。我们叫像素。上述的英文叫 pixel 。 Pixel 就叫像素,就是图像中采集到这个点。那么像素呢由若干个二进制位表示的。那就是我的像素的深度或者精度。二进制的值呢,表示的颜色或者灰度的值,如果是黑白照片,他描述的是灰度。
如果是彩色照片就是颜色的知识。如果是用 RGB 模型,就是 rgb 这三种颜色分量。图像的质量就取决于第一个分辨率就是像素的个数,也就是采集多少个点。现在我们说买个相机是多少万像素,比如说mate40相机提高了多少多少万像素。
指的是分辨率,颜色值的位数。就是用多少位表示,这是像素的深度。这两个因素就决定了我们数字图像的质量。
二、数字图像与位图图像
1、数字图像
是量化或者原始信号,比如说我们这里面就是原始的图像的最小单位是像素用于表达我们自然的景象,那是数字图像。
图形是运算形成的抽象的产物。图像是一个一个点采集下来的,图形是是通过算法生成的。这个算法呢是有参数的,把参数记下来就行了。这参数一般是一个矢量,还有方向,就是既有方向和长度的矢量表示。举个简单的,比如我们是一个圆。圆如果是用图像来表达的话就是采集圆所在区域的一些点。
如果是用一个图形表示大家学过几何的。我们只需要原先的坐标还有这个圆的半径就可以描述这个图形。作出图形后面通常是有计算公式的,图像是一个一个的点组成的。我们数字图像处理处理的是图像。就是这一个点。而我们的图形学经常用的就是我们生成图形的那些算法通常是有非常复杂的数学公式。
2、位图图像
是我们把图像中的这个采集的这个点。其实这每一个点。和二进制数是有一个一一对应的关系。也就是说像素由若干二进制表示二进制,就代表了颜色的数量,他们一一对应,有一个映射关系的。那么这个二进制和我们图像之间,这个严格的位映射的关系,存在的这种图像。我们就把它叫做位图。我们未经压缩的图像。我们的数码照片拍下来的全都是位图的。就是一个点一系列的二进制数组成,然后排队放在矩阵里面。那如果进行压缩的话,我们以位图为原始图形。然后原始图像在他进行的不同的我们的压缩算法最后生成特定类型的图像。而我们不同的处理软件的。
比如说我们的 photoshop 。实际上是加了很多图层,而每个图层呢它的原理还是一个一个的位图。有像素的人像,一个是有非常严格的位映射关系,那么就是位图的概念。位图特指图像。
有了这个概念以后,大家就清楚了实际上图像在我们的计算机里面的存储就是一个点,一个是1024×768,就是这个图像里面,我们采集1024×768个点。每个点如果是用24位表示,那我们就是24位真彩色。就把这一个一个点这么排下去。就是这个图像的数据的文件。
三、图像数据量对比
这是个 a4 幅面的。那么24位真彩色分辨率的300 dpi ,就是每英寸里有300个点。
我们讲分辨率有两个描述,一种是每英寸里面有多少个点。还有一个就是我们的数字 X 乘 y ,一般显示器分辨率通常是 1024乘768 ,800×600。现在还有更高的是指的这个分辨率。看我们不同的类型,比如说 jpg , gif , bmp, tga , pcd , tif 。他们的这个文件大小各不相同,你像jpg 。
其实不同的图像类型,不同的内容去拍图像是不一样的。而 bmp 这个图像,用你手机去拍照试一试,如果你把它存储的格式变成了位图,就 bmp 格式,你拍的任何一个图像任何一张照片它的大小都是一样的。
如果相反,把这个不用位图来表示,用 jpg 这个, jpg 是用 jpeg 这种图像的压缩标准压缩之后的。
再去看一看,其实不同的景物不同的照片 Jpg 的图像大小都是不一样的。因为图像的内容不同,可压缩掉的内容他的多少是不相同的。