1.3 模式识别系统
模式识别系统由两个过程组成,即设计和实现。设计是指用一定数量的样本进行分类器的设计,实现是指用所设计的分类器对要识别的样本进行分类决策。本书只讨论决策理论方法,基于决策理论的模式识别系统主要由4个部分组成:数据获取,预处理,特征提取和选择,分类决策,如图1-3-1所示。
下面我们对这几个部分作简单的说明。
1.数据获取
为了使计算机能够对各种现象进行分类识别,要用计算机可以运算的符号来表示所研究的对象,通常输入对象的信息有以下3种类型:
1)二维图像:如文字、指纹、地图、照片这类对象。
2)一维波形:如脑电图、心电图、机械振动波形等。
3)物理参量和逻辑值:前者如在疾病诊断中病人的体温及各种化验数据等;后者如对某参量正常与否的判断或对症状有无的描述。
通过测量、采集和量化,可以用矩阵或向量表示二维图像或一维波形。这就是数据获取的过程。
2.预处理
预处理的目的是去除噪声,加强有用的信息,并对输入测量仪器或其他因素所造成的退化线性进行复原。
3.特征提取和选择
由图像或波形所获得的数据量是相当大的。例如,一个文字图像可以有几千个数据,一个心电图波形也可能有几千个数据,一个卫星遥感图像的数据量就更大。为了有效地实现分类识别,就要对原始数据进行变换,得到最能反映分类本质的特征。这就是特征提取和选择的过程。一般我们把原始数据组成的空间叫做测量空间,把分类识别赖以进行的空间叫做特征空间,通过变换,可把在维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式。特征空间中的一个模式通常也叫做一个样本,它往往可以表示为一个向量,也就是特征空间中的一个点。
4.分类决策
分类决策就是在特征空间中用统计方法把被识别对象归为某一类别。基本做法是在样本训练集的基础上确定某个判别规则,使按这种判别规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小。