【数据挖掘实战】——基于水色图像的水质评价(LM神经网络和决策树)

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: 项目地址:Datamining_project: 数据挖掘实战项目代码

一、背景和挖掘目标


1、问题背景

从事渔业生产有经验的从业者可通过观察水色变化调控水质,用来维持养殖水体生态系统中浮游植物、微生物类、浮游动物等合理的动态平衡。由于这些多是通过经验和肉眼观察进行判断,存在主观性引起的观察性偏倚,使观察结果的可比性、可重复性降低,不易推广应用。当前,数字图像处理技术为计算机监控技术在水产养殖业的应用提供更大的空间。在水质在线监测等方面,数字图像处理技术是基于计算机视觉,以专家经验为基础,对池塘水色进行优劣分级,达到对池塘水色的准确快速判别。


2、水色分类

水色

浅绿色(清水或浊水)

灰蓝色

黄褐色

茶褐色

(姜黄、茶褐、红褐、褐中带绿等)

绿色

(黄绿、油绿、蓝绿、墨绿、绿中带褐等)

水质类别

1

2

3

4

5

3、原始数据

水产专家按水色判断水质分类,每个水质图片命名规则为“类别-编号.jpg

image.png


4、挖掘目标

请根据水质图片,利用图像处理技术,通过水色图像实现水质的自动评价。


二、分析方法和过程


1、初步分析

  • 通过对拍摄的水样,采集得到水样图像,而图像数据的维度过大,不容易分析,需要从中提取水样图像的特征,提取反映图像本质的一些关键指标,以达到自动进行图像识别或分类的目的。显然,图像特征提取是图像识别或分类的关键步骤,图像特征提取的效果如何直接影响到图像识别和分类的好坏。
  • 图像特征主要包括有颜色特征、纹理特征、形状特征、空间关系特征等。与几何特征相比,颜色特征更为稳健,对于物体的大小和方向均不敏感,表现出较强的鲁棒性。本案例中由于水色图像是均匀的,故主要关注颜色特征。
  • 采集得到的水样图像,数据维度过大,不容易分析,需要从中提取水样图像的特征,提取反映图像本质的一些关键指标,以达到自动进行图像识别或分类的目的。
  • 图像特征主要包括有颜色特征、纹理特征、形状特征、空间关系特征等。本案例中由于水色图像是均匀的,故主要关注颜色特征。颜色处理常用的方法有颜色直方图法和颜色矩。
  • 颜色直方图:反映的是图像中颜色的组成分布,即出现了哪些颜色以及各种颜色出现的概率。其优点在于它能简单描述一幅图像中颜色的全局分布,即不同色彩在整幅图像中所占的比例,特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于它无法描述图像中颜色的局部分布及每种色彩所处的空间位置,即无法描述图像中的某一具体的对象或物体。
  • 颜色矩:图像中任何的颜色分布均可以用它的矩来表示。根据概率论,随机变量的概率分布可以由其各阶矩唯一的表示和描述。一副图像的色彩分布也可认为是一种概率分布,那么图像可以由其各阶矩来描述。颜色矩包含各个颜色通道的一阶距、二阶矩和三阶矩,对于一副RGB颜色空间的图像,具有R、G和B三个颜色通道,则有9个分量。
  • 颜色直方图产生特征维数一般大于颜色矩的特征维数,为了避免过多变量影响后续的分类效果,在本案例采用颜色矩来提取水样图像的特征。


2、总体流程

9b188bb8d7b74566816a836e7ad7cdac.png

第1步:数据预处理——图像切割

采集到的水样图像包含盛水容器,容器的颜色与水体颜色差异较大,同时水体位于图像中央,为了提取水色的特征,需要提取水样图像中央部分具有代表意义的图像,具体实施方式是提取水样图像中央101*101像素的图像。


设原始图像  的大小是a804b4d038254ea7928bcd2b6da4813f.png,则截取宽从第24a57f14c1634163bfe5f80af50b6445.png个像素点到第 33e9896e92054cfe97f57b334b958069.png个像素点。


长从第24a57f14c1634163bfe5f80af50b6445 (1).png个像素点到第33e9896e92054cfe97f57b334b958069 (1).png个像素点的子图像。05289a64d27d4e6084079b6ba12487d9.png 函数表示向0靠拢取整。  


/

f9d814f8ad75416eb7549279158aa81f.png

各阶颜色矩的计算公式:


1、 一阶颜色矩:采用一阶原点矩,反映了图像的整体明暗程度。

7ae948eaf98b4d88bd6c38c1ecab3656.png

其中Ei是在第i个颜色通道的一阶颜色矩,对于RGB颜色空间的图像i=1,2,3,Pij是第j个像素的第i个颜色通道的颜色值。


2、 二阶颜色矩:采用二阶中心距的平方根,反映了图像颜色的分布范围。

35b4e662c9254992825f7a855ab9656c.png

其中Si是在第i个颜色通道的二阶颜色矩,Ei是在第i个颜色通道的一阶颜色矩。


3、 三阶颜色矩:采用三阶中心距的立方根,反映了图像颜色分布的对称性。

4d40f15395b3404fbb51910a6cfa1c55.png

其中Si是在第i个颜色通道的二阶颜色矩,Ei是在第i个颜色通道的一阶颜色矩。

importnumpyasnpimportpandasaspdfromsklearnimportpreprocessingfromPILimportImageimportosdefPicManage(path,i):
pic=Image.open(path)
pic.c_x, pic.c_y= (int(i/2) foriinpic.size)
box= (pic.c_x-50, pic.c_y-50, pic.c_x+50, pic.c_y+50)
#从图片中提取中心100*100的子矩形region=pic.crop(box)
#切分RGBr, g, b=np.split(np.array(region), 3, axis=2)
#计算一阶矩r_m1=np.mean(r)
g_m1=np.mean(g)
b_m1=np.mean(b)
#二阶矩r_m2=np.std(r)
g_m2=np.std(g)
b_m2=np.std(b)
#三阶矩r_m3=np.mean(abs(r-r.mean())**3)**(1/3)
g_m3=np.mean(abs(g-g.mean())**3)**(1/3)
b_m3=np.mean(abs(b-b.mean())**3)**(1/3)
#将数据标准化,区间在[-1,1]
typ=np.array([i])
arr=np.array([r_m1,g_m1,b_m1,r_m2,g_m2,b_m2,r_m3,g_m3,b_m3])
#df=pd.DataFrame(preprocessing.minmax_scale(arr,feature_range=(-1,1))).Tdf=pd.DataFrame(arr).Tdn=pd.DataFrame(typ).Treturndf,dnresult= []
type_result= []
foriinos.listdir('images'):
ifi.endswith('.jpg'):
df,dn=PicManage('images/'+i,int(i[0]))
result.append(df)
type_result.append(dn)
data=pd.concat(result)
typ=pd.concat(type_result)
data=pd.DataFrame(preprocessing.normalize(data,norm='l2'))   
data['type'] =typ.valuesdata.to_excel('picData.xls',index=False)

d797e9377856402890e9559346a30e95.png

第2步:特征提取

颜色矩特征提取后的数据集:

71349dabe5fa47d4a22666768411d3bf.png

3步:构建模型

抽取80%作为训练样本,剩下的20%作为测试样本,用于水质评价检验。本案例采用支持向量机作为水质评价分类模型。

#-*-coding:utf-8-*-importpandasaspd#datapath='./data/moment.csv'#data=pd.read_csv(datapath,encoding='gbk')
data=data.values#划分训练集和测试集#cross_validation在sklearn0.20中改为model_selectionfromsklearn.model_selectionimporttrain_test_splittrain, test, train_target, test_target=train_test_split(data[:,0:],data[:,-1],test_size=0.2)
train_target=train_target.astype(int)
test_target=test_target.astype(int)
#构建SVM模型fromsklearnimportsvmmodel=svm.SVC()
model.fit(train*30,train_target)
#savemodelfromsklearn.externalsimportjoblibjoblib.dump(model,'svcmodel.pkl')
#readmodelmodel=joblib.load('svcmodel.pkl')
#混淆矩阵fromsklearnimportmetricscm_train=metrics.confusion_matrix(train_target, model.predict(train*30))
cm_test=metrics.confusion_matrix(test_target, model.predict(test*30))
train_accuracy=metrics.accuracy_score(train_target,model.predict(train*30))
test_accuracy=metrics.accuracy_score(test_target,model.predict(test*30))
print("train accuracy: %f"%train_accuracy) #1.000print("test accuracy: %f"%test_accuracy) #0.9756tr=pd.DataFrame(cm_train,index=range(1,6),columns=range(1,6)).to_excel('train.xls')
te=pd.DataFrame(cm_test,index=range(1,6),columns=range(1,6)).to_excel('test.xls')

由混淆矩阵,分类准确率为96.91%,分类效果较好,可应用模型进行水质评价。


              预测值

实际值

1

2

3

4

5

1

41

1

1

0

0

2

0

34

0

0

0

3

0

0

59

0

0

4

0

0

1

20

0

5

0

1

0

1


第4步:水质评价

取所有测试样本为输入样本,代入已构建好的LM神经网络模型,得到输出结果。


由混淆矩阵,分类准确率为95.12%,说明水质评价模型对于新增的水色图像的分类效果较好,可将模型应用到水质自动评价系统,实现水质评价。(注意,由于用随机函数来打乱数据,因此重复试验所得到的结果可能有所不同。)


              预测值

实际值

1

2

3

4

5

1

7

0

1

0

0

2

0

10

0

0

0

3

0

0

19

0

0

4

0

0

0

3

0

5

0

0

0

1

0

第5步:决策树模型对比实验

1.importnumpyasnpimportos, refromPILimportImagedefget_ImgNames(path):
"""获取图片名称    :parampath: 路径    :return: 名称列表"""#os.listdir用于返回该路径下所包含的文件或文件夹的名字列表filenames=os.listdir(path=path)
imgnames= []
foriinfilenames:
#在返回的文件名字中寻找正则表达式所匹配的所有字符串,如果不存在,返回空列表ifre.findall('^\d_\d+\.jpg$', i) != []:
imgnames.append(i)
returnimgnamesdefVar(data=None):
"""获取三阶颜色矩    :paramp: 数据    :return: 返回三阶颜色矩"""x=np.mean((data-data.mean()) **3)
returnnp.sign(x) *np.abs(x) **1/3defimageCutting_FeatureExtraction(path, imgnames=None):
"""图像切割与基于颜色矩进行特征提取    :parampath: 路径    :paramimgnames: 所有图片的名称    :return: 返回特征提取后的9个分量,以及对应标签"""#获取图片的数目n=len(imgnames)
data=np.zeros((n, 9))  #用来存放特征提取后的分量label=np.zeros((n))  #用来存放样本标签#对每一张图片进行图像分割,并计算9个分量foriinrange(n):
#打开图像文件img=Image.open(path+imgnames[i])
#获取图片的尺寸M, N=img.size#图像切割提取图样中间部分,img.crop返回图像的矩阵区域,参数为 (left, upper, right, lower)的元祖img=img.crop((M/2-50, N/2-50, M/2+50, N/2+50))
#将图像分割成3个通道,r, g, b=img.split()
#转化为数组数据并归一化,获得对应的像素矩阵rd=np.array(r, dtype=np.float32) /255gd=np.array(g, dtype=np.float32) /255bd=np.array(b, dtype=np.float32) /255#计算一阶颜色矩data[i, 0] =rd.mean()
data[i, 1] =gd.mean()
data[i, 2] =bd.mean()
#计算二阶颜色矩data[i, 3] =rd.std()
data[i, 4] =gd.std()
data[i, 5] =bd.std()
#计算三阶颜色矩data[i, 6] =Var(rd)
data[i, 7] =Var(gd)
data[i, 8] =Var(bd)
#获取样本标签-每个图片名的第一个数字代表类别label[i] =imgnames[i][0]
returndata, labelif__name__=='__main__':
#获取所有图片的名称imgNames=get_ImgNames(path='images')
#图像切割与特征提取data, label=imageCutting_FeatureExtraction(path='images/', imgnames=imgNames)
print(data)
print(label)

55fc47d4be1f43d7a0dd4aecab2ef18c.png

fromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifierfromsklearn.metricsimportconfusion_matrix, accuracy_score#划分数据集#shuffle=True尽可能每一类别都取到或者采用分层抽样data_tr, data_te, label_tr, label_te=train_test_split(data, label, test_size=0.2, shuffle=True)
model=DecisionTreeClassifier(random_state=1234)
model.fit(data_tr, label_tr)
#预测pred_te=model.predict(data_te)
#混淆矩阵cm=confusion_matrix(label_te, pred_te)
print('混淆矩阵为\n', cm)
#准确率acc=accuracy_score(label_te, pred_te)
print('准确率为\n', acc)

混淆矩阵和准确率:

48e00fa162f145b8bf1731a60ff7d2aa.png


三、总结和思考


  • 我国环境质量评价工作是年代后才逐步发展起来的。发展至今,在评价指标体系及评价理论探索等方面均有较大进展。但目前我国环境评价实际工作中,所采用的方法通常是一些比较传统的评价方法,往往是从单个污染因子的角度对其进行简单评价。然而对某区域的环境质量如水质、大气质量等的综合评价一般涉及较多的评价因素,且各因素与区域环境整体质量关系复杂,因而采用单项污染指数评价法无法客观准确地反映各污染因子之间相互作用对环境质量的影响。
  • 基于上述原因,要客观评价一个区域的环境质量状况,需要综合考虑各种因素之间以及影响因素与环境质量之间错综复杂的关系,采用传统的方法存在着一定的局限性和不合理性。因此,从学术研究的角度对环境评价的技术方法及其理论进行探讨,寻求能更全面、客观、准确反映环境质量的新的理论方法具有重要的现实意义。


参考:《python数据分析和数据挖掘》

目录
相关文章
|
2月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
121 6
|
26天前
|
机器学习/深度学习 数据采集 人工智能
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
层次化Softmax算法通过引入Huffman树结构,将传统Softmax的计算复杂度从线性降至对数级别,显著提升了大规模词汇表的训练效率。该算法不仅优化了计算效率,还在处理大规模离散分布问题上提供了新的思路。文章详细介绍了Huffman树的构建、节点编码、概率计算及基于Gensim的实现方法,并讨论了工程实现中的优化策略与应用实践。
66 15
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
|
1月前
|
存储 安全 网络安全
网络安全的盾与剑:漏洞防御与加密技术的实战应用
在数字化浪潮中,网络安全成为保护信息资产的重中之重。本文将深入探讨网络安全的两个关键领域——安全漏洞的防御策略和加密技术的应用,通过具体案例分析常见的安全威胁,并提供实用的防护措施。同时,我们将展示如何利用Python编程语言实现简单的加密算法,增强读者的安全意识和技术能力。文章旨在为非专业读者提供一扇了解网络安全复杂世界的窗口,以及为专业人士提供可立即投入使用的技术参考。
|
1月前
|
存储 缓存 监控
Docker容器性能调优的关键技巧,涵盖CPU、内存、网络及磁盘I/O的优化策略,结合实战案例,旨在帮助读者有效提升Docker容器的性能与稳定性。
本文介绍了Docker容器性能调优的关键技巧,涵盖CPU、内存、网络及磁盘I/O的优化策略,结合实战案例,旨在帮助读者有效提升Docker容器的性能与稳定性。
108 7
|
2月前
|
网络虚拟化
生成树协议(STP)及其演进版本RSTP和MSTP,旨在解决网络中的环路问题,提高网络的可靠性和稳定性
生成树协议(STP)及其演进版本RSTP和MSTP,旨在解决网络中的环路问题,提高网络的可靠性和稳定性。本文介绍了这三种协议的原理、特点及区别,并提供了思科和华为设备的命令示例,帮助读者更好地理解和应用这些协议。
81 4
|
2月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
利用Python和TensorFlow构建简单神经网络进行图像分类
利用Python和TensorFlow构建简单神经网络进行图像分类
65 3
|
2月前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
100 4
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习的奇迹:如何用神经网络识别图像
【10月更文挑战第33天】在这篇文章中,我们将探索深度学习的奇妙世界,特别是卷积神经网络(CNN)在图像识别中的应用。我们将通过一个简单的代码示例,展示如何使用Python和Keras库构建一个能够识别手写数字的神经网络。这不仅是对深度学习概念的直观介绍,也是对技术实践的一次尝试。让我们一起踏上这段探索之旅,看看数据、模型和代码是如何交织在一起,创造出令人惊叹的结果。
42 0
|
2月前
|
网络协议 调度 开发者
Python网络编程:Twisted框架的异步IO处理与实战
【10月更文挑战第27天】本文介绍了Python网络编程中的Twisted框架,重点讲解了其异步IO处理机制。通过反应器模式,Twisted能够在单线程中高效处理多个网络连接。文章提供了两个实战示例:一个简单的Echo服务器和一个HTTP服务器,展示了Twisted的强大功能和灵活性。
52 0

热门文章

最新文章