数据分析案例-基于PCA主成分分析法对葡萄酒数据进行分析

简介: 数据分析案例-基于PCA主成分分析法对葡萄酒数据进行分析

摘要


       葡萄酒作为世界上最早的饮料酒之一,其品质和文化早已被人们所认可。据统计2021年,全球葡萄酒产量260亿升,较2020年下降了近1%,至此已连续3年略低于10年平均水平。由于我国本土葡萄酒长期以来受到进口葡萄酒的冲击及2020年疫情期间节日聚会、家庭餐会均被取消,餐饮业完全停滞,导致葡萄酒的需求短期内大幅下降。2020年我国葡萄酒行业市场规模下滑至498.2亿元,2021年小幅度上涨至510.8亿元。预计2022年我国葡萄酒行业市场规模将进一步上升至587.2亿元。本次实验使用葡萄酒数据集进行主成分分析,最后构建葡萄酒分类模型,用来对葡萄酒的分类。


1.项目背景


       作为世界上最早的饮料酒之一,葡萄酒的发展与西方文明紧密相关。根据酿造历史和生产工艺,葡萄酒生产国被划分为传统酿造工艺为代表的“旧世界”,包括法国、意大利、西班牙、德国等,以及以现代酿造技术为代表的“新世界”,包括美国、澳大利亚、新西兰、智利、阿根廷和南非等。据统计2021年,全球葡萄酒产量260亿升,较2020年下降了近1%,至此已连续3年略低于10年平均水平。受霜冻影响,欧盟的葡萄酒产量153.7亿升,较2020年下降8%。这主要是由于2021年4月份霜冻导致法国葡萄酒产量大幅下降。意大利(50.2亿升,增2%)、法国(37.6亿升,降19%)、西班牙(35.3亿升,降14%)三个国家占全球葡萄酒产量的47%。


       由于我国本土葡萄酒长期以来受到进口葡萄酒的冲击及2020年疫情期间节日聚会、家庭餐会均被取消,餐饮业完全停滞,导致葡萄酒的需求短期内大幅下降。2020年我国葡萄酒行业市场规模下滑至498.2亿元,2021年小幅度上涨至510.8亿元。预计2022年我国葡萄酒行业市场规模将进一步上升至587.2亿元。


       葡萄酒行业产业链上游参与主体为原材料及相关设备,主要包括葡萄、淀粉、酵母、食品添加剂、包装材料和酿造设备等;中游为葡萄酒行业,主要有白葡萄酒、红葡萄酒和桃红葡萄酒三大类;下游为各类消费渠道,最后到达终端消费者。近年来,随着葡萄酒产业链延伸,出现了各类“葡萄酒+”产业的新型模式,如“葡萄酒+旅游”、“葡萄酒+科技”等。


       随着我国全面步入小康社会,人们的生活水平不断提高,消费市场持续升级,为具有一定品牌溢价能力的中高端葡萄酒带来较大发展空间。经过近几年的努力,中国葡萄酒的品质与风味已经赢得广大消费者认可,这也为中国葡萄酒搏击中高端葡萄酒市场奠定了基础。综合看来,中高端葡萄酒将是2022年乃至中国葡萄酒产业更长时间的发展热点。


       近年来,随着民族、文化自信等因素助力国产品牌崛起,中国葡萄酒品质与世界接轨,屡次斩获国际性大奖,越来越多的消费者和经销商关注并选择国产葡萄酒。国产葡萄酒收割存量市场持续加速,“国产”替代“进口”的趋势明显。同时,伴随着进口葡萄酒的持续下滑,国产葡萄酒的替代效应越发明显。预计2022年,我国葡萄酒行业国产替代的速度将进一步加快。


2.项目简介


2.1分析目标


       通过研究葡萄酒数据集做出以下分析:


①使用主成分分析对数据进行降维分析

②构建葡萄酒分类模型


2.2数据集介绍


       wine样本数据集中是double类型的178 * 14矩阵包括了三种酒中13种不同成分的数量。文件中,每行代表一种酒的样本,共有178个样本,一共有14列,其中,第一个属性是类标识符,分别是1/2/3来表示,代表葡萄酒的三个分类。后面的13列为每个样本的对应属性的样本值。剩余的13个属性是,酒精、苹果酸、灰、灰分的碱度、镁、总酚、黄酮类化合物、非黄烷类酚类、原花色素、颜色强度、色调、稀释葡萄酒的OD280/OD315、脯氨酸。其中第1类有59个样本,第2类有71个样本,第3类有48个样本。具体属性描述如下:


属性

属性描述

target

类别

Alcohol

酒精

Malic acid

苹果酸

Ash

Alkalinity of ash

灰分的碱度

Magnesium

Total phenoids

总酚

Flavonoids

黄酮类化合物

Noflavanoid phenols

非黄烷类酚类

Proanthocyanins

原花色素

Color intensity

颜色强度

Hue

色调

0D280/0315ofdiluted wines

稀释葡萄酒的0D280/0315

proline

脯氨酸


2.3技术工具


Python版本:3.9


编译工具:jupyter notebook


3.算法理论


主成分分析简介


主成分分析是数据降维算法的一种,降维是将高维度的数据(指标太多)保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。


       主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。


       主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。


主成分分析的思想


假设有 n nn 个样本,p pp 个指标,则可构成大小为 n × p n\times pn×p 的样本矩阵 x xx:


主成分分析的计算步骤


假设有 n  个样本,p 个指标,则可构成大小为 n × p的样本矩阵 x :


1. 首先对其进行标准化处理:


2. 计算标准化样本查的协方差矩阵:


12步骤可以合成一步:

4. 计算主成分共享率以及累计贡献率:


5. 写出主成分:


6. 根据系数分析主成分代表的意义:


 对于某个主成分而言,指标前面的系数越大,代表该指标对于该主成分的影响越大。


部分说明


一组数据是否可以用主成分分析,必须做适合性检验。可以用球形检验和KMO统计量检验。


1)球形检验(Bartlett)

       球形检验的假设:

                H0:相关系数矩阵为单位阵(即变量不相关)

                H1:相关系数矩阵不是单位阵(即变量间有相关关系)


2)KMO(Kaiser-Meyer-Olkin)统计量

       KMO统计量比较样本相关系数与样本偏相关系数,它用于检验样本是否适于作主成分分析。

       KMO的值在0,1之间,该值越大,则样本数据越适合作主成分分析和因子分析。一般要求该值大于0.5,方可作主成分分析或者相关分析。

       Kaiser在1974年给出了经验原则:

               0.9以上       适合性很好

               0.8~0.9        适合性良好

               0.7~0.8        适合性中等

               0.6~0.7        适合性一般

               0.5~0.6        适合性不好

               0.5以下       不能接受的        


4.实验过程


4.1数据探索


加载葡萄酒数据集


使用shape属性查看数据共有多少行多少列


原数据有178行,13列


使用info()查看基本信息


从结果中可以看出数据集没有缺失值且都为浮点数类型。


4.2 PCA主成分分析


1.巴特利球形检验


检验总体变量的相关矩阵是否是单位阵(相关系数矩阵对角线的所有元素均为1,所有非对角线上的元素均为零);即检验各个变量是否各自独立。


从结果中看出P值远小于0.05,拒绝原假设,说明变量之间有相关关系,可以做主成分分析。


2.求相关矩阵


①标准化


②求相关系数矩阵


③求特征值和特征向量


3.对特征值进行排序并输出


4.绘制散点图和折线图


从图中得出主成分分析的K值应为4比较好。


5.求特征值的贡献度


6.求特征值的累计贡献度


7.选出主成分


8.选出主成分对应的特征向量矩阵


9.求主成分得分


10.绘制热力图


4.3 构建模型


在构建模型之前,先进行特征选择,选出建模需要的数据(这里先使用经过主成分分析后的数据),再拆分数据集为训练集和测试集。


构建随机森林模型


可以看出经过主成分分析后的模型准确率为0.972。


接着我们使用原始数据,也就是没有经过主成分分析处理的数据来构建模型看看效果。


从结果看出没有经过主成分分析处理的数据最后构建的模型准确率为0.944,明显看出经过主成分分析处理的模型准确率提高了不少。


5.总结


       本次实验对葡萄酒数据进行了主成分分析,将13维的数据降到了4维,最后通过构建逻辑回归分类模型得出的模型准确率为0.97,相比于没有经过主成分分析处理的数据构建的模型而言,经过处理后的数据构建的模型准确率提高了3%,说明本次主成分分析是有效果的,最后构建的模型效果也很不错。


       通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。


       在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。首先,它锻炼了我做项目的潜力,提高了独立思考问题、自我动手操作的潜力,在工作的过程中,复习了以前学习过的知识,并掌握了一些应用知识的技巧等


在此次实战中,我还学会了下面几点工作学习心态:


1)继续学习,不断提升理论涵养。在信息时代,学习是不断地汲取新信息,获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后,我会用心响应单位号召,结合工作实际,不断学习理论、业务知识和社会知识,用先进的理论武装头脑,用精良的业务知识提升潜力,以广博的社会知识拓展视野。

2)努力实践,自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值,也只有将理论付诸于实践才能使理论得以检验。同样,一个人的价值也是透过实践活动来实现的,也只有透过实践才能锻炼人的品质,彰显人的意志。

3)提高工作用心性和主动性。实习,是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土,也分明感受到了沉甸甸的职责。在今后的工作和生活中,我将继续学习,深入实践,不断提升自我,努力创造业绩,继续创造更多的价值。


这次Python实战不仅仅使我学到了知识,丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中,为实现理想而努力。


源代码


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_wine
import warnings
warnings.filterwarnings('ignore')
plt.rcParams['font.sans-serif'] = ['SimHei'] #解决中文显示|
plt.rcParams['axes.unicode_minus'] = False   #解决符号无法显示
# 导入数据集
wine = load_wine()
# 将原数据集转为DataFrame类型
data = pd.DataFrame(wine['data'],columns=wine['feature_names'])
data.head()
data.shape
data.info()
# Bartlett's球状检验
from factor_analyzer.factor_analyzer import calculate_bartlett_sphericity
chi_square_value, p_value = calculate_bartlett_sphericity(data)
print(chi_square_value, p_value)
# KMO检验
# 检查变量间的相关性和偏相关性,取值在0-1之间;KOM统计量越接近1,变量间的相关性越强,偏相关性越弱,因子分析的效果越好。
# 通常取值从0.6开始进行因子分析
from factor_analyzer.factor_analyzer import calculate_kmo
kmo_all, kmo_model = calculate_kmo(data)
print(kmo_all)
from sklearn.preprocessing import scale
data_scale = scale(data)  # 数据标准化
data_scale
covX = np.around(np.corrcoef(data.T),decimals=3) # 求相关系数矩阵
covX
featValue, featVec=  np.linalg.eig(covX.T)  #求解系数相关矩阵的特征值和特征向量
featValue, featVec
featValue = sorted(featValue,reverse=True) # 对特征值进行排序并输出
featValue
# 同样的数据绘制散点图和折线图
plt.scatter(range(1, data.shape[1] + 1), featValue)
plt.plot(range(1, data.shape[1] + 1), featValue)
# 显示图的标题和xy轴的名字
plt.title("Scree Plot")  
plt.xlabel("Factors")
plt.ylabel("Eigenvalue")
plt.hlines(y=1,xmin=0,xmax=13)   # 横线绘制
plt.grid()  # 显示网格
plt.show()  # 显示图形
gx = featValue/np.sum(featValue)
gx
lg = np.cumsum(gx)
lg
#选出主成分
k=[i for i in range(len(lg)) if lg[i]<0.80]
k = list(k)
print(k)
selectVec = np.matrix(featVec.T[k]).T
selectVe=selectVec*(-1)
selectVec
finalData = np.dot(data_scale,selectVec)
finalData
# 绘图
plt.figure(figsize = (14,14))
ax = sns.heatmap(selectVec, annot=True, cmap="BuPu")
# 设置y轴字体大小
ax.yaxis.set_tick_params(labelsize=15)
plt.title("主成分分析", fontsize="xx-large")
# 设置y轴标签
plt.ylabel("Sepal Width", fontsize="xx-large")
# 显示图片
plt.show()
X = finalData
y = wine['target']
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42) # 划分数据集
# 逻辑回归模型
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix,accuracy_score,classification_report
lg = LogisticRegression()
lg.fit(x_train,y_train)
y_pred = lg.predict(x_test)
print('模型准确率',accuracy_score(y_test,y_pred))
print('混淆矩阵',confusion_matrix(y_test,y_pred))
print('分类报告',classification_report(y_test,y_pred))
X = data
y = wine['target']
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=666)
# 逻辑回归模型
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix,accuracy_score,classification_report
lg = LogisticRegression()
lg.fit(x_train,y_train)
y_pred = lg.predict(x_test)
print('模型准确率',accuracy_score(y_test,y_pred))
print('混淆矩阵',confusion_matrix(y_test,y_pred))
print('分类报告',classification_report(y_test,y_pred))
目录
相关文章
|
1月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
89 0
|
2月前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
13天前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
|
1月前
|
机器学习/深度学习 数据可视化 算法
python数据分析——在面对各种问题时,因如何做分析的分类汇总
Python数据分析是指使用Python编程语言对数据进行收集、处理、分析和可视化的过程。Python是一种非常流行的编程语言,具有简单易学、代码可读性高、生态系统强大的特点,因此在数据科学领域得到广泛应用。
77 0
|
1月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
55 1
|
1月前
|
存储 SQL 数据挖掘
python数据分析——数据的选择和运算
在数据分析中,数据的选择和运算是非常重要的步骤。数据选择和运算是数据分析中的基础工作,正确和高效的选择和运算方法对于数据分析结果的准确性和速度至关重要。
41 0
|
1月前
|
JSON 数据挖掘 数据格式
python数据分析——数据分析的数据的导入和导出
数据分析的数据的导入和导出是数据分析流程中至关重要的两个环节,它们直接影响到数据分析的准确性和效率。在数据导入阶段,首先要确保数据的来源可靠、格式统一,并且能够满足分析需求。这通常涉及到数据清洗和预处理的工作,比如去除重复数据、处理缺失值、转换数据类型等,以确保数据的完整性和一致性。
36 0
|
1月前
|
数据采集 数据可视化 数据挖掘
python数据分析——业务数据描述
业务数据描述将从统计学角度来分析这指标。利用统计方法,数据分析人员可以通过相应统计模型开展数据分析。数据分析过程包括数据收集,数据处理,数据探索,模型方法应用,分析结果数据展现及形成分析报告。 业务报表是指对业务内容和数据的统计分析图表。统计图表代表了一张图像化的数据,形象地呈现数据。我们常常提到的可视化分析图表一般包括比较类图表,占比类图表,相关类图表和趋势类图表。
36 1
|
1月前
|
监控 搜索推荐 数据挖掘
python数据分析——业务指标分析
业务指标分析是企业运营中不可或缺的一环,通过对各项关键指标的深入剖析,我们能够更好地了解企业的运营状况,发现潜在问题,进而制定相应的策略来优化业务流程、提升经营效率。 在业务指标分析中,我们首先要明确分析的目的和范围。是为了评估整体业务健康状况,还是针对某一具体环节进行优化?明确了目的后,我们需要收集相关的数据,这些数据可能来源于不同的业务系统和数据库,因此数据的整合和清洗也是分析过程中的重要步骤。 接下来,我们要选择合适的分析方法。比如,对于销售数据,我们可以采用时间序列分析来观察销售趋势;对于用户行为数据,我们可以使用用户画像和路径分析来洞察用户需求和行为习惯。
98 1
|
2月前
|
数据采集 人工智能 数据挖掘
Python数据分析:利用Pandas库处理缺失数据的技巧
在数据分析中,数据的完整性对结果的准确性至关重要。本文将介绍如何利用Python中强大的Pandas库来处理数据中的缺失值,帮助您更好地进行数据清洗和分析。