数据分析案例-基于随机森林算法探索影响人类预期寿命的因素并预测人类预期寿命(二)

简介: 数据分析案例-基于随机森林算法探索影响人类预期寿命的因素并预测人类预期寿命

4.3探索性数据分析

探索性数据分析(Exploratory Data Analysis,EDA)是对数据进行分析并得出规律的一种数据分析方法,是一种利用各种工具和图形技术(如柱状图、直方图等)分析数据的方法。它是一个开放式的过程,在这个过程中,我们可以绘制图表并计算统计数据以便探索我们的数据。


EDA本身很有趣(例如找到两个变量之间的关联),或者他们可以用于通知建模的决策(例如使用哪些功能)。简而言之,EDA的目标是确定我们的数据可以告诉我们什么。与目标相关的变量对模型很有用,因为他们是用于预测目标。简单说就是画图来理解数据,EDA探索性数据分析本质上就是用图画图的方式来理解数据。


4.3.1预期寿命分析

分析每一年人类预期寿命的变化情况



通过图我们发现预期寿命从2001年开始直线下跌,2003年跌到最低,后开始逐年上升,且2009年开始上升速度非常快。通过查阅资料,我们得知在2001年世界多地发生很多自然灾害 以及部分国家的战乱可能导致人类预期寿命下降,2009年以后随着经济、医疗的发展,人类预期寿命开始上升。


4.3.2医疗保健分析


从图中可以看出绝大部分预期寿命值低于(<65)的国家的医疗支出百分比都是很少的,而且我们还可以看出随着支出百分比的增加,预期寿命有增加的趋势,存在正相关关系。故预期寿命值低于(<65)的国家应该增加其医疗保健支出以改善其平均寿命。


4.3.3生活方式分析


从上图我们可以看出预期寿命与酒精相关系数为0.4,较弱的正相关性


预期寿命与虚弱1-19和5-9的相关系数为-0.46,存在负相关关系


预期寿命与收入和教育的相关系数为0.72,0.73,存在着较强的正相关关系


4.3.4教育分析


从图中我们可以看出教育与预期寿命存在着正相关的关系,教育越好的国家预期寿命也就越高;教育与成年死亡数、虚弱1-19和5-9都存在这负相关的关系,说明教育差的国家成年死亡数和虚弱人数也就相对越多


4.3.5死亡率分析


从图中我们可以看出成人死亡率与预期寿命存在较强的负相关关系,说明成人死亡率越高的国家,预期寿命也低,婴儿死亡率与预期寿命存在着较弱的负相关关系,婴儿死亡率对预期寿命影响较小


4.3.6不同国家发展的差异


从图中我们可以看出发达国家的预期寿命是高于发展中国家的,婴儿死亡数以及5岁以下死亡数数量发展中国家远超过发达国家,但是小儿麻痹和B已型肝炎的人数是相差不大的


4.4预期寿命预测

构建建模型之前我们需要将Status这一列的值用0和1代替



接着我们需要划分数据集



最后对数据标准化处理



4.4.1建模及模型预测

1)构建线性回归模型



2)构建神经网络模型



3)构建随机森林模型




通过三个模型的均方误差大小来看,随机森林模型的均方误差最小,故我们选择使用随机森林模型来进行预测。


4.4.2指标重要性排序

经过对上述各个指标与预期寿命关系的分析之后,以及模型的建立与调整,最后按照重要程度对各个指标进行排序。


通过结果我们发现,重要程度最大的是资源收入构成,占了一半多,其次是HIV/AIDS艾滋病,最后是成年人死亡数,其他的特征重要程度都很略微,忽略不计。


4.4.3参数优化

在我们确定好了模型之后,我们需要对模型参数进行优化,提高模型的准确率,在这里我们选用网格搜索来进行最优参数的选取。



经过搜索后的最优参数,我们重新对原模型进行训练



我们发现模型的均方误差减小了,说明最优参数改善了模型的准确率。


4.4.4结果预测

最后我们使用模型对预期寿命进行预测



第一列是真实值,第二列是预测值,我们发现绝大部分都预测正确了,误差非常小,模型准确率很高,模型不错。


5.实验总结

5.1结果分析

根据以上分析,得到影响预期寿命最关键的因素:


1)资源收入构成。


2)HIV/AIDS。


3)成年人死亡数。


问题解决:


  1. 最初选择的各种预测因素是否真的影响预期寿命?实际影响预期寿命的预测变量有哪些?答:否,实际影响预期寿命的变量有资源收入构成、HIV/AIDS和成年人死亡数。
  2. 预期寿命值低于(<65)的国家是否应该增加其医疗保健支出以改善其平均寿命?答:绝大部分预期寿命值低于(<65)的国家的医疗支出百分比都是很少的,而且我们还可以看出随着支出百分比的增加,预期寿命有增加的趋势,存在正相关关系。故预期寿命值低于(<65)的国家应该增加其医疗保健支出以改善其平均寿命。
  3. 婴儿和成人死亡率如何影响预期寿命?答:成人死亡率与预期寿命存在较强的负相关关系,说明成人死亡率越高的国家,预期寿命也低;婴儿死亡率与预期寿命存在着较弱的负相关关系,婴儿死亡率对预期寿命影响较小。
  4. 预期寿命与饮酒是正相关还是负相关?答:预期寿命与酒精相关系数为0.4,较弱的正相关性。
  5. 是否接受教育对人类寿命有何影响?答:预期寿命与收入和教育的相关系数为0.72,0.73,存在着较强的正相关关系。
  6. 人口稠密的国家的预期寿命是否有降低的趋势?答:人口数量与预期寿命直接不存在什么关系,从折线图也看不出什么规律,说明人口稠密的国家的预期寿命没有降低的趋势。

5.2改善建议

为了提高预期寿命,给出如下建议:


1)调整改善人的资源收入构成,使得收入结构合理,增强人的满足感。


2)虽然HIV/AIDS的治愈率非常低,仅为0.001%,但是我相信在未来的医疗发展中,肯定改善这种情况,提高治愈率,以消除人对艾滋病的恐慌。


3)控制成年人死亡人数,减少死亡率,这就得需要国家在各种方面来进行防范,比如交通、法律、自然灾害、战争等方面做好改善和防控。


4)国家应该加大对医疗的投入,做好医疗保健,让人们不再为医疗费用而担忧。


5)国家应该增大对教育的投入,保证每一位孩子都能接受平等的教育。


5.3实验心得

通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。


在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。首先,它锻炼了我做项目的潜力,提高了独立思考问题、自我动手操作的潜力,在工作的过程中,复习了以前学习过的知识,并掌握了一些应用知识的技巧等


在此次实战中,我还学会了下面几点工作学习心态:


1)继续学习,不断提升理论涵养。在信息时代,学习是不断地汲取新信息,获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后,我会用心响应单位号召,结合工作实际,不断学习理论、业务知识和社会知识,用先进的理论武装头脑,用精良的业务知识提升潜力,以广博的社会知识拓展视野。


2)努力实践,自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值,也只有将理论付诸于实践才能使理论得以检验。同样,一个人的价值也是透过实践活动来实现的,也只有透过实践才能锻炼人的品质,彰显人的意志。


3)提高工作用心性和主动性。实习,是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土,也分明感受到了沉甸甸的职责。在今后的工作和生活中,我将继续学习,深入实践,不断提升自我,努力创造业绩,继续创造更多的价值。


这次Python实战不仅仅使我学到了知识,丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中,为实现理想而努力。


目录
相关文章
|
3月前
|
数据采集 存储 数据挖掘
【优秀python数据分析案例】基于Python书旗网小说网站数据采集与分析的设计与实现
本文介绍了一个基于Python的书旗网小说网站数据采集与分析系统,通过自动化爬虫收集小说数据,利用Pandas进行数据处理,并通过Matplotlib和Seaborn等库进行数据可视化,旨在揭示用户喜好和市场趋势,为图书出版行业提供决策支持。
299 6
【优秀python数据分析案例】基于Python书旗网小说网站数据采集与分析的设计与实现
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
【优秀python web系统毕设】基于python的全国招聘数据分析可视化系统,包括随机森林算法
本文介绍了一个基于Python的全国招聘数据分析可视化系统,该系统利用数据挖掘技术、随机森林算法和数据可视化技术,从招聘网站抓取数据,进行处理、分析和预测,帮助用户洞察招聘市场,为求职者和企业提供决策支持。
120 2
|
3月前
|
数据采集 数据可视化 关系型数据库
【优秀python 数据分析案例】基于python的穷游网酒店数据采集与可视化分析的设计与实现
本文介绍了一个基于Python的穷游网酒店数据采集与可视化分析系统,通过爬虫技术自动抓取酒店信息,并利用数据分析算法和可视化工具,提供了全国主要城市酒店的数量、星级、价格、评分等多维度的深入洞察,旨在为旅行者和酒店经营者提供决策支持。
【优秀python 数据分析案例】基于python的穷游网酒店数据采集与可视化分析的设计与实现
|
3月前
|
JSON 数据挖掘 API
案例 | 用pdpipe搭建pandas数据分析流水线
案例 | 用pdpipe搭建pandas数据分析流水线
|
3月前
|
数据采集 数据可视化 数据挖掘
【优秀python案例】基于python爬虫的深圳房价数据分析与可视化实现
本文通过Python爬虫技术从链家网站爬取深圳二手房房价数据,并进行数据清洗、分析和可视化,提供了房价走势、区域房价比较及房屋特征等信息,旨在帮助购房者更清晰地了解市场并做出明智决策。
122 2
|
3月前
|
数据采集 存储 数据可视化
【优秀python数据分析案例】基于python的中国天气网数据采集与可视化分析的设计与实现
本文介绍了一个基于Python的中国天气网数据采集与可视化分析系统,通过requests和BeautifulSoup库实现数据爬取,利用matplotlib、numpy和pandas进行数据可视化,提供了温湿度变化曲线、空气质量图、风向雷达图等分析结果,有效预测和展示了未来天气信息。
587 2
|
3月前
|
数据采集 数据可视化 算法
基于Python flask的boss直聘数据分析与可视化系统案例,能预测boss直聘某个岗位某个城市的薪资
本文介绍了一个基于Python Flask框架的Boss直聘数据分析与可视化系统,系统使用selenium爬虫、MySQL和csv进行数据存储,通过Pandas和Numpy进行数据处理分析,并采用模糊匹配算法进行薪资预测。
基于Python flask的boss直聘数据分析与可视化系统案例,能预测boss直聘某个岗位某个城市的薪资
|
3月前
|
机器学习/深度学习 数据采集 算法
随机森林算法应用
8月更文挑战第20天
|
3月前
|
机器学习/深度学习 数据采集 算法
基于SVm和随机森林算法模型的中国黄金价格预测分析与研究
本文通过运用支持向量机(SVM)、决策树和随机森林算法,结合历史黄金价格数据和特征工程,建立了中国黄金价格的预测模型,并通过模型训练、评估及可视化分析,为黄金市场投资者和分析师提供了基于机器学习算法的预测方法和决策支持。
108 0
|
4月前
|
数据采集 机器学习/深度学习 数据可视化
完整的Python数据分析流程案例解析-数据科学项目实战
【7月更文挑战第5天】这是一个Python数据分析项目的概览,涵盖了从CSV数据加载到模型评估的步骤:获取数据、预处理(处理缺失值和异常值、转换数据)、数据探索(可视化和统计分析)、模型选择(线性回归)、训练与评估、优化,以及结果的可视化和解释。此流程展示了理论与实践的结合在解决实际问题中的应用。
107 1
下一篇
无影云桌面