4.3探索性数据分析
探索性数据分析(Exploratory Data Analysis,EDA)是对数据进行分析并得出规律的一种数据分析方法,是一种利用各种工具和图形技术(如柱状图、直方图等)分析数据的方法。它是一个开放式的过程,在这个过程中,我们可以绘制图表并计算统计数据以便探索我们的数据。
EDA本身很有趣(例如找到两个变量之间的关联),或者他们可以用于通知建模的决策(例如使用哪些功能)。简而言之,EDA的目标是确定我们的数据可以告诉我们什么。与目标相关的变量对模型很有用,因为他们是用于预测目标。简单说就是画图来理解数据,EDA探索性数据分析本质上就是用图画图的方式来理解数据。
4.3.1预期寿命分析
分析每一年人类预期寿命的变化情况
通过图我们发现预期寿命从2001年开始直线下跌,2003年跌到最低,后开始逐年上升,且2009年开始上升速度非常快。通过查阅资料,我们得知在2001年世界多地发生很多自然灾害 以及部分国家的战乱可能导致人类预期寿命下降,2009年以后随着经济、医疗的发展,人类预期寿命开始上升。
4.3.2医疗保健分析
从图中可以看出绝大部分预期寿命值低于(<65)的国家的医疗支出百分比都是很少的,而且我们还可以看出随着支出百分比的增加,预期寿命有增加的趋势,存在正相关关系。故预期寿命值低于(<65)的国家应该增加其医疗保健支出以改善其平均寿命。
4.3.3生活方式分析
从上图我们可以看出预期寿命与酒精相关系数为0.4,较弱的正相关性
预期寿命与虚弱1-19和5-9的相关系数为-0.46,存在负相关关系
预期寿命与收入和教育的相关系数为0.72,0.73,存在着较强的正相关关系
4.3.4教育分析
从图中我们可以看出教育与预期寿命存在着正相关的关系,教育越好的国家预期寿命也就越高;教育与成年死亡数、虚弱1-19和5-9都存在这负相关的关系,说明教育差的国家成年死亡数和虚弱人数也就相对越多
4.3.5死亡率分析
从图中我们可以看出成人死亡率与预期寿命存在较强的负相关关系,说明成人死亡率越高的国家,预期寿命也低,婴儿死亡率与预期寿命存在着较弱的负相关关系,婴儿死亡率对预期寿命影响较小
4.3.6不同国家发展的差异
从图中我们可以看出发达国家的预期寿命是高于发展中国家的,婴儿死亡数以及5岁以下死亡数数量发展中国家远超过发达国家,但是小儿麻痹和B已型肝炎的人数是相差不大的
4.4预期寿命预测
构建建模型之前我们需要将Status这一列的值用0和1代替
接着我们需要划分数据集
最后对数据标准化处理
4.4.1建模及模型预测
1)构建线性回归模型
2)构建神经网络模型
3)构建随机森林模型
通过三个模型的均方误差大小来看,随机森林模型的均方误差最小,故我们选择使用随机森林模型来进行预测。
4.4.2指标重要性排序
经过对上述各个指标与预期寿命关系的分析之后,以及模型的建立与调整,最后按照重要程度对各个指标进行排序。
通过结果我们发现,重要程度最大的是资源收入构成,占了一半多,其次是HIV/AIDS艾滋病,最后是成年人死亡数,其他的特征重要程度都很略微,忽略不计。
4.4.3参数优化
在我们确定好了模型之后,我们需要对模型参数进行优化,提高模型的准确率,在这里我们选用网格搜索来进行最优参数的选取。
经过搜索后的最优参数,我们重新对原模型进行训练
我们发现模型的均方误差减小了,说明最优参数改善了模型的准确率。
4.4.4结果预测
最后我们使用模型对预期寿命进行预测
第一列是真实值,第二列是预测值,我们发现绝大部分都预测正确了,误差非常小,模型准确率很高,模型不错。
5.实验总结
5.1结果分析
根据以上分析,得到影响预期寿命最关键的因素:
1)资源收入构成。
2)HIV/AIDS。
3)成年人死亡数。
问题解决:
- 最初选择的各种预测因素是否真的影响预期寿命?实际影响预期寿命的预测变量有哪些?答:否,实际影响预期寿命的变量有资源收入构成、HIV/AIDS和成年人死亡数。
- 预期寿命值低于(<65)的国家是否应该增加其医疗保健支出以改善其平均寿命?答:绝大部分预期寿命值低于(<65)的国家的医疗支出百分比都是很少的,而且我们还可以看出随着支出百分比的增加,预期寿命有增加的趋势,存在正相关关系。故预期寿命值低于(<65)的国家应该增加其医疗保健支出以改善其平均寿命。
- 婴儿和成人死亡率如何影响预期寿命?答:成人死亡率与预期寿命存在较强的负相关关系,说明成人死亡率越高的国家,预期寿命也低;婴儿死亡率与预期寿命存在着较弱的负相关关系,婴儿死亡率对预期寿命影响较小。
- 预期寿命与饮酒是正相关还是负相关?答:预期寿命与酒精相关系数为0.4,较弱的正相关性。
- 是否接受教育对人类寿命有何影响?答:预期寿命与收入和教育的相关系数为0.72,0.73,存在着较强的正相关关系。
- 人口稠密的国家的预期寿命是否有降低的趋势?答:人口数量与预期寿命直接不存在什么关系,从折线图也看不出什么规律,说明人口稠密的国家的预期寿命没有降低的趋势。
5.2改善建议
为了提高预期寿命,给出如下建议:
1)调整改善人的资源收入构成,使得收入结构合理,增强人的满足感。
2)虽然HIV/AIDS的治愈率非常低,仅为0.001%,但是我相信在未来的医疗发展中,肯定改善这种情况,提高治愈率,以消除人对艾滋病的恐慌。
3)控制成年人死亡人数,减少死亡率,这就得需要国家在各种方面来进行防范,比如交通、法律、自然灾害、战争等方面做好改善和防控。
4)国家应该加大对医疗的投入,做好医疗保健,让人们不再为医疗费用而担忧。
5)国家应该增大对教育的投入,保证每一位孩子都能接受平等的教育。
5.3实验心得
通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。
在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。首先,它锻炼了我做项目的潜力,提高了独立思考问题、自我动手操作的潜力,在工作的过程中,复习了以前学习过的知识,并掌握了一些应用知识的技巧等
在此次实战中,我还学会了下面几点工作学习心态:
1)继续学习,不断提升理论涵养。在信息时代,学习是不断地汲取新信息,获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后,我会用心响应单位号召,结合工作实际,不断学习理论、业务知识和社会知识,用先进的理论武装头脑,用精良的业务知识提升潜力,以广博的社会知识拓展视野。
2)努力实践,自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值,也只有将理论付诸于实践才能使理论得以检验。同样,一个人的价值也是透过实践活动来实现的,也只有透过实践才能锻炼人的品质,彰显人的意志。
3)提高工作用心性和主动性。实习,是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土,也分明感受到了沉甸甸的职责。在今后的工作和生活中,我将继续学习,深入实践,不断提升自我,努力创造业绩,继续创造更多的价值。
这次Python实战不仅仅使我学到了知识,丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中,为实现理想而努力。