数据挖掘导论——分类与预测(二)

简介: 数据挖掘导论——分类与预测

完成填充之后,查看填充的结果

f,ax=plt.subplots(1,2,figsize=(20,10))
data[data['Survived']==0].Age.plot.hist(ax=ax[0],bins=20,edgecolor='black',color='red')
ax[0].set_title('Survived= 0')
x1=list(range(0,85,5))
ax[0].set_xticks(x1)
data[data['Survived']==1].Age.plot.hist(ax=ax[1],color='green',bins=20,edgecolor='black')
ax[1].set_title('Survived= 1')
x2=list(range(0,85,5))
ax[1].set_xticks(x2)
plt.show()


54397b57959c483a879fb151052b05be.png

可以发现,幼儿获救数还是比较多的。年级最大的乘客获救了。死亡人数最多的是30-40年龄组


sns.factorplot('Pclass','Survived',col='Initial',data=data)
plt.show()

c072562cdafc4ff195502e354296e831.png

5、Embarked:登船地点


pd.crosstab([data.Embarked,data.Pclass],[data.Sex,data.Survived],margins=True).style.background_gradient(cmap='summer_r')

58a4d612e1b54d80ad787e87d7422215.png


图形化


sns.factorplot('Embarked','Survived',data=data)
fig=plt.gcf()
fig.set_size_inches(5,3)
plt.show()


017fa138076c4b7f9b83071ccec90340.png

可以看出从C港上船的乘客的存活率最高,而从S港上船的乘客存活率最低。

不妨使用柱状图进行展示

f,ax=plt.subplots(2,2,figsize=(20,15))
sns.countplot('Embarked',data=data,ax=ax[0,0])
ax[0,0].set_title('No. Of Passengers Boarded')
sns.countplot('Embarked',hue='Sex',data=data,ax=ax[0,1])
ax[0,1].set_title('Male-Female Split for Embarked')
sns.countplot('Embarked',hue='Survived',data=data,ax=ax[1,0])
ax[1,0].set_title('Embarked vs Survived')
sns.countplot('Embarked',hue='Pclass',data=data,ax=ax[1,1])
ax[1,1].set_title('Embarked vs Pclass')
plt.subplots_adjust(wspace=0.2,hspace=0.5)
plt.show()

f678a8ab613c49c781dbb725cd90d21b.png


可以发现,大部分人的船舱等级是3。C港的乘客看起来很幸运,他们的存活率最高。


sns.factorplot('Pclass','Survived',hue='Sex',col='Embarked',data=data)
plt.show()


e37992f961f54eca8df76cb3666304fb.png

继续分析可以得出结论,存活率最高的是PClass1和PClass2的女人。PClass3的乘客中男性与女性的生存率都偏低。港口Q的乘客大部分都是PClass3

【缺失值填充】

港口信息也存在缺失值,此处,我们使用众数进行填充

data['Embarked'].fillna('S',inplace=True)
data.Embarked.isnull().any()

9e0b2add073c4a7ab6c66958b102adf6.png


6、Sibsip:兄弟姐妹的数量

这个特征表示一个人是独自一人还是与他的家人在一起


pd.crosstab([data.SibSp],data.Survived).style.background_gradient(cmap='summer_r')

069bc9bab4c341ee8c15d6909307f1bb.png

图形表示

736d2360ea0b4c37b0b807599aa5ddae.png

0c45a5dc147d480db707afbf9b11462a.png

与PClass的关系


pd.crosstab(data.SibSp,data.Pclass).style.background_gradient(cmap='summer_r')


98dfd8f2a23d44439631b5c73c266839.png

图形化


sns.barplot('Parch','Survived',data=data)
sns.factorplot('Parch','Survived',data=data,ax=ax[1])
plt.show()


92d88aee1f134680823422b540386ce4.png

d3997202b2734e119eb34c419c064b12.png

这再次表明,大家庭都在PClass3. 这里的结果也很相似。带着父母的乘客有更大的生存机会。然而,它随着数字的增加而减少。在船上的家庭父母人数中有1-3个的人的生存机会是好的。独自一人也证明是致命的,当船上有4个父母时,生存的机会就会减少。


8、Fare:船票的价格


船票的价格也可能是影响存活率的因素


print('Highest Fare was:',data['Fare'].max())
print('Lowest Fare was:',data['Fare'].min())
print('Average Fare was:',data['Fare'].mean())

6706460d94a84576b15e544cf83161ec.png


相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
04 机器学习 - 数据挖掘与机器学习导论
04 机器学习 - 数据挖掘与机器学习导论
99 0
|
5月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】SVM原理详解及对iris数据集分类实战(超详细 附源码)
【数据挖掘】SVM原理详解及对iris数据集分类实战(超详细 附源码)
122 1
|
5月前
|
机器学习/深度学习 存储 算法
【数据挖掘】KNN算法详解及对iris数据集分类实战(超详细 附源码)
【数据挖掘】KNN算法详解及对iris数据集分类实战(超详细 附源码)
95 0
【数据挖掘】KNN算法详解及对iris数据集分类实战(超详细 附源码)
|
机器学习/深度学习 数据采集 算法
数据挖掘导论——综合实验(下)
数据挖掘导论——综合实验
157 0
数据挖掘导论——综合实验(下)
|
机器学习/深度学习 数据可视化 数据挖掘
数据挖掘导论——综合实验(上)
数据挖掘导论——综合实验
108 0
数据挖掘导论——综合实验(上)
|
数据采集 机器学习/深度学习 数据可视化
数据挖掘导论——分类与预测(三)
数据挖掘导论——分类与预测
215 0
数据挖掘导论——分类与预测(三)
|
数据挖掘
数据挖掘导论——分类与预测(一)
数据挖掘导论——分类与预测
219 0
数据挖掘导论——分类与预测(一)
|
数据可视化 数据挖掘 Linux
数据挖掘导论——可视化分析实验
数据挖掘导论——可视化分析实验
117 0
数据挖掘导论——可视化分析实验

热门文章

最新文章