应用分类算法,预测泰坦尼克号乘客幸存结果

简介: 应用分类算法,预测泰坦尼克号乘客幸存结果

未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计3832字,阅读大概需要3分钟

一、业务场景

受某咨询公司委托,拟根据泰坦尼克号乘客信息数据,来预测乘客在遇到海难时的幸存结果。经过分析,这是一个二元分类问题,因此决定使用逻辑回归算法进行预测分析。


二、数据集说明

本案例所使用的数据集,以CSV格式提供,有两个文件:train.csv和test.csv。其中train.csv文件包含label列。

 数据集路径:/data/dataset/ml/titanic/


三、操作步骤

阶段一、启动HDFS、Spark集群服务和zeppelin服务器

1、启动HDFS集群

 在Linux终端窗口下,输入以下命令,启动HDFS集群:

1.  $ start-dfs.sh

2、启动Spark集群

 在Linux终端窗口下,输入以下命令,启动Spark集群:

1.  $ cd /opt/spark
2.  $ ./sbin/start-all.sh

3、启动zeppelin服务器

 在Linux终端窗口下,输入以下命令,启动zeppelin服务器:

1.  $ zeppelin-daemon.sh start

4、验证以上进程是否已启动

 在Linux终端窗口下,输入以下命令,查看启动的服务进程:

1.  $ jps

如果显示以下6个进程,则说明各项服务启动正常,可以继续下一阶段。

2288 NameNode
2402 DataNode
2603 SecondaryNameNode
2769 Master
2891 Worker
2984 ZeppelinServer

阶段二、准备案例中用到的数据集

1、将本案例要用到的数据集上传到HDFS文件系统的/data/dataset/ml/目录下。在Linux终端窗口下,输入以下命令:

1.  $ hdfs dfs -mkdir -p /data/dataset/ml
2.  $ hdfs dfs -put /data/dataset/ml/titanic /data/dataset/ml/

2、在Linux终端窗口下,输入以下命令,查看HDFS上是否已经上传了该数据集:

1.  $ hdfs dfs -ls /data/dataset/ml/

这时应该看到titanic文件夹及其中的数据集已经上传到了HDFS的/data/datset/ml/目录下。


阶段三、对数据集进行探索和分析

1、新建一个zeppelin notebook文件,并命名为titanic_project。

 2、读取数据源。在notebook单元格中,输入以下代码:

1.  // 使用Logistic回归算法预测Titanic乘客的存活率
2.  import org.apache.spark.ml.Pipeline
3.  import org.apache.spark.ml.feature.{VectorAssembler,StringIndexer}
4.  import org.apache.spark.ml.classification.LogisticRegression
5.  import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator
6.       
7.  // 加载数据
8.  val file = "hdfs://localhost:9000/data/dataset/ml/titanic/train.csv"
9.  val titanic_data = spark.read.option("header", "true").option("inferSchema","true").csv(file)
10.      
11. println("乘客共有" + titanic_data.count() + "位")
12. titanic_data.show(5,false)

同时按下”【Shift+Enter】”键,执行以上代码,输出内容如下:


d8c92a61291c4c11b40d14ab8d835b6b.png

3、探索模式schema。在notebook单元格中,输入以下代码:

1.  titanic_data.printSchema

同时按下”【Shift+Enter】”键,执行以上代码,输出内容如下:


5fff7891a6224de1870343f52e9f9808.png

4、选择特征列。所提供的数据本身包含许多特征,不过我们只使用age、gender和ticket_class这三个属性作为特征。在notebook单元格中,输入以下代码:

1.  val titanic_data1 = titanic_data.select('Survived.as("label"), 'Pclass.as("ticket_class"),
2.  'Sex.as("gender"), 'Age.as("age")).filter('age.isNotNull)

同时按下”【Shift+Enter】”,执行以上代码。

 5、将数据集拆分成训练集(80%)和测试集(20%)。在notebook单元格中,输入以下代码:

1.  // 将数据分成训练集(80%)和测试集(20%)
2.  val Array(training, test) = titanic_data1.randomSplit(Array(0.8, 0.2))
3.       
4.  println(s"training count: ${training.count}, test count: ${test.count}")

同时按下”【Shift+Enter】”,执行以上代码,输出内容如下:


851db8dd18c34aa7bdabed783d031a49.png

6、组建管道。在notebook单元格中,输入以下代码:

1.  // estimator(数据转换算法的estimator): 将gender字符串转换为数值
2.  val genderIndxr = new StringIndexer().setInputCol("gender").setOutputCol("genderIdx")
3.       
4.  // transfomer: 将这些特征组合成一个特征向量
5.  val assembler = new VectorAssembler().setInputCols(Array("ticket_class","genderIdx", "age"))
6.  .setOutputCol("features")
7.       
8.  // estimator(机器学习算法的estimator)family值:"auto"、"binomial"、"multinomial"
9.  val logisticRegression = new LogisticRegression().setFamily("binomial")
10.      
11. // 设置三个阶段的管道
12. val pipeline = new Pipeline().setStages(Array(genderIndxr, assembler, logisticRegression))

同时按下”【Shift+Enter】”,执行以上代码。

 7、拟合数据,训练模型。在notebook单元格中,输入以下代码:

1.  val model = pipeline.fit(training)

同时按下”【Shift+Enter】”,执行以上代码。

 8、使用训练出来的模型,对测试数据集进行预测。在notebook单元格中,输入以下代码:

1.  // 执行预测
2.  val predictions = model.transform(test)
3.  predictions.show(5,false)

同时按下【Shift+Enter】,执行以上代码,输出内容如下:

fc02edef79fa4a8ea71cbcc59d4ee468.png


由以上输出内容可以看出,最后一列”prediction”即为预测结果列。

 9、执行模型性能的评估,默认的度量标准是ROC下面的面积。在notebook单元格中,输入以下代码:


1.  val evaluator = new BinaryClassificationEvaluator()
2.  evaluator.evaluate(predictions)

同时按下【Shift+Enter】,执行以上代码,输出内容如下:

93e6fefd319a43bd8faceb023dc3e4aa.png


注:每个人每次运行的结果可能不同,因为数据集是随机拆分的。

  BinaryClassificationEvaluator产生的度量值为0.86,对于只使用了三个特征,这算是一个很好的性能了。


— END —


相关文章
|
17天前
|
存储 监控 算法
员工上网行为监控中的Go语言算法:布隆过滤器的应用
在信息化高速发展的时代,企业上网行为监管至关重要。布隆过滤器作为一种高效、节省空间的概率性数据结构,适用于大规模URL查询与匹配,是实现精准上网行为管理的理想选择。本文探讨了布隆过滤器的原理及其优缺点,并展示了如何使用Go语言实现该算法,以提升企业网络管理效率和安全性。尽管存在误报等局限性,但合理配置下,布隆过滤器为企业提供了经济有效的解决方案。
61 8
员工上网行为监控中的Go语言算法:布隆过滤器的应用
|
3月前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
69 3
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的优化算法及其应用
【10月更文挑战第8天】 本文将探讨深度学习中常用的优化算法,包括梯度下降法、Adam和RMSProp等,介绍这些算法的基本原理与应用场景。通过实例分析,帮助读者更好地理解和应用这些优化算法,提高深度学习模型的训练效率与性能。
269 63
|
17天前
|
存储 缓存 算法
探索企业文件管理软件:Python中的哈希表算法应用
企业文件管理软件依赖哈希表实现高效的数据管理和安全保障。哈希表通过键值映射,提供平均O(1)时间复杂度的快速访问,适用于海量文件处理。在Python中,字典类型基于哈希表实现,可用于管理文件元数据、缓存机制、版本控制及快速搜索等功能,极大提升工作效率和数据安全性。
52 0
|
2月前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
56 1
|
2月前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
72 1
|
2月前
|
缓存 算法 网络协议
OSPF的路由计算算法:原理与应用
OSPF的路由计算算法:原理与应用
74 4
|
2月前
|
机器学习/深度学习 监控 算法
基于反光衣和检测算法的应用探索
本文探讨了利用机器学习和计算机视觉技术进行反光衣检测的方法,涵盖图像预处理、目标检测与分类、特征提取等关键技术。通过YOLOv5等模型的训练与优化,展示了实现高效反光衣识别的完整流程,旨在提升智能检测系统的性能,应用于交通安全、工地监控等领域。
|
2月前
|
存储 算法 网络协议
OSPF的SPF算法介绍:原理、实现与应用
OSPF的SPF算法介绍:原理、实现与应用
95 3