需要源码和数据集请点赞关注收藏后评论区留言私信~~~
一、判别西瓜好坏
西瓜是一种人们很喜欢的水果,是盛夏季节的一种解暑物品,西瓜可以粗略的分为好瓜和坏瓜,我们都希望购买到的西瓜是好的,这里给出判断西瓜好坏的两个特征,一个特 征是西瓜的糖度,另外一个特征是西瓜的密度,这两个数值都是0~1的小数,基于西瓜的测试数据来判断西瓜的好坏
Spark中提供了MLib机器学习库,使用MLib机器学习库中提供的例子,采用GBT模型,训练参数,最后利用训练集测试GBT模型的好坏,判断西瓜的准确度。
运行结果如下
项目结构如下
部分代码如下
import org.apache.spark.mllib.tree.GradientBoostedTrees import org.apache.spark.mllib.tree.configuration.BoostingStrategy import org.apache.spark.mllib.tree.model.GradientBoostedTreesModel import org.apache.spark.mllib.util.MLUtils import org.apache.spark.{SparkConf, SparkContext} object SparkGBT { def main (args: Array[String]) { if (args.length < 0) { println("Usage:FilePath") sys.exit(1) } //Initialization val conf = new SparkConf().setAppName("Spark MLlib Exercise: GradientBoostedTree") val sc = new SparkContext(conf) // Load and parse the data file. val data = MLUtils.loadLibSVMFile(sc, "/home/liujun/workplace/scala_GBT/GBT_data.txt") // Split the data into training and test sets (30% held out for testing) val splits = data.randomSplit(Array(0.7, 0.3)) val (trainingData, testData) = (splits(0), splits(1)) // Train a GradientBoostedTrees model. // The defaultParams for Classification use LogLoss by default. val boostingStrategy = BoostingStrategy.defaultParams("Classification") boostingStrategy.numIterations = 10 // Note: Use more iterations in practice. boostingStrategy.treeStrategy.numClasses = 2 boostingStrategy.treeStrategy.maxDepth = 3 // Empty categoricalFeaturesInfo indicates all features are continuous. boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, Int]() (r => r._1 != r._2).count.toDouble / testData.count() println("Test Error = " + testErr) println("Learned classification GBT model:\n" + model.toDebugString) labelAndPreds.collect().foreach(x => println("Lable and Prediction: " + x._1.toString + " " + x._2.toString)) trainingData.saveAsTextFile("/home/liujun/workplace/scala_GBT/trainingData") testData.saveAsTextFile("/home/liujun/workplace/scala_GBT/testData") } }
二、Spark发展趋势
Spark诞生于伯克利AMP实验室,起初是一个研究性质的项目,目标是为迭代式机器学习提供帮助,随着Spark的开源,因为其采用内存存储,计算速度比MapReduce更快,而且Spark简单 易用 受到了众多人的关注和喜爱
目前 ApacheSpark社区非常活 跃,并且以 SparkRDD 为核心,逐步形成了 Spark的生态圈,包括SparkSQL、Spark Streaming、Spark MLib等众多上层数据分析工具以及实时处理框架
不断有新的Spark生态圈中的框架出现,包括alluxio分布式内存文件系统 、SparkR统计框架
创作不易 觉得有帮助请点赞关注收藏~~~