Spark之导出PMML文件（Python）-阿里云开发者社区

Spark之导出PMML文件（Python）

2017-12-04 2756

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： PMML，全称预言模型标记语言（Predictive Model Markup Language），利用XML描述和存储数据挖掘模型，是一个已经被W3C所接受的标准。

PMML，全称预言模型标记语言（Predictive Model Markup Language），利用XML描述和存储数据挖掘模型，是一个已经被W3C所接受的标准。PMML是一种基于XML的语言，用来定义预言模型。详细的介绍可以参考：http://dmg.org/pmml/v4-3/GeneralStructure.html。
本文将介绍如何在Spark中导出PMML文件（Python语言）。
首先我们需要安装jpmml-sparkml-package。具体的安装细节可以参考：https://github.com/jpmml/jpmml-sparkml-package。
1.利用Git下载JPMML-SparkML-Package project

git init
git clone https://github.com/jpmml/jpmml-sparkml-package.git 
cd jpmml-sparkml-package

如下图所示：
这里写图片描述
2.生成uber-JAR文件
将Spark的Python路径添加到环境变量

sudo gedit /etc/profile
export PYTHONPATH=$PYTHONPATH:$SPARK_HOME/python
source /etc/profile

再生成uber-JAR文件

mvn -Ppyspark -Dpython.exe=/usr/bin/python3.5 clean package

注意这里的python路径要是你自己的系统里的Python路径。耐心等待运行，运行结果如下：
这里写图片描述
这时jpmml-sparkml-package文件夹下会多出target文件夹，如下：

3.将上述的jpmml_sparkml-1.3rc0-py3.5.egg文件添加到Eclipse的Pydev的libraries中，如下图：

并且将上述的两个jar包复制到spark安装目录下的jars文件夹下。

这样我们就完成了所有的环境配置。接下来我们进行测试：
首先，我们需要数据……数据文件test_data.csv截图如下（部分）：
这里写图片描述
完整的数据集可在http://archive.ics.uci.edu/ml/datasets/Wholesale+customers找到。
在Eclipse中新建test_PMML项目，如下图：

其中test_pmml.py的python代码如下：

from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.ml import Pipeline
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import RFormula
from jpmml_sparkml import toPMMLBytes


sc = SparkContext.getOrCreate()
spark = SparkSession.builder.appName("PMML Predict").config("spark.some.config.option", "some-value").getOrCreate()
print("Read file from /home/vagrant/......")
df = spark.read.csv("/home/vagrant/test_data.csv", header = True, inferSchema = True)
print("Reading complete.\n")

print("Processing logistic model......")
formula = RFormula(formula = "target ~ .")
logit = LogisticRegression()
pipeline = Pipeline(stages = [formula, logit])
pipelineModel = pipeline.fit(df)
print("Modeling complete.\n")

print("Exporting pmml file......")
pmmlBytes = toPMMLBytes(sc, df, pipelineModel)
output_rdd = sc.parallelize([pmmlBytes]) 
output_rdd.saveAsTextFile("pmml_Logit")
print("Export complete.\nThe end.")

运行结果如下：
这里写图片描述
同时会生成pmml_Logit文件夹，里面包含PMML文件part-00000，内容如下图（部分）：

这样我们就成功地导出了逻辑回归模型的PMML文件！本次分享就到这儿啦~~

参考文献：
1.PMML介绍： http://dmg.org/pmml/v4-3/GeneralStructure.html
2.测试数据集： http://archive.ics.uci.edu/ml/machine-learning-databases/00292/
3. https://stackoverflow.com/questions/39888728/export-models-as-pmml-using-pyspark/39902676#39902676
4. https://github.com/jpmml/jpmml-sparkml-package

注意：本人现已开通两个微信公众号：用Python做数学（微信号为：python_math）以及轻松学会Python爬虫（微信号为：easy_web_scrape），欢迎大家关注哦~~

Spark之导出PMML文件（Python）

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark之导出PMML文件（Python）

热门文章

最新文章

相关课程

相关电子书

推荐镜像