Python之sklearn2pmml:sklearn2pmml库函数的简介、安装、使用方法之详细攻略daiding

简介: Python之sklearn2pmml:sklearn2pmml库函数的简介、安装、使用方法之详细攻略daiding

sklearn2pmml库函数的简介


       sklearn2pmml是用于将Scikit学习管道转换为PMML的Python库。这个库是JPMML-SkLearn命令行应用程序的一个瘦包装。有关支持的评估器和转换器类型的列表,请参考JPMML-SkLearn特性。



1、一个典型的工作流总结


创建一个PMMLPipeline对象,并像往常一样用管道步骤填充它。类sklearn2pmml.pipeline。PMMLPipeline扩展了sklearn.pipeline类。管道具有以下功能:

如果PMMLPipeline。fit(X, y)方法是用panda调用的。DataFrame或熊猫。Series对象作为X参数,然后它的列名用作特性名。否则,特征名称默认为“x1”、“x2”,..“x {number_of_features}”。

如果PMMLPipeline。fit(X, y)方法是用panda调用的。Series对象作为y参数,然后将其名称用作目标名称(对于监督模型)。否则,目标名称默认为“y”。

像往常一样安装和验证pipeline。

可选地,通过调用PMMLPipeline.verify(X)方法来计算验证数据并将其嵌入到PMMLPipeline对象中,该方法使用的是一个较小但有代表性的训练数据子集。

通过调用实用程序方法sklearn2pmml,将PMMLPipeline对象转换为本地文件系统中的PMML文件。pmml_destination_path sklearn2pmml(pipeline)。



sklearn2pmml库函数的安装


pip install sklearn2pmml

pip install --user -i https://pypi.tuna.tsinghua.edu.cn/simple sklearn2pmml


image.png





sklearn2pmml库函数的使用方法


1、一个简单的鸢尾物种分类决策树模型


import pandas

iris_df = pandas.read_csv("Iris.csv")

iris_X = iris_df[iris_df.columns.difference(["Species"])]

iris_y = iris_df["Species"]

from sklearn.tree import DecisionTreeClassifier

from sklearn2pmml.pipeline import PMMLPipeline

pipeline = PMMLPipeline([

("classifier", DecisionTreeClassifier())

])

pipeline.fit(iris_X, iris_y)

from sklearn2pmml import sklearn2pmml

sklearn2pmml(pipeline, "DecisionTreeIris.pmml", with_repr = True)


2、更精细的逻辑回归模型


import pandas

iris_df = pandas.read_csv("Iris.csv")

iris_X = iris_df[iris_df.columns.difference(["Species"])]

iris_y = iris_df["Species"]

from sklearn_pandas import DataFrameMapper

from sklearn.decomposition import PCA

from sklearn.feature_selection import SelectKBest

from sklearn.impute import SimpleImputer

from sklearn.linear_model import LogisticRegression

from sklearn2pmml.decoration import ContinuousDomain

from sklearn2pmml.pipeline import PMMLPipeline

pipeline = PMMLPipeline([

("mapper", DataFrameMapper([

 (["Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width"], [ContinuousDomain(), SimpleImputer()])

])),

("pca", PCA(n_components = 3)),

("selector", SelectKBest(k = 2)),

("classifier", LogisticRegression(multi_class = "ovr"))

])

pipeline.fit(iris_X, iris_y)

pipeline.verify(iris_X.sample(n = 15))

from sklearn2pmml import sklearn2pmml

sklearn2pmml(pipeline, "LogisticRegressionIris.pmml", with_repr = True)




相关文章
|
3月前
|
算法 Java Docker
(Python基础)新时代语言!一起学习Python吧!(三):IF条件判断和match匹配;Python中的循环:for...in、while循环;循环操作关键字;Python函数使用方法
IF 条件判断 使用if语句,对条件进行判断 true则执行代码块缩进语句 false则不执行代码块缩进语句,如果有else 或 elif 则进入相应的规则中执行
371 1
|
4月前
|
监控 数据可视化 数据挖掘
Python Rich库使用指南:打造更美观的命令行应用
Rich库是Python的终端美化利器,支持彩色文本、智能表格、动态进度条和语法高亮,大幅提升命令行应用的可视化效果与用户体验。
385 0
|
3月前
|
数据可视化 关系型数据库 MySQL
【可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理,简单粗暴!
本文详解基于Python的电影TOP250数据可视化大屏开发全流程,涵盖爬虫、数据存储、分析及可视化。使用requests+BeautifulSoup爬取数据,pandas存入MySQL,pyecharts实现柱状图、饼图、词云图、散点图等多种图表,并通过Page组件拖拽布局组合成大屏,支持多种主题切换,附完整源码与视频讲解。
355 4
【可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理,简单粗暴!
|
3月前
|
传感器 运维 前端开发
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
本文解析异常(anomaly)与新颖性(novelty)检测的本质差异,结合distfit库演示基于概率密度拟合的单变量无监督异常检测方法,涵盖全局、上下文与集体离群值识别,助力构建高可解释性模型。
393 10
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
|
算法 Python 容器
Python编程 - 不调用相关choose库函数,“众数“挑选器、随机挑选器 的源码编程实现
Python编程 - 不调用相关choose库函数,“众数“挑选器、随机挑选器 的源码编程实现
268 0
|
算法 Python
Python编程的函数—内置函数
Python编程的函数—内置函数
235 0
|
算法 Python
Python编程实验四:函数的使用
Python编程实验四:函数的使用
|
存储 程序员 Shell
Python 进阶指南(编程轻松进阶):十、编写高效函数
Python 进阶指南(编程轻松进阶):十、编写高效函数
175 0
|
存储 Shell C++
零基础学会python编程——输入 / 输出函数与变量
零基础学会python编程——输入 / 输出函数与变量
532 0
|
算法 编译器 Python
Python编程基础:实验6——函数的递归
有关Python函数递归的一些题目,非常经典,开箱即用。
489 1
Python编程基础:实验6——函数的递归

推荐镜像

更多