Python之sklearn2pmml:sklearn2pmml库函数的简介、安装、使用方法之详细攻略daiding

简介: Python之sklearn2pmml:sklearn2pmml库函数的简介、安装、使用方法之详细攻略daiding

sklearn2pmml库函数的简介


       sklearn2pmml是用于将Scikit学习管道转换为PMML的Python库。这个库是JPMML-SkLearn命令行应用程序的一个瘦包装。有关支持的评估器和转换器类型的列表,请参考JPMML-SkLearn特性。



1、一个典型的工作流总结


创建一个PMMLPipeline对象,并像往常一样用管道步骤填充它。类sklearn2pmml.pipeline。PMMLPipeline扩展了sklearn.pipeline类。管道具有以下功能:

如果PMMLPipeline。fit(X, y)方法是用panda调用的。DataFrame或熊猫。Series对象作为X参数,然后它的列名用作特性名。否则,特征名称默认为“x1”、“x2”,..“x {number_of_features}”。

如果PMMLPipeline。fit(X, y)方法是用panda调用的。Series对象作为y参数,然后将其名称用作目标名称(对于监督模型)。否则,目标名称默认为“y”。

像往常一样安装和验证pipeline。

可选地,通过调用PMMLPipeline.verify(X)方法来计算验证数据并将其嵌入到PMMLPipeline对象中,该方法使用的是一个较小但有代表性的训练数据子集。

通过调用实用程序方法sklearn2pmml,将PMMLPipeline对象转换为本地文件系统中的PMML文件。pmml_destination_path sklearn2pmml(pipeline)。



sklearn2pmml库函数的安装


pip install sklearn2pmml

pip install --user -i https://pypi.tuna.tsinghua.edu.cn/simple sklearn2pmml


image.png





sklearn2pmml库函数的使用方法


1、一个简单的鸢尾物种分类决策树模型


import pandas

iris_df = pandas.read_csv("Iris.csv")

iris_X = iris_df[iris_df.columns.difference(["Species"])]

iris_y = iris_df["Species"]

from sklearn.tree import DecisionTreeClassifier

from sklearn2pmml.pipeline import PMMLPipeline

pipeline = PMMLPipeline([

("classifier", DecisionTreeClassifier())

])

pipeline.fit(iris_X, iris_y)

from sklearn2pmml import sklearn2pmml

sklearn2pmml(pipeline, "DecisionTreeIris.pmml", with_repr = True)


2、更精细的逻辑回归模型


import pandas

iris_df = pandas.read_csv("Iris.csv")

iris_X = iris_df[iris_df.columns.difference(["Species"])]

iris_y = iris_df["Species"]

from sklearn_pandas import DataFrameMapper

from sklearn.decomposition import PCA

from sklearn.feature_selection import SelectKBest

from sklearn.impute import SimpleImputer

from sklearn.linear_model import LogisticRegression

from sklearn2pmml.decoration import ContinuousDomain

from sklearn2pmml.pipeline import PMMLPipeline

pipeline = PMMLPipeline([

("mapper", DataFrameMapper([

 (["Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width"], [ContinuousDomain(), SimpleImputer()])

])),

("pca", PCA(n_components = 3)),

("selector", SelectKBest(k = 2)),

("classifier", LogisticRegression(multi_class = "ovr"))

])

pipeline.fit(iris_X, iris_y)

pipeline.verify(iris_X.sample(n = 15))

from sklearn2pmml import sklearn2pmml

sklearn2pmml(pipeline, "LogisticRegressionIris.pmml", with_repr = True)




相关文章
|
12天前
|
Python
Python之函数详解
【10月更文挑战第12天】
Python之函数详解
|
13天前
|
存储 数据安全/隐私保护 索引
|
2天前
|
测试技术 数据安全/隐私保护 Python
探索Python中的装饰器:简化和增强你的函数
【10月更文挑战第24天】在Python编程的海洋中,装饰器是那把可以令你的代码更简洁、更强大的魔法棒。它们不仅能够扩展函数的功能,还能保持代码的整洁性。本文将带你深入了解装饰器的概念、实现方式以及如何通过它们来提升你的代码质量。让我们一起揭开装饰器的神秘面纱,学习如何用它们来打造更加优雅和高效的代码。
|
4天前
|
弹性计算 安全 数据处理
Python高手秘籍:列表推导式与Lambda函数的高效应用
列表推导式和Lambda函数是Python中强大的工具。列表推导式允许在一行代码中生成新列表,而Lambda函数则是用于简单操作的匿名函数。通过示例展示了如何使用这些工具进行数据处理和功能实现,包括生成偶数平方、展平二维列表、按长度排序单词等。这些工具在Python编程中具有高度的灵活性和实用性。
10 2
|
7天前
|
Python
python的时间操作time-函数介绍
【10月更文挑战第19天】 python模块time的函数使用介绍和使用。
15 4
|
8天前
|
存储 Python
[oeasy]python038_ range函数_大小写字母的起止范围_start_stop
本文介绍了Python中`range`函数的使用方法及其在生成大小写字母序号范围时的应用。通过示例展示了如何利用`range`和`for`循环输出指定范围内的数字,重点讲解了小写和大写字母对应的ASCII码值范围,并解释了`range`函数的参数(start, stop)以及为何不包括stop值的原因。最后,文章留下了关于为何`range`不包含stop值的问题,留待下一次讨论。
11 1
|
8天前
|
安全 数据处理 数据安全/隐私保护
python中mod函数怎么用
通过这些实例,我们不仅掌握了Python中 `%`运算符的基础用法,还领略了它在解决实际问题中的灵活性和实用性。在诸如云计算服务提供商的技术栈中,类似的数学运算逻辑常被应用于数据处理、安全加密等关键领域,凸显了基础运算符在复杂系统中的不可或缺性。
10 0
|
7天前
|
安全 数据处理 开发者
Python中的多线程编程:从入门到精通
本文将深入探讨Python中的多线程编程,包括其基本原理、应用场景、实现方法以及常见问题和解决方案。通过本文的学习,读者将对Python多线程编程有一个全面的认识,能够在实际项目中灵活运用。
|
1天前
|
设计模式 开发者 Python
Python编程中的设计模式:工厂方法模式###
本文深入浅出地探讨了Python编程中的一种重要设计模式——工厂方法模式。通过具体案例和代码示例,我们将了解工厂方法模式的定义、应用场景、实现步骤以及其优势与潜在缺点。无论你是Python新手还是有经验的开发者,都能从本文中获得关于如何在实际项目中有效应用工厂方法模式的启发。 ###
|
6天前
|
弹性计算 安全 小程序
编程之美:Python让你领略浪漫星空下的流星雨奇观
这段代码使用 Python 的 `turtle` 库实现了一个流星雨动画。程序通过创建 `Meteor` 类来生成具有随机属性的流星,包括大小、颜色、位置和速度。在无限循环中,流星不断移动并重新绘制,营造出流星雨的效果。环境需求为 Python 3.11.4 和 PyCharm 2023.2.5。
26 9