Python简化代码机器学习库PyCaret 2.0发布

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 该脚本动态选择并保存最佳模型。只需要短短几行代码,你就开发好了自己的AutoML软件,还带有完整的日志系统和漂亮榜单的UI界面。

“ 我们激动的宣布,PyCaret第二版今天发布!”


官网链接https://pycaret.org/


PyCaret是一个开源的,低代码的Python机器学习库,旨在自动化机器学习工作流。它是端到端的机器学习和模型管理工具。它可以加速机器学习的实验周期,提高你的效率。


和其他开源机器学习库相比,PyCaret是低代码的。它可以用几个单词取代上百行代码。这大大提高了实验的速度和效率。在版本说明release notes 中查看PyCaret 2.0的更多细节。


为什么要用PyCaret


PyCaret 2.0 功能


640.png


数据准备 模型训练 超参数调优(从左到右)

分析和截图 模型选择 实验日志记录(从左到右)


安装PyCaret 2.0


安装PyCaret非常简单,只需要几分钟时间。我们强烈建议使用虚拟环境,以避免和其他库的潜在冲突。以下示例代码创建了一个conda环境,并在该conda环境下安装pycaret


640.png


如果你使用Azure notebook或者Google Colab,运行下列代码安装PyCaret


640.png


所有的依赖项会在使用pip安装PyCaret时自动安装。点击Click here这里查看完整的依赖列表。


开始PyCaret 2.0


在PyCaret中,任何机器学习实验的第一步是配置环境。这需要导入相关模型并通过传递数据框(dataframe)和目标变量的名字来初始化配置函数。示例代码如下:


640.png


输出示例:


640.png


输出片段


所有的预处理变换在配置函数中被调用。PyCaret提供了超过20种不同的,可在配置函数内调用的预处理变换。点击这里 Click here 了解PyCaret更多的预处理能力。


640.png


  • 样本和划分:训练/测试划分;采样
  • 数据准备:缺失数据补全;独热编码;内在顺序编码;Cardinal编码;不平衡修正
  • 缩放和转换:归一化;转换
  • 特征工程:特征交互;多项式特征;组特征;二元数值特征
  • 特征选择:特征重要性;共线性移除;PCA;忽略低方差
  • 无监督:创建聚类;异常移除


https://www.pycaret.org/preprocessing


模型比较


这是所有监督学习模型任务中,我们推荐的第一步。该函数会使用模型的默认超参数来训练所有模型,并通过交叉检验来评估性能。它返回一个已训练的模型的对象类。可使用的评估测度包括:


  • 分类:准确度,AUC,召回率,精确率,F1,Kappa,MCC
  • 回归:MAE, MSE, RMSE, R2, RMSLE, MAPE


这里有几种使用 compare_models 函数的方法:


640.png


输出示例:


640.png


模型创建


模型创建函数使用默认超参数训练模型并使用交叉验证评估模型性能。该函数是几乎所有其他PyCaret函数的底。它返回训练模型对象类。以下是几种模型使用方法:


640.png


输出示例:


640.png


create_model函数的输出示例


要了解更多关于模型创建函数,点击这里 click here.


模型调优


模型调优函数以估计器的形式调优模型超参数。它在预设定的调优网格( 可完全定制化 )上进行随机网格搜索。以下是几种函数使用方法:


640.png


要了解更多模型调优函数,点击这里click here.


模型集成


有几种函数可用于集成底学习器。ensemble_model, blend_models 和stack_models是其中三种。以下是几种函数使用方法:


640.png


要了解更多模型集成函数,点击这里click here.


模型预测


和名字一样,该函数用于推理/预测。以下是使用方法:


640.png


模型作图


模型作图函数可用于评估训练已完成的机器学习模型的性能评估。示例如下:


640.png

640.png


plot_model函数的输出示例


另外,你可以在notebook的用户交互界面中使用 evaluate_model 函数来查看图


640.png


PyCaret中的 evaluate_model函数


Util函数


PyCaret 2.0包括了几种新的util函数。当你在PyCaret中管理机器学习实验时可以方便的使用。其中一些如下所示:


640.png


在发布说明 release notes. 中查看PyCaret 2.0中所有的新函数,


Experiment日志


PyCaret 2.0以后端API的形式嵌入了机器学习工作流的追踪组件,并提供UI在你运行机器学习代码时记录参数,代码版本,度量以及输出文件,以供之后的结果可视化。你可以如下记录你PyCaret中的实验:


640.png


输出(在 localhost:5000 )


640.png


整合——创建你自己的AutoML软件


通过使用这些函数,让我们创建一个简单的命令行软件来使用默认参数来训练多个模型,对最好的几个候选模型进行超参数调优,尝试不同的集成技术并返回/保存最优模型。以下是命令行脚本:


640.png


该脚本动态选择并保存最佳模型。只需要短短几行代码,你就开发好了自己的AutoML软件,还带有完整的日志系统和漂亮榜单的UI界面。


通过这个轻量级工作流自动化Python库,你可以完成无限可能。

相关实践学习
机器学习算法(一): 基于逻辑回归的分类预测
基于逻辑回归的分类预测。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2天前
|
机器学习/深度学习 数据采集 数据挖掘
深入Scikit-learn:掌握Python最强大的机器学习库
【7月更文第18天】在当今数据驱动的世界中,机器学习已成为解锁数据潜力的关键。Python凭借其简洁的语法和丰富的库生态,成为数据科学家和机器学习工程师的首选语言。而在Python的众多机器学习库中,Scikit-learn以其全面、高效、易用的特点,被誉为机器学习领域的“瑞士军刀”。本文旨在深入探讨Scikit-learn的核心概念、实用功能,并通过实战代码示例,带你领略其强大之处。
28 12
|
3天前
|
存储 算法 索引
深度挖掘:Python并查集背后的秘密,让你的代码逻辑清晰如水晶!
【7月更文挑战第17天】并查集,一种高效处理集合合并与查询的数据结构,常用于图论、社交网络分析等。Python中的实现利用数组存储元素的父节点,通过路径压缩和按秩合并优化查找和合并操作。简单代码示例展示了查找和合并方法,以及应用在检测无向图环路。并查集以其优雅的解决方案在算法世界中闪耀,提升代码的清晰度和效率。
19 5
|
2天前
|
并行计算 算法 Python
Dantzig-Wolfe分解算法解释与Python代码示例
Dantzig-Wolfe分解算法解释与Python代码示例
|
2天前
|
存储 Python
离散事件模拟(Discrete Event Simulation)详解与Python代码示例
离散事件模拟(Discrete Event Simulation)详解与Python代码示例
|
2天前
|
供应链 Python
供需匹配(Demand-Supply Matching)的详细解释与Python代码示例
供需匹配(Demand-Supply Matching)的详细解释与Python代码示例
|
2天前
|
供应链 Python
Demand Forecasting模型解释与Python代码示例
Demand Forecasting模型解释与Python代码示例
|
2天前
|
存储 Python
数据包络分析(Data Envelopment Analysis, DEA)详解与Python代码示例
数据包络分析(Data Envelopment Analysis, DEA)详解与Python代码示例
|
4天前
|
算法 测试技术 Python
python中代码逻辑错误
【7月更文挑战第15天】
14 2
|
3天前
|
算法 计算机视觉 开发者
燃爆全场!Python并查集:数据结构界的网红,让你的代码炫酷无比!
【7月更文挑战第16天】并查集,Python中的效率明星,处理不相交集合合并与查询。用于社交网络分析、图像处理、图论算法等领域。优雅实现结合路径压缩和按秩合并
8 1