Demo3 - 保存训练后模型

简介: 训练好的模型,需要保存好,下次就直接拿来用,相当于是机器学习的成果。不用每次都去学习了, 直接保存成文件,然后下个项目直接导入,就可以使用了。目前两种方法比较好用。

训练好的模型,需要保存好,下次就直接拿来用,相当于是机器学习的成果。不用每次都去学习了, 直接保存成文件,然后下个项目直接导入,就可以使用了。

目前两种方法比较好用。

  1. python自带pickle
  2. sklearn joblib工具

还是直接上代码,两种方式都已经在注释里面。

# -- coding: utf-8 --
# 通过本个demo 将学习后的模型进行保存。 这样就不用每次都重新训练模型。
# (模型的保留的迁移)

# 方法1,使用python自带的pickle
from sklearn.ensemble import RandomForestClassifier
from sklearn import datasets
from sklearn.externals import joblib
import pickle # ->python 自带

#  使用sklearn提供的一些demo数据,load_xxxx数据


(X,y) = datasets.load_iris(return_X_y=True)

# 模型构建
rfc = RandomForestClassifier(n_estimators=100,max_depth=100)
rfc.fit(X,y)

# 验证模式
print("模型初步验证:")
print(rfc.predict(X[0:1,:]))

# -- 重点! save Model
# file = open('saved_model/rfc.pickle','w')
# pickle.dump(rfc,file)
# file.close()

joblib.dump(rfc,'saved_model/rfc.pkl')  # - 官方建议方式joblib

print("模型已经保存到 saved_model")

一些附加知识

Pickle是python中一种标准的序列化对象的方法。你可以使用pickle操作来序列化你的机器学习算法,保存这种序列化的格式到一个文件中。稍后你可以导入这个文件反序列化你的模型,用它进行新的预测。以下的例子向你展示:如何使用Pima Indians onset of diabetes数据集,训练一个logistic回归模型,保存模型到文件,导入模型对未知数据进行预测。运行以下代码把模型存入你工作路径中的finalized_model.sav,导入模型,用未知数据评估模型的准确率

Joblib是SciPy生态的一部分,为管道化python的工作提供的工具。它提供了存储和导入python对象的工具,可以对Numpy数据结构进行有效的利用。这对于要求很多参数和存储整个数据集的算法(比如K-Nearest Neighbors)很有帮助。以下代码向你展示:如何使用Pima Indians onset of diabetes数据集,训练一个logistic回归模型,使用joblib保存模型到文件,导入模型对未知数据进行预测。运行以下代码把模型存入你工作路径中的finalized_model.sav,也会创建一个文件保存Numpy数组,导入模型,用未知数据评估模型的准确率。

保存模型的几点提醒

当你存储你的机器学习模型时,需要考虑以下重要问题。一定要记住,记录下你的工具版本,以便于重构环境。

  1. python的版本:记录下python的版本。需要相同大版本号的python来序列化和反序列化模型。
  2. 库的版本:主要的库的版本要保持一致,不仅限于Numpy和scikit-learn的版本。
  3. 手动序列化:你可能想要手动的输出你的模型参数以便于你可以直接把他们用在scikit-learn或者其他的平台。确实学习算法参数实现比算法本身实现要难得多。如果你有能力也可以自己写代码来导出参数。
目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
Transformer 模型:入门详解(1)
动动发财的小手,点个赞吧!
13869 1
Transformer 模型:入门详解(1)
|
机器学习/深度学习 人工智能 自然语言处理
四张图片道清AI大模型的发展史(1943-2023)
现在最火的莫过于GPT了,也就是大规模语言模型(LLM)。“LLM” 是 “Large Language Model”(大语言模型)的简称,通常用来指代具有巨大规模参数和复杂架构的自然语言处理模型,例如像 GPT-3(Generative Pre-trained Transformer 3)这样的模型。这些模型在处理文本和语言任务方面表现出色,但其庞大的参数量和计算需求使得它们被称为大模型。当然也有一些自动生成图片的模型,但是影响力就不如GPT这么大了。
4949 0
166Echarts - 漏斗图(Funnel (align))
166Echarts - 漏斗图(Funnel (align))
192 0
|
7月前
|
运维 NoSQL 应用服务中间件
云服务器规格与带宽选型
本文主要分享了云服务器规格与带宽选型的经验,包括PV、UV、IP等概念的解释及其简化换算关系。文章详细介绍了根据业务访问规律计算合适的服务器资源配置,并提供了CPU与内存不同配比适用的业务场景。同时,针对带宽配置选择,提出了基于总请求量和单次请求大小的估算模型,以及按量付费和固定带宽的选择标准。最后简述了云上运维从人工到智能化(AIOps)的发展阶段,为读者提供实用参考。
426 57
|
11月前
|
存储 运维 Cloud Native
数据仓库革新:Snowflake在云数据平台中的创新实践
【10月更文挑战第26天】随着大数据时代的到来,数据仓库正经历重大变革。本文探讨了Snowflake在云数据平台中的创新应用,通过弹性扩展、高性能查询、数据安全、多数据源接入和云原生架构等最佳实践,展示了其独特优势,帮助企业提升数据处理和分析效率,保障数据安全,降低运维成本,推动业务快速发展。
498 2
|
机器学习/深度学习 人工智能 算法
深入探索软件测试中的黑盒测试技术
本文旨在通过一个创新视角,探讨软件测试领域中的黑盒测试技术。我们将从一个全新的维度——测试用例的生成策略出发,分析如何提高黑盒测试的效率和效果。文章不仅会介绍传统的测试用例设计方法,如等价类划分、边界值分析等,还会结合最新的技术发展,讨论人工智能在黑盒测试中的应用前景。通过案例分析和实践应用,我们期望为读者提供一套系统的黑盒测试解决方案,以应对日益复杂的软件测试需求。
|
SQL 弹性计算 分布式计算
实时数仓 Hologres操作报错合集之在执行SQL查询时遇到了问题,报错原因是“Invalid index column id: 2”,该怎么处理
在使用阿里云实时数仓Hologres时,可能会遇到不同类型的错误。例如:1.内存超限错误、2.字符串缓冲区扩大错误、3.分区导入错误、4.外部表访问错误、5.服务未开通或权限问题、6.数据类型范围错误,下面是一些常见错误案例及可能的原因与解决策略的概览。
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。
|
Unix Linux Ruby
在windows和linux上高效快捷地发布Dash应用
在windows和linux上高效快捷地发布Dash应用
562 4