数据挖掘-模型怎么解决业务需求(五)

简介: 数据挖掘-模型怎么解决业务需求(五)

我们的目标是业务需求,而数据挖掘产出的结果。

不管是预测型的还是关联型的,都要结合业务场景,融入到业务流程中去。


模型部署本质――回归业务


模型如何保存?

如何根据业务需求优化?

如何最终上线服务?


模型的保存


模型保存的规范。

存放的位置、名字的定义、模型使用的算法、参数、数据、效果等。


模型的优化


模型训练阶段优化所追求的目标―—效果要尽量好。

模型应用阶段优化所追求的目标――在效果尽量不降低的前提下,适配应用的限制。


时延要求比较高的场景


如果业务应用无法忍受模型的响应时间,需要思考增加机器还是降低模型的复杂度以提高速度。


模型大小要求比较高的场景

期望把人脸识别模型部署到一个摄像装置的小型存储芯片上面,需要考虑降低模型的参数维度等。


离线应用还是在线应用?


如果使用新闻分类的类别标签结果,实时分发到用户App中分类模型需要部署成在线的应用服务以实时响应新的内容请求。

如果只需要对一批已有的新闻数据进行分类处理,之后只使用这些结果模型离线运行,把存储的新闻处理完,或者每隔一段时间去处理新的数据。


8d0ba88e33b94099af1eec8dfd7e4c4a.png

在线应用


一个简单部署方案

aac4d3a2f3024014a2e8c27d44f1d6f1.png

记录项目经历,学会总结和反思


从项目的需求发起,到数据准备,再到模型训练、评估、上线,这些环节都遇到了什么样的问题,我们解决了什么问题,又有哪些问题尚未解决,在时间等条件充裕的情况下还可以做哪些尝试。


多考虑一点,如何适合更多场景


我们的数据挖掘模型或结果能不能做成统一的服务,能不能应用在更多的地方


99c53cc0e84c4994ad400cc5523b8663.png


规划一个面向全公司更底层的标签体系架构以应对各种类似的业务。


监控与迭代


为了模型保持良好的效果,需要有一份迭代计划去维护和更新模型。


模型的监控

97ad208656804aaeabead63739b5b89a.png

结果监控

结果监控主要是针对一些具体的指标进行监控。

还可以根据具体产出的结果在业务中的效果进行监控。


针对每天新闻的分类标签进行排名统计,来查看每个标签的占比情况与初始数据是否接近。

推荐系统中,可以对标签与CTR (点击率预估)的关系进行计算。

一些App会主动负反馈,让用户自己选择不喜欢的标签。

人工定期复审

主要针对业务需求准确率的情况进行评估。

查看当前的模型效果是否还满足业务的需求,准确率情况是否有所变化。

跟业务进行沟通评估,确认当前的情况是否需要对模型进行重新训练。


Case收集与样本积累


b02dfae725d344488933fcd8e2e1e9b9.png

重新开启


准备数据阶段发现数据无法解决业务需求时,要返回去重新讨论业务需求与数据的问题。

训练模型阶段发现数据与模型无法匹配,或者如果要更换其他模型时,要回到准备数据环节。

模型评估的时候发现效果达不到预期可能要回到准备数据环节重新处理数据,甚至要回到理解业务阶


总结


介绍了一些关于模型保存、模型优化、模型部署的思路。讲解了关于项目总结,乃至模型监控等内容。

目录
相关文章
|
6月前
|
机器学习/深度学习 数据挖掘 Python
【数据挖掘】分类器模型性能评估讲解及iris数据集评估实战(超详细 附源码)
【数据挖掘】分类器模型性能评估讲解及iris数据集评估实战(超详细 附源码)
167 0
|
3月前
|
机器学习/深度学习 数据挖掘 Python
【数据挖掘】生成模型和判别模型的区别及优缺点
文章讨论了生成模型和判别模型在数据挖掘中的区别、原理、优缺点,并提供了一些常见的模型示例。
35 0
|
6月前
|
移动开发 算法 数据可视化
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
|
6月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
6月前
|
机器学习/深度学习 数据挖掘
使用SAS EnterpriseMiner进行数据挖掘:信用评分构建记分卡模型
使用SAS EnterpriseMiner进行数据挖掘:信用评分构建记分卡模型
|
6月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】模型选择中正则化、交叉验证详解及实战应用(超详细 附源码)
【数据挖掘】模型选择中正则化、交叉验证详解及实战应用(超详细 附源码)
110 0
|
机器学习/深度学习 数据采集 算法
【数据挖掘和机器学习技术】数据挖掘和机器学习相关的算法和模型,如聚类、分类、回归、神经网络
【数据挖掘和机器学习技术】数据挖掘和机器学习相关的算法和模型,如聚类、分类、回归、神经网络
153 0
|
机器学习/深度学习 数据采集 运维
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(上篇)[xgboots/lightgbm/Catboost等模型]–模型融合:stacking、blending
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(上篇)[xgboots/lightgbm/Catboost等模型]–模型融合:stacking、blending
|
机器学习/深度学习 数据采集 数据可视化
数据挖掘:降低汽油精制过程中的辛烷值损失模型(二)
数据挖掘:降低汽油精制过程中的辛烷值损失模型(二)
226 0
数据挖掘:降低汽油精制过程中的辛烷值损失模型(二)
|
机器学习/深度学习 数据可视化 算法
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等)
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等)