数据挖掘系列(3)_Excel的数据挖掘插件_估计分析

简介: 本篇博客使用SQL Server的数据挖掘客户端插件来在Excel上面进行估计分析。

可以先在目录中浏览一下关于估计分析的具体信息:

69820d7378b444328ed7e3cc8e0013ef.png5b0b7f5bc4e1401dbd68b150ede98289.png


一、估计模型



估计模型从数据中提取模式,并使用这些模式预测将影响结果的因素。 结果必须用数值(如货币、销售额、日期或时间)来表示。


例如,如果目标列包含学校的毕业率(用百分比表示),则可以分析可能会增加或降低毕业率的因素,如每个学校的学生数量、学生与教师的比例以及教师数量。


估计向导使用 Microsoft 决策树算法。 可以在交互式查看器中浏览依赖关系和模式,并快速创建能够表示所发现模式的更多详细信息的图形。


此次分析所用到的数据:300部电影信息(需要资源的请评论区留言)

5a79803c90544c76ab91df090bb32f61.png91d6584092434ae4bdec0405a587a958.png


二、决策树



332072f9a3dc4593a408d08358e7a460.png

这里我选择使用决策树进行估计:

f8eab1dcaad54b3ca566d190af131158.png


一般回归量都是数值类型的,因此部分参数无法当中回归量:

a47d966e599c4117ad06774b307619ce.pnged2478a62265492aae42e8371f4c8952.png8f5ce1236b1544549b0abe358becd38a.png

依赖关系网络如下

根据下面的动图可以看出:最不重要的参数是POINTS,最重要的参数是BO

3f23e7cdbc82454e886259653b9043c1.gif


三、神经网络



换另外一种算法方式:

b370aabc4ddf4b3fa8a516709b9072ab.png

1695a467437f481ab2e82b9e82e2b9df.png

创建好结构之后选择将模型添加到结构:

744c41280d1f4deeb1a64374f96ebba6.pnge0395218b2044460a0fbe9832765a8c0.pngd43645807e2347eaba7a690151d5c148.png53832731ae91473d8357badf463711cd.pngb093df141ee74fbbb3d5587be014801d.png

接着在使用NBA的数据作用于神经网络算法:

估计前面的参数对每场得分的影响:

4d40b22d15924e1687e868c893f62a0f.png


四、逻辑回归



选择逻辑回归算法:

48ae9e726d18483f85dba65c0e7174bf.png4c7e8356044947dfac0670d762dde25e.png


相关文章
|
3月前
|
数据采集 存储 NoSQL
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
|
3月前
|
自然语言处理 算法 数据挖掘
【数据挖掘】十大算法之PageRank连接分析算法
文章介绍了PageRank算法的基本概念和数学模型,包括如何通过一阶马尔科夫链定义随机游走模型以及如何计算网页的重要性评分,并提供了PageRank迭代算法的具体步骤。
68 0
|
1月前
|
前端开发 JavaScript Java
导出excel的两个方式:前端vue+XLSX 导出excel,vue+后端POI 导出excel,并进行分析、比较
这篇文章介绍了使用前端Vue框架结合XLSX库和后端结合Apache POI库导出Excel文件的两种方法,并对比分析了它们的优缺点。
206 0
|
2月前
|
数据可视化 数据处理 Python
Python操作Excel:轻松实现数据处理与分析
Python操作Excel:轻松实现数据处理与分析
25 0
|
3月前
|
自然语言处理 数据可视化 安全
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,涉及疫情背景下周边游需求图谱分析,包括微信公众号文章分类、周边游产品热度分析、本地旅游图谱构建与分析,以及疫情前后旅游产品需求变化分析的Python实现方法。
117 1
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
|
3月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
151 0
|
3月前
|
数据挖掘 调度 Python
【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 Baseline
第十届“泰迪杯”数据挖掘挑战赛B题的基线解决方案,涉及电力系统负荷预测分析,包括数据读取、特征处理、模型训练和评估,以及使用了LightGBM进行回归预测。
109 3
|
3月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
56 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
3月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
72 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
3月前
|
存储 数据可视化 数据挖掘
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题三方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于问题三“本地旅游图谱构建与分析”,介绍了基于OTA和UGC数据的旅游产品关联分析方法,使用支持度、置信度、提升度来计算关联度得分,并进行了结果可视化,同时指出了方案的改进方向。
66 1