数据挖掘算法Analysis Services-基于SQL Server的数据挖掘

本文涉及的产品
RDS SQL Server Serverless,2-4RCU 50GB 3个月
推荐场景:
云数据库 RDS SQL Server,基础系列 2核4GB
简介:

数据挖掘算法(Analysis Services – 数据挖掘)

data mining algorithm is a set of heuristics and calculations that creates a data mining model from data.” xml:space=”preserve”>“数据挖掘算法”是根据数据创建数据挖掘模型的一组试探法和计算。 为了创建模型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。 算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。 然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。

算法根据您的数据创建的挖掘模型可以采用多种形式,这包括:

  • 说明数据集中的事例如何相关的一组分类。
  • 预测结果并描述不同条件是如何影响该结果的决策树。
  • 预测销量的数学模型。
  • 说明在事务中如何将产品分组到一起的一组规则,以及一起购买产品的概率。

Microsoft SQL Server Analysis Services 提供了多种在数据挖掘解决方案中使用的算法。 这些算法是在数据挖掘中使用的一些最流行方法的实现方式。 通过使用提供的 API 或者使用 SQL Server Integration Services 中的数据挖掘组件,所有 Microsoft 数据挖掘算法都是可以自定义且完全可编程的。

您还可以使用符合 OLE DB for Data Mining 规范的第三方算法,或者开发可注册为服务、然后在 SQL Server 数据挖掘框架中使用的自定义算法。

 

为特定的分析任务选择最佳算法很有挑战性。 您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。 例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。

按类型选择算法

 

Analysis Services 包括了以下算法类型:

  • Classification algorithms predict one or more discrete variables, based on the other attributes in the dataset. ” xml:space=”preserve”>分类算法基于数据集中的其他属性预测一个或多个离散变量。
  • Regression algorithms predict one or more continuous variables, such as profit or loss, based on other attributes in the dataset.” xml:space=”preserve”>回归算法基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。
  • Segmentation algorithms divide data into groups, or clusters, of items that have similar properties.” xml:space=”preserve”>分割算法将数据划分为组或分类,这些组或分类的项具有相似属性。
  • Association algorithms find correlations between different attributes in a dataset.” xml:space=”preserve”>关联算法查找数据集中的不同属性之间的相关性。 这类算法最常见的应用是创建可用于市场篮分析的关联规则。
  • Sequence analysis algorithms summarize frequent sequences or episodes in data, such as a Web path flow. ” xml:space=”preserve”>顺序分析算法汇总数据中的常见顺序或事件,如 Web 路径流。

但是,限制为您的解决方案中的一种算法是没有必要的。 有经验的分析人员有时候将使用一种算法来确定最高效的输入(即变量),然后应用其他算法以便基于这些数据预测特定结果。 SQL Server 数据挖掘使您可以在单个挖掘结构的基础上生成多个模型,这样,在单个数据挖掘解决方案内,您可以使用聚类分析算法、决策树模型和 naïve Bayes 模型来针对您的数据获取不同视图。 您还可以在单个解决方案内使用多种算法来执行单独的任务:例如,您可以使用回归来获取财务预测,并且使用神经网络算法执行销售影响因素分析。

按任务选择算法

为帮助您选择用于特定任务的算法,下表给出了每种算法在传统上用于的任务类型的建议。

 
任务示例 可使用的 Microsoft 算法
预测离散属性

 

  • 将预期购买者列表中的客户标记为好或差的潜在客户。
  • 计算服务器在未来 6 个月内将出现故障的概率。
  • 将患者结果分类并探讨相关因素。

 

决策树算法

 

Naive Bayes 算法

聚类分析算法

神经网络算法

预测连续属性

 

  • 预测下一年的销售额。
  • 根据过去的历史信息和季节趋势,预测网站访问者。
  • 根据人口统计信息生成风险评分。
决策树算法

 

时序算法

线性回归算法

预测顺序

 

  • 执行公司网站的点击流分析。
  • 分析导致服务器故障的因素。
  • 捕获和分析门诊访问期间活动的顺序,以便围绕一般的活动形成最佳做法。
顺序分析和聚类分析算法
查找事务中常见项的组

 

  • 使用市场篮分析来确定产品摆放。
  • 建议客户购买其他产品。
  • 分析来自事件访问者的调查数据,确定哪些活动或展台是相关的,以便计划将来的活动。
关联算法

 

决策树算法

查找相似项的组

 

  • 基于人口统计信息和行为之类的属性,创建患者风险配置文件组。
  • 按照浏览和购买模式分析用户。
  • 标识具有相似使用特性的服务器。
聚类分析算法

 

顺序分析和聚类分析算法

算法的明细,大家可以参考后续的文章,或者在MSDN的技术文档中心进行查找
 
来源:MSDN



本文转自茄子_2008博客园博客,原文链接:http://www.cnblogs.com/xd502djj/p/4071790.html ,如需转载请自行联系原作者。

相关实践学习
使用SQL语句管理索引
本次实验主要介绍如何在RDS-SQLServer数据库中,使用SQL语句管理索引。
SQL Server on Linux入门教程
SQL Server数据库一直只提供Windows下的版本。2016年微软宣布推出可运行在Linux系统下的SQL Server数据库,该版本目前还是早期预览版本。本课程主要介绍SQLServer On Linux的基本知识。 相关的阿里云产品:云数据库RDS SQL Server版 RDS SQL Server不仅拥有高可用架构和任意时间点的数据恢复功能,强力支撑各种企业应用,同时也包含了微软的License费用,减少额外支出。 了解产品详情: https://www.aliyun.com/product/rds/sqlserver
目录
相关文章
|
4月前
|
SQL IDE Java
Java连接SQL Server数据库的详细操作流程
Java连接SQL Server数据库的详细操作流程
|
14天前
|
关系型数据库 MySQL 网络安全
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
|
2月前
|
Java 测试技术 容器
从零到英雄:Struts 2 最佳实践——你的Web应用开发超级变身指南!
【8月更文挑战第31天】《Struts 2 最佳实践:从设计到部署的全流程指南》深入介绍如何利用 Struts 2 框架从项目设计到部署的全流程。从初始化配置到采用 MVC 设计模式,再到性能优化与测试,本书详细讲解了如何构建高效、稳定的 Web 应用。通过最佳实践和代码示例,帮助读者掌握 Struts 2 的核心功能,并确保应用的安全性和可维护性。无论是在项目初期还是后期运维,本书都是不可或缺的参考指南。
38 0
|
3月前
|
SQL 存储 监控
SQL Server的并行实施如何优化?
【7月更文挑战第23天】SQL Server的并行实施如何优化?
71 13
|
3月前
|
SQL
解锁 SQL Server 2022的时间序列数据功能
【7月更文挑战第14天】要解锁SQL Server 2022的时间序列数据功能,可使用`generate_series`函数生成整数序列,例如:`SELECT value FROM generate_series(1, 10)。此外,`date_bucket`函数能按指定间隔(如周)对日期时间值分组,这些工具结合窗口函数和其他时间日期函数,能高效处理和分析时间序列数据。更多信息请参考官方文档和技术资料。
|
3月前
|
SQL 存储 网络安全
关系数据库SQLserver 安装 SQL Server
【7月更文挑战第26天】
51 6
|
2月前
|
SQL 安全 Java
驱动程序无法通过使用安全套接字层(SSL)加密与 SQL Server 建立安全连接。错误:“The server selected protocol version TLS10 is not accepted by client
驱动程序无法通过使用安全套接字层(SSL)加密与 SQL Server 建立安全连接。错误:“The server selected protocol version TLS10 is not accepted by client
253 0
|
3月前
|
存储 SQL C++
对比 SQL Server中的VARCHAR(max) 与VARCHAR(n) 数据类型
【7月更文挑战7天】SQL Server 中的 VARCHAR(max) vs VARCHAR(n): - VARCHAR(n) 存储最多 n 个字符(1-8000),适合短文本。 - VARCHAR(max) 可存储约 21 亿个字符,适合大量文本。 - VARCHAR(n) 在处理小数据时性能更好,空间固定。 - VARCHAR(max) 对于大文本更合适,但可能影响性能。 - 选择取决于数据长度预期和业务需求。
173 1
|
3月前
|
SQL Oracle 关系型数据库
MySQL、SQL Server和Oracle数据库安装部署教程
数据库的安装部署教程因不同的数据库管理系统(DBMS)而异,以下将以MySQL、SQL Server和Oracle为例,分别概述其安装部署的基本步骤。请注意,由于软件版本和操作系统的不同,具体步骤可能会有所变化。
186 3
|
3月前
|
SQL 存储 安全
数据库数据恢复—SQL Server数据库出现逻辑错误的数据恢复案例
SQL Server数据库数据恢复环境: 某品牌服务器存储中有两组raid5磁盘阵列。操作系统层面跑着SQL Server数据库,SQL Server数据库存放在D盘分区中。 SQL Server数据库故障: 存放SQL Server数据库的D盘分区容量不足,管理员在E盘中生成了一个.ndf的文件并且将数据库路径指向E盘继续使用。数据库继续运行一段时间后出现故障并报错,连接失效,SqlServer数据库无法附加查询。管理员多次尝试恢复数据库数据但是没有成功。