数据分享|R语言改进的K-MEANS(K-均值)聚类算法分析股票盈利能力和可视化

简介: 数据分享|R语言改进的K-MEANS(K-均值)聚类算法分析股票盈利能力和可视化

全文链接:http://tecdat.cn/?p=32418


大量数据中具有"相似"特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分点击文末“阅读原文”获取完整代码数据


人们在投资时总期望以最小的风险获取最大的利益,面对庞大的股票市场和繁杂的股票数据,要想对股票进行合理的分析和选择,聚类分析就显得尤为重要。

在本文中,我们采用了改进K-means聚类法帮助客户对随机选择的个股查看文末了解数据免费获取方式进行了聚类,并对各类股票进行了分析,给出了相应的投资建议。


读取数据


股票盈利能力分析数据

data=read.xlsx("股票盈利能力分析.xlsx")


初始聚类中心个数


初始聚类中心数目k的选取是一个较为困难的问题。传统的K-means聚类算法需要用户事先给定聚类数目k,但是用户一般情况下并不知道取什么样的k值对自己最有利、或者说什么样的k值对实际应用才是最合理的,这种情况下给出k值虽然对聚类本身会比较快速、高效,但是对于一些实际问题来说聚类效果却是不佳的。所以,下面我提出一种确定最佳聚类个数k的方法。


算法描述与步骤:

输入:包含n个对象的数据集;

输出:使得取值最小的对应的k值。

(1)根据初步确定簇类个数k的范围;

(2)仍然是用K-means算法对的每一个k值分别进行聚类;

(3)分别计算不同聚类个数k所对应的的值;

(4)找出最小的值,记下对应的k值,算法结束。

S[1]=sum(abs(data[,3:9]-result$centers)^2)/min(abs(data[,3:9]-result$ce
plot(2:6,S,type="b")

点击标题查阅往期内容


R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化


01

02

03

04


初始中心位置的选取


传统的K-means聚类算法中,我们总是希望能将孤立点对聚类效果的影响最小化,但是孤立点实际上在诈骗探测、安全性检测以及设备故障分析等方面起着不凡的作用;然而,本文排除以上这些因素,单纯地考虑聚类效果好坏。那么为了避免将孤立点误选为初始中心,我们选择高密度数据集合区域D中的数据作为聚类初始中心。


基本思想:

传统K-means聚类采用随机选择初始中心的方法一旦选到孤立点,会对聚类结果产生很大的影响,所以我们将初始中心的选择范围放在高密度区。首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点,再找出与这两个点的距离之和最大的点作为第3个初始中心,有了第3个初始中心,同样找到与已有的三个初始聚类中心距离和最远的点作为第4个初始中心,以此类推,直到在高密度区将k个聚类中心都找出来为止。

算法描述与步骤:

输入:包含n个对象的数据集,簇类数目k;

输出:k个初始聚类中心。

(1)计算n个数据样本中每个对象x的的密度,当满足核心对象的条件时,将该对象加到高密度区域D中去;

(2)在区域D中计算两两数据样本间的距离,找到间距最大的两个样本点作为初始聚类中心,记为;

(3)再从区域D中找出满足条件:的点,将作为第三个初始聚类中心;

(4)仍然从区域D中找出满足到前面三个聚类中心的距离和最大的点;

(5)按照同样的方法进行下去,直到找到第k个初始聚类中心,结束。

#首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点,再找出与这两个点的距离之和最大的点作为第3个初始中心,
  
  dd=dist(data)
  dd=as.matrix(dd)
  #高密度区域
  D=which(dd<max(dd)/6 & dd!=0,arr.ind = T)
  D=unique(D[,1])
  dataD=data[D,]
  index=0
  for(i in 1:k){
    
    index[i]=as.numeric(row.names(which (

相似性度量的改进

在前面确定了k值以及k个初始聚类中心后,只要再确定相似性度量即可得到聚类结果。然而传统的K-means聚类采用欧氏距离作为相似性度量,这种方法没有很好地考虑到其实每个数据样本对聚类结果的影响可能是不同的,一律采用欧氏距离进行相似性衡量对聚类结果会产生较大影响。那么,我们如果根据数据样本的重要性对其赋予一个权值,就会减小孤立点等一些因素对聚类的影响,这种改进的度量方法我们称之为加权欧氏距离。

###根据改进后的加权欧氏距离公式
  ##   检验聚类操作是否需要结束,改进后的加权准则函数公式:的值最小或保持不变了
  sqrt(sum((c1$Centers/(sum(c1$Centers)/len


绘制聚类中心和可视化


lot(data[,-c(1:4)], fit$cluste


输出聚类结果和聚类中心


###########################聚类类别###############
fit$Clusters
###########################聚类中心#########################
fit$Centers


相关文章
|
7天前
|
算法
计算机算法设计与分析(1-6章 复习笔记)
计算机算法设计与分析(1-6章 复习笔记)
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】贝叶斯算法在机器学习中的应用与实例分析
【机器学习】贝叶斯算法在机器学习中的应用与实例分析
7 1
|
4天前
|
算法 Java Go
斐波那契数列是一个非常经典的数学问题,在计算机科学中也经常被用作算法设计和分析的例子。
斐波那契数列是一个非常经典的数学问题,在计算机科学中也经常被用作算法设计和分析的例子。
|
2天前
|
机器学习/深度学习 算法 数据可视化
m基于PSO-LSTM粒子群优化长短记忆网络的电力负荷数据预测算法matlab仿真
在MATLAB 2022a中,应用PSO优化的LSTM模型提升了电力负荷预测效果。优化前预测波动大,优化后预测更稳定。PSO借鉴群体智能,寻找LSTM超参数(如学习率、隐藏层大小)的最优组合,以最小化误差。LSTM通过门控机制处理序列数据。代码显示了模型训练、预测及误差可视化过程。经过优化,模型性能得到改善。
16 6
|
2天前
|
算法 调度
基于变异混合蛙跳算法的车间调度最优化matlab仿真,可以任意调整工件数和机器数,输出甘特图
**摘要:** 实现变异混合蛙跳算法的MATLAB2022a版车间调度优化程序,支持动态调整工件和机器数,输出甘特图。核心算法结合SFLA与变异策略,解决Job-Shop Scheduling Problem,最小化总完成时间。SFLA模拟蛙群行为,分组进行局部搜索和全局信息交换。变异策略增强全局探索,避免局部最优。程序初始化随机解,按规则更新,经多次迭代和信息交换后终止。
|
12天前
|
算法
基于GA-PSO遗传粒子群混合优化算法的VRPTW问题求解matlab仿真
摘要: 本文介绍了考虑时间窗的车辆路径问题(VRPTW),在MATLAB2022a中进行测试。VRPTW涉及车辆从配送中心出发,服务客户并返回,需在指定时间窗内完成且满足车辆容量限制,目标是最小化总行驶成本。文章探讨了遗传算法(GA)和粒子群优化(PSO)的基本原理及其在VRPTW中的应用,包括编码、适应度函数、选择、交叉、变异等步骤。同时,提出了动态惯性权重、精英策略、邻域搜索、多种群和启发式信息等优化策略,以应对时间窗限制并提升算法性能。
|
7天前
|
算法 JavaScript 决策智能
基于禁忌搜索算法的TSP路径规划matlab仿真
**摘要:** 使用禁忌搜索算法解决旅行商问题(TSP),在MATLAB2022a中实现路径规划,显示优化曲线与路线图。TSP寻找最短城市访问路径,算法通过避免局部最优,利用禁忌列表不断调整顺序。关键步骤包括初始路径选择、邻域搜索、解评估、选择及禁忌列表更新。过程示意图展示搜索效果。
|
7天前
|
机器学习/深度学习 算法
基于BP神经网络和小波变换特征提取的烟草香型分类算法matlab仿真,分为浓香型,清香型和中间香型
```markdown 探索烟草香型分类:使用Matlab2022a中的BP神经网络结合小波变换。小波分析揭示香气成分的局部特征,降低维度,PCA等用于特征选择。BP网络随后处理这些特征,以区分浓香、清香和中间香型。 ```
|
10天前
|
算法 调度 决策智能
基于自适应遗传算法的车间调度matlab仿真,可以任意调整工件数和机器数,输出甘特图
这是一个使用MATLAB2022a实现的自适应遗传算法解决车间调度问题的程序,能调整工件数和机器数,输出甘特图和适应度收敛曲线。程序通过编码初始化、适应度函数、遗传操作(选择、交叉、变异)及自适应机制进行优化,目标如最小化完工时间。算法在迭代过程中动态调整参数,以提升搜索效率和全局优化。
|
11天前
|
传感器 算法 安全
基于WSN网络的定向步幻影路由算法matlab仿真
该文探讨了无线传感器网络中的位置隐私保护,对比了NDRW路由与定向步幻影路由在安全时间和能耗方面的性能。在MATLAB2022a中进行测试,结果显示NDRW路由提供最长的安全时间,尤其在长距离传输时,且在近距离下能耗低于幻影路由。幻影路由虽消耗更多能量,但通过随机步创造幻影源以增强安全性。NDRW路由利用非确定性随机游走策略,避免拥堵并提高效率,而幻影路由则引入方向性控制,通过启发式算法优化路径选择。

热门文章

最新文章