数据分享|R语言改进的K-MEANS(K-均值)聚类算法分析股票盈利能力和可视化

简介: 数据分享|R语言改进的K-MEANS(K-均值)聚类算法分析股票盈利能力和可视化

全文链接:http://tecdat.cn/?p=32418


大量数据中具有"相似"特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分点击文末“阅读原文”获取完整代码数据


人们在投资时总期望以最小的风险获取最大的利益,面对庞大的股票市场和繁杂的股票数据,要想对股票进行合理的分析和选择,聚类分析就显得尤为重要。

在本文中,我们采用了改进K-means聚类法帮助客户对随机选择的个股查看文末了解数据免费获取方式进行了聚类,并对各类股票进行了分析,给出了相应的投资建议。


读取数据


股票盈利能力分析数据

data=read.xlsx("股票盈利能力分析.xlsx")


初始聚类中心个数


初始聚类中心数目k的选取是一个较为困难的问题。传统的K-means聚类算法需要用户事先给定聚类数目k,但是用户一般情况下并不知道取什么样的k值对自己最有利、或者说什么样的k值对实际应用才是最合理的,这种情况下给出k值虽然对聚类本身会比较快速、高效,但是对于一些实际问题来说聚类效果却是不佳的。所以,下面我提出一种确定最佳聚类个数k的方法。


算法描述与步骤:

输入:包含n个对象的数据集;

输出:使得取值最小的对应的k值。

(1)根据初步确定簇类个数k的范围;

(2)仍然是用K-means算法对的每一个k值分别进行聚类;

(3)分别计算不同聚类个数k所对应的的值;

(4)找出最小的值,记下对应的k值,算法结束。

S[1]=sum(abs(data[,3:9]-result$centers)^2)/min(abs(data[,3:9]-result$ce
plot(2:6,S,type="b")

点击标题查阅往期内容


R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化


01

02

03

04


初始中心位置的选取


传统的K-means聚类算法中,我们总是希望能将孤立点对聚类效果的影响最小化,但是孤立点实际上在诈骗探测、安全性检测以及设备故障分析等方面起着不凡的作用;然而,本文排除以上这些因素,单纯地考虑聚类效果好坏。那么为了避免将孤立点误选为初始中心,我们选择高密度数据集合区域D中的数据作为聚类初始中心。


基本思想:

传统K-means聚类采用随机选择初始中心的方法一旦选到孤立点,会对聚类结果产生很大的影响,所以我们将初始中心的选择范围放在高密度区。首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点,再找出与这两个点的距离之和最大的点作为第3个初始中心,有了第3个初始中心,同样找到与已有的三个初始聚类中心距离和最远的点作为第4个初始中心,以此类推,直到在高密度区将k个聚类中心都找出来为止。

算法描述与步骤:

输入:包含n个对象的数据集,簇类数目k;

输出:k个初始聚类中心。

(1)计算n个数据样本中每个对象x的的密度,当满足核心对象的条件时,将该对象加到高密度区域D中去;

(2)在区域D中计算两两数据样本间的距离,找到间距最大的两个样本点作为初始聚类中心,记为;

(3)再从区域D中找出满足条件:的点,将作为第三个初始聚类中心;

(4)仍然从区域D中找出满足到前面三个聚类中心的距离和最大的点;

(5)按照同样的方法进行下去,直到找到第k个初始聚类中心,结束。

#首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点,再找出与这两个点的距离之和最大的点作为第3个初始中心,
  
  dd=dist(data)
  dd=as.matrix(dd)
  #高密度区域
  D=which(dd<max(dd)/6 & dd!=0,arr.ind = T)
  D=unique(D[,1])
  dataD=data[D,]
  index=0
  for(i in 1:k){
    
    index[i]=as.numeric(row.names(which (

相似性度量的改进

在前面确定了k值以及k个初始聚类中心后,只要再确定相似性度量即可得到聚类结果。然而传统的K-means聚类采用欧氏距离作为相似性度量,这种方法没有很好地考虑到其实每个数据样本对聚类结果的影响可能是不同的,一律采用欧氏距离进行相似性衡量对聚类结果会产生较大影响。那么,我们如果根据数据样本的重要性对其赋予一个权值,就会减小孤立点等一些因素对聚类的影响,这种改进的度量方法我们称之为加权欧氏距离。

###根据改进后的加权欧氏距离公式
  ##   检验聚类操作是否需要结束,改进后的加权准则函数公式:的值最小或保持不变了
  sqrt(sum((c1$Centers/(sum(c1$Centers)/len


绘制聚类中心和可视化


lot(data[,-c(1:4)], fit$cluste


输出聚类结果和聚类中心


###########################聚类类别###############
fit$Clusters
###########################聚类中心#########################
fit$Centers


相关文章
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
探索大数据分析的无限可能:R语言的应用与实践
探索大数据分析的无限可能:R语言的应用与实践
120 9
|
8月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
7月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
145 3
|
8月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
167 9
|
11天前
|
算法 数据安全/隐私保护
基于GA遗传算法的悬索桥静载试验车辆最优布载matlab仿真
本程序基于遗传算法(GA)实现悬索桥静载试验车辆最优布载的MATLAB仿真(2022A版)。目标是自动化确定车辆位置,使加载效率ηq满足0.95≤ηq≤1.05且尽量接近1,同时减少车辆数量与布载时间。核心原理通过优化模型平衡最小车辆使用与ηq接近1的目标,并考虑桥梁载荷、车辆间距等约束条件。测试结果展示布载方案的有效性,适用于悬索桥承载能力评估及性能检测场景。
|
11天前
|
算法 机器人 数据安全/隐私保护
基于双向RRT算法的三维空间最优路线规划matlab仿真
本程序基于双向RRT算法实现三维空间最优路径规划,适用于机器人在复杂环境中的路径寻找问题。通过MATLAB 2022A测试运行,结果展示完整且无水印。算法从起点和终点同时构建两棵随机树,利用随机采样、最近节点查找、扩展等步骤,使两棵树相遇以形成路径,显著提高搜索效率。相比单向RRT,双向RRT在高维或障碍物密集场景中表现更优,为机器人技术提供了有效解决方案。
|
1月前
|
存储 算法 调度
基于和声搜索优化算法的机器工作调度matlab仿真,输出甘特图
本程序基于和声搜索优化算法(Harmony Search, HS),实现机器工作调度的MATLAB仿真,输出甘特图展示调度结果。算法通过模拟音乐家即兴演奏寻找最佳和声的过程,优化任务在不同机器上的执行顺序,以最小化完成时间和最大化资源利用率为目标。程序适用于MATLAB 2022A版本,运行后无水印。核心参数包括和声记忆大小(HMS)等,适应度函数用于建模优化目标。附带完整代码与运行结果展示。
|
11天前
|
算法 JavaScript 数据安全/隐私保护
基于GA遗传优化的最优阈值计算认知异构网络(CHN)能量检测算法matlab仿真
本内容介绍了一种基于GA遗传优化的阈值计算方法在认知异构网络(CHN)中的应用。通过Matlab2022a实现算法,完整代码含中文注释与操作视频。能量检测算法用于感知主用户信号,其性能依赖检测阈值。传统固定阈值方法易受噪声影响,而GA算法通过模拟生物进化,在复杂环境中自动优化阈值,提高频谱感知准确性,增强CHN的通信效率与资源利用率。预览效果无水印,核心程序部分展示,适合研究频谱感知与优化算法的学者参考。
|
1月前
|
算法 安全 数据安全/隐私保护
基于AES的遥感图像加密算法matlab仿真
本程序基于MATLAB 2022a实现,采用AES算法对遥感图像进行加密与解密。主要步骤包括:将彩色图像灰度化并重置大小为256×256像素,通过AES的字节替换、行移位、列混合及轮密钥加等操作完成加密,随后进行解密并验证图像质量(如PSNR值)。实验结果展示了原图、加密图和解密图,分析了图像直方图、相关性及熵的变化,确保加密安全性与解密后图像质量。该方法适用于保护遥感图像中的敏感信息,在军事、环境监测等领域具有重要应用价值。
|
2月前
|
算法 数据可视化 BI
基于免疫算法的最优物流仓储点选址方案MATLAB仿真
本程序基于免疫算法实现物流仓储点选址优化,并通过MATLAB 2022A仿真展示结果。核心代码包括收敛曲线绘制、最优派送路线规划及可视化。算法模拟生物免疫系统,通过多样性生成、亲和力评价、选择、克隆、变异和抑制机制,高效搜索最优解。解决了物流仓储点选址这一复杂多目标优化问题,显著提升物流效率与服务质量。附完整无水印运行结果图示。
基于免疫算法的最优物流仓储点选址方案MATLAB仿真