数据分享|R语言改进的K-MEANS(K-均值)聚类算法分析股票盈利能力和可视化

简介: 数据分享|R语言改进的K-MEANS(K-均值)聚类算法分析股票盈利能力和可视化

全文链接:http://tecdat.cn/?p=32418


大量数据中具有"相似"特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分点击文末“阅读原文”获取完整代码数据


人们在投资时总期望以最小的风险获取最大的利益,面对庞大的股票市场和繁杂的股票数据,要想对股票进行合理的分析和选择,聚类分析就显得尤为重要。

在本文中,我们采用了改进K-means聚类法帮助客户对随机选择的个股查看文末了解数据免费获取方式进行了聚类,并对各类股票进行了分析,给出了相应的投资建议。


读取数据


股票盈利能力分析数据

data=read.xlsx("股票盈利能力分析.xlsx")


初始聚类中心个数


初始聚类中心数目k的选取是一个较为困难的问题。传统的K-means聚类算法需要用户事先给定聚类数目k,但是用户一般情况下并不知道取什么样的k值对自己最有利、或者说什么样的k值对实际应用才是最合理的,这种情况下给出k值虽然对聚类本身会比较快速、高效,但是对于一些实际问题来说聚类效果却是不佳的。所以,下面我提出一种确定最佳聚类个数k的方法。


算法描述与步骤:

输入:包含n个对象的数据集;

输出:使得取值最小的对应的k值。

(1)根据初步确定簇类个数k的范围;

(2)仍然是用K-means算法对的每一个k值分别进行聚类;

(3)分别计算不同聚类个数k所对应的的值;

(4)找出最小的值,记下对应的k值,算法结束。

S[1]=sum(abs(data[,3:9]-result$centers)^2)/min(abs(data[,3:9]-result$ce
plot(2:6,S,type="b")

点击标题查阅往期内容


R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化


01

02

03

04


初始中心位置的选取


传统的K-means聚类算法中,我们总是希望能将孤立点对聚类效果的影响最小化,但是孤立点实际上在诈骗探测、安全性检测以及设备故障分析等方面起着不凡的作用;然而,本文排除以上这些因素,单纯地考虑聚类效果好坏。那么为了避免将孤立点误选为初始中心,我们选择高密度数据集合区域D中的数据作为聚类初始中心。


基本思想:

传统K-means聚类采用随机选择初始中心的方法一旦选到孤立点,会对聚类结果产生很大的影响,所以我们将初始中心的选择范围放在高密度区。首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点,再找出与这两个点的距离之和最大的点作为第3个初始中心,有了第3个初始中心,同样找到与已有的三个初始聚类中心距离和最远的点作为第4个初始中心,以此类推,直到在高密度区将k个聚类中心都找出来为止。

算法描述与步骤:

输入:包含n个对象的数据集,簇类数目k;

输出:k个初始聚类中心。

(1)计算n个数据样本中每个对象x的的密度,当满足核心对象的条件时,将该对象加到高密度区域D中去;

(2)在区域D中计算两两数据样本间的距离,找到间距最大的两个样本点作为初始聚类中心,记为;

(3)再从区域D中找出满足条件:的点,将作为第三个初始聚类中心;

(4)仍然从区域D中找出满足到前面三个聚类中心的距离和最大的点;

(5)按照同样的方法进行下去,直到找到第k个初始聚类中心,结束。

#首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点,再找出与这两个点的距离之和最大的点作为第3个初始中心,
  
  dd=dist(data)
  dd=as.matrix(dd)
  #高密度区域
  D=which(dd<max(dd)/6 & dd!=0,arr.ind = T)
  D=unique(D[,1])
  dataD=data[D,]
  index=0
  for(i in 1:k){
    
    index[i]=as.numeric(row.names(which (

相似性度量的改进

在前面确定了k值以及k个初始聚类中心后,只要再确定相似性度量即可得到聚类结果。然而传统的K-means聚类采用欧氏距离作为相似性度量,这种方法没有很好地考虑到其实每个数据样本对聚类结果的影响可能是不同的,一律采用欧氏距离进行相似性衡量对聚类结果会产生较大影响。那么,我们如果根据数据样本的重要性对其赋予一个权值,就会减小孤立点等一些因素对聚类的影响,这种改进的度量方法我们称之为加权欧氏距离。

###根据改进后的加权欧氏距离公式
  ##   检验聚类操作是否需要结束,改进后的加权准则函数公式:的值最小或保持不变了
  sqrt(sum((c1$Centers/(sum(c1$Centers)/len


绘制聚类中心和可视化


lot(data[,-c(1:4)], fit$cluste


输出聚类结果和聚类中心


###########################聚类类别###############
fit$Clusters
###########################聚类中心#########################
fit$Centers


相关文章
|
11月前
|
数据采集 机器学习/深度学习 算法
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
740 4
|
9月前
|
机器学习/深度学习 边缘计算 算法
NOMA和OFDMA优化算法分析
NOMA和OFDMA优化算法分析
451 127
|
6月前
|
运维 监控 JavaScript
基于 Node.js 图结构的局域网设备拓扑分析算法在局域网内监控软件中的应用研究
本文探讨图结构在局域网监控系统中的应用,通过Node.js实现设备拓扑建模、路径分析与故障定位,提升网络可视化、可追溯性与运维效率,结合模拟实验验证其高效性与准确性。
371 3
|
6月前
|
存储 边缘计算 算法
【太阳能学报EI复现】基于粒子群优化算法的风-水电联合优化运行分析(Matlab代码实现)
【太阳能学报EI复现】基于粒子群优化算法的风-水电联合优化运行分析(Matlab代码实现)
124 0
|
8月前
|
编解码 算法 5G
MIMO雷达空间谱估计中Capon算法与MUSIC算法的对比分析及实现
MIMO雷达空间谱估计中Capon算法与MUSIC算法的对比分析及实现
744 2
|
7月前
|
机器学习/深度学习 算法 5G
【MUSIC、最大似然与克拉美-罗下界】MUSIC与ESPRIT 算法来估计到达角(AoA),并尝试推导克拉美-罗下界(CRLB)以分析其性能研究(Matlab代码实现)
【MUSIC、最大似然与克拉美-罗下界】MUSIC与ESPRIT 算法来估计到达角(AoA),并尝试推导克拉美-罗下界(CRLB)以分析其性能研究(Matlab代码实现)
409 0
|
8月前
|
人工智能 自然语言处理 算法
2025 年 7 月境内深度合成服务算法备案情况分析报告
2025年7月,中央网信办发布第十二批深度合成算法备案信息,全国389款产品通过备案,服务提供者占比超七成。截至7月14日,全国累计备案达3834款,覆盖文本、图像、音视频等多模态场景,广泛应用于生活服务、医疗、金融等领域。广东以135款居首,数字人、AI客服等C端应用主导,民营企业成主力,国企聚焦公共服务。随着AI政策推动,备案已成为AI产品合规上线关键环节。
|
11月前
|
存储 监控 算法
员工行为监控软件中的 Go 语言哈希表算法:理论、实现与分析
当代企业管理体系中,员工行为监控软件已逐步成为维护企业信息安全、提升工作效能的关键工具。这类软件能够实时记录员工操作行为,为企业管理者提供数据驱动的决策依据。其核心支撑技术在于数据结构与算法的精妙运用。本文聚焦于 Go 语言中的哈希表算法,深入探究其在员工行为监控软件中的应用逻辑与实现机制。
264 14
|
自然语言处理 算法 安全
境内深度合成服务算法备案通过名单分析报告
本报告基于《境内深度合成服务算法备案通过名单》,分析了2023年6月至2025年3月公布的10批备案数据,涵盖属地分布、行业应用及产品形式等多个维度。报告显示,深度合成算法主要集中于经济发达地区,如北京、广东、上海等地,涉及教育、医疗、金融、娱乐等多行业。未来趋势显示技术将向多模态融合、行业定制化和安全合规方向发展。建议企业加强技术研发、拓展应用场景、关注政策动态,以在深度合成领域抢占先机。此分析旨在为企业提供参考,助力把握技术发展机遇。
境内深度合成服务算法备案通过名单分析报告
|
供应链 算法 搜索推荐
从公布的前十一批其他算法备案通过名单分析
2025年3月12日,国家网信办发布算法备案信息,深度合成算法通过395款,其他算法45款。前10次备案中,深度合成算法累计3234款,其他类别647款。个性化推送类占比49%,涵盖电商、资讯、视频推荐;检索过滤类占31.53%,用于搜索优化和内容安全;调度决策类占9.12%,集中在物流配送等;排序精选类占8.81%,生成合成类占1.55%。应用领域包括电商、社交媒体、物流、金融、医疗等,互联网科技企业主导,技术向垂直行业渗透,内容安全和多模态技术成新增长点。未来大模型检索和多模态生成或成重点。
从公布的前十一批其他算法备案通过名单分析

热门文章

最新文章