R语言k-prototype聚类新能源汽车行业上市公司分析混合型数据集(上):https://developer.aliyun.com/article/1497074
找到高相关性变量(相关系数大于0.8)
除了删除高相关性的变量外,我们还可以找出相关系数较高的变量对。这些变量对可能包含一些重要的信息,可以帮助我们更好地理解数据。通过计算变量之间的相关系数,并选择相关系数较高的变量对,我们可以得到一组关键的变量对,用于进一步的分析和解释。
highcor=which(abs(cor(data[,-c(1:2)]))>0.85,arr.ind = T) clust(2)
点击标题查阅往期内容
数据分享|MATLAB、R基于Copula方法和k-means聚类的股票选择研究上证A股数据
01
02
03
04
lust(3)
lust(4)
ust(5)
lust(6)
将数据使用算法分成4个类别后可以看到 每个类别之间分布呈不同的簇,交集较少 ,因此可以认为得到的聚类结果较好。
数据标准化
在进行聚类分析之前,我们需要对数据进行标准化。标准化可以将不同变量之间的尺度差异进行统一,从而避免某些变量对聚类结果的影响过大。通过使用R语言中的scale()函数,我们可以对数据进行标准化处理。
x=scale(data2[,-c(1:2)]) d <- dist(x) hc <- rolust(d) lust(2)
st(3)
ust(4)
ust(5)
ust(6)
将数据使用算法分成4个类别后可以看到 每个类别之间分布呈不同的簇,交集较少 ,因此可以认为得到的聚类结果较好。
通过以上步骤,我们可以使用R语言中的k-prototype算法对混合型数据集进行聚类分析,从而帮助我们更好地理解和解释新能源汽车行业上市公司的特征和模式。这对于业界和学术界的研究人员来说,具有重要的实际和理论意义。