ggplot2|从0开始绘制PCA图

简介: ggplot2|从0开始绘制PCA图

本文首发于“生信补给站”公众号 ggplot2|从0开始绘制PCA图

PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。在数据分析以及生信分析中会经常用到。

本文利用R语言的ggplot2包,从头带您绘制可发表级别的主成分分析图


一 载入数据集和R包



library(ggplot2)
#使用经典iris数据集
df <- iris[c(1, 2, 3, 4)]
head(df)
  Sepal.Length Sepal.Width Petal.Length Petal.Width
1          5.1         3.5          1.4         0.2
2          4.9         3.0          1.4         0.2
3          4.7         3.2          1.3         0.2
4          4.6         3.1          1.5         0.2
5          5.0         3.6          1.4         0.2
6          5.4         3.9          1.7         0.4



二 进行主成分分析


df_pca <- prcomp(df) #计算主成分
df_pcs <-data.frame(df_pca$x, Species = iris$Species)  
head(df_pcs,3)  #查看主成分结果
        PC1        PC2         PC3          PC4 Species
1 -2.684126 -0.3193972  0.02791483  0.002262437  setosa
2 -2.714142  0.1770012  0.21046427  0.099026550  setosa
3 -2.888991  0.1449494 -0.01790026  0.019968390  setosa


三 绘图展示

3.1 基础函数绘制PCA图



plot(df_pca$x[,1], df_pca$x[,2])


image.png

3.2 ggplot2 绘制PCA图


1) Species分颜色



ggplot(df_pcs,aes(x=PC1,y=PC2,color=Species))+ geom_point()


image.png

2)去掉背景及网格线


ggplot(df_pcs,aes(x=PC1,y=PC2,color=Species))+ 
geom_point()+ 
theme_bw() +
theme(panel.border=element_blank(),panel.grid.major=element_blank(),panel.grid.minor=element_blank(),axis.line= element_line(colour = "black"))


image.png

3) 添加PC1  PC2的百分比


percentage<-round(df_pca$sdev / sum(df_pca$sdev) * 100,2)
percentage<-paste(colnames(df_pcs),"(", paste(as.character(percentage), "%", ")", sep=""))
ggplot(df_pcs,aes(x=PC1,y=PC2,color=Species))+
geom_point()+ 
xlab(percentage[1]) +
ylab(percentage[2])


image.png

4) 添加置信椭圆


ggplot(df_pcs,aes(x=PC1,y=PC2,color = Species))+ geom_point()+stat_ellipse(level = 0.95, show.legend = F) + 
annotate('text', label = 'setosa', x = -2, y = -1.25, size = 5, colour = '#f8766d') +
annotate('text', label = 'versicolor', x = 0, y = - 0.5, size = 5, colour = '#00ba38') +
annotate('text', label = 'virginica', x = 3, y = 0.5, size = 5, colour = '#619cff')


image.png

5) 查看各变量对于PCA的贡献



df_r <- as.data.frame(df_pca$rotation)
df_r$feature <- row.names(df_r)
df_r 
                     PC1         PC2         PC3        PC4      feature
Sepal.Length  0.36138659 -0.65658877  0.58202985  0.3154872 Sepal.Length
Sepal.Width  -0.08452251 -0.73016143 -0.59791083 -0.3197231  Sepal.Width
Petal.Length  0.85667061  0.17337266 -0.07623608 -0.4798390 Petal.Length
Petal.Width   0.35828920  0.07548102 -0.54583143  0.7536574  Petal.Width

贡献度绘图


ggplot(df_r,aes(x=PC1,y=PC2,label=feature,color=feature )) + geom_point()+ geom_text(size=3)


image.png

四 PCA绘图汇总展示


ggplot(df_pcs,aes(x=PC1,y=PC2,color=Species )) + geom_point()+xlab(percentage[1]) + ylab(percentage[2]) + stat_ellipse(level = 0.95, show.legend = F) +
annotate('text', label = 'setosa', x = -2, y = -1.25, size = 5, colour = '#f8766d') +
annotate('text', label = 'versicolor', x = 0, y = - 0.5, size = 5, colour = '#00ba38') +
annotate('text', label = 'virginica', x = 3, y = 0.5, size = 5, colour = '#619cff') + labs(title="Iris PCA Clustering", 
       subtitle=" PC1 and PC2 principal components ",       caption="Source: Iris") + theme_classic()



好了  ,更改数据集即可以自己动手绘制PCA了,生信分析得到的PCA的结果直接绘制即可。


相关文章
|
数据可视化
R语言绘图教程丨Nature论文都在用的多组比较箱线图,自动计算显著性并标注,附带误差线
R语言绘图教程丨Nature论文都在用的多组比较箱线图,自动计算显著性并标注,附带误差线
|
7月前
|
JavaScript 前端开发 API
从零开始:开发你的第一个Zotero插件
本文介绍如何从零开始开发Zotero插件,涵盖环境搭建、核心架构、功能实现与发布流程,助你为这一开源文献管理工具贡献定制化功能。
|
存储 机器学习/深度学习 人工智能
2025年阿里云GPU服务器租用价格、选型策略与应用场景详解
随着AI与高性能计算需求的增长,阿里云提供了多种GPU实例,如NVIDIA V100、A10、T4等,适配不同场景。2025年重点实例中,V100实例GN6v单月3830元起,适合大规模训练;A10实例GN7i单月3213.99元起,适用于混合负载。计费模式有按量付费和包年包月,后者成本更低。针对AI训练、图形渲染及轻量级推理等场景,推荐不同配置以优化成本和性能。阿里云还提供抢占式实例、ESSD云盘等资源优化策略,支持eRDMA网络加速和倚天ARM架构,助力企业在2025年实现智能计算的效率与成本最优平衡。 (该简介为原文内容的高度概括,符合要求的字符限制。)
|
数据采集 数据可视化 数据挖掘
使用R语言进行主成分分析(PCA)
【4月更文挑战第26天】本文介绍了如何使用R语言进行主成分分析(PCA),包括安装必要包`stats`、`FactoMineR`和`factoextra`,数据预处理如标准化,使用`PCA()`函数执行PCA,以及通过`summary()`、`fviz_pca_ind()`和`fviz_pca_var()`进行结果解读和可视化。此外,还讨论了如何通过载荷系数解释主成分,强调PCA在数据降维和探索数据结构中的作用。
1568 1
|
缓存 Linux
Linux查看内存命令
1. free free命令是最常用的查看内存使用情况的命令。它显示系统的总内存、已使用内存、空闲内存和交换内存的总量。 free -h • -h 选项:以易读的格式(如GB、MB)显示内存大小。 输出示例: total used free shared buff/cache available Mem: 15Gi 4.7Gi 4.1Gi 288Mi 6.6Gi 9.9Gi Swap: 2.0Gi 0B 2.0Gi • to
3036 2
|
机器学习/深度学习 数据采集 算法
Python基于MTCNN+FaceNet+SVM进行人脸识别项目实战
Python基于MTCNN+FaceNet+SVM进行人脸识别项目实战
如何解决 conda install 库时报错:The environment is inconsistent, please check the package plan carefully
如何解决 conda install 库时报错:The environment is inconsistent, please check the package plan carefully
如何解决 conda install 库时报错:The environment is inconsistent, please check the package plan carefully
|
C++
【SPSS】两独立样本的曼-惠特尼U检验详细操作教程(附案例实战)
【SPSS】两独立样本的曼-惠特尼U检验详细操作教程(附案例实战)
3636 0
|
缓存 负载均衡 关系型数据库
postgresql|数据库|centos7下基于postgresql-12的主从复制的pgpool-4.4的部署和使用
postgresql|数据库|centos7下基于postgresql-12的主从复制的pgpool-4.4的部署和使用
541 0