群体遗传学研究荐读丨应知应会(下)

简介: 群体遗传学研究荐读丨应知应会(下)

群体内选择检验

Tajima's D是日本学者Tajima Fumio 1989年提出的一种统计检验方法,用于检验DNA序列在演化过程中是否遵循中性演化模型。

D值大小有如下三种生物学意义:

  • D > 0: 平衡选择,突然收缩。【稀有等位基因以低频率存在】
  • D < 0: 经历瓶颈效应,随后群体扩张。【稀有等位基因以高频率存在】
  • D = 0: 平衡演变,没有选择的证据

群体间分歧度

叫固定分化指数,用于估计亚群间平均多态性大小与整个种群平均多态性大小的差异,反映的是群体结构的变化。

的取值范围是[0,1]。当=1时表明亚群间有着明显的种群分化,值越高表示分化程度越高。

在中性进化条件下,的大小主要取决于遗传漂变和迁移等因素的影响。假设种群中的某个等位基因对特定环境的适应度较高而经历适应性选择,那该基因的频率在种群中会升高,种群的分化水平增大,群体升高。

值可以和GWAS的结果一起进行分析,超过一定阈值的区域往往和GWAS筛选到的位点是一致的。

如上图关于棉花的重测序群体遗传分析中,GWAS显著性峰值信号与的峰值信号有重叠,相互印证。

群体分歧度检验

ROD可以基于野生群体和驯化群体间核苷酸多态性参数  的差异识别选择型号,也可以测量驯化群体和野生型群体相比损失的多态性。

ROD和Fst一样,都可以和GWAS分析结合起来,通常某个显著关联的重要位点,其周围对应的核酸多样性、选择分化指数都有明显变化,环环相扣。

群体结构分析

进化树、PCA和群体分层图是群体遗传分析的常见三剑客,它们的目的都是为了展示群体结构信息,比如材料之间的分组,亲缘关系,聚类信息等。

进化树

进化树就是将个体按照远近关系分别连接起来的图,其中有根树就是所有的个体都有一个共同的祖先,线条离得越近,表示样品亲缘关系越相似,如下图:

外群定根法:当群体的个体的差异很小时,可以引入其他物种作为根。

无根树只展示个体间的距离,无共同祖先,可以自由的重建拓扑结构,从而修改树的形状,如下图所示:

绘制方法:常用的绘图软件是Phylip和Snpphylo。进化树修饰的软件有MEGA,ggtree等,推荐网页版工具iTOL,可以在线操作。

PCA 主成分分析

PCA是很常见的降维方法,能够清晰明了的看出样品之间的分布情况,散点图中点的直线距离越近,说明关系越紧密。PCA计算的软件很多,plink可以直接用vcf文件计算PCA。

基于PCA进行分群

根据PCA图中的散点信息进行材料划分,比如下图关于大豆重测序的文章附图,不同颜色的点明显呈现不同的分布规律,各自代表不同亚群。

基于PCA进行离群检测

离群样本就是在PCA图看起来和其他样本差异很大的样本,有可能是这个样本的遗传背景和其他样本本来就很大,也有可能是样本混淆了,比如了将野生型的样本标记成了驯化种进行测序。

基于PCA推断亚群进化关系

可以通过PCA分析看出不同个体之间的分布关系,通常与地理因素有关,比如欧洲和亚洲之间由于空间距离原因,导致两个亚群的差异较大,在PCA结果中显示的点距离较远。

群体分层图

进化树和PCA能够看出来群体是不是分层的,但是无法知道群体分成几个群合适,也无法看出群体间的基因交流。不用怕,群体分层图会出手。

群体分层图的本质是堆叠的柱状图,每个柱子是一个样本,可以看出一个样本的血缘组成,有几种颜色就说明该样本由几个祖先而来。

如果只有一个色,那就说明个体很纯。如果有一块颜色很统一,说明这一块儿的样本都含有相似血脉,应该属于同一亚群。

连锁不平衡分析

连锁不平衡(Linkage disequilibrium,LD)由两个名词构成,连锁+不平衡,两者是对立统一的关系,从某个角度来说,表示变异的相关性,这个相关关系,可以使用相关系数  来度量。

LD就是度量两个分子标记的基因型变化是否步调一致,存在相关性的指标。如果两个 SNP 标记位置相邻,那么在群体中也会呈现基因型步调一致的情况。比如有两个基因座,分别对应 A/aB/b 两种等位基因。

如果两个基因座是连锁的,我们将会看到某些基因型往往共同遗传,即某些单倍型的频率会高于期望值。

LD 计算方法

通常使用  和  来表示两个位点之间的LD水平,假如两个连锁的座位A和B,等位基因是A、a、B、b,对应的频率用  加下标来表示,如表示单倍型Ab对应的频率。(共有4个等位基因,以及4种单倍型)

则实际观测到的单倍型频率与期望的单倍型频率之间差异  的计算方法是:

相关系数  的计算方法是:

的计算方法是:

LD 衰减分析

随着标记间的距离增加,平均的LD程度将降低,呈现出衰减状态,这种情况叫LD衰减。

LD 衰减可以用于判断群体的多样性差异,一般野生型群体的LD衰减快于驯化群体。通过LD衰减距离和标记间的平均距离来判断GWAS使用的标记数量是否足够。

GWAS 全基因组关联分析

全基因组关联分析,常用在医学和农学领域。简单理解成将SNP等遗传标记和表型数据进行关联分析,检测和表型相关的位点,然后再倒回去找到对应的基因,研究其对表型的影响。这些被研究的表型在医学上常常是疾病的表型;在农学上常常是受关注的农艺性状,比如水稻的株高、产量、穗粒数等。

GWAS数学模型

以上仅做简单介绍,具体的数学模型和方法请根据相关资料进行了解。

GWAS结果信息

GWAS结果文件通常只有两个图,一个是曼哈顿图,另外一个是QQ图。一般是先看QQ图,如果QQ图正常,曼哈顿图的结果才有意义。

QQ图

正常的QQ图会略微上翘,如果QQ图不正常,就要考虑换个模型算法再试试了。

曼哈顿图

其实本质上就是散点图,每一个点表示一个位点,位点越高表示越显著,如果点多了而且高低不一致,看起来就像曼哈顿的高楼一样错综复杂。(优雅的科研人)

640.png

上图中展示的是棉花重测序进行GWAS分析的结果,关键出峰的点就是研究目标位置,之后再进行功能验证实验。


最后,感谢您阅读至此!这篇笔记的素材是整理了简书上“研究僧小蓝哥”部分内容,对群体遗传学习有一定帮助,如果感觉有用欢迎转发,多多交流。

参考资料:
https://www.jianshu.com/p/807e54278539
https://zhuanlan.zhihu.com/p/541850657
https://www.jianshu.com/p/9793e14c0d08
相关文章
|
6月前
|
人工智能 自然语言处理 算法
当prompt策略遇上分治算法,南加大、微软让大模型炼成“火眼金睛”
【2月更文挑战第24天】当prompt策略遇上分治算法,南加大、微软让大模型炼成“火眼金睛”
61 2
当prompt策略遇上分治算法,南加大、微软让大模型炼成“火眼金睛”
|
算法 Python
群体遗传学研究荐读丨应知应会(上)
群体遗传学研究荐读丨应知应会
|
决策智能 计算机视觉
博弈论第十二集总结(“社会公约、侵略和周期 ”观后感)
博弈论第十二集总结(“社会公约、侵略和周期 ”观后感)
93 0
下一篇
无影云桌面