XP-CLR分析笔记丨检测不同种群之间由于选择引起的差异信息,群体遗传学经典方法

简介: XP-CLR分析笔记丨检测不同种群之间由于选择引起的差异信息,群体遗传学经典方法

XP-CLR分析笔记

生物信息学和遗传学是相互交织的两个学科,共同致力于解读生物体内复杂的基因信息。这些信息有助于理解物种的演化,疾病的起因,以及个体差异等方面。

XP-CLR(Cross Population Composite Likelihood Ratio)分析是其中一个重要的分析方法,主要用于检测不同种群间由于自然选择而产生的基因频率变化。

本文将介绍XP-CLR分析的基本概念,原理,方法,以及其在生物信息学与遗传学中的应用,给给出XP-CLR分析的具体操作步骤教程。


下图是近日发表在The Plant Cell上的一篇文章中关于XP-CLR分析的结果,展示了中美两国小麦育种靶标的异同,发现约15%的基因组区域受到了选择,在这些受选择的区域中包含诸多控制株型、产量、品质和抗病等的已知基因。

基本概念

XP-CLR是一个统计方法,用于比较两个或更多的种群以识别自然选择的迹象,自然选择是进化的主要动力,能够改变种群内基因的频率分布。通过XP-CLR分析,可以找出可能受到强烈自然选择压力的基因区域。

原理和方法

XP-CLR 原理

XP-CLR的主要思想是使用复合似然比(Composite Likelihood Ratio)来评估种群间不同基因座的频率变化。具体来说包含了两个因素:

  • 等位基因频率差异: 在不同种群间,被选中的基因通常会显示出明显的等位基因频率差异。
  • 连锁不平衡(简称LD)模式的变化:自然选择会影响基因与其邻近基因间的连锁不平衡模式。

XP-CLR 方法

XP-CLR分析通常包括以下几个步骤:

数据准备:获取两个或多个种群的基因型数据。

窗口划分:将基因组划分为多个窗口(通常以数百个碱基对为单位)。

估计参数:在每个窗口内,使用复合似然比来估计等位基因频率差异和连锁不平衡。

统计检验:通过模拟或其他统计方法来评估每个窗口内的复合似然比是否显著。

结果解释:显著的窗口通常被认为是受到自然选择影响的候选区域。

XP-CLR 是一种是基于选择扫荡(selective sweeep)的似然方法。选择扫荡可以增加群体之间的遗传分化,导致等位基因频率偏离中性条件下的预期值。

XP-CLR 利用了两个群体之间的多基因座等位基因频率差异(multilocus allele frequency differentiation)建立模型,使用布朗运动来模拟中性下的遗传漂移,并使用确定性模型来近似地对附近的单核苷酸多态性(SNPs)进行选择性扫描

实际应用领域

种群遗传学:通过比较不同种群,可以识别出可能与适应性特质有关的基因。

疾病研究:识别与疾病相关的自然选择信号,有助于理解疾病的遗传基础。

农业研究:在作物和家畜的品种改良中,XP-CLR可以帮助找出与某些有用性状相关的基因。

人类进化研究:XP-CLR可以揭示与人类进化和迁移有关的基因。

操作步骤与分析教程

接下来将详细演示如何使用XP-CLR进行自然选择的检测。以下示例以两个假设的种群(种群A和种群B)为例,每个种群有100个个体,并假设我们有关于10个SNP(单核苷酸多态性)的信息。

前期准备工作

安装XP-CLR软件:您可以在这里找到源代码和安装指南→https://github.com/hardingnj/xpclr

若使用conda安装,按如下步骤

conda create -n xpclr   -c bioconda xpclr

准备输入文件:通常需要VCF(Variant Call Format)或其他格式的基因型。

输入文件

文件populationA.vcfpopulationB.vcf分别包含种群A和种群B的基因型。

分析流程

第一步:数据准备

首先,我们需要准备一个输入文件。以下是种群A和种群B的VCF文件的一个简化例子。

populationA.vcf 信息如下:
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  Sample1 Sample2 ... Sample100
chr1    1001    .       A       T       .       .       .       GT      0/1     1/1     ... 0/1
chr1    2002    .       C       G       .       .       .       GT      0/0     1/1     ... 1/1
...
populationB.vcf 信息如下:
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  Sample1 Sample2 ... Sample100
chr1    1001    .       A       T       .       .       .       GT      0/1     0/0     ... 1/1
chr1    2002    .       C       G       .       .       .       GT      1/1     0/1     ... 0/0
...

第二步:运行XP-CLR

假设XP-CLR已经安装并可以从命令行访问,以下是一个基本的命令行示例:

xpclr -xpclr \
   populationA.vcf populationB.vcf \
   output.xpclr --format vcf

这将比较populationA.vcfpopulationB.vcf中的数据,并将结果保存到output.xpclr

第三步:结果解析

输出文件output.xpclr包括以下几列:

  • 染色体名
  • SNP位置
  • XP-CLR得分
  • output.xpclr
#chr   pos     xpclr_score
chr1   1001    2.5
chr1   2002    1.1
...

XP-CLR得分高通常表示该区域可能受到了强烈的自然选择影响

结果解释

在上面的例子中,chr1:1001的XP-CLR得分是2.5,这可能意味着这一区域在种群A和种群B之间受到了不同程度的自然选择。可以进一步用基因注释信息来解释这一区域可能涉及哪些生物学过程或适应性特质。

总结

XP-CLR分析是一种强大的工具,用于检测和解释由自然选择引起的基因频率变化。通过对等位基因频率和连锁不平衡的综合评估,它能够揭示自然选择在种群间如何起作用,从而为生物信息学和遗传学的多个子领域提供重要的洞见。

行文至此,今天的笔记分享完成,希望这篇文章能帮助您了解XP-CLR分析的基础知识和应用。

参考资料

https://huans.github.io/2019/11/04/XP-CLR/
https://www.cnblogs.com/shiyanhe/p/13080823.html
https://zhuanlan.zhihu.com/p/146496118
https://www.jianshu.com/p/9c827a0be66d
相关文章
|
6月前
|
机器学习/深度学习 编解码 并行计算
【FasterVIT】试图从FasterVIT网络结构中窥探出一些有用的信息
【FasterVIT】试图从FasterVIT网络结构中窥探出一些有用的信息
80 0
【FasterVIT】试图从FasterVIT网络结构中窥探出一些有用的信息
|
1天前
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
10 3
|
2月前
|
人工智能 安全 测试技术
当奖励成为漏洞:从对齐本质出发自动越狱大语言模型
【9月更文挑战第26天】在人工智能领域,大型语言模型(LLMs)的广泛应用引发了对其安全性和可靠性的担忧,特别是在面对对抗攻击时的脆弱性。论文《Jailbreaking as a Reward Misspecification Problem》提出将这种脆弱性归因于对齐过程中的奖励误设,并引入ReGap指标来量化这一问题。基于此,研究人员开发了ReMiss系统,用于自动对抗各种目标对齐的LLMs,并在AdvBench基准测试中取得了领先成果。尽管方法存在局限性,但该论文为提升LLMs安全性提供了新方向。[论文链接:https://arxiv.org/pdf/2406.14393]
39 4
|
6月前
|
数据可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
|
4月前
|
机器学习/深度学习 编解码 算法
|
5月前
|
运维 测试技术 uml
软工||对象分析设计建模、软件计划实验
软工||对象分析设计建模、软件计划实验
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
R语言响应面(RSM)、线性模型lm分析生产过程影响因素可视化
R语言响应面(RSM)、线性模型lm分析生产过程影响因素可视化
|
6月前
|
Python
python隶属关系图模型:基于模型的网络中密集重叠社区检测方法
python隶属关系图模型:基于模型的网络中密集重叠社区检测方法
|
程序员 人机交互 C++
操作系统的发展和分类,概念,它的运行机制和体系结构,以及和它相关的特征,功能和目标,
操作系统的发展和分类,概念,它的运行机制和体系结构,以及和它相关的特征,功能和目标,
129 0
|
传感器
如何利用波段组合解决同物异谱和异物同谱现象?
如何利用波段组合解决同物异谱和异物同谱现象?
266 0
下一篇
无影云桌面