自然选择的分子印迹(精读第三天)
由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
群体遗传学预测
分子群体遗传学的其中一个方向就是从分子变异中区分出中性变异(仅仅受到遗传漂变的影响),找到受到选择尤其是正选择的变异。其中一个重要观点就是,中性模型通常允许强的有害突变的存在,而这些强的有害突变会降低适应度,因此会从群体中立即被清除。如果选择仅仅包括这些非常强效应的突变,那么伴随群体分离的突变就只会是中性突变。因此,中性模型有普遍强的负选择存在。但是负选择或纯化选择也很有用,它能帮助检测重要的功能区域或残基,而目前大多数进化相关文献注重于正选择,因为它和新功能的适应和演化相关。群体遗传学其中一个争论就是正选择能多大程度上解释种群间和种群内的变异模式
我觉得这里作者想表达的观点是:通常正选择才会保留突变,而负选择会淘汰不利突变,淘汰的突变就不能被我们所观察到。但是中性模型却是能够保留负选择的突变,那我们应该关注中性模型中那些强烈负选择的区域,这些区域可能就有重要的功能。
过去50多年的群体遗传学的理论文献主要集中在开发和分析模型,让之前提到的基本双等位基因模型一般化,能够处理两个以上可能分离的等位基因,处理出现的多个突变和相互作用(这可能是重组导致),处理会随着时间发生改变的环境,以及受到各种人口因素作用导致的随机遗传漂变。在理论上,我们已经获得了许多有价值的见解,比如,选择效率不仅仅依赖于选择系数,而主要依赖于选择系数和有效群体大小乘积。选择效应的提高可能是由于群体大小的增加,也可能是较大的选择系数。其中重要发现还有,选择衡量的产生原因有多种,不仅仅是超显性(例如环境条件波动),因此有可能非常常见。而选择效力会因为基因组上多个选择位点同时分离而降低。突变之间会相互干扰,降低局部有效群体大小。许多群体遗传学曾经认为,保持大量选择所需的选择性死亡数量必须如此之大,以至于选择可能在形成遗传变异方面起着非常小的作用。这些参数被称为遗传负荷参数(genetic load arguments),有助于中性理论的发展。然而,基因组允许的选择数量取决于突变和物种适应度以及其他重要模型假设的交互效应。在缺少来自于活着物种的真实数据前,群体遗传理论没有排除选择普遍存在以及能够单独确定相对重要性和选择形态(modality of selection)的可能。
目前已经有了大量基因组数据集,许多理论里的推测可以得到验证。特别地,我们有能力检测到新出现并具有强的选择优势的突变的分子印迹,因为它们已经固定,即在群体中频率达到了1。当这些突变频率增加时,它们会倾向于降低邻近区域的变异,这些区域里的中性变异会分离。这种被选择的突变位点在固定时会降低连锁位点的变异程度的过程就是选择性清除(selective swepp),见图1。也就是说可以通过分析大量比较基因组学数据集和大量SNP数据集,我们就能够同时确定正选择和负选择的在人类和其他物种中的位置,以及时如何影响变异。
自然选择的群体遗传学印迹
自然选择的其中一个主要效应就是改变物种间和物种内的变异程度,见表1。选择性清除倾向于显著地降低中间内变异度,但是不会减少物种特异性差异(species-specific differences)。相反地,作用于多个位点地负选择更倾向于显著降低物种间变异度而不是物种内。表1总结了不同类型的选择如何影响变异度。注意,单单突变率的改变将同时影响物种间(interspecific)和物种内(intraspecific)的变异度,但是影响程度不同。因此,许多常用的群体遗传学检测选择的方法就是基于物种间变异的比较,其中最有名的就是HKA测验。在该测验中,多个基因的分离多态位点的比率会用来比较。如果比率在这些基因的变化程度高于中性模型的期望值,就拒绝中性假设。
进化因子 | 种内变异性 | 种间变异性 | 种间/种内变异性比率 | 频率谱 |
---|---|---|---|---|
提高变异率 | 提高 | 提高 | 无影响 | 无影响 |
负定向选择 | 降低 | 降低 | 当选择不是特别强时降低 | 提高低频率标记的比例 |
正定向选择 | 提高或降低 | 提高 | 提高 | 提高高频率变异的比例 |
平衡选择 | 提高 | 提高或降低 | 降低 | 提高中等频率变异的比例 |
选择性清除 | 降低 | 平均替换率不变,但是提高变异 | 提高 | 大多为提高低频率变异的比例 |
群体分化(population differentiation)
大部分情况下,选择会提高种群之间的分化程度。特别是最近的理论发现,选择性清除可以极大地影响物种的细分水平(level of population subdivision), 尤其是当选择性清除还没有传播到同一物种的所有种群时。当一个座位相比较其他座位在遗传上有异常的群体分化水平时,这个位点就可以被解释为正选择的证据。
其中一个使用该现象的中性检验方法叫做Lewontin-Krakauer测验。该测验当种群间的遗传分化大于专门的中性模型预测值时,拒绝原假设。最近在大规模基因组数据的出现又再度以不同的形式复活。例如,Akey等就检查了人类不同种群全基因组范围的Fst变异(群体分化常用衡量指标)。Beaumont和Balding 开发了精巧的统计学方法用来找种群细分中可能的离群值位点。
频谱(The Frequency Spectrum)
选择同样也会影响中群内的等位基因频率分布。对于DNA测序或SNP数据,一些很常见也有应用的测验就是基于信息汇总,即所谓的频谱。频谱就是变异数量的计数,变异表示为X(i) = i/n, i=1,2,3,...,n-1,样本大小为n。换句话说,就是样本中不同突变的等位基因频率的描述性统计展示。在标准中性模型中(如随机交配,固定群体大小。无群体细分这类模型),X(i)的期望值是1/i.有害突变的负选择会增加该突变在样本中低频率分离的比例。选择性清除在频谱上的效应差不多相同。与之相关,正选择会提高突变在样本中高频分布的比例。不同选择对频谱的影响见图2:
许多经典中性测验关注频谱中提供的信息。比较有名的例子为Tajima’s D test。在该测验中,配对序列的核酸差异平均数和总分离位点数相比较。如果两个变异度测量值的差异大于基于标准中性模型的期望值,拒绝原假设。选择性清除对Tajima’s D test的影响见图1。Fu和Li拓展了这个测验,使用一个演化上的外群(outgroup, 比如说人类遗传变异分析的黑猩猩就是外群)来处理两极信息(information regarding the polarity of the information),Fu又做了更多的优化。Fay和Wu提出的一个测验,提高了突变引起的高频信息的权重。奇迄今位置,这些测验大多是应用比较多中性测验。
选择性清除的模型(Models of Selective Sweeps)
选择性清除产生的变异模式是非常复杂的空间模式(图1)。中性测验的功效会因加入选择性清除的模式而提高,甚至找到选择性清除的位置也是可能的。Kim和Stephan基于明确的群体遗传学选择性清除模型建立了一个模型。利用这个模型,他们可以计算出一个位点的期望频谱,作为其与有利突变距离的函数。通过使用数据对该模型进行拟合,他们就能估计出选择性清除的位置和强度,以及基于该选择性清除的假设性检验。这个方法特别的使用,因为它考虑到了选择性清除在序列上留下的空间模式。
LD(连锁不平衡)和单倍型结构
连锁不平衡(linkage disequibibrium,LD)水平也就是不同位点的等位基因的相关性,会在选择区域中增加。处于平衡选择区域中的古老多态性位点会降低LD,但在瞬时相位(transient phase)时的多态性位点可能会提高LD。同样选择性清除在瞬时相位时也会提高LD水平,但是这阶段会相对比较短。近期,大家逐渐认识到不完全的清除(当适应性突变尚未在群体中完全固定时)会在单倍型结构中留下不同的模式。这就使得许多基于LD的选择检测的统计学方法被开发出来。Hudson发展出基于出现在一个样本的等位基因数目的测验。Andolftto发展出相近的测验,确定是否连续性变异位点的任意子集里得单倍型都比中性模型的期望值要少。Depaulis 和Veuille也提出相似的测验。在该主题下,Sabeti提出的方法有一些变化,他考虑到远离潜在选择性清除位置的不同单倍型数目会增加。Kelly考虑了配对座位的相关水平。Kim和Nielsen拓展了Kim和Stephan的方法(前面的选择性清除模型),加入配对位点去整合了连锁不平衡的信息。
MacDonald-Kreitman 测验
最后,MacDonald-Kreitman测验探索了来自编码区位点的两类突变:非同义突变和同义突变。对数据进行汇总得到了MacDonald-Kreitman表格,包括物种内和物种间的同义突变和非同义突变的计数。如果选择只影响非同义突变,负选择会降低非同义突变的数量,相对于同义突变正选择会提高非同义突变的数目。然而,分歧数据中的效应强于多态性数据。所以,就能基于物种内和物种间的同义突变和非同义突变的比率建立类似于HKA测验的测验。如果这些比率差异显著,就提供了选择的证据。