群体遗传学研究荐读丨应知应会(上)

简介: 群体遗传学研究荐读丨应知应会

群体遗传学应知应会

今天分享一篇关于群体遗传学的笔记,主要参考了网络公开资料以及公开发表的文献,包含群体遗传的概述、研究方法、应用领域、分析流程、统计学原理、群体结构评估等。

群体和个体有什么区别?

在遗传学中,群体和个体是两个重要的概念。群体指的是一组具有共同遗传特征的个体,而个体则是指单个生物体。

群体是由多个个体组成的,而个体是指单个生物体。群体中的个体之间可以存在遗传交流和基因流动,这会导致群体中的基因频率发生变化。

群体遗传学关注的是群体中基因的频率和分布,通过研究群体中的基因组成来了解群体的遗传结构和演化过程。

为什么要做群体遗传研究?

理论体系

在测序技术大力发展之前,对群体主要是依靠表型进行研究,如加拉巴哥群岛的 13 中鸟雀有着不同的喙,达尔文认为这是自然选择造成的后果。

达尔文的进化论对应的观点可以简单概括为“物竞天择,适者生存”,这也是最为大众所接受的一种进化学说。

直到 1968 年,日本遗传学家提出了中性进化理论,也叫中性演化理论。

可以这样理解中性理论:一群人抽奖,在没有内幕的情况下,每个人抽到一等奖的概率是相等的,这个可能性和参与抽奖的人的身高、年龄、爱好等因素都没有关系。中性理论常作为群体遗传研究中的假设理论来计算其他各种统计指标。

技术手段

测序价格大幅度降低,根据 NIH 公布的数据来看,近几年来测序技术普及,二代高通量测序已经成了遗传研究的必备手段,已经完全具备技术条件,可以实现对群体资源的基因解析。

基于重测序的群体遗传

重测序可以获得某些样品的基因型信息,得出变异的关键位点。通过重测序可以分析出群体中某些基因的频率分布和变化,解析群体遗传蕴含的秘密。

遗传变异的类型

常见的变异类型有SNP、IdDel、SV、CNV等,重测序中最关注的是SNP,其次是InDel。其他的几种结构变异的研究不是太多。(结构变异往往需要单独研究,在此不做扩展)

全基因组重测序

有参考基因组的物种的全基因组测序叫做重测序,没有参考基因组的物种的全基因组测序则需要从头组装。随着测序价格的降低,越来越多物种的参考基因组都已经测序组装完成。

在群体遗传学研究中更多的是有参考基因组的物种,植物中常见的是拟南芥、水稻、小麦和玉米等。

重测序分析流程

群体进化选择

正选择

正选择可以更好地用自然选择来解释:假如一个基因或位点能够使个体有着更强的生存力或者是育性,这样就会使得这个个体的后代更多,如此一来,这个基因或位点在群体中就越来越多。

正选择能够使有利的突变位点在群体中得到传播,但是与此同时却降低了群体中该位点的多态性水平。

也就是说原先该位点周围的核苷酸组成是多样的,在经过正选择之后,这个位点周围核苷酸的多样性就渐渐的趋于同质化了。

这就好比一块田,里面本来有水稻和稗草及其他杂草,由于稗草的适应性增强,稗草在逐渐增多,水稻慢慢变少,最后甚至是只剩下了稗草。

这种选择之后多态性降低的情况叫做选择扫荡(Selective Sweep)

负选择

负选择和正选择刚好是相反的。如果群体中的某个个体出现了一个致命的突变,从而使自己或者是后代从群体中被淘汰,这也导致群体中该位点的多态性的降低。

就好比我有100株水稻,其中一株在成长过程中突然不见了,那么对我的这个小的水稻群体来说,这个消失的水稻的独有的位点在群体中就不见了,整体的多态性就降低了。

平衡选择

平衡选择指多个等位基因在一个群体的基因库中以高于遗传漂变预期的频率被保留,如杂合子优势。

平衡选择检测的算法BetaScan2是个Python脚本,输入文件只需要过滤好的SNP数据即可。

群体遗传学统计指标

群体多态性参数

参数定义:其中是有效群体大小,是每个位点的突变速率。

分离位点数目

分离位点数是的估计值,表示相关基因在多序列比对中表现出多态性的位置。

其中为分离位点数量,比如SNP数量。为个体数量的倒数和。

核酸多样性

指的是核苷酸多样性,值越大说明核苷酸多样性越高。通常用于衡量群体内的核苷酸多样性,也可以用来推演进化关系。

可以理解成现在群体内两两求,再计算群体的均值,常用软件是vcftools

如上图示例,Sh4基因(控制水稻落粒)在所有亚群中的核酸多样性降低,说明该基因在所有亚群中受到选择,可能与人工育种选择有关。

目录
打赏
0
0
0
0
22
分享
相关文章
XP-CLR分析笔记丨检测不同种群之间由于选择引起的差异信息,群体遗传学经典方法
XP-CLR分析笔记丨检测不同种群之间由于选择引起的差异信息,群体遗传学经典方法
基于SpringBoot+Vue+uniapp的奶茶点餐小程序的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的奶茶点餐小程序的详细设计和实现(源码+lw+部署文档+讲解等)
195 0
体验Comfyui后迷上了GenAI
《触手可及,函数计算玩转 AI 大模型》解决方案通过阿里云函数计算的无服务器架构,详细介绍了从选择模型模板到部署和调用的全过程。描述清晰,涵盖技术架构、部署步骤和示例代码,适合初学者。建议增加更多场景介绍(有时候用户不知道怎么变现)、常见问题解答和视频教程,以进一步提升用户体验。部署过程中未遇异常,函数计算的按需付费和弹性伸缩优势明显,适用于多种业务场景。建议提供更多性能优化、实际案例和安全合规建议。
178 0
探索iOS应用开发的未来趋势
【7月更文挑战第28天】随着技术的不断进步和用户需求的多样化,iOS应用开发领域呈现出新的发展方向。本文将探讨这些趋势如何影响开发者的工作方式,以及它们对用户体验的潜在影响。
|
11月前
|
Python 中的关键字是什么?
【8月更文挑战第29天】
576 8
"揭秘!Spring Boot日志链路追踪大法,让你的调试之路畅通无阻,效率飙升,问题无所遁形!"
【8月更文挑战第11天】在微服务架构中,请求可能跨越多个服务与组件,传统日志记录难以全局追踪问题。本文以电商系统为例,介绍如何手动实现Spring Boot应用的日志链路追踪。通过为每个请求生成唯一追踪ID并贯穿全链路,在服务间传递该ID,并在日志中记录,即使日志分散也能通过ID串联。提供了实现这一机制所需的关键代码片段,包括使用过滤器设置追踪ID、业务代码中的日志记录及Logback配置。此方案显著提升了问题定位的效率,适用于基于Spring Boot构建的微服务环境。
317 4
RNN又行了!DeepMind新发布的Griffin可以与同级别的LLM性能相当
Hawk和Griffin是DeepMind推出的新型循环神经网络(RNNs),2月刚刚发布在arxiv上。Hawk通过使用门控线性递归(gated linear recurrences)超越了Mamba的性能,而Griffin则是一种混合型模型,结合了门控线性递归和局部注意力(local attention),与Llama-2的性能相当,但使用的训练数据明显较少。Griffin在处理比训练时更长的序列时表现出色。这两种模型在硬件效率方面与Transformer相当,但在推理过程中具有更低的延迟和更高的吞吐量。Griffin的规模已扩展到了140亿个(14B)参数。
364 3
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等