简化基因组分析注意事项

简介: 简化基因组的方法一定要问清楚建库前无论公司说的是RAD-seq,还是说的是GBS,都不要太当真,因为这两个名词定义越来越不清了,你只要问清楚,他们建库是检测哪个部分:1)对单酶切位点邻近片段测序,如最初的RAD-seq2)对酶切位点两翼片段测序,如Genoytping-by-Sequencing具体看我写的这篇文章: 简化基因组的测序方法关于建库的选择:如果没有参考基因组: 使用RAD-seq双端测序,或者亲本50x以上进行组装,然后是GBS如果有参考基因组: 使用GBS,这个很便宜。

简化基因组的方法一定要问清楚

建库前无论公司说的是RAD-seq,还是说的是GBS,都不要太当真,因为这两个名词定义越来越不清了,你只要问清楚,他们建库是检测哪个部分:

1)对单酶切位点邻近片段测序,如最初的RAD-seq
2)对酶切位点两翼片段测序,如Genoytping-by-Sequencing

具体看我写的这篇文章: 简化基因组的测序方法

关于建库的选择:

如果没有参考基因组: 使用RAD-seq双端测序,或者亲本50x以上进行组装,然后是GBS
如果有参考基因组: 使用GBS,这个很便宜。

分析时一定不能去重复

  1. 比对之后的预处理,不能去重,可以标记重复,当然这一步可以省去
  2. 如果上一步标记了重复,那么在使用GATK HaplotypeCaller时, 3.x版本参数需要增加-drf DuplicateRead4.x版本则是-DF NotDuplicateReadFilter。 其实-drf-DF都是--disable-read-filter的缩写。

具体原因见https://gatkforums.broadinstitute.org/gatk/discussion/6124

目录
相关文章
|
自然语言处理 算法 数据处理
蝶形算法在文档管理系统中的作用:提高文档检索效率
蝶形算法在文档管理系统中的应用主要集中在文本数据的处理和分析方面。以下是一些具体示例——
184 1
|
搜索推荐
过滤概念(可行性分析)
过滤概念(可行性分析)
|
数据库 芯片
如何使用GEOquery和limma完成芯片数据的差异表达分析
如何分析芯片数据 我最早接触的高通量数据就是RNA-seq,后来接触的也基本是高通量测序结果而不是芯片数据,因此我从来没有分析过一次芯片数据,而最近有一个学员在看生信技能树在腾讯课堂发布的课程GEO数据库表达芯片处理之R语言流程遇到了问题问我请教,为了解决这个问题,我花了一个晚上时间学习这方面的分析。
4280 0
|
5月前
|
编解码 算法 计算机视觉
YOLOv8数据增强预处理方式详解:包括数据增强的作用,数据增强方式与方法
YOLOv8数据增强预处理方式详解:包括数据增强的作用,数据增强方式与方法
|
5月前
|
编译器 测试技术 Linux
技术洞察:循环语句细微差异下的性能探索(测试while(u--);和while(u)u--;的区别)
该文探讨了两种循环语句(`while(u--);` vs. `while(u) u--;`)在性能上的微妙差异。通过实验发现,后者比前者平均执行速度快约20%,原因在于循环条件检查的顺序影响了指令数量。尽管差异可能在多数情况下不显著,但在性能关键的代码中,选择合适的循环结构能优化执行效率。建议开发者在编写循环时考虑编译器优化和效率。未来研究可扩展到不同编译器、优化级别及硬件架构的影响。
|
6月前
|
C++
C/C++ 基础题:预处理器宏中,##的使用场景,什么时候需要使用它?
C/C++ 基础题:预处理器宏中,##的使用场景,什么时候需要使用它?
39 1
|
存储 数据可视化 数据挖掘
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
知识点丨重测序数据进行kinship亲缘关系分析、构建IBS矩阵的方法与介绍
|
数据采集 缓存 数据挖掘
GATK4标准分析流程 丨如何选择合适的线程和内存大小?数据预处理方法与注意事项
GATK4标准分析流程 丨如何选择合适的线程和内存大小?数据预处理方法与注意事项
|
数据挖掘
2-华大时空组学分析软件 Spateo 空转数据基础分析用法示例
本分分享了使用华大时空组学分析软件 Spateo进行聚类、DE等简单空间转录组分析的用法示例,以供参考
1005 1
|
编解码 自然语言处理 数据可视化
MIM方法为什么简单高效?可视化和大规模实验给出了答案
MIM方法为什么简单高效?可视化和大规模实验给出了答案
207 0
MIM方法为什么简单高效?可视化和大规模实验给出了答案