生信媛公众号编辑、生信必修课之软件安装课程作者
Falcon是PacBio公司开发的用于自家SMRT产出数据的基因组组装工具。Falcon分为三个部分: HGAP:PacBio最先开发的工具,用于组装细菌基因组,名字缩写自Hierarchical genome-assembly process(层次基因组组装进程)。
Canu简介 Canu是Celera的继任者,能用于组装PacBio和Nanopore两家公司得到的测序结果。 Canu分为三个步骤,纠错,修整和组装,每一步都差不多是如下几个步骤: 加载read到read数据库,gkpStore 对k-mer进行技...
这是我第一个收费视频课程,面向初学者,由于收费,所以制作不敢怠慢,看到大家的好评后,我才心安。课程的购买地址为: 生信必修课之软件安装 一开始我以为很少有人会像我这样,在一个没有任何生信基础的实验室搭建生物信息学分析平台。
我们用来练手的文章发表在 Nature Communication ,"High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell", 非常不要脸的说,这篇文章是我师爷实验室发的。
Bioconductor开发的物种注释包系列集合了一个物种不同来源的注释信息,能够根据基因ID对其进行多种来源的注释,比如说基因的别名,基因的功能等。 我之前也写过一篇文章用Bioconductor对基因组注释介绍如何使用AnnotationHub下载注释数据库, 使用select(), mapIds等函数进行注释操作。
功能注释后如何做富集分析 本文是为了回答知识星球里的一个提问,他为了用clusterProfiler做富集分析,打算构建一个OrgDb,也就是物种数据库。
如果你拥有最高权限,如果你只管理一台服务器,那么系统自带的包管理工具就帮你解决了所有问题。但是真实世界没有那么美好,所以我花了那么久时间去学习如何从源码开始编译一个软件。
基因功能的注释依赖于上一步的基因结构预测,根据预测结果从基因组上提取翻译后的 蛋白序列 和主流的数据库进行比对,完成功能注释。常用数据库一共有以几种: Nr:NCBI官方非冗余蛋白数据库,包括PDB, Swiss-Prot, PIR, PRF; 如果要用DNA序列,就是nt库 Pfam: 蛋白结构域注释的分类系统 Swiss-Prot: 高质量的蛋白数据库,蛋白序列得到实验的验证 KEGG: 代谢通路注释数据库. GO: 基因本体论注释数据库 除了以上几个比较通用的数据库外,其实还有很多小众数据库,应该根据课题研究和背景进行选择。
LUMPY是一款基于概率框架检测结构变异(structure variants)的软件, 它根据read-pair, split-read, read-depth和其他先验知识寻找基因组上可能的结构变异。
RNA-seq的标准化方法 对于RNA-seq而言,由于 技术误差, 测序深度不同, 基因长度不同,为了能够比较不同的样本,比较不同的基因的表达量,以及使表达水品分布符合统计方法的基本假设,就需要对原始数据进行标准化。
昨天,生信技能树推送了一篇关于基因区块链的文章。刚好,我对基因测序产品和区块链都很感兴趣,所以说几点我的看法。 如果不从区块链属性来看,仅仅认为它在卖测序服务,4999对于90G的全基因组测序服务而言,价格也是非常划算。
1000粉丝 我有一个简书账号,hoptop,曾用来当作游戏ID,昨天晚上拥有了第1000个用户。 生活有一定的节奏,但偶尔会有随机事件,如同平缓的水面偶尔也会有涟漪。
如何分析芯片数据 我最早接触的高通量数据就是RNA-seq,后来接触的也基本是高通量测序结果而不是芯片数据,因此我从来没有分析过一次芯片数据,而最近有一个学员在看生信技能树在腾讯课堂发布的课程GEO数据库表达芯片处理之R语言流程遇到了问题问我请教,为了解决这个问题,我花了一个晚上时间学习这方面的分析。
这是一个非常老的软件,距离他不更新至少有10多年了,但是目前还是有很多公司用他进行基因组注释,包括ENSEMBL的注释流程的几个核心部分用到的也是它。 但是他的安装也是异常的麻烦,好在Homebrew的安装说明https://github.
Python的正则表达式 Python通过导入标准库re实现正则表达式(regular expression),Python的正则表达式引擎和Perl一样,并且兼容Perl流派的元字符。
前两天Jimmy说有一个非常“无耻”的公众号,收集了大量网上免费的视频课程(这其中就包括他录制收集的大量资料),然后另外开价卖给那些希望学习生信的人,更加“无耻”的是有的人花了钱不但拿不到资源还被拉黑了,对于此事,我想说点我的看法。
基因组survey 在组装基因组之前一定要先对要组装的物种有一个大致的了解,判断其复杂程度, 标准如下 基因组大小:基因组越大,测序花的钱越多 简单基因组: 杂合度低于0.5%, GC含量在35%~65%, 重复序列低于50% 二倍体普通基因组: 杂合度在0.5%~1.2%中间,重复序列低于50%。
变异检测算法的核心就是从尽可能找到真实的变异,降低假阳性。尽管目前测序仪器的准确性可以达到99.999%,似乎很高的样子,但是对于高通量测序而言,这意味着在100,000个碱基中就可能出现一个错误,那么freebayes如何保证自己结果的可靠性? freebayes基于贝叶斯公式 贝叶斯公式 简单的说,当一个变异如果只出现在一条链上,或者是某一个位置上,那么这个位点很有可能是高通量测序时引入的偏误。
使用pysam操作VCF/BCF文件 读取和写出 from pysam import VariantFile bcf_in = VariantFile("test_in.
这是一个很小众的需求。大部分变异检测都是基于组装质量比较高的基因组,而不是那种初步拼接的contig。 由于初步拼接的参考序列通常会有成千上万个contig序列,也就导致在VCF的头文件的##contig=部分会有成千上万个contig,将这个文件加载到IGV时, IGV会去解析VCF,这将会是非常缓慢的过程,最好的策略就是只提取其中一个contig查看。
哪里不对修哪里 阅读完本文后,请看这一篇慎用Anaconda进行软件管理 conda的确是一个非常好的工具,对于初学者而言,安装软件就跟用XXX软件管理器一样方便。
原文见:Validating generalized incremental joint variant calling with GATK HaplotypeCaller, FreeBayes, Platypus and samtools 说到变异检测,可能大家第一个想到的工具就是GATK HaplotypeCaller。
简化基因组的方法一定要问清楚 建库前无论公司说的是RAD-seq,还是说的是GBS,都不要太当真,因为这两个名词定义越来越不清了,你只要问清楚,他们建库是检测哪个部分: 1)对单酶切位点邻近片段测序,如最初的RAD-seq 2)对酶切位点两翼片段测序,如Genoytping-by-Sequencing 具体看我写的这篇文章: 简化基因组的测序方法 关于建库的选择: 如果没有参考基因组: 使用RAD-seq双端测序,或者亲本50x以上进行组装,然后是GBS 如果有参考基因组: 使用GBS,这个很便宜。
MaSuRCA: 混合组装工具 适用于二代和三代混合组装,也可以就只装二代数据。 官方提示:使用原始数据,不做任何的预处理,任何trimming, cleaning和error correction操作都会影响组装的结果。
不仅仅编译R语言本身会非常的麻烦,实际上还有些R包为了提高运行速度将一些功能封装到C/C++中,随后在安装的时候会进行编译。 编译通过则万事大吉,如果不通关就是一番折腾。
短读质量控制 Read Filtration by Quality 由于各种因素,测序过程中一定会存在着错误,要么读错,要么漏读、要读多了。解决这种错误可以从源头,也就是测序仪改进,也可以通过生物信息学的手段,将可能错误的序列过滤掉。
DNA互补链 Complementing a Strand of DNA 根据Waston和Crick的双螺旋学说,DNA是存在两条链,并且根据A-T, C-G反向互补。
基因组不同区域在进化上的速率是不同的。在编码区的碱基突变可能会导致氨基酸性质发生改变导致后代死亡,以及插入缺失导致开放读码框(ORF)变化,因此编码区更有可能是同义的点突变。
序列全局联配:Pairwise Global Alignment 序列相似性意味着遗传的同源性是遗传和进化研究上的一个假说。 给定不完全相同的两个序列,如果允许错配和开口(gap)的话,会有无数多的联配(alignment)方式,为了找到最有可能的联...
在做数据分析时,有两种解决问题的策略,一种是自己写代码处理数据,一种是用开源在互联网的工具。 如果你代码写的贼流,并且嫌弃已有工具质量不够,那么在空闲的时候开源自己写一个。
前段时间第一次拿到200多个群体的测序数据,准备对这些数据分析,然后就遇到自己以前分析几个样本不会遇到的问题:illumina平台一次上机会得到好几个T的数据,公司是如何保证不会把数据给错用户呢? 其实答案我也知道,就是给不同样本加上barcode,但是我没想到的是barcode居然有那么多组合方式。
Introduction to Protein Databases 蛋白质数据库中心UniProt提供了蛋白详细的注释,如功能描述,功能与结构,翻译后修饰。
CSV读取 标准库提供了一系列实用函数的API,让我们避免重复造轮子. 为了学会使用一个已有的轮子,我们需要学看文档。Go所有标准库文档都放在https://golang.org/pkg/, 假如我们想读取一个CSV文件, 我们就需要学习csv包的用法。
The way to Go 学习一门新的编程语言时,我们先需要了解一点语言特性,包括: 编译型还是解释型语言 基本数据类型 变量的定义 数值运算 字符串操作 数据结构 循环和条件语句 面向对象的类,面向过程的函数定义 ... 问题一:编写一个程序,进行温度单位的转换 温度单位有华氏度(F)和摄氏度(C)两类,转换公式为: C = (F - 32) / 1.8。
最近一直在帮师姐根据SNP找基因组上的酶切多态位点,然后给她提供该位点附近1kb的序列,让她去设计引物。由于我本科就做过一点点的遗传定位,当时用的是SSCP(单分子构象多态性)去区分单个碱基差异,所以我对SNP分子比较的检测方法就局限在高通量测序和SSCP而已。
Go的官方网站https://golang.org/说Go是一种开源的编程语言,它能够轻松的构建出简单、可信以及高效的软件。 安装 可以在https://golang.org/dl/不在不同平台的安装包,我用的是Windows,所以选择go1.10.windows-amd64.msi。
命令行替换 执行命令之前,bash shell会先对命令进行一些替换,有如下几种替换类型 替换 语法 含义 历史 ! 前一个命令行 大括号(Brace) {} 指定的文本 代字号(Tilde) ~USRNAME 用户的主目录 变量 $, ${.
dplyr是R语言里面处理数据数据非常好使的包,但是最近使用它解决一些问题时遇到了瓶颈,并且搜到的教程都特别基础,所以我打算从源码的角度去找解决方案。 为了理解dplyr::mutate这个函数,我们需要借助一个实例,分别思考mutate(mtcars), mutate(mtcars, gear+carb)和mutate(mtcars, new=gear+carb)会在运行的时候的处理流。
dplyr包是R语言数据处理的神器,这里记录一点刚学到的东西。 以下操作基于R语言自带数据集"mtcars". 变量选取: select starts_with(): starts with a prefix ends_with(): ends wi...
对于C源码编译,大部分人都停留在./configure --prefix=XXX && make && make install这一步,大部分的程序都能顺利走完这一步,然后被安装到指定的文件下,小部分的程序会因为xxx不全而出错,然后你把这个问题放到搜索引擎上,就会找到一篇博客说用sudo apt-get/yum install xxx 后可以解决问题,然后问题解决了。
由于生物信息早期最多用的语言是perl,因此不可避免就要用别人的perl脚本或者基于perl的项目来处理数据。 使用perl脚本和使用其他编程语言的脚本没啥不同,毕竟你只要传入参数,它就能给你结果。
基因组组装 基因组组装一般分为三个层次,contig, scaffold和chromosomes. contig表示从大规模测序得到的短读(reads)中找到的一致性序列。
本文接着每日文献:2018-02-27,上文探讨方法,本文是具体代码 为了解基因组存在T-DNA插入时,即基因组构成为AC而样本基因组为ABC的情况得到的测序结果在序列比对的时候的可能情况,因此需要先要使用模拟数据进行探索。
如何使用高通量测序检测T-DNA插入 之前拿到了一批混池测序的数据,师兄除了让我帮他找一个突变位点,还让我顺便检查下基因组上的T-DNA插入。我去查了一下相关资料,已经有人那么干了,这里简要说明一下步骤。
自然选择的分子印迹(精读第三天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
自然选择的分子印迹(精读第二天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
自然选择的分子印迹(精读第一天) 由于最近不知不觉开始涉及群体遗传学,所以准备精读(其实就是原文翻译)一篇review尽力去了解这个我陌生的领域。文章原标题为Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
RAD-Seq(restriction site-associated DNA sequencing)最开始指的是2008年发表在PLOS ONE上“Rapid SNP discovery and genetic mapping using sequenced RAD markers"提出的方法,目前该文章的引用已经达到1200+,现在指代的是一系列基于限制性内切酶的测序技术。
一次简化基因组数据分析实战 尽管目前已经有大量物种基因组释放出来,但还是存在许多物种是没有参考基因组。使用基于酶切的二代测序技术,如RAD-seq,GBS,构建遗传图谱是研究无参考物种比较常用的方法。
虽然高通量测序分析最常用的操作是将fastq比对到参考基因组得到BAM文件,但偶尔我们也需要提取BAM文件中特定区域中fastq。最开始我认为这是一个非常简单的操作,因为samtools其实已经提供了相应的工具samtools fastq. 以biostar handbook的Ebola病毒数据为例,首先获取比对得到的BAM文件。