生信媛公众号编辑、生信必修课之软件安装课程作者
交互性 后续的操作前,需要安装如下Python包 pip install dash==0.20.0 # The core dash backend pip install dash-renderer==0.
Dash应用布局 后续的操作前,需要安装如下Python包 pip install dash==0.20.0 # The core dash backend pip install dash-renderer==0.
VCF文件格式 在biostar handbook(十)|如何进行变异检测部分我们最后以VCF格式存放找到的变异。尽管大部分情况下,我们都不需要直接和VCF文件打交道,通常就是将其作为输入提供给后续的分析。
变异检测流程 什么是基因组变异 基因组变异是一个定义比较模糊的概念. 所谓的变异是相对于一个完美的“参考基因组”而言。但是其实完美的“参考基因组”并不存在,因为我们只是选择某一个物种里的其中似乎比较正常的个体进行测序组装,然后基于它进行后续的研究。
为了评价一个工具的性能,通常我们都需要先模拟一批数据。这样相当于有了参考答案,才能检查工具的实际表现情况。因此对于我们而言,面对一个新的功能,可以先用模拟的数据测试下不同工具的优缺点。
RNA-seq数据分析 mRNA-seq是目前最常用的高通量测序技术,一般的用法就是看看基因表达谱,寻找差异表达的基因。我和高通量测序数据分析结缘,也是因为RNA-seq。
SAM及其相关工具 SAM格式介绍 SAM全称是Sequence Alignment/Map, 是目前最常用的存放比对或联配数据的格式。无论是重测序,还是转录组,还是表观组,几乎所有流程都会产生SAM/BAM文件作为中间步骤,然后是后续专门的分析过程。
原文标题:hppRNA—a Snakemake-based handy parameter-free pipeline for RNA-Seq analysis of numerous samples 原文地址: https://academic.
原文标题:APAtrap: identification and quantification of alternative polyadenylation sites from RNA-seq data 工具网址:https://sourceforge.net/projects/apatrap/ 可变多聚腺苷酸 (APA)逐渐地被认为在转录组多样性和基因表达调控中起到重要的作用。
如何使用bedtools处理Rang数据 什么是Range数据 参考基因组表示的是一种坐标系统,比如说某一个物种基因组大小为100bp,那么他参考基因组就可以表示为[1,100], 之后就可以用任意[x,y]表示这条参考基因组上的位置,这就是一种范围信息,X-Y这段区域可能是外显子,也可能是内含子,可能是编码区,也可能是基因间区,也有可能是一个测序结果。
Nature Genetics:水稻泛基因组文章继续解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 今天要读部分是我看到这篇文章才接触到的一个概念基因的PAV(presence-absence variation)突变, 也是这篇文章对66个物种深度测序组装contig的主要用途。
Nature Genetics:水稻泛基因组文章继续解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 今天看的部分是【Identification of functionally diverse alleles】,也就是找到功能变化等位基因。
如何使用MUMmer比对大片段序列 测序技术刚开始发展的时候,大家得到的序列都是单个基因的长度,所以一般都是逐个基因的比较,用的都是BLAST或FASTA通过逐个基因联配的方式搜索数据库。
植物基因组的同线性和共线性 原文题目:Synteny and Collinearity in Plant Genomes 先明确两个概念,虽然synteny和collineraity翻译之后都有线性,但是要注意两者的联系和区别: 同线性(syn...
昨天发了如何一步下载水稻泛基因组的contig序列,就有小伙伴在后台问我如何下载水稻最新版日本晴参考基因组序列。由于我主要是研究拟南芥(Arabidopsis thaliana), 默认都是去TAIR上下载TAIR10的参考序列和注释信息,对水稻其实没有多大了解。
Nature Genetics:水稻泛基因组文章继续解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 在组装完66个品系水稻的contig后,也找到了变异信息如SNP/InDel, SV等,下面的工作就是从各种角度对这些变异信息继续解读。
如何使用Python对参数进行解析 主要用到一个库argparse,用ArgumentParser创建参数解析对象ArgumentParser,而用add_argument()在解析对象里添加要解析的参数. 最后用parse_args()进行解析,返回参数所在的命名空间。
如何使用deeptools处理BAM数据 总体介绍 deeptools是基于Python开发的一套工具,用于处理诸如RNA-seq, ChIP-seq, MNase-seq, ATAC-seq等高通量数据。
利用ggbio对生物数据进行可视化 ggbio是图形语法(graphic grammar)在生物数据领域上的拓展,任何ggbio得到的结果都能与ggplot2进行互动,而不是简单封装。
Bioconductor的地基--IRanges Bioconductor是一个开源项目,包括许多R生物信息学包。这里,首先介绍Bioconductor的核心包: GenomicRanges: 用于表示和使用基因组范围,genomic ranges ...
Introduction to Bioconductor for Sequence Data 在院士组轮转的时候,由于没人安排我去做什么,我也不懂怎么和别人交流,于是那些日子就在翻译Biocondutor的教程中度过。
基因组变异位点注释 安装工作流程所需的biconductor包 source("http://bioconductor.org/workflows.R") workflowInstall("variants") 背景 VariantAnnotation包能够有效的从Variant Calling Format(VCF)文件读取部分或所有内容。
Nature Genetics:水稻泛基因组研究方法解读 原文标题: Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice 原文地址: https://www.nature.com/articles/s41588-018-0041-z 由于目前课题和自然变异关系比较大,所以解读一下这篇文章在深度测序(约等于100X)组装66个水稻品种后是如何寻找变异,以及如何验证这些变异的质量。
高通量测序中的GC含量质量控制 原文标题: Summarizing and correcting the GC content bias in high-throughput sequencing 原文地址: https://academic.
原文标题:The 2018 Nucleic Acids Research database issue and the online molecular biology database collection 原文地址: https://www.
现在可以用fasterq-dump, 速度更快,请阅读都8102年了,还用fastq-dump,快换fasterq-dump吧 做生信的基本上都跟NCBI-SRA打过交道,尤其是fastq-dump大家肯定不陌生.
生物数据中心的年报 每到年终大家都爱做总结,除了我在每日文献:2018-01-08提到的比对工具年鉴更新到了2017版,各大生物数据中心也开始纷纷做总结,然后发一篇核酸研究NAR.
装软件就跟插线一样 在Linux里面有一个巨大的梦魇就是软件包之间的依赖关系, 安装软件的时候各种依赖库找不到, 很让人抓狂.好消息是不同的Linux发行版提提供各自的依赖管理系统, apt/yum是目前比较常见的管理工具.
SV2: 从全基因组上找到更好结构变异 原文题目:SV2: Accurate Structural Variation Genotyping and De Novo Mutation Detection from Whole Genomes 原文地址: https://academic.
进化上比较年轻的防御代谢物通过古老的TOR信号通路影响植物根部发育 原文题目:An evolutionarily young defense metabolite influences the root growth of plants via the ancient TOR signaling pathway 原文地址:https://elifesciences.org/articles/29353 为了能够适应环境,植物需要监控自身的代谢途径,能够符合当前的生长和防御。
MACS2是peak calling最常用的工具。 callpeak用法 这是MACS2的主要功能,因为MACS2的目的就是找peak,其他功能都是可有可无,唯独callpeak不可取代。
PIVOT:转录组数据整合分析和可视化平台 原标题:platform for interactive analysis and visualization of transcriptomics data 原文地址: https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-017-1994-0 转录组分析是目前可以说最成熟的分析体系,并且已经有有很多的R包可以用来进行数据分析。
Tools for mapping high-throughput sequencing data 2017年过去了,大家都在总结过去的一年发生的故事,网易云音乐告诉你一年听了哪些歌,支付宝告诉你花了多少钱。
《利用Python进行数据分析》这本书在我目前看来是一本工具性质的书,没有具体讲如何进行数据分析,主要做着重于如果用Python做数据分析,目前你可以用到的哪些工具。
测序如何命名 原文标题:A profusion of confusion in NGS methods naming 原文地址:https://www.nature.com/articles/nmeth.4558 一图了解常用测序及其适用范围 这是最近一篇发表在Nature methods上致编辑的文章,讨论测序方法的命名问题。
ChIP-seq文章 8年前的ChIP-seq如何找peak 老板前几天丢了2010年的文章给我,让我去看下这篇文章的ChIP-seq分析结果中,他要的基因是不是也被调控了。
Power and sample size calculations for high-throughput sequencing-based experiments 功效检验是衡量在数据集中找到统计学显著性的可能性。
mTM-aligin: an algorithm for fast and accurate multiple protein structure alignment 蛋白结构在进化中更加保守,因此根据多个结构进行比对比仅仅依赖于多重序列联配(MSA)更加有意义,特别是那些远房亲戚。
pandas基础 Pandas借鉴了Numpy绝大部分设计思想,但与Numpy不同的是它更适合于处理表格类、异质性数据,而Numpy则是处理同质的数值数组。
Numpy:数组和矢量计算包 对于大部分数据分析工具,作者主要关注如下功能 快速矢量化矩阵运算,用于数据规整化和清理,筛选,过滤,格式转换等 常用矩阵算法,排序、唯一值和集合运算 高效描述性统计和聚合分析 数据对准,和关联数据操作,从而便于合并不同类...
SAM格式介绍 SAM全称是Sequence Alignment/Map, 是目前最常用的存放比对或联配数据的格式。无论是重测序,还是转录组,还是表观组,几乎所有流程都会产生SAM/BAM文件作为中间步骤,然后是后续专门的分析过程。
高通量短读比对工具 在过去的十几年里,随着高通量测序(HTS)成本降低,出现了各种测序概念, DNA-Seq, ChIP-Seq, RNA-Seq, BS-Seq覆盖了研究领域的方方面面。
Basic local alignment search tool (BLAST) 包括:blastn, blastp, blastx, tblastn, tblastx等. 使用conda安装即可。
背景: 染色质和染色体的结构和功能 每一条染色单体由单个线性DNA分子组成。细胞核中的DNA是经过高度有序的包装,否则就是一团乱麻,不利于DNA复制和表达调控。
Java的数据类型 $$ 2 + 5 $$ Java是一门纯粹的面向对象编程语言,除了8个基本数据类型不是对象以外,其他的一切的都是对象。那么问题来了,这8个数据类型分别是啥? 基本数据类型 不难发现,Java的数据类型和C语言基本上都是一致的,两者都不包含字符串这种数据类型。
什么是Java 如果世界上有一门最好的编程语言,那么这门语言肯定就是PHP了(又玩语言梗)。实际上这个世界上不存在所谓的最好的编程语言,仅存在响应时代背景,满足程序员迫切需求的编程语言,Java就是其中之一(最近Python都进小学课本了)。
我突然发现我自己忘了整理第六周的笔记,好尴尬,趁现在补上。。 Biostar 第七课01 模式识别 Biostar第七课02 align到基因组 biostarhandbook(六)|正则表达式和K-mers在模式匹配中的使用 biostarhand...
随着第七周的结束,biostar handbook就已经学习了12章。全书总共26章,也就是说到目前为止,全书已经学习了一半。当然,很可惜的是并没有很多人能够坚持写作业,一部分原因是即便是一周2章的节奏对于初学者可能也是太难了,一部分原因是他在参加之后就潜水不见了。
这个步骤推荐在R里面做,载入表达矩阵,然后设置好分组信息,统一用DEseq2进行差异分析,当然也可以走走edgeR或者limma的voom流程。 基本任务是得到差异分析结果,进阶任务是比较多个差异分析结果的异同点。
Basic local alignment search tool (BLAST) 包括:blastn, blastp, blastx, tblastn, tblastx等. 使用conda安装即可。