生信媛公众号编辑、生信必修课之软件安装课程作者
序列联配 序列联配是生物信息学最基础的概念,因为大多数数据分析分析策略都需要使用联配得到的信息。 举个简单的例子,假设你手头上有一些片段'THIS','LI','NE','ISALIGNED', 已知他们来自于一个词,那么原来这个词应该是什么样子。
模式匹配中的正则表达式和k-mer 模式匹配指的是在看似杂乱无章的系统中找到符合要求的部分。比如说你想从基因组中寻找motif,转录因子结合位点,CDS, 或者检测测序结果里是否有接头等,这些行为都可以解读为根据已有的模式去寻找目标序列中符合要求的片段。
简单总结下第五周的笔记: biostarhandbook(五)|序列从何而来和质量控制 YXF-测序仪和质量控制 Biostar学习笔记(5)测序平台、测序原理及质量控制 Biostar第六课 测序仪和QC 顺便发布第六周的任务: 第六周的任务是第十章和第十一章。
测序仪 2017年一篇发表在Nature的综述"DNA sequencing at 40: past, present and future"介绍了DNA测序这40年的发展历程。
图片来源pexel 我的手机上没有任何新闻相关的APP,尤其是我告别扇贝新闻后,此外我也没有装微博,微信朋友圈也关了,所以目前接触热点的唯一方式就是公众号推送和每周五更新的暴走大事件。
什么是Galaxy 很多公司开始推广他们的可视化生信分析工具,有人说未来的趋势是无代码,分析只要拖拖点点就行了。无代码只能说是一个噱头,毕竟人人都会“用"excel,也不是人人都是数据分析师。
2017/11/9 第一版: 生物数据库,基本数据类型(genbank, fasta/fastq),数据上传站点 2017/11/12 第二版:如何利用esearch, efecth快速获取SRR序列号 生物数据库 目前绝大部分数据由NCBI, ...
正则表达式(regular expression, regex)是一个重要且实用的概念,我时常提起却从未细谈。一怕能力不够说不清楚反而会误导人,二是已经有无数前人撰文介绍。
就目前来看,这一周主要以补交上次作业为主,所以上一周的总结增加了很多新内容。但是关于本体论和富集分析,大家还是有点小困难。当然我自己交东西也慢了很多,因为时间也总是不太够,完全靠周末挤出来。
第二周已经结束了,我不确定大家对Linux到底了解到了什么程度,但是我觉得再给一周时间让初学者去熟悉Linux肯定是必要的。于是这一周的任务不会太难,只需要让大家去理解本体论(ontology)。
第一周笔记汇总 昨天和一位也在自学生信的同学交流自学的心境,他在我的唆使之下也在简书更新自己的笔记,可以搜索小郑的学习笔记。期间,他说道 非常庆幸自己能够坚持把自己学到的知识和困惑以文字的形式记录下来。
biostarhandbook(一)分析环境和数据可重复 2017/10/18/11:00第一版本笔记,主要更新了生物信息要用那些基本技能和电脑配置简单说明,以及如何在虚拟机器上安装bioconda 2017/10/18/12:30第二版笔记,增加虚拟机配置 2017/10/18/13:05 第三版笔记,增加文件结构 2017/10/19/10:30 第四版笔记, 增加如何用xshell连接虚拟机内部系统 2017/10/20/08:09 第五版笔记,增加线下辅导部分。
第一版: 2017//10/15 第零周的作业是:谈谈自己对生信的理解,认清自己的所处位置才能更好的向前。当然这个不强制要求写完。从这周开始就是biostar handbook学习的第一周计划。
这篇笔记发表于2017/10/14日。这是我第一次组织一个学习社群时的感想和记录。 曾经听过一个同学说,他的同学的一个导师虽然有钱,但是不愿意用高通量测序的方法进行基因定位,依旧采用人力设计标记,然后对群体基因分型的方式定位基因。
为什么我要写作? 其实答案很简单:不写很难受。 先教大家一个坚持写作的小技巧,然后讲一下为什么我光在简书就写了15万字。这个小技巧就是:别停下来。 我在考研的那段期间曾经连续跑步快2个月,然而有一次回家不小心脚崴了,于是就修养了半个多月,后面就再也那么连续跑步了。
我不是一个专业的新媒体运营者,仅仅从3月份开始参与生信媛文章推送而已。但是身为一个处女座,一个追求美好的人,我还是想分享一点自己的经验,供大家参考。 markdown写作 我是2016年3月份开始从秋叶PPT哪里接触到markdown语法,虽然那片文章主题是使用markdown写邮件让别人耳目一新,但是里面推荐了一个markdown写作平台--简书,我就在那里写了近15W字。
我们的大脑里都有各自的操作系统,它需要我们自己主动地、持续地升级。我们的大脑里都有各自的操作系统,它需要我们自己主动地、持续地升级。 “操作系统”这个概念,最早从李笑来老师的《新生--七年就是一辈子》看到。
前段时间,估计2个月之前了吧,Nature Commnication 上发了一篇史上最强RNA-Seq数据分析测评文章,本来一直想介绍一下的,但是尴尬的是实验室一直没来RNA-Seq数据让我分析,所以就一直没写文章提供的"RNACocktail",现在终于能够写一下如何布置RNACocktail的工作环境了。
如同写作,写代码也是有代码风格(code style)。不过代码风格和文风不一样,一个人的文风可以随心所欲,代码风格最好是“千篇一律”。它的核心就是:便于阅读。
想不清自己有多久没有过生日了,即便是18岁那年的生日,也是上完课照常回去。或许是我的日子过得过于浑浑噩噩,没有什么可以庆祝,或许我认为过生日是过于矫情的一种行为吧。
R操作关系型数据库 基本要求: R语言基础,懂得一定SQL语法, 懂得使用搜索引擎 目标: 学会使用DBI操作SQLite数据库 简介 R本身不具备数据库操作能力,需要额外的扩展包--DBI(database interface)。
理解ChIP-Seq 到了目前这个水平,我学习新的高通量数据分析流程时已经不再考虑代码应该如何写的问题了。我更多要去考虑一个技术的目的和意义。 转录组主要研究的问题是基因在不同情况下的差异表达以及RNA结构变化等,而表观组研究的问题是在基因序列不变的情况下,基因的表达、调控和性状发生了可遗传变化的分子机制。
数据分析比较常见的步骤是将对数据集进行分组然后应用函数,这步也可以称之为分组运算。Hadley Wickham大神为此创造了一个专用术语“split-apply-combine",即拆分-应用-合并。
温故 在基本数据管理部分,主要是涉及到如何新建数据集,并且对数据集中的变量和观测值进行提取和操作。基本上用到了如下函数,可以根据函数名回忆一下用法: import pandas as pd import numpy as np from pandas import Series, DataFrame pd.
两种基本数据结构 pandas具有两种主要的数据结构,一种叫做 Series, 直译就是序列, 另一种叫做 DataFrame, 直译就是数据框。 这两者与Python内置的数据结构,以及Numpy的ndarray数据结构最大的不同就在于,它们是由数据和数据标签组成。
前言 公众号上有人说这篇文章写得没有来龙去脉,这的确是我的问题,所以我放一个前言部分,带大家看下回顾一下事件。 Y叔在公众号开了一个系列叫做从业超过10年,未见过如此厚颜无耻之人 揭露他在科研生涯里面遇到抄袭者是如何被杂志编辑洗白的故事。
暑期回家学车的时候,我为了保持自己的学习状态,于是去看《利用Python进行数据分析》。为了能够运行书上的代码,我去GitHub上下载它们随书数据,不经意间发现这本书要在今年10月份出第二版了,图书地址是http://shop.oreilly.com/product/0636920050896.do。
Numpy, 数组和矢量计算包 前几年前想学数据分析,于是就去学习Python的Numpy。然而看完《利用Python进行数据分析》后,也对它没有多大印象的。
作为一名研究生,每年都有几个星期是能用来休假的(这主要取决于实验室),于是我回去学习一年前剩下的科目三了去了。今天是第一天上路,所以这真的是一篇学车的心得体会。
要求 实现这个功能的软件也很多,还是烦请大家先自己搜索几个教程,入门请统一用htseq-count,对每个样本都会输出一个表达量文件。 需要用脚本合并所有的样本为表达矩阵。
欢迎来GitHub上fork,一起进步: https://github.com/xuzhougeng 比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2,并且搞懂它的用法。
转录组入门(4):了解参考基因组及基因注释 在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量! 作业,理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程,并发在论坛上面。
GGTREE的快速使用函数就是ggtree,源码如下, function (tr, mapping = NULL, layout = "rectangular", open.
字符串操作的差异 R本身设计初衷主要是用来处理矩阵运算这类数学问题,因此在字符串操作方面比较薄弱。Python并不是专门用来进行数学计算的,没有偏向性,字符串操作优良。
本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors.
生信技能树的转录组学习开班了, 第一个任务是安装软件, 于是我花了一个下午时间和Linux斗智斗勇。 系统准备 windows10: Unbuntu on windows10 微软的良心 软件准备 我的习惯: 家目录下创建src文件夹,用于存放软件包 家目录下创建biosoft文件夹,用于安装软件 为了提高下载速度,我们需要替换/etc/apt/source.list中默认镜像源。
注
对于集合的可视化,第一时间想到的都是韦恩图(venn diagram),一般集合不超过5个的时候,可视化效果还是不错的 但是一旦数据集增加,比如说五个的时候,你就很难从图中解读出想要的信息了。
startup-photos.jpg 数据库迁移 写完数据库模型之后,要根据这个模型创建数据库。目前Django支持如下数据库引擎: MySQL: django.db.backends.mysql SQLite 3: django.db.backends.sqlite3 PostgreSQL: django.db.backends.postgresql_psycopg2 其中SQLite3是Python自带的,对于我们这种小博客是够用了的。
简单介绍架构 在正式开始前,先简单介绍一下Web 框架。为什么要有web 框架?如果你打算做一个网页,那是不需要的。如果你需要建立大量的网页,而且如果只需要同一个网页改改内容的话,那你就需要建立一个合适的框架,减少大量无谓的重复操作。
其实我在一年前在学习爬虫的同时,也开始学Django搭建自己的网站,后来发现flask也比较不错,又去学习一会flask。再后来发现有GitHub Page存在,可以免费托管自己的网页,于是又去折腾了GitHub page. 差不多一年没有碰他们了,但是为了提高自己的编程能力,于是我搭建继续学习Django搭建自己的个人博客。
这一次,我们来聊聊基因组注释。首先问自己一个问题,为什么要进行基因注释。 就我目前而言,它用来解决如下问题: 在mapping-by-sequencing的时候,我找到了一些可能的突变位点,我需要知道这些突变分别是那些基因发生突变,这些突变基因有哪些功能? 差异表达分析之后会得到许多的基因,这些基因有什么样的特征?如果要进行基因富集分析,不可避免就需要知道他们的GO,KEGG等注释信息。
R语言主要擅长于数值向量和矩阵操作,但是让他去做字符串操作也可以吧。 字符串的基本操作类型: 查找和替换 大小写转换 字符数统计 字符串连接和拆分 就我所知,有两套处理函数,一套是Hadley大神的stringr,一套是R自带的。
R语言的for循环支持任何向量(注意,是向量),无论向量是任何模式,如 x
还在利用hisat, tophat这些耳熟能详的软件将read比对到基因组(转录组)上,然后统计每个基因的count数么?试试这些不需要比对,速度更快的工具吧。
基因表达 什么是基因表达,如下是来自于维基百科的解释: Gene expression is the process by which information from a gene is used in the synthesis of a functional gene product.
请相信,我说的都是错的。 请你现在思考一下,你是否需要相信我说的话,还有我之前的那句是对是错。 今天想说一个比较有意思的话题,叫做“因果律是否存在”。
BeautifulSoup是灵活又方便的网页解析库,处理高效,支持多种解析器。虽然正则表达式比较强大,但是能用“美味的汤”能更加方便实现网页信息的提取就优先使用吧。
每天学点GATK,今天学习的是GATK变异位点操作工具(variant Manipulation Tools)。 SelectHeaders 功能: 从VCF文件中选择headers 分类: 变异位点操作工具 概要: VCF文件通常是拥有许多header信息的,但是实际上某些步骤不需要那么多信息,所以我们需要利用SelectHeaders进行选择。