生信媛公众号编辑、生信必修课之软件安装课程作者
GATK的本职工作是Variant calling,但是就像我之前所说的,它作为基因组分析工具箱,还是有很多其他工具,今天学习的是诊断和质量控制工具的其中两个:CountReads,FastaStats。
BaseRecalibrator 简介 用途: 检测碱基质量分数中的系统错误。分类: 序列数据处理工具概要: 所谓的变异位点,就是与参考基因组不同的部分,假设原始数据中就存在着一些由于测序仪器产生的系统性误差,那么变异位点识别过程中找到的variant,就会存在大量的假阳性。
VariantAnnotator 简要说明 用途: 利用上下文信息注释识别的变异位点(variant calls)分类: 变异位点操作工具概要: 根据变异位点的背景信息(与功能注释相对)进行注释。
由于R语言的apply家族函数是用C写的,所以使用apply进行遍历的执行效率远远高于自己编写的循环语句。 函数介绍 apply的用法很简单: apply(X, MARGIN, FUN, ...) X: 是一个数组(array),也就是说输入必须都是相同类型的数据,要么都是数值型,要么都是字符型。
学习的最好模式,就是学了就去马上用。上次是学完了urllib和re库之后尝试爬取了豆瓣分享的书单,那个时候发现urllib这个标准库还是不太好使。今天刚学了requests这个更好用的库之后,尝试和re一起使用爬取简书的第一页。
基于基础库的简单实战 爬取目标是千古刘传在豆瓣上的分享书单,网址为https://www.douban.com/doulist/44773558/ 明确爬取目标: 书名 作者 出版社 出版年 豆瓣评分 刘传评语 查看网页构造: 代码: from urllib import request url = 'https://www.
GATK,全称是Genome Anlysis Toolkit,顾名思义,是一套用于分析基因组的工具箱。主要功能是寻找变异位点和基因分型,但是实际上功能超多,导致初学者都不知道从何学习GATK。
正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用实现定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
等待了将近一个月的时间,我在微基因(类似于23&me)的基因检测报告终于出来了。 作为一个热衷于生物信息学的初学者,当看到可以花850(原价999,用了一张150的优惠券)对自己做一次microassay(基因芯片)的时候,立刻产生了极大的兴趣,于是在清明前下单,然后清明后通过唾液采取送去了我的样本。
“认识你自己”是希腊德尔菲神庙门楣的铭言,也是苏格拉底的哲学原则。它在你人生的每一个节点都发挥作用,那么如何认识自己呢? 认识自己从心智模式开始 心智模式(mindset)指的是我们看待成长的态度。
urllib是Python自带的标准库,无需安装,直接可以用。 提供了如下功能: 网页请求 响应获取 代理和cookie设置 异常处理 URL解析 爬虫所需要的功能,基本上在urllib中都能找到,学习这个标准库,可以更加深入的理解后面更加便利的requests库。
本文为自己动手,丰衣足食!Python3网络爬虫实战案例的学习笔记,部分图片来源于视频截图。 爬虫:请求网站,并提取数据的自动化程序请求网站,并提取数据的自动化程序 爬虫基本流程 在了解爬虫的定义之后,那么再来看看爬虫是如何工作的吧。
认知迭代cognitive iteration 什么是认知,维基百科的定义是: 认知是一种通过思想、经验、感觉,理解和掌握知识的过程。Cognition is "the mental action or process of acquiring knowledge and understanding through thought, experience, and the senses. 因此认识,简单来说,就是认识知识的过程。
磨刀不误砍柴工,在正式爬虫学习前,需要事先配置工作环境,包括如下: python环境。推荐python3,Windows建议用anaconda,Linux用如下代码 sudo apt-get install python3-dev build-es...
基本数据管理 目标: 操作日期和缺失值 熟悉数据类型的转换 变量的创建和重编码 数据集的排序、合并与取子集 选入和丢失变量 案例: R in action提供,用于研究男性和女性在领导各自企业上的不同 manager
假设检验 统计学有一个非常重要的内容,叫做假设检验,用于判断抽样的结果是否符合事实的本质。有两个组成部分,一个是空假设(null hypothesis, H0),一个是备择假设(alternative hypothesis,Ha). 以法官判案为例,他的空假设就是被告(嫌疑人)无罪,随着原告(公诉人)不断给出证据,他开始否定空假设,接受备择假设,也就是认为被告有罪。
问题 这几天写生物统计作业的时候,由于上课没有仔细听讲,而且内心抱着不就是套公式的想法,结果脑子想的都快炸了,翻了好多书,但是最后的答案在我的眼里还是不合格。
如果突然有一天,你醒过来,你失忆了,忘了过去,你会怎么办。 如果有一个邪恶的科学家,用于把你固定在某一个时间段(A-B),每次到B的时候,时间重置到A,一切A-B之间的经历都没了。
为什么要写脚本 为了把时间放在更有意义的事情上 生信人每天会做大量的重复的操作,例如一个流程会用不同的参数跑好几遍找合适的参数,不断把一个格式的数据转换成另一种格式。
grep:最快的文本搜索工具 grep就是在文本提取和匹配上最快的工具,因为它只有一个目标,在每一行找匹配的内容,并且在这个任务上没有其他程序比他是做的更好。
在武侠小说里,往往有这样一个场景:反面角色从主角手里抢到了某某神器,然后当着主角的面使用它,结果因为内功不够深厚,无法驾驭,被神器反噬,然后主角一般都有露出一种“早就和你说了,你不行”的神情。
内容写的特别的“简洁”,存在疑惑的部分,可以讨论 Unix基本命令能做的事 学习了cat, head, tail, less, more,cut,sort,wc,uniq等基本命令后,如何使用这些命令对生物信息数据做简单的分析呢。
请停止无效努力的读书笔记之一 为了更好的成长,我们不可避免的要去学习很多知识。当学生那么多年后,很容易认为学习不就是看看书,看看视频,有钱的话请个老师,然后做点学习笔记,但是这个真的是学习的最好方式么,或者说有没有更加合理的方式。
由于每个人都不是万能的,都有一定的缺陷,所以不可避免的要求助别人。但是之前,甚至是现在我向别人求助的时候,总有一种“麻烦”别人的感觉,感觉自己打扰了别人,浪费了他人的时间。
这个世界存在一类“聪明人”,我可能也是其中的一员。这一类“聪明人”有一个特点,觉得自己的“学习能力”特别强,体现在能够迅速掌握一门技术,不明白为什么别人会卡某个问题上很久。
有句话叫做“活在当下”,但是如果你仔细思考这句话。要我们活在当下,其实相当于要我们满足于现状,一旦你甘于现状,那么就有很大可能不思进取,结果通常不太好。
通常意义上我们都认为计算机是学习人类的结果,但其实我们这些普通人应该向计算机学习。 计算机是人类里少数聪明的人设计发明的,学习计算机的一些重要理念,间接的学习了那些聪明人的思考方式。
财富不是金钱,更多应该指我们所能拥有的东西。为了更方面的获取我们需要的物品,于是产生了“钱”这个中介 我们可以忍受有人下棋比我们好,唱歌比我们好,演戏比我们好,但是我们无法忍受一个人钱比我们多。
不能说的话 所谓“时尚”,本质上就是自己看不见自己的样子。好比我们在地球上,却感觉不到地球在动 流行一时的不仅有衣服,还有道德观念。明明是专横武断、毫无依据的错误观点,但是大多数人却深信不疑,受到影响而不自知。
简介 SHOREmap可以用来分析传统作图群体(自然系natural strains和分化系,diverged accession杂交,或outcrossing)或近等作图群体(isogenic mapping population, 诱变后代与未诱变亲本进行杂交,即会交,backcrossing)所产生的重测序数据。
在一年多前,我大学室友经常会分享公众号“新生大学”的文章给我看。我当时并没有什么感觉,以为这个公众号是给哪些刚上大学的新生提供的,所以也就放弃了进一步的探索。
当我开始写东西的时候,发现每天都有800多字,所以也就强迫自己现在也要写那么多字(尽管没有人看)。但是由于今天课程太满,没有去补充太多新鲜的信息有足够强度的思考(而且现在肚子又饿了),所以为了不让大脑把写作和痛苦连接在一起,最好的方式还是安安静静的停笔一天,周末在进行高强度的思考。
公众号千古刘传目前都在写日思清单,我也在读完《好好学习》之后也诞生了每天反思的想法,但是都是记录在自己笔记上,那么思考的质量无从判断,因此从现在开始都会把每天的想法放在简书上,希望有人看吧。
在“我为什么贪玩”中,我认为我无法坚持做最好的选择的原因是我缺少敏锐的感知能力,所以先讲一下为什么敏锐的感知能力可以帮助我们更好进行选择。 我之所以是我,是当下所有的感觉思想的集中体现,而感觉和思想其实和你的记忆密不可分。
玩,还是不玩,这是一个问题 每当上完课回到寝室,或者是周末起床,我都会面临一个非常巨大的问题,是打开电脑打一盘Dota2,还是打开Kindle或者翻开文献看几页。
订阅李笑来《通往财富自由之路》这个专栏已经差不多半年了,这半年的心态从“一定要升级我的操作系统”,到“其实等过几天看”,只是把3分钟热度延长了而已。 每个人都想改变,出名的只有几个 由于大部分人都不是含着“金钥匙”出生,中国也一直都有‘’望子成龙“或“望女成凤”的传统,所以可以假定我们每个人都希望出人头地,你还可以想象大家一般还会说“等我xx,我就xx”,比如我以前就说“等我赚了500万,我就宅在家里打游戏”。
前几天再看新买的《python Web开发实践》时发现一个神奇的工具---Docker,官网介绍是 Docker is the world's leading software containerization platform 我不禁想到生物信息学中有许多软件都要在类unix平台上运行,仅有部分移植到Windows上。
bash的主要优点如下: 可以通过history查看命令的历史记录 命令和文件路径补全的好帮手-->TAB 命令别名 alias 工作控制、前景背景控制: (job control, foreground, background) 自动化脚本she...
shell script是利用shell的功能所写的一个“程序”,这个程序使用纯文本,将一些shell的语法和命令(含外部命令)写在里面,搭配正则表达式,管道命令与数据流重定向等功能,达到我们所需要的处理目的。
距离上一篇文章,时间已经过去2个月了,没想到这一偷懒就是那么久。在这段期间,也发生了很多事情,最大的事情就是已经毕业了。 但是好不容易开了建立了这个个人网页,也不能随便荒废呀,继续写一下如何在win10用特殊的技巧使用Hexo吧 Linux on Windows 10 Windows 最让人诟病就是他的开发环境了,但是现在越来越开放的微软居然为win10提供了Linux的接口,不同于虚拟机的方式,内嵌的Linux和win10共享硬件,所以运行效率几乎没有变化,从此再也不需要辛辛苦苦重启打开我的Ubuntu了,也不用羡慕Mac OS了。
一、环境变量 1.变量 要解释环境变量,得先明白变量是什么,准确的说应该是 Shell 变量,所谓变量就是计算机中用于记录一个值(不一定是数值,也可以是字符或字符串)的符号,而这些符号将用于不同的运算处理中。
一、Linux 目录结构 在讲 Linux 目录结构之前,你首先要清楚一点东西,那就是 Linux 的目录与 Windows 的目录的区别,或许对于一般操作上的感受来说没有多大不同,但从它们的实现机制来说是完全不同的。
官方教程说当你写好自己的spiders如douban之后,你可以通过scrapy runspider/crawl douban启动你的爬虫。于是一开始的时候你就知道通过这个命令行来启动爬虫,但是你有没有想过当你敲下这行命令后,scrapy到底做了什么呢? 命令入口:cmdline.
我在Python爬虫基础-模拟登陆曾经谈过Cookies和Session。那么如何我想使用Scrapy进行模拟登陆,那么肯定要逃不过Cookies和Session。
写在前面 在Scrapy基础——Spider中,我简要地说了一下Spider类。Spider基本上能做很多事情了,但是如果你想爬取知乎或者是简书全站的话,你可能需要一个更强大的武器。
写在前面 这是Scrapy学习的基础部分,大部分内容来自于官方文档的个人解读,不太适合那些想在30分钟以内学会Scrapy的人学习,但是如果你在看那些xx分钟入门Scrapy的时候存在疑问,可以翻看这篇查查相关内容。
为什么我们要让爬虫模拟登陆呢? 有些内容只有登陆才能进行爬取,如知乎,不登录的主页只能看到注册和登陆 ; 你想爬取自己的个人信息 有什么方法呢? cookie 在互联网发展的早期,由于大家的服务器都不是太好,所以服务端不会记住你的个人信息,这会增加服务器的压力。
用Python学爬虫最大的好处就是python有很多实用库,免去了我们自己造轮子的环节,那么找哪些轮子呢?Python爬虫有两个比较实用的库,Requests和Beautiful Soup。
写代码的最常做的事情就是debug和test,那么如何在Scrapy中检查爬虫能否正常运行,保证在大规模作业时不会遇到奇奇怪怪的问题呢?这里主要根据实例说些debug的方法。
在认识爬虫中我给自己设定一个目标就是学习模拟登录。但是目前的知乎、豆瓣都要输入验证码,本以为可爱的简书是不会的,结果他居然要滑动图块解锁。但是学技术总要先会一点简单的呀,于是我就拿我自己的个人网站xuzhougent.top开刀了。