在做数据分析时,有两种解决问题的策略,一种是自己写代码处理数据,一种是用开源在互联网的工具。 如果你代码写的贼流,并且嫌弃已有工具质量不够,那么在空闲的时候开源自己写一个。如果你对代码还不够熟练,或者是一个常规的数据分析任务,那么我建议你使用别人已经写好的工具,将这些工具进行组合处理大任务中的不同部分。
Rosalind兵工厂这一部分主要介绍了常见数据格式以及处理这些数据的工具。我建议先学会用轮子,在熟练使用后开始自己实现这些轮子的代码
New Motif Discovery
Motif(模体,基序)是一种序列模式,可以被转录因子识别结合,因此与转录调控有关。目前寻找motif的程序有两种方式表示结果,一种是正则表达式,一种是motif每个位置碱基的概率矩阵。在论文中最常见的表示方法就是sequence logo,每个位置的碱基大小表示这位置上出现该碱基的可能性
寻找Motif目前的主流工具就是MEME Suite,他不是一种工具,而是一个套餐,将motif识别相关的可能工具都整合在了一起
题目:根据已有的FASTA文件,识别其中相似的motif,长度不低于20. 结果请给出最佳得分motif的正则表达式。
解决方法: 尽管有一个网页版的工具meme可以使用,但是往往在出来结果前,时间就到了。所以最佳的方法就是安装本地版工具, 安装方法见http://meme-suite.org/doc/install.html
~/opt/biosoft/meme_4.12.0/bin/meme rosalind_meme.txt -protein
查看"meme_out/meme.txt"里的结果,手动修改。。提交答案。。
感觉有点纯。。可能要用一个正则