那些MECAT组装基因组中遇到的坑

简介: 链接Github地址和文章的链接:https://github.com/xiaochuanle/MECAThttps://www.biorxiv.org/node/26657在MECAT的文章2017年正式发表没过几天的时候就试过安装mecat,当时遇到了一些奇怪的问题,现在想来大概是因为对linux不够熟悉只会复制粘贴代码造成的吧。

链接

Github地址和文章的链接:

https://github.com/xiaochuanle/MECAT
https://www.biorxiv.org/node/26657

在MECAT的文章2017年正式发表没过几天的时候就试过安装mecat,当时遇到了一些奇怪的问题,现在想来大概是因为对linux不够熟悉只会复制粘贴代码造成的吧。昨天,2018.1.20,在阿里云服务器和腾讯云的服务器上疯狂尝试了两轮才发现问题所在。还是太年轻。复制粘贴确实能避免很多因为手残导致的问题,但还是要认真审视代码的呢。一味无脑复制人家的代码只会闹这样的低级笑话。

安装的坑

主要是给我这种初学者和粗心的小伙伴们提个醒:

img_dff50d0da553d9ce207ed381da27d94e.png
install HDF5

这里的这个位置跟自己电脑的位置大概率来说是不一样的噢,所以别一股脑的就复制进去了,然后安装在了一个奇怪的位置(别问我是怎么知道的……说多了心累……)我直接就安装在了 /home/hanschen/hdf5这个位置。下面写export的地方别忘了也改一下噢。

quick start的坑

MECAT官网是提供pacbio和nanopore两种测序方式的组装的,也提供了两个示例文件with代码,可以用来测试MECAT软件有木有安装成功。初心是挺好的,但是这个文档写得太不走心了。。这代码迷之错误让我debug了很久。。虽然看懂了之后发现原来就这么简单。。

img_c7607f099bfbf06b81b76684263bb9d5.png
pacbio的示例代码

可以看到第二步里是生成了一个文件叫 corrected_ecoli_filtered,但是第三步里却需要一个叫 corrected_ecoli_filtered.fasta的文件,之前一度认为是第二步出了问题,少生成了一个 corrected_ecoli_filtered.fasta文件导致第三步运行的时候失败,报错说找不到这个 .fasta文件,就一直在返回去看第二步的结果,总觉得是第二步的问题……今天熬了个夜突然脑子就开窍了。。会不会™是文档写错了?遂less了一下 corrected_ecoli_filtered,发现这个文件就是fasta格式……

我跟你讲我就是这个表情! ↓↓↓


img_f66d36e3028f41a2e2129b8bcd067e50.jpe

转换思路开始怀疑文档有误之后,一切都顺利了起来。。第四步的代码也是有一个小错误的,纠正了前面错误的同学应该能很快发现的。。

于是就很顺利的跑完了示例基因组……

C++ 缺少模块的坑

我不知道是我服务器的问题还是MECAT软件的问题,在跑pacbio示例和nanopore的示例的时候都报了个缺少perl模块。

这里倒是顺便学习到了如何安装perl模块之类的linux实用技巧(强行安慰自己)

pacbio缺少的模块:Filesys::Df

第一种办法:自动安装。
自动安装的代码如下。

 sudo  perl -MCPAN -e shell
         cpan>install Filesys::Df

第二种办法:下载源码进行安装。

http://search.cpan.org/~iguthrie/Filesys-Df-0.92/Df.pm

下载好解压后,cd进目录

perl Makefile.PL
make
make test  #当出现“all test ok”时说明测试成功,此步非必须
make install

所以建议大家用第一种安装方式,简单省事儿。

nanopore缺少的模块:ios::in

这个bug我至今没修好……一方面是自动安装找不到这个模块,另一方面是找不到源码……就很懵逼,我也不知道是软件的问题还是我服务器的问题……诶。需要去求个大神帮忙解决一下了……


这一篇大概之后还会继续填坑的,毕竟这个软件相对于falcon和canu的优势还是很大的,毕竟省下了很多的计(nei)算(cun)资(tiao)源和时(qian)间呢。

2018年1月27日09点54分。

相关文章
|
6月前
|
安全
三维基因组|基因组结构 (2)
三维基因组|基因组结构 (2)
62 0
|
6月前
基因组组装:Hifiasm 使用教程
基因组组装:Hifiasm 使用教程
225 1
|
算法 芯片
DNA测序原理:illumina和Pacbio对比介绍
DNA测序原理:illumina和Pacbio对比介绍
|
机器学习/深度学习 安全 数据挖掘
用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值
用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值
171 0
用于 DNA 测序的机器学习模型,理论上可以解码任何测序读数中所编码的数据值
|
算法 索引 Python
宏基因组之基因组装
宏基因组组装,即把短的reads拼装成连续的序列contig,再根据PE等关系将contig拼装成scaffold。与单个基因组组装不同,宏基因组组装最终得到的是环境样品中全部微生物的混合scaffold。理想情况下一条scaffold对应一个物种的全基因组。但由于序列太短或者覆盖度不够,很难拼出一条完整的基因组。针对高通量测序数据,出现了多种拼接算法和软件。
536 0
|
数据可视化 数据库 Python
scRNA分析 | 解决可能的报错,从0开始教你完成细胞通讯分析-cellphoneDB
scRNA分析 | 解决可能的报错,从0开始教你完成细胞通讯分析-cellphoneDB
648 0
|
数据采集 算法
测序质控和基因组组装原理
测序质控和基因组组装原理
|
数据库
3-华大时空组学分析软件 Spateo 细胞分割示例
本分示例了使用 华大时空组学分析软件 Spateo 基于SSDNA和 表达谱进行圈细胞的用法,以供参考
275 0
|
数据采集 设计模式 存储
全基因组重测序流程【超细致!!】
全基因组重测序流程【超细致!!】
|
机器学习/深度学习 算法 数据可视化