从NCBI获取物种线粒体基因信息

简介: 本分分享了一种从 NCBI获取物种基因组信息页面提取其线粒体基因信息的操作指南,以供参考

以查找斑胸草雀(zebra finch)线粒体基因为例:
打开NCBI("https://www.ncbi.nlm.nih.gov"), 选择基因组数据库(Gneome)数据库搜索物种名: "zebra finch"

斑胸草雀基因组表单

跳转到斑胸草雀的基因组详情页,往下翻阅
斑胸草雀基因组染色体详情表单(1)

斑胸草雀基因组染色体详情表单(2)

在斑胸草雀的参考基因组染色体详细表单中定位到Type列为MT的染色体(线粒体基因组),记下MT染色体的RefSeq(Scaffold序列号)NC_007897.1
接下来下载斑胸草雀的参考基因组的注释文件,点击Assembly跳转
斑胸草雀基因组表单
Assembly下载页面

在斑胸草雀基因组的Assembly页面点击Download Assemblies 选择RefSeq(参考基因组)的Genomic.gtf文件下载注释文件,下载后打开
下载的gtf文件

用less -S 命令查看 less -S GCF_003957565.2_bTaeGut1.4.pri_genomic.gtf ;红框的部分显示的是所有Scaffold序列号
斑胸草雀基因组gtf详情

用以下shell命令提取NC_007897.1序列(线粒体基因组)的的注释信息,然后提取出”gene"标签的内容,去重得到的便是线粒体基因名
cat GCF_003957565.2_bTaeGut1.4.pri_genomic.gtf | awk '{if($1 == "NC_007897.1"){print $0}}' | awk '{match($0,/.+gene ([^;]+)/,a);print a[1]}' | sort -u >GCF_003957565.2_bTaeGut1.4.pri.MitoFeatures.txt

目录
相关文章
|
10月前
|
数据挖掘 数据库
略微学习一下二区4.5分纯生信,单基因肺结核叶酸基因集+泛癌分析
研究摘要: 一项发表于2023年《MEDIATORS OF INFLAMMATION》杂志的文章发现,RTP4基因可能成为诊断肺结核的新生物标志物。研究者通过分析GEO数据库中的多个微阵列数据集,使用WGCNA方法识别与肺结核和叶酸生物合成相关的基因模块。RTP4在健康与肺结核患者间的表达有显著差异,并且在抗结核治疗前后表达量变化。泛癌分析显示,RTP4在不同肿瘤类型中的表达与预后关联不一,提示其可能在多种癌症中具有重要功能。这些发现支持RTP4作为诊断工具的潜力,并为进一步研究其在结核病和癌症中的作用奠定了基础。
135 1
|
10月前
|
算法 数据挖掘 Go
文献速读|5分生信+免疫组化单细胞联合bulk转录组肿瘤预后模型
研究摘要: 在《Cancer Immunology Immunotherapy》上发表的一篇文章,通过整合Bulk和单细胞RNA-seq数据,探讨了非小细胞肺癌(NSCLC)中癌相关纤维细胞(CAF)的作用。研究者识别出CAF的预后标志物,构建了一个基于CAF的模型,该模型在四个独立队列中区分了预后良好的和较差的患者。WGCNA分析鉴定出CAF标记基因,而CAF分数与免疫微环境和免疫治疗反应相关。高CAF分数关联较差的免疫治疗反应,FBLIM1被发现为CAF的主要来源,其高表达预测了免疫疗法的不良反应。该研究揭示了CAF在NSCLC免疫抑制和治疗策略中的重要地位。
233 1
|
6月前
|
存储 数据挖掘
单细胞|线粒体基因型和DNA可及性联合分析
单细胞|线粒体基因型和DNA可及性联合分析
118 15
单细胞|线粒体基因型和DNA可及性联合分析
|
9月前
|
人工智能 安全 搜索推荐
1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种
【6月更文挑战第14天】阿里云发布首个集成DNA、RNA和蛋白质数据的生物大模型LucaOne,拥有1.8B参数,涉及16.9万物种。LucaOne通过few-shot learning技术和streamlined downstream architecture实现多生物语言统一处理,提升生物系统理解与分析能力。该模型将加速生物信息学研究,推动生物医学应用,但同时也引发生物数据安全、预测偏差及AI伦理法律等问题的讨论。[论文链接](https://www.biorxiv.org/content/10.1101/2024.05.10.592927v1)
459 3
|
数据挖掘 Go 计算机视觉
文献丨群体转录组分析eQTLs调控基因表达
文献丨群体转录组分析eQTLs调控基因表达
|
10月前
|
芯片
基因测序的原理是什么
基因测序的原理是什么
|
机器学习/深度学习 语音技术 数据库
文献分享丨GWAS分析菜用大豆可溶性糖含量调控基因
文献分享丨GWAS分析菜用大豆可溶性糖含量调控基因
|
数据库
利用massdatabase包提取物种KEGG通路与基因/化合物对应信息
最近手头处理一批代谢组数据, 想基于几十个关键差异代谢物代谢物进行下KEGG富集,能想到有两种方式解决,一种常用方式就是基于MetaboAnalyst在线富集,另一种就是解析出该物种的通路与代谢物的对应关系文件,然后用Y叔叔的Clusterprofiler包富集。经一番搜索,massdatabase包可帮我们轻松获得这个文件。 作者:凯凯何_Boy 链接:https://www.jianshu.com/p/654784925903 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
414 1
|
数据挖掘 数据库 网络可视化
SFINX: 一个基于Shiny部署的鉴定蛋白互作关系平台
目前研究蛋白质互作方法有很多,传统的方法是将天然蛋白免疫沉淀与质谱检测结合(CoIP-MS),另外流行的还有亲和纯化/质谱法(AP-MS),与CO-IP类似,它使用感兴趣的诱饵蛋白(bait proteins)上的表位标签和捕获探针来识别协同的猎物蛋白,不需要为每个新的诱饵蛋白购买或者开发特定抗体,得到的融合蛋白可以用链霉亲和素(strep)磁珠来亲和纯化,用生物素洗脱最终得到蛋白复合物。
156 0
|
数据可视化 数据挖掘 Python
R语言利用转录组基因表达矩阵做基因共表达分析的学习资料推荐
R语言利用转录组基因表达矩阵做基因共表达分析的学习资料推荐

热门文章

最新文章