KEGG的简介
KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其关注的代谢途径有直观全面的了解。
KEGG 数据库于 1995 年由 Kanehisa Laboratories 推出 0.1 版,目前发展为一个综合性数据库,其中最核心的为 KEGG PATHWAY 和 KEGG ORTHOLOGY 数据库。在 KEGG ORTHOLOGY 数据库中,将行使相同功能的基因聚在一起,称为 Ortholog Groups (KO entries),每个 KO 包含多个基因信息,并在一至多个 pathway 中发挥作用。而在 KEGG PATHWAY 数据库中,将生物代谢通路划分为 6 类,分别为:细胞过程(Cellular Processes)、环境信息处理(Environmental Information Processing)、遗传信息处理(Genetic Information Processing)、人类疾病(Human Diseases)、新陈代谢(Metabolism)、生物体系统(Organismal Systems),其中每类又被系统分类为二、三、四层。第二层目前包括有 43 种子 pathway;第三层即为其代谢通路图;第四层为每个代谢通路图的具体注释信息。
KEGG
KEEGG代谢通路图解读
1、代谢通路中各种符号标识:
2、代谢通路中(绿)和(白)底框:
一般,KEGG中存在两种代谢图:
① reference pathway,根据已有的知识绘制的、概括的、详尽的具有一般参考意义的代谢图,为白色小框,在KEGG中名字以map开头,比如map00010;
② species-specific pathway,绿色小框为该物种特有的基因或酶,只有这些绿色的框有更详细的信息。KEGG中名字为特定物种种属英文缩写,比如酵母的糖酵解通路图,sce00010。
3、KEGG富集分析:
统计该物种的富集结果,红色边框的为上调的,绿色边框的为下调的。
KEGG Pathway富集分析不仅仅基于富集分析数据,人为的解读和挑选是必不可少的。因为: (1) 基因调控是个系统,而不仅作为1个孤立的pathway。 a. 1个基因的改变可以造成整个系统的改变; b. 1个基因往往有多个功能,但执行具体的功能往往是不同蛋白复合物共同作用。 (2) pathway富集分析的统计假设,并非在任何情况下都适用pathway富集分析,要观察、理解某个核心pathway中基因的相互作用,才能判断其中的基因变化是否有生物学意义。 (3) 现存KEGG等数据库收录的是已有研究结果,更详细的pathway信息需进一步完善。