“精确医学”须谨慎解读

简介:

【编者按 美国于2015年年初提出的“精确医学”计划倍受世界各国关注。有消息称,我国的相关计划将在今年下半年或明年启动。对此,中科院上海生命科学研究院吴家睿研究员近期撰文指出,“精确医学”是一个有着丰富内涵的复杂概念,需要人们认真地思考和小心地解读。当前,亟需我们明晰的两个问题是:为何要在此时启动精确医学计划?如何才能达到精确医学的目标?】


吴家睿(中科院上海生命科学研究院生物化学与细胞生物学研究所)

2015年初,美国总统奥巴马在美国国会做国情咨文报告时表示:“我希望这个消灭了天花、绘制出人类基因组图谱的国家可以引领一个新时代—— 一个在恰当时机提出正确治疗方法的时代。今晚,我将发起一项‘精确医学’倡议,让我们向治愈癌症与糖尿病等疾病更靠近一步,使每个人都可以得到让我们与家人保持健康所需要的个性化信息”。

这段讲话让“精确医学”(Precision Medicine, 有时被翻译为“精准医疗”)迅速成为了新年伊始世界各国关注的热点。据中国医师协会官方报纸《医师报》3月26日报道:北京天坛医院副院长王拥军教授日前透露,科技部召开了国家首次精准医学战略专家会议,中国精准医疗计划将在2015年下半年或明年启动。

显然,我们有必要思考一下,为什么要在这个时候启动精确医学计划?怎样才能达到精确医学的目标?

为什么要启动精确医学


面对当前生物医学领域亟需解决的生理和病理的复杂性问题,有人看到了挑战,有人看到了机会。“精确医学”正是在生命科学和医学实践所处的这样一个重要转折点上应运而生。

上世纪90年代初,美国主导的国际人类基因组计划(Human Genome Project)启动,目标是测定人类拥有的遗传信息载体DNA上30亿个核苷酸的排列顺序。2001年2月,人类基因组草图发布;2003年4月15日,国际人类基因组计划负责人、现任美国国立卫生研究院(NIH)主任F. Collins宣布,人类基因组序列图绘制成功。同日,美、英、日、法、德和中国等六国政府首脑联合发表声明,祝贺人类基因组计划的完成。

人类基因组计划之所以受到各国政府和科学家的高度重视,是因为人们希望通过这个计划破译人类的全部遗传信息,从而在保障人类健康和抗击疾病方面提供重大帮助。在2003年宣布人类基因组计划完成之后,研究人员就立刻启动了致力于人群水平的遗传变异研究的“国际人类基因组单体型图计划”,要揭示非洲、亚洲及欧洲人群的基因组变异谱图。

人们对基因组测序技术的临床应用更是寄予厚望。例如在肿瘤研究领域,NIH在2006年启动了耗资1亿美元的“癌症基因组图集”(The Cancer Genome Atlas,TCGA)科研项目,计划绘制出1万个肿瘤基因组变异图谱。2008年,国际癌症基因组合作体(International Cancer Genome Consortium,ICGC)成立,随后有16个国家参加了肿瘤基因组变异图谱的研究计划;当时该组织的目标是,针对50种不同类型的肿瘤,每种肿瘤采集500份样品进行基因组测序研究。TCGA项目在2014年底宣告完成,研究者发现了近1千万种与肿瘤相关的遗传变异。通过对TCGA项目获得的21种癌症突变数据的统计分析,研究者表明,利用基因组测序方法能够找到一些临床上有用的突变位点。

然而,在基因组测序工作迅速推进的同时,研究者也逐渐认识到基因组知识的局限性。在人类基因组草图发表的第10个年头,人们发表了一系列文章来进行回顾和反思。例如美国《科学》杂志登载了一篇题为《等待革命》的评论文章,其主要观点是:“人类全基因组序列的测定并没有带来基础医疗方面的重大进展;由此促使人们去思考,是什么原因延缓了健康医学领域的基因组革命”。为什么人们的预期目标和现实情况有如此大的距离?在《自然》杂志纪念人类基因组计划10周年专辑中,一篇题为《生命是复杂的》的评论文章给出了答案:“生物学家看到的越多,显现的就越复杂”。虽然基因组的DNA序列是生物体的遗传基础,但生命活动并不是简单地依靠碱基序列就能够实现的。

我们知道,现代生命科学建立在解释遗传信息传递的“中心法则”之上。长久以来人们相信,“中心法则”确保生物体遗传信息的“高保真性”:mRNA序列必定严格由DNA序列决定,而蛋白质的氨基酸序列也必定由mRNA序列上的遗传密码子所严格决定。然而,科学家近几年的研究表明,遗传信息传递到RNA和蛋白质的过程中充满了各种各样的变异或者“错误”。也就是说,生命的复杂性远远不是简单地测定基因组核酸序列就能够阐明的。即使只从“中心法则”直接涉及到的DNA、RNA和蛋白质分子水平来看,基因组核酸序列不过是生命复杂性的“冰山一角”;更不用提,生命复杂性涉及到表观遗传现象,以及代谢小分子和糖脂的参与;不仅如此,生命复杂性还涉及到细胞、组织和器官等不同层次。

《细胞》杂志在2014年3月为纪念创刊40周年发行了专辑,其主题就被定为“复杂性”(Complexity)。在该专辑中,美国著名肿瘤生物学家R. Weinberg发表了一篇题为《完整的循环——从无尽的复杂性到简单性再回到复杂性》的评论文章,文中着重指出:在过去的40年里,从事肿瘤研究的科学家,从最初面对无数难以理解的病理现象的困惑,到树立了还原论必胜的信念,再到最近几年重新面对肿瘤这个疾病的无尽复杂性。

面对当前生物医学领域亟需解决的生理和病理的复杂性问题,有人看到了挑战,有人看到了机会。“精确医学”正是在生命科学和医学实践所处的这样一个重要转折点上应运而生。美国科学院研究理事会在2011年发布的一份长达100余页的研究报告中提出:“迈向精确医学——构建生物医学研究的知识网络和新的疾病分类法”(以下简称“迈向精确医学”)。从而第一次明确提出了“精确医学”的概念,并系统讨论了为实现该目标所需要开展的核心任务。在该报告的作者看来,要想实现“精确医学”,其前提是构建基于生物学大数据的生物医学研究知识网络,以及基于分子生物学的全新疾病分类方法;通过建立一个整合各种类型生物学数据和知识、以个体为中心的信息共享平台,就可以形成一个生物医学知识网络,用来了解并获取对个人健康具有决定性作用的、高度复杂的影响因素或发病机理;而利用生物医学知识网络将有助于建立新的疾病分类体系,从而定义新型疾病或对疾病进行分子分型和药物分层,进而实现疾病的精确诊断和准确治疗。该报告的作者强调:“所提议的疾病知识网络和新分类法带来的主要收益正是‘精确医学’”。

怎样才能达到精确医学


以个体为中心的、整合了不同数据层的生物学数据库,以及高度关联的知识网络是迈向精确医学的必要条件。

迈向精确医学”的作者认为:“知识网络的建立以及对其进行研究和临床应用,都取决于是否拥有一个大型的、多层级的、充分整合的人类疾病知识数据库”。在这样的数据库里,关于人类疾病的知识不仅包含了临床诊断和病理分析等表型信息,还具有各种生物分子信息,包括基因组、转录组、蛋白质组、代谢组、脂质组和表观遗传组等。

也就是说,开展精确医学的基础是需要有尽可能完整的个体生物学数据。2015年初,NIH主任F. Collins和美国国立癌症研究所所长H. Varmus在描述拟开展的美国精确医学计划时表达了同样的观点:“我们准备建立一个有一定时间跨度的、100万人以上的美国人群‘队列’,他们自愿参加该项研究。参加者被要求同意对其进行全面地生物学分析(包括细胞种类、蛋白质、代谢分子、RNA和DNA,当经费允许时可进行全基因组测序)和行为分析,所有这些分析数据都将连接到他们的电子健康档案”。

这种数据库,并不是一个把某一种类型生物学数据简单地收集在一起,像“GeneBank(基因文库)”那样的常规生物信息学数据库。如果把一类生物分子或一种表型视为一个变量,相同变量的数据形成一个信息层,那么这个数据库就是由很多变量组成的多层级的结构,每一层包含一个与疾病相关的变量信息。需要强调的是,利用生物信息学和计算生物学技术,人们能够发现各种分子之间的相互关系,在各种不同类型生物学数据层之间建立起高度的内部连结,从而形成一个复杂的生物医学知识网络。例如,基因组的突变与表观遗传改变相联系,或者与蛋白质组表达变化相联系等等。理想的情况下,每个信息层都与其它信息层形成紧密的联系。这种不同种类生物分子之间、生物分子与表型/临床症状之间的高度整合,将有利于人们发现传统方法不能挖掘到的致病因子或者诊断标记物,有利于人们对特定的个体患者进行准确地个性化诊断和治疗。

显然,这样的生物医学知识网络所反映的,正是系统生物学的核心特征——多变量的整合。系统生物学(Systems Biology)是21世纪生命科学领域出现的一门新兴的交叉学科。系统生物学创始人之一、美国科学家L. Hood认为,系统生物学的特点是研究一个生物系统中基因、mRNA、蛋白质等所有组成成分的构成,以及在特定条件下这些组分间的相互关系。因此,系统生物学的核心就是整合,首先是要把生物系统内不同种类的分子组成成份整合在一起进行研究;其次,对于多细胞生物而言,系统生物学还要实现从基因到细胞、到组织、到个体的各个层次的整合。也就是说,“迈向精确医学”需要构造的生物医学知识网络是建立在系统生物学的基础之上。

欧盟委员会为了在医学领域推进系统生物学,专门成立了一个“系统医学行动协调组织”(Coordinating Action Systems Medicine Consortium, CASyM),涉及9个欧洲国家的研究组织、基金会和企业。2014年6月,欧盟委员会发布了《CASyM路线图》,其中包括近期(2.5年)和长期(10年)开展系统医学(Systems Medicine)的研究规划。该路线图指出:“系统医学就是将系统生物学的方法策略应用到医学概念、研究和实践之中”,同时认为,“系统医学将在下一个10年围绕着‘以患者为中心’这个概念,来进行医疗研究和实践,这些活动的开展需要整合不同的学科,包括数学、计算机科学、数据分析、生物学,以及临床医学、伦理和社会实践”。显然,这份路线图与“迈向精确医学”报告称得上是“异曲同工”。

“以患者为中心”的观念,也正是“迈向精确医学”的作者提出建设疾病知识数据库和知识网络的关键——“需要强调的是,这个信息共享平台的新颖性和能力就在于以‘个体为中心’”。精确医学所需要的数据库,就是要在从单独个体获取的各种类型的生物学数据之间建立起高度的内部连结。

如何建立以个体为中心的数据信息库?


《细胞》杂志于2012年发表的一篇文章可以作为范本。美国一位科学家对自己进行了连续14个月的表型监测和血液样本分析,获得了表型组谱、基因组序列、转录组表达谱、蛋白质组表达谱和代谢组表达谱等一个完整的个体“多组学”数据,并通过生物信息学的工具将这些不同种类的数据进行整合,建立了一个被称为“整合的个人多组学谱”(Integrative personal omics profile,iPOP)的数据库。作为类似的工作,2014年3月,L. Hood和他领导的美国系统生物学研究所发起了一个被称为“The Hundred Person Wellness Project”的研究项目,计划用9个月时间,选择100个健康人进行从分子到表型的个体化多组学研究。L. Hood认为:“这种个体化组分的基础在于:每个个体在遗传和环境方面都是独一无二的,在不同时间段需要用他们自己作为对照,来分析个体从健康到患有某种疾病的转变”。该研究所计划,在未来的5到10年内,启动一个名为“100K”的研究计划,针对10万名健康人开展这种多组学研究工作。NIH在2015年计划启动的“精确医学计划”,也是以个体为中心的多组学数据整合研究,只是将研究的人数扩大到了100万。

也就是说,以个体为中心的、整合了不同数据层的生物学数据库,以及高度关联的知识网络是迈向精确医学的必要条件。“‘精确医学’是用来为每个个体提供可得到的最好医疗护理。如果不对研究者和医疗保健提供者所依赖的信息系统进行巨大的重新定位,是无法达到这个目标的。这些信息系统就像它们准备支持的医学类型那样必需是个体化的。普遍性必需建立在大量个体信息的基础之上;而与这样一个过程相反的做法都将会失败。显然,如果在分析调查过程刚刚开始时,就将生物分子表达谱、个体特定情况相关的数据和健康史从个体中剥离出来,那么以此用来判定健康和疾病决定因素所必需的信息就会丢失”。“迈向精确医学”报告中如此写道。

通过以上讨论,我们可以看到,“精确医学”是一个有着丰富内涵的复杂概念,需要人们认真地思考和小心地解读。例如,“精确医学”不能简单地等同于“个体化医学”(Personalized Medicine),因为中医是个体化医学,但不是精确医学;又例如,基因组测序是实现“精确医学”的主要任务之一,但不能把实现“精确医学”局限于基因组测序。另一方面,我们更要认识到,“精确医学”的出现将对生物医学研究和医疗实践产生重大影响,有可能改变人类维护健康和抗击疾病的传统模式。

原文发布时间为:2015-05-14


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
3月前
|
索引
Sora视频重建与创新路线问题之TECO代码中条件部分和主体部分的编码如何处理
Sora视频重建与创新路线问题之TECO代码中条件部分和主体部分的编码如何处理
|
3月前
|
人工智能 安全 架构师
六条需要打破的IT规则以及如何规避风险
六条需要打破的IT规则以及如何规避风险
|
6月前
|
机器学习/深度学习 自然语言处理
专治大模型说胡话,精确率100%!华科等提出首个故障token检测/分类方法
【4月更文挑战第29天】华中科技大学等机构研究者提出首个针对大语言模型故障token的检测与分类方法,精确率高达100%,显著提升文本质量。该方法利用上下文信息及注意力机制的神经网络,有效识别语法、语义和事实错误,但在逻辑和风格错误检测上仍有待改进。虽然计算成本高且无法实时干预生成过程,但为优化LLM提供了新途径。[论文链接](https://arxiv.org/abs/2404.09894)
58 1
|
6月前
|
机器学习/深度学习 数据采集 搜索推荐
风险评分与生存时间:解密高风险组的潜在命运!
风险评分与生存时间:解密高风险组的潜在命运!
101 0
|
IDE 数据库 开发工具
VS2019连接数据库:未能找到任何适合于指定的区域性或非特定区域性的资源。
VS2019连接数据库:未能找到任何适合于指定的区域性或非特定区域性的资源。
147 0
|
Shell Linux 测试技术
CORNAS:一种快速简单鉴定无重复转录组差异基因的方法
还记得上次文章的最后提到CORNAS这种方法吗?最近刚好在Github上看到了这个项目,就花了点时间看了下文档感觉操作也比较简单,这里记录一下使用过程,大家共同学习一下。
183 0
|
Linux Windows Perl
没有生物学重复的转录组数据怎么进行差异分析?
设置生物学重复这个环节也是你实验设计很重要的一part,设置的好对你下游分析也有利,通常我们做转录组测序,需要的样本量每组至少为3个生物学重复,这个处理起来就很合理,并且现在流行的差异分析软件DEseq2,limma,edgeR等等都是针对有重复的数据去做的,但有时候会不幸碰到样品测序失败不能用,导致每组就给你剩一个重复时候该怎么办,之前我有批数据就是这样,但是办法总比困难多不能放过任何实验数据,搜了搜其实还是有一些方法可以去解决的,在这里介绍下我搜到的几种方法。
947 0
|
存储 人工智能 Cloud Native
IT领域最被夸大的6项技术
IT领域最被夸大的6项技术
227 0
|
安全
网络订票当心三类陷阱 最好当场识别真伪
春节将至,学生放假、公司职工回家过年,导致火车站、机场人流量激增,网上订票由于其操作简单受到了不少人的青睐,但是网络订票诈骗现象比较突出,提醒大家网上订购车票时一定要慎重。 据介绍,骗子主要有以下诈骗手法: 骗术一:虚假网站――骗子建立虚假网站,打上“专业购票”的名号,在各大网站、论坛上挂链接,做广告。
835 0
下一篇
无影云桌面