CMU副教授马坚：精准基因组数据和智能医疗最新进展-阿里云开发者社区

个人简介：马坚，现任美国卡内基梅隆大学（CMU）计算机科学学院副教授。本科毕业于复旦大学计算机系，先后在美国宾夕法尼亚州立大学计算机科学与工程系师从计算生物学先驱 Webb Miller 从事博士研究，在加州大学圣克鲁斯分校的美国科学院院士 David Haussler 实验室进行博士后研究。2009年至2015年在伊利诺伊大学香槟分校任助理教授和副教授（并获终身教授），于2016年1月加入卡内基梅隆大学计算机科学学院，是 CMU 计算机学院计算生物系和机器学习系的 Faculty。他的实验室主要从事针对基因组结构和功能的机器学习算法开发并应用于理解疾病的分子机理。他的实验室长期得到美国国家科学基金会（NSF）和美国国家卫生署（NIH）的支持。他曾获美国国家科学基金会（NSF）CAREER 奖，Genome Technology 杂志评选的未来 PI 称号，入选伊利诺伊大学高等研究中心 Fellow 和美国国家超级计算应用中心 Fellow。他也是中国声谷人工智能专家委员会成员。网页：http://www.cs.cmu.edu/~jianma/

马坚：谢谢大家！感谢新智元邀请。我讲的内容跟之前演讲的康奈尔大学医学院的王飞教授提到的问题大方向非常一致，但是我想分享一下我自己的实验室最近的一些工作，围绕着怎么用基因组数据在智能医疗和智能健康发展中起到一些作用。

6cfc690f986fa0fa986e7ca06dfa41c3f18413f3

首先，我们先介绍一下概况，智能医疗的过去、现在和将来。回想一下小时候生病就是去医院，通常医生通过一些仪器检验提出治疗建议。而现在出现了各种各样的大规模数据、可穿戴设备、辅助医疗的工具和平台等跟计算机有关的解决方案，使医生的工作可以更加简便有效。

将来会怎么样？有很多高通量生物技术现在正在发展中，比如基因组测序，还有基因编辑，可以修改我们基因组中的一些信息。就像你打字打错了，可以把它改过来一样。最终目标是实现高解析度、高精准度的个性化建议和治疗。可以通过数据驱动，用高通量技术和计算机建模提高整个社会的医疗效率。

f5a84d02154e12502656e81e5744ae93208de61f

我们比较一下就能看出智能医疗确实存在一些挑战。现在很火的阿尔法狗以及自动驾驶，它们存在一些规律：首先要建一个模型，接下来要看这个模型是否可行，然后需要做真实实验，并得到数据化的反馈从而提高模型。

围棋的规则很明确，数据模型很容易构建，真实实验基本无成本，瞬间反馈，实验高效。无人驾驶要难一些，规律相对明确，数据情况相对复杂，真实实验有一定的风险，回馈基本是瞬间反馈，数据量很大。我们再看一下癌症这个例子。我们是不是理解癌症这个问题的规则了呢？就目前来说，它发生的规律还不是很明确，大家还没有从基础研究角度在分子机理上完全理解癌症是怎样被引发的。数据模拟比较困难，因为不知道它的成因，因此模拟耗时长，成本高，数据量不足。维度很高，特点很多，但是数据量并不是很大，这些都是挑战。

45e2a007cb1633957a8dfefcd9bc83ad91b65562

但是我觉得这些问题是可以解决的。这张图是基因组数据的增长，而我刚才提到的那些挑战，我觉得基因组的研究中能起到很大的推动作用，因为它是从分子层面去理解我们身体细胞的运作机理。从这个图能看出，2001年在人类基因组计划刚刚结束的时候，测一个人的基因组的30亿个碱基对，需要花费约1亿美元的成本。现在测一个全基因组可能只需花费不到1千美元，将来还会越来越便宜。图中有一个拐点，是由于2007年时候高通量技术快速发展使得测序成本大大降低。

最近有科学家做了预测，认为大概到2025年时，基因组数据量会超过Youtube、天文数据、还有Twitter的数据量之和。这其中最大的推动力就是测序成本的降低。现在测序仪可以做到比手机还小，通过这种可移动测序方式，可以预见今后几年内数据会呈指数级增长。

2b94617799733aa57e9d05ef1db37af93912116b

人类的基因组有30亿个碱基对，如果把23对染色体连起来，有约 6英尺这么长，而细胞核直径就5微米左右，6英尺的DNA就绕在5微米的细胞核内。基因组上的基因产生蛋白质，蛋白质完成了人体细胞内不同的功能。编码区是指DNA产生蛋白质的区域，而这部分在基因组里面不到2%，还有98%的部分被称为非编码区，它的具体功能是什么？到底怎么运作？现在我们只有一些片面理解。基因组的大部分区域的主要功能是什么？这是现在的一个研究热点。

582e0f690ca523d0c1a14840441166218a1ae43e

我们身体上有不同的细胞，基因组在不同细胞中就DNA序列而言是基本一样的。但是我们身体上有各种各样的细胞类型，皮肤细胞、肝脏细胞、肌肉细胞等等，这些不同细胞有不同的细胞形态。几乎相同的基因组可以产生不同的细胞，主要原因是不同细胞的基因表达和表观基因组不一样。我们一直在探索同一个基因组，在不同细胞中，对不同的疾病、对整个人的身体运作到底起什么作用？你想理解不同的疾病，那么从怎么根本上理解细胞系为什么不同是非常关键的问题，因为某类疾病通常在某一个细胞系上，尤其像癌症。

0697ede7d2dcd21f55fca8ea48c893cbf15b8990

当然你仅仅把基因组数据拿到是远远不够的。要真正的实现智能医疗，真正理解不同的疾病的关键成分，需要理解分子的机理。在这本乔布斯传中写到他当时花了10万美元去分别检测它的正常基因组和胰腺癌肿瘤的基因组。他想通过DNA测序知道他的癌症如何治疗更有效，但结果并没有给治疗带来太多帮助。这只是一个例子，关键是如果技术不是问题，可以测得基因组全部信息，下一步就要去理解对一个病人来说，比如说对乔布斯的胰腺癌来说，最有效的治疗手段是什么？怎样控制癌症？如何进行有效的治疗。

5cb320d358adc427746d4f480bd346b808eb26c1

我们来看一下，像计算机算法、机器学习、人工智能在这个过程中能起到什么作用？与围棋，自动驾驶相比，基因组层面要实现对智能医疗的贡献有什么挑战？首先是当前对基因组分子水平的认识还是相当有限，我们对大部分复杂疾病的分子机理了解甚少，尽管当前通过各种数据积累和技术手段认识有了一定的加深。我们至今对各类疾病的异构性缺乏理解，刚才也提到了，即使同样一种癌症，不同的病人，他们的致病机理可能非常不同，需要对每一个病人提供个性化的研究和治疗。

其中我们对各种模态的数据之间的关系还不是很了解，基因组只是一类信息，即使在基因组上也有各种各样的模态数据，有基因组序列，有基因表达数据，有表观基因组的数据，还有蛋白组数据。这些数据之间到底是什么关系，我们不太了解，如果确实需要最有效整合，需要了解不同模态数据之间的关系。

bae48eedc6f239eb9bb3d33c4fd2cfe456c8611d

我举几个例子，这是过去一两年中我自己的几个研究生做的项目，我们想开发一些机器学习的方法从比较基础层面理解刚才我提到一些问题。第一个例子，左图是乳腺癌癌细胞，正常人的细胞有23对染色体，而癌症基因组染色体会产生极大的变化。正常的话会看到同颜色并排两条染色体，但是现在能看到有的颜色譬如有4、5条，还有的染色体在癌细胞中有不同的颜色，说明它在癌细胞中产生了很多拷贝数变化以及重排。这是我两年前毕业的学生做的博士论文课题，他构建了Probabilistic Graphical Model。因为在研究过程当中会发现有很多潜变量，但你想预测这些潜变量会比较困难。测序后你只能在基因组上看到它测序后read数，但是你想知道的是，对于每一条染色体来说，它的拷贝数在每一个位点上是什么样的，这是一个潜变量。这是第一个例子。

1e8656351d95f04ceaff5236a4c7c37cee007aad

第二个例子，假设你已经能够把每一个癌症基因组里面产生的突变全部找出，怎么判断哪个突变对于某一个病人来说最重要。这个巨大的挑战就是异构性。但在这种情况下我们可以设计一些方法，对于这些突变做一些个性化的预测。

这个又称为长尾现象，X轴指不同的基因，不同的位点，Y轴指病人的数量，可以看到大部分的位点，基因突变次数其实很少，那怎样知道对某一个病人来说这个突变就会很重要呢？这个是我的一个MD/PhD学生做的课题，他研究了不同的突变在单个病人基因组里面到底起什么作用，并构建了一些模型。通过这种网络图直观了解基因间不同调控的关系并做一些预测

d6f559e7e1654c02311da767fada54eefd3aed1d

接下来这个例子，可能跟表观基因组更相关，刚才提到6英尺染色体可以绕在5微米细胞核里面，这个过程极其有规律。如果产生一些不应有的变化，就会导致各种各样的问题。比如说右图的例子是早衰症，绿色的部分这是一个正常的细胞的核纤层蛋白，这个细胞核形状应该是圆形的。但是这个早衰症小孩的细胞呈不规律的形状。这种变化导致染色体在细胞核内部空间上的组成产生变化，这是一个主要的致病问题。在癌症等其他的疾病里面，也存在这种变化。也就是说染色体并不是一个你看到的线性序列，实际上是一个立体的空间结构。也就是说两段序列在一维空间可能离得很远，但是三维空间就很近，中间这个例子就是这种绕圈关系。

0312ffba2444b2e8d6e8b2ae726a98175df83c6f

最近我们感兴趣的是，两段序列在某一个细胞系里在空间上是不是离的很近？因为这些距离关系对于基因调控有很大影响。这是一个特定的基因组问题利用机器学习方法，如果我给你两段序列，一种叫enhancer一种叫promoter，我能不能预测他们空间上是否离的很近。我们借用了一些自然语言处理中的模型，比如机器翻译，尝试了一些深度学习的结构，来做距离关系的预测，效果不错。有了这样的模型，就可以扩充工具，有了预测工具看到突变我们就知道这个突变是不是打断了原来应有的空间交互。我们尝试了在皮肤癌样本里找相关一个例子，原来应该有一个绕圈关系，由于一个突变这个绕圈关系被打断了。

9cefda941dc2526bcaac773a62e4421bbb5faf31

现在我们开始做不少多模态数据的整合方面的工作。我们发现现在很多做影像只是做影像，与基因组信息结合不足。我们最近做了一个小项目，我们用乳腺癌的H&E染色图像，通过影像分析细胞空间上的组成，建立一个预测模型，能不能通过这个影像的一些结构预测是乳腺癌的哪个亚种？或者基因表达应该是什么样？除此之外我们还想尝试怎样理解基因组层面信息，和可以看到的疾病类型还有可以从影像当中看到的细胞形态空间上的组合，这两者之间的关系。在对这些不同模态信息理解的基础上可以更加有效的整合不同的数据。

c7abaa16dfec26f47584a2f15a2c7a9489b8121c

我刚才讲，基因组给了我们很多信息以及不同模态数据。但是每个人情况都不同，每个人对于不同的疾病基线也不同，生活的环境、饮食、活动、情况这些都不太一样。根据每个人的基线做一些预测，根据个人化的信息做出医疗建议。这就是高解析度，你可以知道你做的每一步对这个人来说，基线在什么地方，高精准的根据个人化的信息做一些建议。

3a76887ae88edff77fc1b8a7e9d4957967fbe3f3

最后一个图是一些展望。我们到目前为止主要研究的基因组数据只是专业化数据中的一部分，基因组不能解决一切。可能我们现在知道的不多，数据量有限，需要数据采集。但是可以与其他的信息做结合，比如说跟影像、医疗记录结合，也可以在各种各样的移动设备上采集信息，这两者信息之间怎么更好结合？这个是大家所关心的问题。要实现我们的展望：今后你不只是活得还不错，还要活得开心，只靠医疗数据是不够的，医生不只是治病，也能对你平时的生活习惯提出建议，通过数据驱动，以及建模来使你生活方式、整个社会医疗都能够提高效率。

学术界以及工业界需要更多创新性的合作，因为学术界或许有一些新的算法，但可能数据的质和量都不是特别好。这时就需要业界的一些支持，甚至政府的一些帮助，包括刚才说到跟隐私相关的等等，需要各个环节在一起合作。健康不仅仅是医生的，也不仅仅是人工智能的，健康是每一个人的、可以行动和改变的。我们所要做的，是基于数据，为这样的行动和改变，提出建议。讲到这里，谢谢大家！

原文发布时间为：2017-11-29

本文作者：AI WORLD 2017

本文来自云栖社区合作伙伴新智元，了解相关信息可以关注“AI_era”微信公众号

原文链接：CMU副教授马坚：精准基因组数据和智能医疗最新进展

CMU副教授马坚：精准基因组数据和智能医疗最新进展

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件