这两位创业者说大数据能治疗癌症

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

[摘要]一家两年前创办的公司Flatiron Health试图利用大数据来治愈癌症。


奈特-特纳(Nat Turner)和扎克-温伯格(Zach Weinberg)


你以前可能也曾听说过这样的故事:两个计算机神童在一所著名大学里相遇,对计算机的热爱让他们觉得志同道合,经过几次熬夜编程之后,两人创建了一个网站或者应用。很快,这个小小的副业就变成了一个创业项目,他们从投资者那里获得了大笔资金,并创建了一家公司,两人也在一夜之间摇身变成百万富翁——至少是账面上的百万富翁。


乍看上去,奈特-特纳(Nat Turner)和扎克-温伯格(Zach Weinberg)的经历似乎也和这个故事如出一辙。两人在宾夕法尼亚大学新生入学的第一天相遇,很快就成了好朋友。如今年仅28岁的两个人已经在纽约拥有自己的初创公司。但他们的梦想比大多数创业者的都更加宏大。两人的初创公司不是大行其道的社交网络、照片共享应用,或交友网站。他们也没有为青少年提供在手机上谈情说爱或者订购夜宵的工具。


他们在两年前创办的公司Flatiron Health瞄准了医疗界的一个重大难题。特纳和温伯格希望能够收集和分析堆积如山的临床资料,以便在医疗界最复杂、最困难、最有赖于研究的领域中开辟一条道路,这个领域就是癌症的治疗——虽说两人在沃顿商学院攻读经济学和创业专业,并没有时间上太多的生物课。


但是,在你暗暗发笑之前,不妨先看看他们以往的经历。Flatiron Health已经是两人联合创办的第三家公司了。他们第一次创业是为大学生提供网上食品订购服务,结果失败了。在读大三的时候,他们创办了第二家公司Invite Media,希望利用大数据技术,让数字营销变得更加有效。这一次他们大获成功,以至于谷歌——大数据计算领域的教父,也是世界上最大的数字广告公司——在2010年以逾8000万美元的价格收购了Invite Media。


“狂妄自大”

现在,谷歌已经再次向特纳和温伯格打开了支票簿——通过旗下的谷歌风险投资公司,向他们的第三家公司Flatiron Health投资了1亿多美元(该公司总共融资1.38亿美元)。但这两位年轻的广告技术专家,获得的却不仅仅是谷歌的青睐。


杜克大学医学教授艾米-阿伯内西(Amy Abernethy)是一位著名的肿瘤学家,她虽然明知Flatiron Health要实现目标并不容易,但是该公司用彻底的、系统化的方式来收集和整理临床数据的做法,却给她留下了深刻印象,因此她决定今年7月加盟Flatiron Health,成为该公司的首席医疗官。


“我把自己的声誉押注在了Flatiron Health上,”阿伯内西说。之前她一直在主持杜克大学的癌症治疗研究计划,而且也曾参与过早期一些利用大量临床数据来提高癌症治疗水平的“过分乐观的”项目。


抛开这样的认可(以及谷歌的资金)不谈,这件事情的“狂妄自大”程度令人侧目——两个长着娃娃脸的科技业人士,希望给癌症治疗方式带来重大影响,这可是大量科研人员和训练有素的医生尚未办到的事情。对此,身为Flatiron Health首席执行官的特纳既谦逊又无畏。 “我们正在建设一家高科技公司,只不过它恰好位于癌症治疗领域。”他说。


根据Flatiron Health的说法, 癌症患者的治疗数据目前只有一小部分获得了系统化的收集;这些资料主要出现在随机临床试验中,涵盖了约4%的成年癌症患者(虽然对这个数字的估计各有不同)。Flatiron Health认为,从余下的约96%的资料中收集和整理出更多信息,然后把它们反馈给医生,可以帮助医生制定出更好的癌症治疗方案。


从理论上讲,医生可以从中看到哪种治疗方法对于有类似情况的大部分患者效果最好,而且,举例来说,他们也可以把自己治疗胃癌的状况与全国各地其他专家的治疗状况进行比较,并迅速纠正一些问题。这些数据还可以让他们了解到哪些治疗方案有最好的成本效益,并且它们还有助于把更多患者和恰当的临床试验匹配起来,可能会加快新药的开发和批准过程。


信念坚定

特纳和温伯格不是在宣传高科技乌托邦,不是在说大数据可以根除癌症的负担,但是他们希望,这可以带来有意义的成果。“我们只是在说,如果我们从其他行业学到了一个经验,那就是数据具有价值,”特纳说。“这个价值究竟有多大,我们还不知道。”即使成果很小,那也可能会影响数以百万计的人。


“如果整体来说,我们能对癌症产生5%的影响......”他没有继续说下去。2014年美国新诊断出的癌症患者有将近170万人,如果患者的生存率整体提高5%,相当于仅在今年就拯救了数以万计的生命。


特纳的父亲是一名地球物理学家,在石油勘探行业工作。特纳年少时在德州、路易斯安那州、荷兰和苏格兰居住过。虽然浅棕色的头发已经开始后褪,露出他宽阔的前额,但特纳的面庞看上去仍像是个研究生。


成功的连续创业者往往相当招摇,成功的创新者也常常带着一种自信可以改变世界的专横,但特纳既不招摇也不专横。他和在曼哈顿上西城长大的温伯格拥有一个共同的坚定信念:在挽救癌症患者的生命方面,技术可以发挥重大作用。“当你对医疗领域和肿瘤学有所了解,你就会发现,一个谦虚精干的团队,可以帮助解决那里存在的很多问题。”温伯格说。


特纳最初对癌症产生兴趣是在2009年,当时他和家人到北卡罗来纳州度假的时候,他7岁的表弟布伦南-西姆金斯(Brennan Simkins)生了病,经过一系列测试,他被确诊患有急性髓系白血病。接下来的一年中,这个孩子经历了骨髓移植、复发、再移植,再复发。总之,西姆金斯不仅忍受了4次痛苦的骨髓移植,还经历过一些误诊。不过2011年之后,西姆金斯的病情得到了缓解。


表弟这段令人痛苦的求生经历,让特纳和温伯格开始思考,他们可以做些什么来帮助其他有类似遭遇的人。他们考虑创办一家新公司,最初的想法是通过互联网提供治疗的参考意见。两人花了六个月时间来了解癌症。他们在克里希纳-耶斯万特(Krishna Yeshwant,是名医生,也是谷歌风险投资公司从事生命科学领域投资的合伙人)的不时陪伴下,走访了60多家癌症中心,与专家们交谈,和医生们一起查房,并和他们讨论各种商业理念的可能性。


经过数十次这样的交谈后,特纳和温伯格产生了一个新想法。有大量临床数据散落在全国各地肿瘤治疗中心的备案系统中,他们想收集这些数据——通过数字和其他方式——然后整理它们,聚合它们,并把他们反馈给医生,帮助医生在如何治疗患者方面做出更好的决定。


迎难而上

对于特纳和温伯格这样的数据极客来说,临床肿瘤学在数据方面的问题既明显又熟悉。尽管医疗机构多年前就开始说服医生和医院接受电子病历(简称EMR),但是要获得和使用肿瘤数据仍然十分困难。


“EMR的数据太烂了,”特纳说。同一个病人的数据可能分散在很多地方:内科、肿瘤科、放射科、外科、实验室和病理报告处等等。即使进行了数字化,数据也往往采用的是非结构化格式。它会以不同的格式,出现在不同的实验室报告和记录中,而不是有条理地归整在数据库中。


更糟糕的是,仍然有大量数据隐藏在手写和扫描的报告中,隐藏在没人会去听的音频报告中,或者以低分辨率的PDF文件格式印在传真纸上。此外,五花八门的不兼容的系统,以及严格的关于个人健康信息的隐私法规,更是让数据在数以千计的肿瘤治疗者之间共享变得难上加难。


从理论上讲,电子病历应该让这样的数据聚合和整合变得容易。但实际上没有这么简单,就拿癌症患者经常要做白蛋白测试来说,同一家癌症诊所采用的同一种电子病历中就存在30多个不同格式。乘上100多种不同的蛋白质和基因测试、切片,以及癌症诊疗中使用的其他诊断方法——然后再乘以不同的电子病历系统,不同的癌症中心的数量——这下你知道有多复杂了吧。


Flatiron Health把这些信息综合到一张表格中,方式是(a)对于不同的癌症中心和实验室,创建一个通用的数据模型,(b)通过匹配算法处理数据;对于这些数据使用的术语,该算法可以识别出其中90%,(c)使用一个数据处理引擎,实时转码术语,及(d)标出任何不匹配的术语,由医生或护士进行人工识别。


一开始,特纳和温伯格花了两年多时间来研发他们所说的数据模型,这个模型可以把海量临床信息整理成有条理的类别。他们很快就意识到,同时对每种癌症都采用这个方法太过复杂。因此,他们在一些医生的帮助下,把侧重点放在了结肠癌上。他们从已经发表的临床试验报告中提取一切信息,比如人口统计内容和居住地,癌症的分期,对疗法的反应等等,一共有350多个数据类别。然后他们在其他类型的癌症上重复这个过程。


为了能自动从电子病历提取数据,Flatiron Health采用的多种计算机技术,比如从实验室报告中寻找数值的匹配算法。他们还微调了自然语言处理技术,让计算机能够“读取”文件,并从中提取数据。由于这种系统非常容易出错,所以Flatiron Health又开发了一个混合人机学习系统,以便捕捉和纠正错误。


公司还聘请了50名护士,手工输入了500名患者的数据,从而获得了特纳所说的“训练集”,它可以用来检测自动收集的数据中的错误。然后把差异反馈给系统,以便完善这个自动收集过程。从理论上说,这是一个动态的系统,可以持续提高自身精度。


其他项目

Flatiron Health并不是担负起这个使命的第一个组织。去年,非营利性专业协会“美国临床肿瘤学会”(American Society of Clinical Oncology)推出了CancerLinQ,旨在开发一个挖掘临床数据库的系统,以便提高医疗质量,加快药物的开发进程。


由资深计算机科学家马蒂-鲍姆(Marty Tenenbaum)执掌的癌症联盟会(Cancer Commons)是一个非营利组织,它希望能进一步推进肿瘤领域临床数据的标准化。而IBM也利用它的沃森人工智能系统,和纪念斯隆凯特琳癌症医院(Memorial Sloan Kettering)等癌症中心合作,筛选数以百万计的临床资料、期刊文章内容,以及临床试验报告,以便自动为医生提供治疗方案的建议。此外,美国国家癌症研究所(National Cancer Institute)还耗资5亿美元,开展了一个名为“caBIG”的大型生物信息学项目。


早期的项目要么非常失败,要么尚未取得积极成果。阿伯内西曾担任CancerLinQ顾问委员会主席,还参与过其他用数字方式编辑临床肿瘤学数据的项目,她说,Flatiron Health令她印象深刻的地方是专注于数据的复杂性。特纳和温伯格清醒地认识到,“试图解决这个问题,只有技术是行不通的,”她说,“这就是为什么我决定与他们共事的原因。”


谷歌风险投资公司的投资不仅提升了Flatiron Health的声望,而且让它有了收购Altos Solutions公司的资金。Altos Solutions为肿瘤学领域提供电子病历服务,其总部设在加州山景城,和谷歌相隔不远。收购该公司给Flatiron Health带来了更大的用户群,也让它进一步密切了与医师之间的联系。目前有210个癌症中心正在使用Flatiron Health的系统,这些中心目前每年会接收30万新患者。虽然其中大多数都是社区肿瘤诊所,但也有一些大型学术机构。谷歌说,进行这项投资的部分原因,是为了加快这个前途光明的领域出成果的过程。 “如果不收购Altos Solutions,它可能还需要研发一代电子病历,才能获得广泛使用,我们想避免这种情况发生,” 谷歌风险投资公司的负责人比尔-马里斯(Bill Maris)说。“我希望能早日免除很多人的伤心和苦痛。”


在长岛郊区工作的杰弗里-维西卡(Jeffrey Vacirca)医生看好Flatiron Health的前景。他使用Altos 电子病历系统已经有好几年时间,它帮助维西卡改善了治疗方案,但它的许多潜力仍未发挥出来。 “系统中有大量数据,但没有人整理出来,也没有人知道它们的价值,” 维西卡说,“我认为,这就是Flatiron Health工作的重要性所在。他们整理各种细节数据,整理数以百万计的患者的治疗结果,他们可以评估、分类,辨识出哪些做法真的有效。” 维西卡称,Flatiron Health系统是“治疗癌症的基础设施”。有了它,他就能了解自己采用的医疗方法是否在某些方面落后于其他疗法。他还可以了解到,是否有更多的患者可以参加临床试验。“如果积攒病人的速度比以前快5倍,你可以想一想,药品完成监管程序的速度可以快多少。”他说。


疑虑犹存

在谈到长期的抗癌斗争时,该领域的一些顶尖人士仍然对大数据承诺的前景持怀疑态度。前沿研究员罗伯特-温伯格(Robert Weinberg)是麻省理工学院怀特黑德生物医学研究所(Whitehead Institute for Biomedical Research)的创始成员之一,他最近在《Cell》杂志上发表文章,谈到了大数据和癌症之间起伏不定的关系。文章指出,从蛋白质之间的交叉影响到肿瘤突变,各种数据集的爆炸式增长,已经让研究人员解释它们的能力变得不堪重负。他还在一次采访中表示, “有些人着迷于生物信息学,认为仅仅需要聚合数据,就可以获得前所未有的、定性式的见解,我对这种看法不敢苟同。”


约翰-罗安迪斯(John Ioannidis)是斯坦福大学的医药保健研究和政策教授,他的看法也仅仅比罗伯特-温伯格稍微乐观一点。罗安迪斯认为,通过一个中央系统,把患者的基本资料和疗法匹配起来,可以从整体上减少医院在癌症治疗方法方面的大幅可变性,但是,在高度受控的临床试验之外进行的数据收集,可能无法带来太多帮助。“如果没有实验设计,我们能从数据收集和整理中获得多少东西?这是一个开放性的问题。”他说。


特纳和扎克-温伯格并没有指望能让怀疑者们很快转变态度。但在Flatiron Health日益稳定的客户群中,有很多人和他们一样,都相信该公司的“智能数据”方法可以为癌症患者提供更好的治疗机会。阿伯内西说,除了其他裨益之外,Flatiron Health还可以开个头,在社区诊所和顶尖学术医院之间架起一座桥梁,弥合它们之间的鸿沟,这往往会带来很好的效果。


联合创始人温伯格也表示,Flatiron Health面对的是一场对抗癌症的持久战。 “我们的公司于两年前创办,拥有一个雄心勃勃的计划。我们的起步相当不错,但终究来说,这个问题本身很难对付,人们已经和它斗争了数十年之久。”


原文发布时间为:2014-07-28

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
机器学习/深度学习 搜索推荐 大数据
大数据与医疗健康:个性化治疗的未来
【10月更文挑战第31天】大数据正以前所未有的方式重塑医疗健康领域,推动个性化治疗从理论走向现实。本文探讨了大数据在医疗健康中的应用,特别是在推动个性化治疗发展方面的潜力与挑战,包括数据挖掘、电子健康记录、远程医疗等方面的技术创新,以及面临的数据安全和隐私保护等问题。未来,大数据将助力医疗健康领域更加智能和人性化。