DNA结合大数据:我们找到了癌症的阿喀琉斯之踵

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

今年一月份,医药公司罗氏(Roche) 以超过十亿美元的价格收购了一家名为基础医药(Foundation Medicine)的创业公司的一半股权。基础医药公司并没有研发任何新药或是救生器材。大多数保险公司不会为他们的主要产品买单;而像许多生物技术公司一样,基础医药也处于亏损之中。

罗氏大手笔投入,看中的是基础医药公司拥有的信息资源。罗氏、基础医药公司和很多癌症研究机构认为,把癌症当作数据来研究是最有效的抗癌办法。这次收购让罗氏获得了基础医药公司数据库的使用权,可以清楚了解到35,000名癌症患者的肿瘤DNA序列,以及患者的药物使用情况和使用效果。

传统的肿瘤学信息匮乏。人们通常根据患者疼痛的部位对癌症加以分类和治疗,通过显微镜下细胞的形态和肿瘤扩散的方式诊断出类似「二期结肠癌」这样的结果。这套类型学虽然日渐精细,但是仍然会将很多癌症分类混淆在一起。好比给诺亚方舟上的动物种类做调查统计,得出这样的结论:一部分动物拥有翅膀和羽毛,一个拥有翅膀和六只腿,还有一些拥有四只腿和毛皮。这种概括分类没错儿,但却只能给我们一个模糊的概念。

同理,目前癌症的分类也远远不够。大部分抗癌药物(尤其是对缩小肿瘤)每次只能可怜巴巴地发挥22%的功效,而且肿瘤学家们还要艰难地判定哪种药物更适合哪一些病人。据一项估算显示,每500亿经费中就有390亿浪费于药物的预测试。用罗氏的前执行官Mara Aspinall的话来说,这些药属于「试错药(trial-and-error medicine)」。

DNA测序和其他的生物信息手段正在帮我们解决这个问题。肿瘤-基因测序研究告诉我们,原先的分类过于简单,如「肾癌」、「肝癌」,实际包含了成千上万的疾病类型,每一种类型有不同的变异或其他分子水平上的错误。每一个肿瘤就像一艘微型方舟,装满了变化各异的机能失调细胞和被损坏的DNA序列。最近一项关于肾癌的研究表明,任意两个患者拥有的基因(突变)错误并不是完全一样的;甚至,同一个患者体内的两个肿瘤,它们的突变排列方式也不是完全相同的。进一步说,在去年一个乳腺癌高解析DNA测序研究中,同一个肿瘤内,没有任何两个细胞拥有相似的可甄别的基因属性。

这些研究非常值得我们重视,因为甄别不同的突变形态决定了我们抗击癌症的手段,即找到癌症的致命弱点。现在,药物研发者研制出了许多针对性的处方药,专门用于某一特定类型的、引发癌症的突变细胞,可将其杀死或致残。正因为这些药物有很强的针对性,所以比以往的药物更加有效,比如针对某些结肠癌的Erbitux, 还有针对部分乳腺癌的Herceptin。但是我们必须得先判断癌症的具体类型,才能使这些药物物尽其用。

所以,一个乳腺癌患者一般会被要求做HER2突变细胞的检测,或者晚期肺癌病人会被测试是否携带EGFR,这已成为检测以上癌症的标配手段。但是每一次测试只能检测一种突变形态的可能——就如同在灯柱之下寻找钥匙。我们需要更好的方式来全面检测突变形态。

每一个送往基础医药公司的患者细胞样品都会经过扫描,确认是否存在300种引发癌症的突变形态,不管这些组织细胞是来自胸部、骨骼还是肺部。人们希望找出每种癌症的罪魁祸首,以便针对性的使用药物。在最理想的情况下,人们终将通过基因图谱测序(或其他强化的生物数据分析手段)找到每一种癌症的弱点。今年一月份召开的世界个性化医疗大会(Personalized Medicine World Conference)上,基础医药公司的主席Michael Pellini 表示「在这些新数据的帮助下,患者人群得到细分,我们不会用『第几阶段乳腺癌』来定义患者,而是用他们具体携带的突变基因来分类」。

如今,很多专业癌症诊断中心能为患者,特别是晚期癌症患者提供全面的基因分析。现在波士顿的丹娜法伯癌症研究所(Dana-Farber Cancer Center) 为所有成年人提供此项帮助。这些信息已经改变了非小细胞肺泡癌(non-small-cell lung cancer)的分类方式:按照主要的突变形态来分类,而不是癌细胞宿主。就像奥巴马总统在一月底演讲中说的那样,以这种眼光看待癌症,才能促进精确医疗项目的发展。

利用数据分析对抗癌症并不容易,这不是在亚马逊上(利用数据分析)调整商品价格,也不是利用手机软件Waze避免交通拥挤。生物体本身比人造系统更为复杂。2012年,研究者对100个乳腺癌进行采样,发现了40种不同的突变基因,并且产生了73种不同的排列组合,有些患者甚至同时携带了6种不同的突变基因。肿瘤也在治疗过程中发展演化,所以人们需要持续不断的对肿瘤DNA进行测序,抢在癌症(突变)之前找到解决方法;对于大部分突变来说,很可能没有适合的药物对它们加以克制。

可喜的是,已经有人从这种癌症的大数据分析方式中获益。在基础医药公司35000个数据源中,有一个叫Corey Wood 的女士。她在大学毕业后一周后,就发现了自己得了第四阶段非小细胞肺泡癌,而且已经转移到她的骨骼和眼睛。通常这种疾病接受的药物治疗只能保证20%左右的有效率,但通过分析她的肿瘤细胞数据,基础医药公司发现,她的突变基因是ROS-1, 这代表着可以通过Xalcori这种特定的药物治疗杀死畸变基因。在此之前仅有不到2%的肺癌是因为这种基因突变产生,这意味着如果没有基因突变数据的帮助,也许她的主治医师永远都不可能这么快定位到Xalcoride治疗方式。

Corey Wood开始服用这种药物,不到三个月她的癌细胞已经基本没有了。今天二月她得到了癌症已治愈的消息。在去年秋季的福布斯医疗高峰论坛上,她这样告诉观众 「多亏基因图谱定序和这些数据的帮助,我战胜了体内的肺癌。」是的,罗氏、基础医药公司和其他的癌症研究者们正在进行一次巨大的尝试和改变,而对于Corey Wood来说,她的人生已经被改变了。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 人工智能 达摩院
DNA存储大数据,峰哥身价暴涨10个亿
DNA存储大数据,峰哥身价暴涨10个亿
DNA存储大数据,峰哥身价暴涨10个亿
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
3天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
42 7
|
3天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
14 2
|
16天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
58 1