癌症基因组学的未来:将数据转化为应用

简介:

随着癌症基因组图谱(The Cancer Genome Atlas)的完成,现在是评估其影响和挖掘数据的时候了,以对癌症生物学和治疗获得更好的了解。2015年2月5日,《自然医学》(Nature Medicine)发表题为“The future of cancer genomics”的社论文章,对该项目对癌症研究领域的影响及数据挖掘进行了评估。


在2015年,癌症基因组图谱(The Cancer Genome Atlas,TCGA)将放慢速度,完成美国国立卫生研究院领导的一项最大规模项目。该项目在2006年首先作为试点项目,任务是产生所有类型肿瘤变化的综合全景图,旨在对癌症生物学获得新的见解,可能用来开发更好的治疗方法。高产的方法偏离了传统资助的假说驱动项目(hypothesis-driven projects),其捕捉整个癌症变化范围的高远目标,最初在科学界受到欢迎,也遭到了质疑。现在是时候来评估TCGA并确定它的见解如何用来造福癌症群体。


在数据生成方面,该项目已经取得无可争议的成功。自其成立的近十年以来,总投资共有3.75亿美元,TCGA包含了来自16个国家150多位研究人员的科学贡献,征集了来自超过25种不同癌症的100,00份肿瘤。它的20字节数据包括1000万个突变,到目前为止它们已经发表在TCGA研究网络的17种出版物上,并被数百篇论文引用。这些惊人的数字反映出项目的指数增长,通过样本收集、测序和分析技术的快速发展,这一切都成为可能。


TCGA项目不断涌现出大量的信息。TCGA数据已被用来寻找新的突变,定义固有的肿瘤类型,确定泛癌症的异同,揭示耐药机制和收集肿瘤进化的证据。毫无疑问,我们现在可以通过前所未有的细节来研究癌症,但是我们还不能解释这种疾病的全貌并阐明其机制。


一些TCGA研究人员认为,通过持续寻找新的癌症变化,可以获得更多的见解。但是,最近的评估强调了获得癌症测序任务的艰巨:根据背景突变率,为了检测到1%概率的变化,一些肿瘤类型需要超过10,000个样本的表征。因此,美国国家癌症研究所(NCI)癌症基因组办公室主任Louis Staudt宣布,TCGA研究网络现在将致力于运用全基因组测序,扩大三种所选肿瘤类型的特征:肺腺瘤、结肠癌和卵巢癌。目的是,发现只存在于2%肿瘤中的变化,以及发现以前可能错过的变化,例如易位。


这个试点项目还将努力克服过去的财务和后勤障碍。样品的获得——TCGA的一个最大的财政负担,现在将配合正在进行的靶向癌症疗法临床试验,从而使得我们对不同癌症阶段的基因型和表型有一个更完整的描述。重要的是,NCI将投入资源以确保测序数据的可访问性和正确分析。新发掘的NCI Genomics Data Commons将提供一个门户,为基因组数据用户提供交互式的支持和最佳方法。本试点研究的结果将确定,一种类似的方法是否会应用到更广泛的肿瘤研究中。


测序仍在继续,尽管规模较小,但对于解决下一步却很重要。这将需要新的努力、创造力和来自于癌症患者群体的勇气,以及资助机构强有力的支持。


TCGA数据的转换已经提出一些挑战和解决方案。首先,研究人员正在开发更好的计算模型,以在遗传背景噪声中,确定相关的变化。这可能会降低数据的复杂性,但是功能性研究必须扩展到遗传学研究的维度。例如,基因组编辑工具(如CRISPR-Cas9)的最新进展,提供了前所未有的能力,以快速、可扩展的和更具成本效益的方式,来研究遗传变异。


但是要获得有意义的见解,我们需要研究复杂和异质性生理性肿瘤环境中的遗传改变。这将需要将细胞系、类器官和患者来源的模型合并到一个流程中,从而进行高通量的遗传变异功能测试。此外,癌症基因组学和临床实践之间的更好整合,将允许我们直接鉴定表型-基因型。


TCGA代表癌症研究领域的一项重大贡献。癌症基因组转化为机制性见解和未来的治疗方法,将其研究结果带到一个新水平,将开创癌症研究的新时代。


原文发布时间为:2015-02-25

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
7月前
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-1
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享
|
7月前
|
数据可视化
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-4
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享
|
1天前
|
数据挖掘 Python
时间序列分析中的互相关与相干性分析:前导-滞后关系的理论基础与实际应用
时间序列数据在现代数据分析中广泛应用,从金融市场到生物医学领域。本文重点介绍两种分析工具:互相关和相干性分析。互相关用于量化两个时间序列的时域关系,揭示前导-滞后关系;相干性分析则评估信号在频率域的相关性,适用于脑电图等研究。通过实际案例和Python代码示例,展示了这两种方法的应用价值。
20 8
时间序列分析中的互相关与相干性分析:前导-滞后关系的理论基础与实际应用
|
7月前
|
数据可视化
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-3
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享
|
7月前
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-2
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享
|
7月前
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享(上)
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享
|
7月前
|
数据可视化
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享(下)
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享
|
7月前
马尔可夫转换模型研究交通伤亡人数事故时间序列预测
马尔可夫转换模型研究交通伤亡人数事故时间序列预测
|
7月前
R语言马尔可夫转换模型研究交通伤亡人数事故预测
R语言马尔可夫转换模型研究交通伤亡人数事故预测
|
存储 算法 数据可视化
利用TCseq包进行基因表达趋势分析
TCseq包提供了一个统一的套件去处理不同时序类型的数据分析,可以应用于转录组或者像ATAC-seq,Chip-seq的表观基因组时序型数据分析。该包主要的集中于不同时间点的差异分析,时间趋势分析及可视化作图。
463 0
下一篇
DataWorks