从宇宙到生命:为什么我们需要不断提高基因测序通量?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 我好像是一个在海边玩耍的孩子,不时为拾到比通常更光滑的石子或更美丽的贝壳而欢欣鼓舞,而展现在我面前的是完全未探明的真理之海。 ­ ——牛顿临终遗言

探索宇宙:天文学六百年发展脉络

在牛顿所处在的启蒙时代,人类通过新工具新方法观察到新现象,建立新理论,带来新的生产生活方式方式和新的生态环境。

如今,工具的进步速度让人惊叹,人类在探索时空和探索生命的道路上,已经进入了大数据的阶段。这意味着,捡到几个石子和贝壳是远远不够的,要精确地观测新现象,必须依赖大数据来探索、观察、记录“整个沙滩和海洋”,才能找到“阳光下的新鲜事”。

我是谁,我从哪里来,要到哪里去?——人类的好奇心永无止尽。新工具和新方法让人类观察到新现象,带来新概念和新理论,帮助我们指导新实践、开创新世界。新的现象,既来自于无穷大和无穷小的宇宙时空和物质世界,也来源于我们自身——千变万化的生命世界。

对于“无穷大”和”无穷小“代表的未知物质时空,天文学六百多年的发展脉络清晰可见:

image.png

公元前到16世纪,人类通过浑天仪和望远镜等仪器对天空持续定点观测。我国的“甘德-石申星表”记载了121颗恒星,喜恰帕斯星表记载了1022颗恒星。人类对恒星的精确观测是从发明天文望远镜的伽利略开始的,由此开启了日心说的思潮。第谷的《鲁道夫天文表》以分的弧度精度记载了1005颗恒星和五大行星位置,启发“天空立法者”开普勒发现行星运动三大定律,进而使牛顿得以发现万有引力定律。

1609到1619年,随着万有引力定律这枚“美丽的贝壳”的发现,天文学进入通过理论计算指导观测的时代。利用大型反射式望远镜,配合行星摄动理论的指导,人类先后发现了哈雷彗星、天王星、海王星和冥王星,太阳系有了“全家福”。随着地理大发现、全球时区的应用和全球市场的建立,人类观测的星空也快速扩大,到了1785年,赫歇尔用望远镜所作的1083次观测,通过117600颗恒星的数据,加上若干假设,得出了天文学史上第一个银河系模型。

image.pngimage.png
赫歇尔应用的天文望远镜和银河系模型

10-20世纪,偏振光度仪、光谱仪、照相术的应用,让人类得以开展大规模巡天照相和恒星、星云的光度、光谱分析。这期间星表规模不断扩大,丹麦天文学家赫茨普龙和美国天文学家H.N.罗素通过恒星光度和光谱的全面观察让提出“主星序”的概念,指出我们的太阳也如其他恒星一样,会成长、衰老和死亡;对星云的观测让哈勃提出宇宙大爆炸的概念,让人类得以追溯宇宙的起源;爱因斯坦、爱丁顿、史瓦西、霍金等一批大家提出相对论、宇宙背景辐射、引力波、黑洞等理论把“无穷大”的未知变成可验证的物理模型,而国际标准时间、GPS等已从概念变成生活中习以为常的应用。

image.png
哈勃观测星云使用的望远镜,是当时最大的天文望远镜。通过星系的红移-距离关系发现的哈勃常数,促使现代宇宙学的诞生。

20世纪后期-至今则是以哈勃太空望远镜、旅行者探测器、引力波探测器等大科学装置为代表的时代。通过大数据获取、对比、分析、挖掘获得包括深空星体、地外行星、类星体、暗能量、暗物质等天体的信息已经是常规操作。人类开始掌握多尺度、实时、全景的宇宙图像。

“无穷大”的物质世界已经是一片大数据的汪洋大海。我们能够观测到的宇宙:银河系含有(1~4)×1011颗恒星,直径8.8×1026 米,合93×109光年,目前对宇宙中星系数量估计为2×1011(2000亿) - 2×1012(20000亿个) ,大多数星云的大小是 3×103 - 3×105 光年,之间的距离为数百万光年……

假使没有大科学装置的加持,人类只能在真理之海面前止步不前。以ASKAP(Australian Square Kilometre Array Pathfinder)为例,这是由CSIRO Astronomy and Space Science (CASS),与荷兰、加拿大、美国和中国合作建成, ASKAP有36个直径12米的抛物面天线,占地4000平方米,数据产量每秒2.5 GB,每年100PB。无独有偶,在中国贵州,世界最大单口径、最灵敏的射电望远镜“天眼”也面临着大数据的考验。“天眼”峰值数据率每秒可达38GB,配套的数据中心存储容量达到100PB。

image.png
image.png
image.png

天文学的大数据不但“大”,而且对宇宙的描述正在趋于实时、全景、多维度。2017年8月17日美国东部时间8时41分,人类首次通过全球协同观测到中子星并合事件——在美国LIGO探测器检测到引力波信号之后,伽马射线望远镜和INTEGRAL等探测器探测到伽马射线爆发,随后全球超过70个天文台、超过100台观测设备从各个波段投入协作,快速锁定了中子星并合的“现场“,观察到了对应天体,开创了“多信使”天文学。

image.png
image.png

不但在探索“无穷大”的方向上我们需要大数据,在探索“无穷小”的方向上,人类同样面临着大数据的产生、存储、分析的挑战。《三体》中智子要锁死人类科技的关键装置,发现“上帝粒子“(希格斯粒子)的大型强子对撞机(Large Hadron Collider, LHC)位于法国和瑞士边境,直径达到8.6公里,每秒产生的数据量达到4GB,每年产生的数据量达到100PB,来自40个国家180个机构的2000名物理学家围着装置辛勤工作,就为了从10,000,000,000,000个对撞结果中找到1个符合条件的粒子。

image.png
image.png

回到生命本身:每个人体都是一个小宇宙

从亿万光年之外的宇宙星辰,到组成世界的基本粒子,科学发现与技术创新越来越离不开功能强大的科研仪器,特别是大科学装置,这已成为科技界的共识。

天文学的发展脉络告诉我们,从对客观现象的观察到因果性的确定、理论的构建,都基于工具的不断突破,都构筑在在大科学装置带来的数据洪流之上。同样地,要解读纷繁复杂生命现象,探索生命的微观世界,同样需要相应的“生命数字化”核心装备和更多的数据。对于基因科学而言,获取足够多的基因数据量,构建庞大的数据库,才能进一步探究某个基因的变异所代表的确切含义。

为什么说人体不亚于一个小宇宙?人体内有1014个细胞,这比宇宙的星云数多1个数量级,每天都有上千亿(~1011)个细胞新生和死去。而每个细胞都是由腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)四种碱基“字母”编写成的人类基因组所控制,而每个细胞的基因组有60亿个碱基字母,编码了约2.5万个基因,每个细胞的基因组都有着不同的基因组修饰、外来基因入侵和基因变异模式,带来与人体内外环境千姿百态的交互可能。加上人体肠道和表皮上逾千种共生微生物,其基因组大小是人类基因组的10倍以上。这些基因组的变化及其连带的蛋白质组、代谢组、细胞、组织、器官、系统的变化是人体生老病死诸多现象的根本内因。

了解了这些,就会发现“每个人体都是一个小宇宙”这样的说法完全不为过,如果要详尽地描述生命各个阶段的状态,我们需要Gb(~109)、Tb(~1012)、Pb(~1015)级别的大数据才行,对于上百万到上亿人群大样本的解读,必然带来E(~1018)、Z(~1021)、Y(~1024)级别的大数据。

各国当前基因组学的发展已经印证了大数据的重要性。2008到2016年间,全世界基因组数据每隔7个月翻一番,超越了摩尔定律的发展速度。从人类基因组计划,耗费30亿美金13年完成一个人的基因组,到人类单体型图计划完成(~270个样本),到千人基因组计划完成(~1090个样本)再到英国、美国、中国、法国、德国、冰岛、瑞典、俄罗斯、阿联酋、沙特阿拉伯、印度等诸多国家正在推进的十万、百万乃至千万人级大人群基因组科研项目,高通量测序技术的飞速迭代发展使得这些生命数字化工程从天方夜谭变成现实。

image.png
世界DNA测序数据量增长趋势
(引自:Stephens Z D, Lee S Y, Faghri F, et al. Big Data: Astronomical or Genomical?[J]. Plos Biology, 2015, 13(7):e1002195.)

回过头来,我们再去思考为什么需要将基因测序通量不断提高?人体所蕴含的数据量是惊人的,基因是根本,亦是解码生命的基础,而精准地分析解读需要庞大数据库的支撑,这也自然对基因测序通量提出了更高的要求。从技术操作层面而言,基因测序仪的发展日新月异,以华大智造超高通量测序仪DNBSEQ-T7为例,它已将每Gb的测序成本降低至约5美元,技术的突破和成本的不断降低让提高测序通量这一要求变得可及。

基因科技要如何造福全人类?除了不断创造基因科技的应用场景,其基础是需要以高通量、高精度、高性价比的工具平台支撑大人群、大样本、大数据资源的累积,实现基因组从基础科研到临床研究到普惠人人的转化应用,让精准医疗、精准预防和精准健康更快走进人们的生活。

从宇宙到生命,从天文学到生命科学,历史如同明镜,照过来时的路,也照亮远方的去处。在未探明的真理之海面前,人类正撷取足够多的石子与贝壳,发现规律,无限地接近真理本身。

本文作者:MGI华大智造

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
7月前
|
数据挖掘 数据库
略微学习一下二区4.5分纯生信,单基因肺结核叶酸基因集+泛癌分析
研究摘要: 一项发表于2023年《MEDIATORS OF INFLAMMATION》杂志的文章发现,RTP4基因可能成为诊断肺结核的新生物标志物。研究者通过分析GEO数据库中的多个微阵列数据集,使用WGCNA方法识别与肺结核和叶酸生物合成相关的基因模块。RTP4在健康与肺结核患者间的表达有显著差异,并且在抗结核治疗前后表达量变化。泛癌分析显示,RTP4在不同肿瘤类型中的表达与预后关联不一,提示其可能在多种癌症中具有重要功能。这些发现支持RTP4作为诊断工具的潜力,并为进一步研究其在结核病和癌症中的作用奠定了基础。
92 1
|
机器学习/深度学习 语音技术 数据库
文献分享丨GWAS分析菜用大豆可溶性糖含量调控基因
文献分享丨GWAS分析菜用大豆可溶性糖含量调控基因
|
存储 算法 Perl
使用Logistic回归估计马疝病的死亡率
使用Logistic回归估计马疝病的死亡率
180 0
使用Logistic回归估计马疝病的死亡率
用基因疗法治疗色盲患者,靠谱吗?
高科技疗法的普及性和可获得性难题该如何解决?
历时30年探索牛顿之谜,中国科学家测出迄今最高精度万有引力常数值!
北京时间8月30日凌晨,Nature刊发了中科院院士罗俊团队历经30年最新测定的万有引力常数G值的结果,是迄今国际上最高精度的G值。实验使用了两种单独的G值测量方法,相关装置和细节均由团队自主研制完成,Nature刊文评论称,这项实验可谓“精确测量领域卓越工艺的典范”。
2036 0
科学家揭示阿加迪尔海底滑坡的形成时间和动力学过程
研究发现阿加迪尔海底滑坡并没有演变为大规模的浊流事件,这一发现在摩洛哥浊积体系的沉积记录中得到佐证。该研究成果不仅有助于更好地理解海底滑坡的形成过程和动力学机制,而且对科学评估海底滑坡造成的深水地质灾害风险具有一定指导意义。
1317 0