【9月25日讯】9月22日,位于深圳大鹏新区的中国首个、全球第四个国家级基因库正式投入运营。国家基因库是全世界最大的综合性基因库,1期建成后,综合能力世界第一。为了确保“干库”具备优良的数据吞吐能力和足够安全可靠,国家基因库运营方华大基因同阿里云达成战略合作,基于阿里云飞天操作系统构建了基因检测大数据分析平台,解决了生物大数据高性能计算难题。国家基因库执行主任、华大基因研究院院长徐讯介绍表示:
我们希望打造中国乃至世界最大的生物信息数据中心,像是生命健康数据领域的谷歌。
国家基因库有多重要
在农业时代,一个国家拥有的耕地越多优势越大;在工业时代,拥有的石油、矿产等能源越多优势越大;而在生命时代,拥有更多的基因资源同时能对基因资源进行认知和利用,则意味着更大的优势。在国家基因库建成前,我国每年产出的大量基因数据都存在国际三大数据库——NCBI、EBI、DDBJ中,在基因数据已成为战略资源的现在,国内不能保存我国独特的基因数据,这本身就是一种风险。目前,国家基因库内的多台基因测序仪正不停每天都产生着大量的基因数据,这些数据被传输到数据中心,并面向全球的科研机构和企业开放。据了解,国家基因库已实现对基因信息数据总量达20PB的访问支持。
20PB是什么概念?以一部电影500MB计算,20PB(1TB=1024GB,1PB=1024TB)相当于4千万部电影,一个人一天看一部电影需要10万年才能看完。
为什么选择阿里云?
国家基因库是真正的‘国库’,比银行的金库还要宝贵。因此,技术是否自主可控、是否足够安全,也成为运营方衡量的标准。阿里云的飞天云计算操作系统,由阿里巴巴的工程师自主研发,能够将成千上万台机器变成一台超级计算机,在存储和计算性能上远超国外技术。同时,具备支付宝、淘宝同量级的安全防御能力。阿里云的计算能力还将为科学家解读生命密码提供帮助。徐讯说,“我们每个人大约有3个GB的基因组大小,但是我们真正能读得懂的区域只有1%的区域,99%的区域我们是不理解的。”
基因与云计算的结合已成未来趋势
国家基因库的建立将推动基因的进一步解读和利用。怎么样能理解更多呢?就像我们做人工智能研究一样,机器要想学会下棋就需要看上万部的棋谱。这个也是一样的,要看懂人类基因组上的未知区域就必须依赖更多的数据,增加10%的理解至少需要一百万到一千万新增人的数据。所以,只有大量提供数据才能产生出新的理解,而产生出新的理解之后测序的价值就会更大。基因与云计算的结合已成为一种趋势。
即将开幕的全球云计算顶级会议——2016杭州·云栖大会上,更是单独为基因计算设置了专场讨论。目前,大会主场已开放报名。2016杭州·云栖大会的主题是“飞天·进化 ”。和去年相比,大会从原本2天的议程增加至4天,从10月13日持续到16日。
本文转载自 阿里云微信公众号 Alibaba-Cloud