生物大数据:中国能否与世界同步?

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介:         大数据时代已经来临。2014财年,美国政府就如何充分利用生物医学大数据,启动Big Data to Knowledge计划,这是继2012年美国国家大数据计划实施后新一轮面向生物大数据的基础研究计划。
0.jpg

        大数据时代已经来临。2014财年,美国政府就如何充分利用生物医学大数据,启动Big Data to Knowledge计划,这是继2012年美国国家大数据计划实施后新一轮面向生物大数据的基础研究计划。目前,发达国家在生物大数据领域的技术和应用已远远走在前端。在我国,生物大数据还处于发展的初期阶段。该如何以最快的速度赶上这一潮流,如何从国家主权层面对生物大数据进行有效的保护和管理,如何在基础研究和技术市场应用上与世界同步,已成为不可回避且值得深入思考的话题。

  谁是生物大数据技术的领航者

  大数据发展的核心动力来自于人类记录、测量和分析世界的渴望。当前,高通量测序技术的快速发展,使生命科学研究获得了强大的数据产生能力。

  哈尔滨工业大学计算机科学与技术学院院长王亚东教授告诉科笔者,上世纪90年代,科学家花费10年时间、近30亿美元获得了第一个人类基因组图谱;而今天,完成一个个人基因组测序不到一天时间,费用低于1000美元。

  自人类基因组计划完成以来,以美国为代表,世界主要发达国家纷纷启动了生命科学基础研究计划,如国际千人基因组计划、DNA百科全书计划、英国十万人基因组计划等。这些计划引领生物数据呈爆炸式增长,目前每年全球产生的生物数据总量已达EB级,生命科学领域正在爆发一次数据革命,生命科学某种程度上已经成为大数据科学。

  “这还只是刚刚开始”,王亚东强调,“随着测序技术在医疗、健康、医药、环境、能源等相关领域的广泛应用,人类将面临生物数据的海洋,其将成为这些领域创新的源泉,对这些数据创新性的管理和应用,将为生命科学及相关产业领域带来一次新的革命。”

  与全球蒸蒸日上的生物大数据创新发展热潮相比,中国的研发及应用才拉开帷幕。“我们与国际前沿技术水平至少相差30年,差距主要表现在数据分析、数据管理和与临床的应用对接上”,上海生物信息技术研究中心主任李亦学研究员对此深表担忧。

  李亦学分析认为,我国有四大方面非常欠缺:其一,国内现有的生物大数据分析能力虽然与欧美相差不大,但是在数据分析构架、软件系统与先进的IT技术接轨上有待提升。其二,国外在生物大数据领域的领先人才多,尽管我们也有国际顶级刊物上发表的论文和成果,总体而言,国内高水准团队还是少。其三,欧美讲求成果应用,层出不穷的分析软件可被实验室、临床、产业多方应用。其四,在生物大数据理论研究、标准制定和广泛应用上,中国都亟待全面跟进。

       谁将引领生物大数据应用的市场和资源

  对生物大数据的有效管理和利用,发达国家很早就开始了竞争。早在上世纪80—90年代,美国、欧洲和日本即已分别建立世界三大生物数据中心:美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)和日本DNA数据库(DDBJ)。

  王亚东强调,“这三大生物数据中心掌握并管理着全世界的生物数据和知识资源,并处于垄断地位。”

  美国国立卫生研究院(NIH)建立了8个国家级生物数据技术研究中心,旨在长期发展生物大数据分析技术,提高生物大数据利用和转化能力,并保持其领先地位。王亚东进一步指出,美国政府于近两年两次启动生物大数据研究计划,目的是有针对性地研究生物大数据管理、分析、共享等生物领域迫切需要的核心技术,从根本上提升美国利用生物大数据的水平,并以此带动生物领域研究与产业发展。

  在商业领域,生物大数据的应用市场也如雨后春笋,目前,一些公司已开始提供生物大数据服务。例如,谷歌投资DNANexus公司,提供生物大数据管理和分析服务,并于2011年接管NCBI数据;早在2006年,23AndMe公司就开始提供个人基因组数据分析服务,目前其受益者总数已超过50万人;英国卫生部于2013年专门建立了Gel公司,管理和分析英国十万人基因组计划产生的基因组数据。

  BCC报告指出:“至2018年,生物大数据的市场总额将增长至76亿美元,年复合增长率达到71.6%。”麦肯锡公司报告指出:“如果美国医疗保健行业有效利用大数据,就能把成本降低8%左右,从而每年创造出超过3000亿美元的产值。”

  谁来掌控我国生物大数据主权

  对于一个国家而言,重要领域的大数据已成为战略资源,拥有数据的规模和运用数据的能力将成为一个国家综合国力的重要标志。

  我国人口居世界首位,生物样本资源丰富,这将使我国很快成为生物数据产出大国,但目前还不是生物大数据利用强国。

  事实上,国际上生物数据资源一直掌握在欧美的几大数据中心。我国产生的许多生物数据资源不得不提交到这些数据中心,导致我国投入大量资金与人力产生的生物数据严重流失。

在生物大数据领域,我国缺乏从国家层面对生物大数据进行有效管理与利用的体制、机制和环境,李亦学称,“这已经使中国的生物数字主权受到严重威胁”。

  王亚东也强调,“现在国际上的三大生物数据中心都是欧美国家层面建立的,并免费向国际开放。我国的相关科学研究和市场应用发展受益于这些数据中心,同时也严重依赖和受制于此。”

  业内人士指出,我国尚未建立面向生物大数据技术发展的国家级技术研究中心,技术研发缺乏宏观规划和引导,技术产出较少,难以建立完善的生物大数据技术体系,不能满足生物大数据发展面临的数据管理和服务需求。同时,除了哈尔滨工业大学和上海生物信息技术中心等少数高校和研究所建立了生物大数据专业研究团队外,人才缺口较大。

  大数据的使用已经成为一个国家各领域提高生产力、创新能力以及竞争力的关键要素。

  专家们指出,生物大数据是国家战略资源,对生物大数据资源的管理和利用应上升为国家意志,并考虑实施如下措施:建立国家生物大数据中心,保障我国数字主权,统筹管理和合理利用国家生物大数据战略资源;通过国家科技政策,集中突破生物大数据核心技术,形成自主关键技术与系统产品,打破美欧技术限制;以现有优势学术和技术资源为基础,建立国家级生物大数据研究机构,提升我国生物大数据技术和服务水平,并培养专业的生物大数据人才;强调应用需求牵引和政策支持,以加快生物大数据产业的全面发展。


原文发布时间为:2014-02-28


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
分布式计算 DataWorks MaxCompute
DataWorks中odps到容器部署starrocks的单表同步遇到写入问题
【1月更文挑战第6天】【1月更文挑战第29篇】DataWorks中odps到容器部署starrocks的单表同步遇到写入问题
46 3
|
7月前
|
canal 分布式计算 关系型数据库
大数据Spark Streaming实时处理Canal同步binlog数据
大数据Spark Streaming实时处理Canal同步binlog数据
112 0
|
2月前
|
DataWorks 关系型数据库 对象存储
dataworks数据集问题之同步任务如何解决
DataWorks数据集是指在阿里云DataWorks平台内创建、管理的数据集合;本合集将介绍DataWorks数据集的创建和使用方法,以及常见的配置问题和解决方法。
39 4
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
2月前
|
SQL 分布式计算 大数据
maxcompute开发环境问题之同步到生产环境失败如何解决
MaxCompute开发环境是指设置和配置用于开发MaxCompute项目的本地或云端环境;本合集将指导用户如何搭建和管理MaxCompute开发环境,包括工具安装、配置和调试技巧。
|
2月前
|
DataWorks 关系型数据库 分布式数据库
dataworks数据集问题之数据中台报错如何解决
DataWorks数据集是指在阿里云DataWorks平台内创建、管理的数据集合;本合集将介绍DataWorks数据集的创建和使用方法,以及常见的配置问题和解决方法。
36 1
|
2月前
|
SQL 分布式计算 关系型数据库
Dataphin实现MaxCompute外表数据快速批量同步至ADB MySQL
当前大数据时代背景下,企业对数据的处理、分析和实时应用的需求日益增强。阿里云MaxCompute广泛应用于海量数据的ETL、数据分析等场景,但在将处理后的数据进一步同步至在线数据库系统,如ADB MySQL 3.0(阿里云自研的新一代云原生关系型数据库MySQL版)以支持实时查询、业务决策等需求时,可能会遇到数据迁移速度缓慢的问题。 DataphinV3.14版本支持外表导入SQL的带参调度,实现通过MaxCompute外表的方式将数据批量同步至ADB MySQL 3.0中,显著提升数据迁移的速度和效率。
280 1
|
4月前
|
分布式计算 DataWorks NoSQL
DataWorks中mongo同步到odps后时间多了8小时?
DataWorks中mongo同步到odps后时间多了8小时?
60 0
|
4月前
|
存储 分布式计算 DataWorks
DataWorks如何同步SLS日志到odps上?
DataWorks如何同步SLS日志到odps上?
74 0
|
4月前
|
分布式计算 DataWorks MaxCompute
DataWorks中odps到容器部署starrocks的单表同步遇到写入问题
DataWorks中odps到容器部署starrocks的单表同步遇到写入问题
37 1