基因大数据:一面是科技,一面是责任

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 以基因科技为核心,为行业提供“存、传、算、用”全栈式解决方案,用数据智慧为精准医疗保驾护航。

基因,基因组,大数据


基因是带有遗传信息的DNA片段,储存着生命的种族、血型、孕育、生长、凋亡等过程的全部信息。

基因组是细胞内所有的遗传信息,这种遗传信息以核苷酸序列形式存储,由30亿个碱基对组成的基因组,蕴藏着生命的奥秘。

大数据是信息时代庞大的信息资产,以及对这些含有意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

生命科学遇上信息科技,基因结合大数据,这一切就在人和未来发生。人和未来生物科技有限公司由一支北美青年科学家团队始创于圣地亚哥,自2009年开展基因检测临床转化研究,并于2014年正式在北京组建成立,是一家以基因科技为核心的医疗健康解决方案提供商。

不做跟随者,要做冒险家

2009年基因测序的浪潮在美国西海岸日益兴盛,美国圣地亚哥某实验室,一群来自Cornell、Yale、GoldmanSachs、IDG等知名高校及机构的年轻人聚在一起进行二代基因测序技术研究,抱着孤注一掷的勇气将所有的积蓄投入进去做了启动资金,希望有朝一日能将这份研究成果带回国,让基因科技普惠更多中国老百姓的同时,为国内基因技术赶超国际一流水平贡献一份力量。

2014年,国内基因检测行业的转折点已悄然来临——国家卫健委启动了基因检测的规范管理,行业即将迈入有序发展的快车道。传统的一切都亟待新的改变和发展,而最终澎湃的心让这群年轻人做出了归国创业的决定。同年,人和未来生物科技有限公司成立,基于生物技术和信息技术(BT+IT)双轮驱动,专注于基因检测前沿技术及基因大数据智能基础设施的开发,致力于成为精准医学整体解决方案服务商。

留在美国,意味着有成熟的市场环境和大量从事基因研究的科研人才;归国创业则必须做好面临各种市场、非市场问题的准备。“比起在现有的规则里做一个跟随者,做一个探寻未知市场的冒险家对于我们来说会更有吸引力。”

医疗行业信息化程度逐步提升,但基因大数据由于涉及与人类健康相关的各个领域,具有明显的多维、海量以及多源异构的特点,成为了数字化程度最低的一种数据类型。21世纪,基因数据已成为关系国家人口健康和生物安全重要战略资源,“冒险家”们深知,不想被别人“卡脖子”,那就必须研发中国人自己的关键技术,让国产基因大数据技术和产品托起行业的蓬勃发展。


走出一条差异化“大道”

随着科技的进步,医疗健康行业正以搬山造海的势头迎来巨变,而变革的源头正是以基因大数据为代表的行业细分领域崛起。

在同行把业务重点放在基因测序、肿瘤靶向药物用药指导、肿瘤复发监测等主赛道之时,人和未来借助以BT(生物技术)+IT(信息技术)为基础的数据处理和分析能力,走上了一条差异化的“大道”。

测序技术不断升级,测序成本直线下降,测序通量越来越高……当下,基因测序已广泛应用在科研、临床、遗传优生、健康管理等多个领域。DNA数据正在激增,

孤立的、单个的数据分析形式越来越不能满足科研的需要,生物基因大数据的价值需要被更深入地挖掘。

在多方探索之下,人和未来技术团队研发出了GTX基因大数据智能基础设施。

1、GTX.ZIP能将FASTQ文件压缩到原来大小的2%,数据解压还要100%一致还原,在这样的极高倍率压缩技术的支持下,使用百兆网络,就能达到以千兆速度上传数据的效果,使得大规模测序数据上云及各科研机构间的交互成为可能。

2、GTX.FPGA能在18多分钟内完成人类全基因组数据分析,将全基因组计算带入百元时代。对比单台标准服务器,数据分析速度提高了90倍。

3、GTX.Digest则可以根据患者的基因型数据与表型信息,结合文本挖掘和人工智能技术进行基因解读,从而协助临床遗传专家快速发现和筛选致病突变。

“以前,想要在海量的数据中找到致病原因难度不异于海底捞针,而现在,通过技术的革新,人和未来将基因数据从下机到数据压缩、存储、传输、计算、分析、解读、挖掘等全流程,都串起来了。”


云上的健康守护

     基因数据对算力的需求会随着样本量的增减而变化,本地服务器的部署难度较大。多了则会造成很大的成本浪费,少了则会影响业务开展。整合不同规格的计算资源,打通线上线下计算集群成为了基因企业最行之有效的方案。从创业初期到现在,阿里云伴随客户一起成长,人和借助阿里云FPGA云服务器算力更高、成本更低的优势,实现了将海量历史数据迁移上云,大大降低了本地高性能NAS的容量和性能压力。

基因数据从测序仪下机后,样本数据通过闪电立方或专线上传到云端的OSS对象存储中,再通过批量计算配合ECS计算集群完成基因测序与分析任务,阿里云强大的云计算与大数据能力为人和未来的业务发展保驾护航,卓越的计算能力随时为人和未来提供数百万核时的计算能力。人和未来已成功将公司的核心技术GTX.ZIP基因数据压缩以及GTX.FPGA基因数据加速计算部署在阿里云端上 。针对基因计算数据吞吐量大的情况,提供高IO的本地SSD规格实例提升性能,同时提供针对基因测序分析优化过的批量计算服务,通过缓存技术,调度优化,竞价实例等进一步降低计算成本。批量计算直面大计算挑战,帮助人和未来轻松完成海量数据并行计算任务。支持基于有向无环图轻松构建复杂工作流,结合批量计算独有的分布式缓存技术和OSS挂载功能,无需特别编程就可以实现稳定高效的大规模基因数据样本分析。闪电立方快速搞定网络传输! 以1PB(约100GB)数据为例,普通的办公网络下全部上传需要10000多天,在1Gbps的专线下也需要100多天,借助闪电立方,仅需24小时就能完成1PB的数据迁移,大大提升了任何未来数据上云的效率。

未来,基因大数据将成为基因企业的核心资产。基于基因大数据智能基础设施GTX,为精准医疗在医疗机构的落地提供实验室管理、样本管理、科研支持、临床辅助决策等全栈式解决方案,将快速获取“数据、算力、知识”的能力赋予合作伙伴,是我们不懈的追求。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
80 0
|
存储 弹性计算 分布式计算
偶数科技:深入理解“湖仓一体”,避免错过最佳转型战略时机
偶数科技:深入理解“湖仓一体”,避免错过最佳转型战略时机
213 0
偶数科技:深入理解“湖仓一体”,避免错过最佳转型战略时机
|
存储 人工智能 分布式计算
ODPS,世界互联网领先科技成果!
ODPS,世界互联网领先科技成果!
71 0
|
存储 人工智能 自然语言处理
|
存储 Cloud Native OLAP
重磅更新丨偶数科技发布 OushuDB 5.0,多活主节点、多虚拟集群等特性完美支持实时湖仓一体
重磅更新丨偶数科技发布 OushuDB 5.0,多活主节点、多虚拟集群等特性完美支持实时湖仓一体
142 0
|
数据采集 数据管理 数据挖掘
偶数科技亮相 2022 年服贸会 Web3.0 发展趋势高峰论坛:用湖仓一体实现基于业务本质的监管数据治理
偶数科技亮相 2022 年服贸会 Web3.0 发展趋势高峰论坛:用湖仓一体实现基于业务本质的监管数据治理
103 0
|
存储 机器学习/深度学习 人工智能
2022 世界互联网大会:阿里云 ODPS 入选世界互联网领先科技成果
ODPS(Open Data Platform and Service)是阿里云自研的一体化大数据计算平台和数据仓库产品,10 余年来持续迭代,提供了实时离线一体、流批一体、湖仓一体、大数据 AI 一体的多场景能力,是业界少有的完全自主研发,支持 10 万级服务器并行计算、百万级 CPU 可扩展大数据智能计算平台
2022 世界互联网大会:阿里云 ODPS 入选世界互联网领先科技成果
|
运维 分布式计算 DataWorks
阿里云大数据助力知衣科技打造AI服装行业核心竞争力
杭州知衣科技有限公司是一家以人工智能技术为驱动的国家高新技术企业,致力于将数据化趋势发现、爆款挖掘和供应链组织能力标准化输出,打造智能化服装设计的供应链平台。
2359 0
|
机器学习/深度学习 数据采集 人工智能
科技云报道:野蛮增长时代远去,增强分析开启大数据未来
如何打好大数据与机器学习的“组合拳”?
171 0
科技云报道:野蛮增长时代远去,增强分析开启大数据未来
|
存储 消息中间件 分布式计算
Apache Hudi在华米科技的应用-湖仓一体化改造
华米科技是一家基于云的健康服务提供商,拥有全球领先的智能可穿戴技术。在华米科技,数据建设主要围绕两类数据:设备数据和APP数据,这些数据存在延迟上传、更新频率高且广、可删除等特性,基于这些特性,前期数仓ETL主要采取历史全量+增量模式来每日更新数据。随着业务的持续发展,现有数仓基础架构已经难以较好适应数据量的不断增长,带来的显著问题就是成本的不断增长和产出效率的降低。
360 0
Apache Hudi在华米科技的应用-湖仓一体化改造