基因大数据:一面是科技,一面是责任

简介: 基因大数据,一面是科技,一面是责任。以基因科技为核心,为行业提供“存、传、算、用”全栈式解决方案,用数据智慧为精准医疗保驾护航。

基因是带有遗传信息的DNA片段,储存着生命的种族、血型、孕育、生长、凋亡等过程的全部信息。大数据是信息时代庞大的信息资产,以及对这些含有意义的数据进行专业化处理。基因大数据就是这样一项能力,将生命数字化且生产成本超摩尔定律下降,并以每年PB级增长规模快速应用到医疗健康等机构。

 人和1.jpg


不做跟随者,要做冒险家


2009年基因测序的浪潮在美国西海岸日益兴盛,圣地亚哥某实验室,一群来自Cornell、Yale、GoldmanSachs、IDG等知名高校及机构的年轻人聚在一起进行二代基因测序技术研究,抱着孤注一掷的勇气将所有的积蓄投入进去做了启动资金,希望有朝一日能将这份研究成果带回国,让基因科技普惠更多中国老百姓的同时,为国内基因技术赶超国际一流水平贡献一份力量。


2014年,国内基因检测行业的转折点已悄然来临——国家卫健委启动了基因检测的规范管理,行业即将迈入有序发展的快车道。传统的一切都亟待新的改变和发展,而最终澎湃的心让这群年轻人做出了归国创业的决定。同年,人和未来生物科技有限公司成立,基于生物技术和信息技术(BT+IT)双轮驱动,专注于基因检测前沿技术及基因大数据智能基础设施的开发,致力于成为精准医学整体解决方案服务商。


2.png

 

留在美国,意味着有成熟的市场环境和大量从事基因研究的科研人才;归国创业则必须做好面临各种市场、非市场问题的准备。“比起在现有的规则里做一个跟随者,做一个探寻未知市场的冒险家对于我们来说会更有吸引力。”


当然,“冒险家们”其实很聪明,他们明白此时美国基因检测市场“红海”一片,几家龙头企业跑马圈地,初创和中小型企业的生存空间被压缩。而中国基因检测市场正蓬勃发展,对于有“新技术”傍身的初创公司来讲,这里为圆梦提供了最舒适的“温床”。


走出一条差异化“大道”


随着科技的进步,医疗健康行业正以搬山造海的势头迎来巨变,而变革的源头正是以基因大数据为代表的行业细分领域崛起。


在同行把业务重点放在基因测序、肿瘤靶向药物用药指导、肿瘤复发监测等主赛道之时,人和未来借助以BT(生物技术)+IT(信息技术)为基础的数据处理和分析能力,走上了一条差异化的“大道”。

 

人和3.jpg


“当下全球测序产出的DNA数据正在激增,但100多GB的数据如何压缩到几个GB,以及数据分析解读如何在10几分钟的时间快速完成是个难点。”


随着测序技术的发展,基因数据以远超摩尔定律的速度在积累。但在过去的很多年里,它却是生命健康领域数字化程度最低的数据类型之一。在多方探索之下,人和未来技术团队研发出了GTX基因大数据智能基础设施。其中,GTX.ZIP能将FASTQ文件压缩到原来大小的2%,数据解压还要100%一致还原,在这样的极高倍率压缩技术的支持下,使用百兆网络,就能达到以千兆速度上传数据的效果,使得大规模测序数据上云成为可能。


GTX.FPGA能在18多分钟内完成人类全基因组数据分析,将全基因组计算带入百元时代。对比单台标准服务器,数据分析速度提高了90倍。GTX.Digest则可以根据患者的基因型数据与表型信息,结合文本挖掘和人工智能技术进行基因解读,从而协助临床遗传专家快速发现和筛选致病突变。


“以前,想要在海量的数据中找到致病原因难度不异于海底捞针,而现在,通过技术的革新,人和未来将基因数据从下机到数据压缩、存储、传输、计算、分析、解读、挖掘等全流程,都串起来了。”

 

4.png


云上的健康守护


基因数据对算力的需求会随着样本量的增减而变化,本地服务器的部署难度较大。多了则会造成很大的成本浪费,少了则会影响业务开展。整合不同规格的计算资源,打通线上线下计算集群成为了基因企业最行之有效的方案。从创业初期到现在,阿里云伴随客户一起成长,人和借助阿里云FPGA云服务器算力更高、成本更低的优势,实现了将海量历史数据迁移上云,大大降低了本地高性能NAS的容量和性能压力。


基因数据从测序仪下机后,样本数据通过闪电立方或专线上传到云端的OSS对象存储中,再通过批量计算配合ECS计算集群完成基因测序与分析任务,阿里云强大的云计算与大数据能力为人和未来的业务发展保驾护航,卓越的计算能力随时为人和未来提供数百万核时的计算能力。


人和未来已成功将公司的核心技术GTX.ZIP基因数据压缩以及GTX.FPGA基因数据加速计算部署在阿里云端上 。


5.png


想要了解更多阿里云客户故事、企业成长相关的数字技术产品解决方案,或是了解企业发展所需的融资服务品牌扶持、组织培训和行业活动等服务,可以进入官网主页进行查看~

阿里云企业成长服务中心https://enterprise.aliyun.com/

Dingtalk_20220112145638.jpg

扫码加入钉钉群可享有以下权益↓

2.jpg

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
11月前
|
存储 人工智能 分布式计算
ODPS,世界互联网领先科技成果!
ODPS,世界互联网领先科技成果!
52 0
|
存储 人工智能 自然语言处理
|
存储 Cloud Native OLAP
重磅更新丨偶数科技发布 OushuDB 5.0,多活主节点、多虚拟集群等特性完美支持实时湖仓一体
重磅更新丨偶数科技发布 OushuDB 5.0,多活主节点、多虚拟集群等特性完美支持实时湖仓一体
108 0
|
数据采集 数据管理 数据挖掘
偶数科技亮相 2022 年服贸会 Web3.0 发展趋势高峰论坛:用湖仓一体实现基于业务本质的监管数据治理
偶数科技亮相 2022 年服贸会 Web3.0 发展趋势高峰论坛:用湖仓一体实现基于业务本质的监管数据治理
81 0
|
存储 弹性计算 分布式计算
偶数科技:深入理解“湖仓一体”,避免错过最佳转型战略时机
偶数科技:深入理解“湖仓一体”,避免错过最佳转型战略时机
148 0
偶数科技:深入理解“湖仓一体”,避免错过最佳转型战略时机
|
存储 机器学习/深度学习 人工智能
2022 世界互联网大会:阿里云 ODPS 入选世界互联网领先科技成果
ODPS(Open Data Platform and Service)是阿里云自研的一体化大数据计算平台和数据仓库产品,10 余年来持续迭代,提供了实时离线一体、流批一体、湖仓一体、大数据 AI 一体的多场景能力,是业界少有的完全自主研发,支持 10 万级服务器并行计算、百万级 CPU 可扩展大数据智能计算平台
2022 世界互联网大会:阿里云 ODPS 入选世界互联网领先科技成果
|
运维 分布式计算 DataWorks
阿里云大数据助力知衣科技打造AI服装行业核心竞争力
杭州知衣科技有限公司是一家以人工智能技术为驱动的国家高新技术企业,致力于将数据化趋势发现、爆款挖掘和供应链组织能力标准化输出,打造智能化服装设计的供应链平台。
2056 0
|
机器学习/深度学习 数据采集 人工智能
科技云报道:野蛮增长时代远去,增强分析开启大数据未来
如何打好大数据与机器学习的“组合拳”?
139 0
科技云报道:野蛮增长时代远去,增强分析开启大数据未来
|
存储 消息中间件 分布式计算
Apache Hudi在华米科技的应用-湖仓一体化改造
华米科技是一家基于云的健康服务提供商,拥有全球领先的智能可穿戴技术。在华米科技,数据建设主要围绕两类数据:设备数据和APP数据,这些数据存在延迟上传、更新频率高且广、可删除等特性,基于这些特性,前期数仓ETL主要采取历史全量+增量模式来每日更新数据。随着业务的持续发展,现有数仓基础架构已经难以较好适应数据量的不断增长,带来的显著问题就是成本的不断增长和产出效率的降低。
311 0
Apache Hudi在华米科技的应用-湖仓一体化改造
|
网络协议 大数据
阿里2021CTO线大数据方向一面
阿里2021CTO线大数据方向一面

热门文章

最新文章