【云栖大会】基因行业陷入“怪圈”,数据存储成本竟然超过检测成本

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 一个人的全基因组检测和分析过程中产生的数据量就需要用TB为单位进行计算。如此大量的数据,其传输有时甚至需要通过快递硬盘的方式进行。因此金鑫预测,在未来,基因数据的储存成本将超过基因测序成本。

本文转载自 程序猿 记者:大文 原文链接


2016杭州·云栖大会正在杭州云栖小镇召开。昨天的会程中,基因计算专场引发了大量关注和讨论。

基因一词来自希腊语,意思为“生”。它通过指导蛋白质的合成来表现所携带的遗传信息,从而控制生物个体的差异表现。2003年完成的人类基因组计划通过测定组成人类染色体的30亿个碱基对形成的核苷酸序列,绘制了人类基因组图谱,试图破译人类遗传信息,为人类探索自身的奥秘迈出了重要一步。

在踏出这重要一步的13年之后,基因计算技术已经实现了初步的应用,引领着生物医学领域进入了大数据时代。越来越多的基因功能被解读成功,数千种基因相关疾病被发现,数百种基因相关疾病已开发出相应的药物及治疗方法。

目前,基因检测的技术已渐成熟,所检测出的基因型除了应用在诊断与治疗之外,甚至能依据数据库的内容,经数字化统计方式,预测尚未发生疾病的风险。

著名演员安吉丽娜朱莉在接受基因检测后被发现有87%和50%的几率罹患乳腺癌和卵巢癌,随后在2013年和2015年接受了预防性乳腺、卵巢及输卵管切除。在消息引起轰动之余,也让全世界都注意到了基因检测技术。除了预防疾病之外,基因检测技术还可以应用于身份鉴识、亲子关系鉴定、追溯祖源、先天体质分析等方面。

随着基因测序技术的发展,基因测序的成本大幅度降低。10年前,基因测序成本约为几十亿美金;5年前全基因测序的费用已经降到了十万美金;到今年,基因测序成本进一步降低,6月,华大基因发布的新基因测序解决方案甚至能将成本控制在人民币千元以下。

成本的降低带来了市场的繁荣。据BBC RESERCH预计,未来几年内,基因测序市场依旧会保持快速增长,2018年将达到117亿美元,年复合增长率为21.1%。

作为精准医疗的重要一环,基因测序也受到了国家政策的大力扶持。去年3月,科技部提出了中国精准医疗计划,预计到2030年前,我国将在精准医疗领域投入600亿元。

但是在飞速发展的同时,也暴露出一些问题:

一方面,国内基因测序行业上游,技术门槛较高的基因测序设备耗材依然由国外企业主导,国内的基因测序企业主要集中在产业链的中下游测序服务业;

另一方面,对基因数据的应用也缺乏创新,集中在遗传病诊断、产前筛查与诊断、植入前胚胎遗传学诊断以及肿瘤诊断与治疗方面,无法最大限度的发挥基因大数据的潜力,实现真正的精准医疗。

14日进行的云栖大会《基因计算专场》中,华大基因大数据总监金鑫、WeGene创始人陈钢、安诺优达科学家杨吉涛、中科晶云科技CEO赵屹、阿里云生命云产品经理林河山、英特尔精准医疗与生命科学创新业务总监李健等行业专家就以上这些问题进行了讨论。

华大基因大数据总监金鑫在演讲中表示,目前国内基因大数据发展受到硬件设施条件局限较大,其中主要包括基因测序仪、计算硬件和储存硬件。基因测序仪制造有很高的技术壁垒,国外公司依靠技术优势获得了大量市场份额。不打破这种垄断就无法控制基因测序的成本。

目前,全世界只有中国和美国,共三家公司可以对基因测序仪进行量产,其中就包括中国的华大基因。

计算硬件方面,对于海量基因数据的处理需要计算性能非常强大的计算机,甚至超级计算机,但对于企业来说,超级计算机的成本无疑太高了。

储存硬件方面,随着基因测序技术的发展,基因数据获取成本大幅度降低,但存储获得的数据成本就成为了基因计算行业面临的首要问题之一。

一个人的全基因组检测和分析过程中产生的数据量就需要用TB为单位进行计算。如此大量的数据,其传输有时甚至需要通过快递硬盘的方式进行。因此金鑫预测,在未来,基因数据的储存成本将超过基因测序成本。

要解决这些问题,金鑫认为,云技术是未来基因大数据发展的关键。

WeGene创始人陈钢赞同了金鑫的观点。他认为,基因检测实际上是存在局限性的,包括:

1、检测结果不能用于临床诊断;

2、基因不是影响人身体状态的唯一因素;

3、基因检测也不能做到真正的全面。

但他同时指出,这些局限性都是可以通过增加基因数据挖掘的参与人数来解决的。

他创办的基于云技术的WeGene开放平台通过开放RESTful API,允许开发者对用户的基因数据进行使用和解读,促进对基因数据的挖掘,从而发挥基因大数据的潜力。

英特尔精准医疗与生命科学创新业务总监李健则认为,云技术带来的基因数据的整合利用是提高基因计算应用水平的关键。

他认为,目前对基因数据的开放和分享依然存在众多障碍和顾虑,同时缺乏多数据来源的联合分析手段。他在演讲中表示,目前依然有96%的医疗数据在科研和医疗机构没有得到有效的发掘和利用,而云技术能够很好的整合这些数据,从而发挥数据的最大价值。

他还表示,英特尔将在2020年前,依托基因测序技术和云技术实现精准的药物治疗和临床干预。

“基因+大数据”已经开始从根本上改变医疗行业。随着依托于云技术的大数据应用进一步发展,这样的变革不仅仅是在医疗行业,而是在方方面面深刻地改变着我们的生活。

在这个数据爆炸的年代,我们都将是这场变革的见证者和参与者。


感谢 程序猿 对2016杭州云栖大会的精彩报道!
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
9月前
|
机器学习/深度学习 人工智能 算法
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
《PatternBoost: Constructions in Mathematics with a Little Help from AI》提出了一种结合传统搜索算法和Transformer神经网络的PatternBoost算法,通过局部搜索和全局优化交替进行,成功应用于组合数学问题。该算法在图论中的Ramsey数研究中找到了更小的反例,推翻了一个30年的猜想,展示了AI在数学研究中的巨大潜力,但也面临可解释性和通用性的挑战。论文地址:https://arxiv.org/abs/2411.00566
212 13
|
2月前
|
人工智能 自然语言处理 JavaScript
Github又一AI黑科技项目,打造全栈架构,只需一个统一框架?
Motia 是一款现代化后端框架,融合 API 接口、后台任务、事件系统与 AI Agent,支持 JavaScript、TypeScript、Python 多语言协同开发。它提供可视化 Workbench、自动观测追踪、零配置部署等功能,帮助开发者高效构建事件驱动的工作流,显著降低部署与运维成本,提升 AI 项目落地效率。
274 0
|
3月前
|
机器学习/深度学习 人工智能 监控
CI/CD与模型监控平台集成MLOps系统实现的全面路径
MLOps是机器学习模型在生产环境中持续优化、部署和维护的关键。通过CI/CD流水线和模型监控平台的结合,可以大大提高模型开发和运维的效率,实现高效、稳定的模型服务。随着AI技术的快速发展,MLOps将在企业级AI应用中发挥越来越重要的作用。
CI/CD与模型监控平台集成MLOps系统实现的全面路径
|
5月前
|
存储 消息中间件 前端开发
PHP后端与uni-app前端协同的校园圈子系统:校园社交场景的跨端开发实践
校园圈子系统校园论坛小程序采用uni-app前端框架,支持多端运行,结合PHP后端(如ThinkPHP/Laravel),实现用户认证、社交关系管理、动态发布与实时聊天功能。前端通过组件化开发和uni.request与后端交互,后端提供RESTful API处理业务逻辑并存储数据于MySQL。同时引入Redis缓存热点数据,RabbitMQ处理异步任务,优化系统性能。核心功能包括JWT身份验证、好友系统、WebSocket实时聊天及活动管理,确保高效稳定的用户体验。
340 4
PHP后端与uni-app前端协同的校园圈子系统:校园社交场景的跨端开发实践
|
8月前
|
边缘计算 调度 对象存储
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
151 0
|
10月前
|
运维 供应链 安全
阿里云先知安全沙龙(武汉站) - 网络空间安全中的红蓝对抗实践
网络空间安全中的红蓝对抗场景通过模拟真实的攻防演练,帮助国家关键基础设施单位提升安全水平。具体案例包括快递单位、航空公司、一线城市及智能汽车品牌等,在演练中发现潜在攻击路径,有效识别和防范风险,确保系统稳定运行。演练涵盖情报收集、无差别攻击、针对性打击、稳固据点、横向渗透和控制目标等关键步骤,全面提升防护能力。
|
存储 算法 数据处理
优化算法在大规模数据处理中的应用
本文探讨了优化算法在大规模数据处理中的关键作用。通过分析不同类型的优化算法,如贪心算法、动态规划、遗传算法等在数据处理中的应用,展示了它们在提高效率、降低成本和优化资源利用方面的重要性。
665 15
|
SQL 关系型数据库 MySQL
MySQL的自增id会用完吗?用完怎么办?
MySQL的自增id会用完吗?用完怎么办?
542 0
|
安全 开发者 Docker
使用Docker进行本地开发环境设置:高效、可重复与隔离的利器
【8月更文挑战第8天】使用Docker进行本地开发环境设置不仅提高了开发效率,还保证了开发环境的一致性和可重复性。通过简单的Dockerfile和Docker命令,开发者可以轻松地创建、运行和管理自己的开发环境。随着Docker的普及和生态的不断发展,相信它将在未来的软件开发中发挥更加重要的作用。
|
安全 网络安全 网络虚拟化
虚拟网络设备的网络隔离机制:原理、意义与应用场景深度分析
虚拟网络设备在现代网络架构中扮演着重要角色🌐,尤其是在实现网络隔离方面🛡️。网络隔离是网络安全🔒和多租户环境管理的关键组成部分,它能够确保不同网络流量的分离🚦,保护敏感数据💾,减少攻击面。虚拟网络设备通过在软件层面上模拟物理网络设备的行为,提供了一种灵活且成本效益高的方式来实现这些目标。本文将从多个维度深入分析虚拟网络设备是如何隔离网络的,这种隔离有什么实际意义,为什么需要虚拟网络设备来隔离网络,以及在什么场景下比较适合使用虚拟网络设备隔离网络。