为什么别人胡吃海塞都依然瘦成竹竿,我喝水都会胖?
为什么我这么不幸,疾病会找上我?早知道就不乱喝酒。
为什么是同一种病,别人吃这个药有用,我吃却没用?
从日常的健康管理、疾病预防,甚到罹患重症时的最有效的医疗方案,都跟基因有关。在新冠疫情的溯源与药物研发中,病毒全基因组的测序,同样发挥着重要作用。
然而,人类对基因的探索是一个漫长而艰辛的征程。号称生命科学领域“登月计划”的“人类基因组计划”于1990年启动,计划测定组成人类染色体的30亿组碱基对。经过六国2000多名科学家努力,耗资30亿美元,终于在2003绘制完成人类基因组图谱。
随着技术的发展,基因测序的费用正在急速变低。随着二代、三代高通量测序技术的出现,人全基因组测序的成本在过去十多年间从一千万美元逐渐降低到一千美元。
这让很多生命科学领域的学者看到基因测序技术应用到临床的可能,并希望以一己所学,为饱受疾病折磨的人带来新希望。
谷红仓博士也是怀揣着如斯愿景的学者。
01 从出世到入世,以基因测序抗衡癌症
回到2013年,谷红仓博士正在哈佛大学-麻省理工博德研究院(The Broad Institute of Harvard and MIT)供职。博德研究院是全球生物遗传学最顶尖团队,由基因组学泰斗Eric S. Lander创立。Lander博士是前文提及“登月计划”的发起人之一和主要执行人。
身处如此团队,每年不乏在《Nature》和《Cell》等顶级期刊发表论文的机会,已是无数学者梦寐以求。唯一美中不足的是,基础科学主要专注理论探索,鲜少临床论证,谷博士也希望能为人类健康事业发展做点什么,思忖着转向临床研究。
谷红仓博士
恰逢次年,国内浙江天宇药业股份有限公司(股票代码:300702. SZ.)的董事长屠勇军,辗转找到谷红仓博士,邀请谷博士加入并领导其新投资成立的基因测序实验公司--浙江圣庭生物科技有限公司。彼时,中国国内基因测序行业也是风起云涌,格局初成。华大基因(BGI)、贝瑞和康(BERRYGENOMICS)、安诺优达(ANNOROAD)等企业在无创产前基因检测领域跑马圈地。
面对这个选择,谷红仓答应在圣庭担任两年顾问,最终在屠勇军董事长的“三顾茅庐”之后,决定回国,以圣庭创始人兼首席科学家的身份,领导这家实验室。同时,他为自己,也为圣庭做了一个重大的决定:转型。
成立之初的圣庭生物主要服务于基础科研,为科研院所提供测序服务和技术指导。转型之后,圣庭将会面向肿瘤的病人,为其进行精准的基因测序和专业的结果解读,为癌症患者提供个性化的治疗。改善患者的生活质量和延长他们的生命周期,这更符合谷博士的初心,也更符合他对行业的判断。
你也许会疑惑,基因测序对病人的意义究竟有多重要?
即便是罹患同一种癌症,不同患者可能存在着不同的驱动基因突变,突变情况不同,会导致有的药对某位患者有效,对其他患者却毫无作用。电影《我是药神》中的靶向药便是典型例子。怎么找到属于自己的特效药?不通过基因测序,需要化疗的病人只能不断地尝试不同的药物。苹果创始人乔布斯花费10万美元进行基因测序,指导个性化治疗,换来10年寿命。
圣庭想要把这种技术普惠到更多的患者。
02 转型后高速发展,面临成长的压力
2017年,圣庭生物改成“圣庭医疗”,开始转型。
圣庭医疗杭州实验室
针对临床的基因测序,美国医学遗传专家委员会(American Board of Medical Genetics and Genomics, ABMGG)开设了实验室遗传学和基因组学( Laboratory Genetics and Genomics)项目,规范了基因测序从样本的获取、处理、检测、分析到报告出具等全流程,以培养合格的临床医学遗传实验室主任。该学科全美每年仅录取约50人。“国内的遗传学还是空白,直到2021年才开始设立类似学科”。
为了让圣庭的基因测序做到国际领先水平,谷博士在美国花费两年的时间,全脱产参加了这个项目学习,同时边学边培训圣庭的同事,最终领导圣庭获得了美国病理学家学会(College of American Pathologists, CAP)资格认证,意味着出具的检验报告将具备全球可比性和互认性,标志着实验室能力达到国际标准。
此后的圣庭医疗也迎来了快速发展时期。业务由早期的肿瘤基因检测,发展到基于纳米孔测序技术的病原检测和精神类疾病及慢性病基因检查。团队从原来的20多人发展到了200多人,逐渐在北京、杭州、台州、长沙、广州开设了医学检验中心和实验室;接触到的样本量和接收的业务量也在快速增长。
大量患者深受病魔折磨已久,终于通过基因测序技术,查明了致病的基因突变或病原,找到了对症的药物,病情大大得到了缓解。比如,圣庭癌友李明(化名)是一位肺癌晚期患者,并发骨转移、淋巴转移,医生曾预估生存期不到半年。从吃上第一粒靶向药开始,如今已经走过了四个年头,正在突破五年。而这期间,李明在圣庭历经了四次基因检测,一次又一次地找到了治疗的方法,获得了新生。
在正确的战略与发展策略下,圣庭也帮助到了越来越多的病人。然而,飞速发展的圣庭也遇到了成长的烦恼:基础设施的发展跟不上业务的发展了。
高通量基因测序经历样本制备、上机测序后,将产生庞大的基因序列数据,并涉及海量的数据存储、计算与传输,这对底层基础设施有着极高的要求。原来的IDC机房,已经跟不上快速发展的圣庭。
圣庭需要再次求变。
(点击图片可放大查看)
03 云上高性能计算EHPC提升测序效率
基因测序所产生的海量数据,基本是不离开云的。从前,谷红仓所在的博德研究院,早在10年前每天所产生的数据就有20T,在全美机构中排名第二,很早就选择了云计算。而圣庭最早因为数据较少,高校对时效性的要求不强,也按行业惯性选择了自建互联网数据中心(Internet Data Center,IDC)机房。
自建IDC机房对生信科学家们来说自然并非易事,只能硬着头皮“自学成才”。
圣庭IT负责人黄云的经历仿佛是行业缩影,为了建设公司的IDC机房,“找哪家装修公司,电力系统要多少动力,多少瓦、电线的粗细、UPS要配多少,隔音怎么弄,集群架构、存储技术用什么存储技术,集群调度软件用什么……从装修、部署、实施到运维、使用,都是自学的。行业都是这样经历过来的,岗位没有那么细分”。
黄云透露,生命科学行业近几年发展较快,研究员都是身兼多职,没有专门的运维人员。这种方式不仅有着潜在的数据安全隐患,一旦机房发生火灾、水灾或磁盘损坏等即意味着数据的丢失,随着业务发展,运维成本的增加也难以为继。
圣庭近几年的业务量增长很快,随着数据量的增加,所需的服务器日益增长,运维成本也在上升。谷红仓回忆:“负责IT团队的同学,每周都要过去台州进行维护。每个月的电费高达上万,2021年还出现了电荒。” 这些他都看在眼里。
更重要的是,计算效率会影响患者的体验。实验室给癌症患者提供的检测报告,一般承诺7天出报告,样本的运输用去不少时间,本就时间紧迫。随着业务量增加,IDC机房的算力难以满足要求,大量的测序文件需要排队,时间给测序人员带来大量的压力,也会影响患者的体验。
圣庭的肿瘤检测业务,实验室在台州,样本需要台州检测,分析人员则在杭州。基因数据数据计算完毕后,需要从台州传到杭州分析,后来随着北京、广州等多地实验室出现,数据传输效率和安全风险就愈发攀升。
圣庭创始团队的一位亲友,刚好是云计算从业者,听说了圣庭所面临的运维、计算、存储、传输等一系列的烦恼之后,发现云计算可以完美解决,便推荐他们使用阿里云。双方可说相逢恨晚,圣庭上云已是势在必行。
2021年,圣庭医疗决定将业务全面将业务迁上阿里云。
上云后,圣庭通过阿里云弹性高性能计算EHPC进行基因比对,计算的效率得到了大幅提升。黄云还记得,最近最多一天送过来5批数据,如果没有上阿里云,利用自建机房可能就需要分析好几天,最后一批数据光是排队就要三天。
但上云了之后,就不需要担心这个问题了,云的弹性让圣庭可以直接根据数据量随时“弹出”算力,并且随时可基于HPC调度系统创建出不同队列的规格算力,并作资源隔离,以灵活应对不同业务场景的资源需求及并发。原来分析一个批次的样本需要10小时,上云之后只需要3小时,计算效率提升70%,能够快速给患者出具报告。
云免运维的特性更是大大降低了圣庭的运维压力,专注核心业务。阿里云的高性能数据中心有专业人员运维,消除了圣庭运维成本高企的苦恼;同时,阿里云上的数据一直采用多副本灾备的机制,可靠性高达10个9,数据安全得以保障;阿里云遍布全国各地的数据中心也能保证数据的传输效率,方便圣庭内部的高效协作。
如今,轻装上阵的圣庭医疗也在探索更多的领域,为患者提供更多精准化医疗的解决方案。
圣庭基于专利技术的三类IVD产品"人基因组甲基化检测试剂盒"已经进入临床试验阶段。在感染领域,基于二代测序和三代纳米孔测序双平台开发了“思可愈”系列感染精准诊断产品,并成功推出了国内首个基于高通量测序技术的专门针对分枝杆菌鉴定和耐药基因检测的产品。
展望未来,希望在云计算与生命科学产业的共同发展下,人类能不断“解密”基因,预防、治疗甚至消灭疾病。
点击这里,查看更多生命科学领域的行业实践。