火爆的背后,高通量测序面临5大挑战 | 深度

简介:

火爆的背后,高通量测序面临5大挑战 | 深度

雷锋网AIHealth栏目按:基因测序作为医疗健康行业的火爆技术,近年来越来越得到临床的认可,并逐步被应用到各大领域中。尤其是精准医疗概念提出以后,基因测序更是备受青睐,它为精准医疗解答了很多未知的问题。

如今,基因测序已经形成了一定的产业规模,大量的企业以不同形式跻身进来。但是,在表面飞速发展的背后,技术上仍有大量的挑战。外媒《GEN》Shawn C. Baker博士撰文讲解该领域面临的困难与挑战,雷锋网(公众号:雷锋网)AIHealth栏目编译如下:

过去十年里,高通量测序技术经历了跨越式的发展,测序能力大幅上升,费用下降,两者的变化都是数量级的。到目前为止,全球范围内,共配备测序设备超过一万台。

过去十几年来,主要的平台公司都致力于提升系统的易用性。Illumina的最新桌面系统,比如 NextSeq、MiSeq、和MiniSeq 系统,均通过试剂盒进行操作,以减少了手工操作的次数和开机时间。

一直以来, Illumina的系统都比赛默飞的 Ion Torrent 系统更加易用,但后者最新的系统Ion S5特别设计简化了整个工作流程,涉及设计准备库到数据生成的整个流程。

行业外读者在听闻了测序行业的许多进展后,如强大的测序能力、更低的成本以及更好的易用性,可能会误认为,基因测序所有的困难已经都解决了,测序过程的所有障碍都移除了。

但是真正的困难还刚开始,大量的挑战在前方。

样品质量

问题最严重的一个领域,也是易被忽略的是:样品质量,虽然测试平台经常会校准,使用的样本也是经过校准的,但是真实世界中的样本经常会面临很多意想不到的挑战。

在人类基因测序中,一个最普遍使用的样本类型是FFPE (formalin-fixed paraffin-embedded)。FFPE的广泛应用有多种原因,其中最重要的是丰富性。据估计,全球范围内,有超过100亿FFPE样本存档。FFPE块的临床样本存储已经变成工业级别的标准实践,其样本数量将继续保持增长。

除全球范围的广泛应用外,FFPE样本通常包含着大量可用的表型信息。例如,FFPE样本可与治疗方法和临床数据综合应用。

但FFPE 样本出现的问题是:固定过程和存储条件均会造成大量的DNA损伤。

BioCule公司CEO、联合创始人 Hans G. Thormar博士认为,

评估了BioCule的QC平台超过1000份样本后,我们看到了DNA样品中大量的变异和各种类型的损伤,例如链间、链内交联,单链DNA的聚合以及单链DNA破坏。

DNA损伤的变异数量和类型,如果忽略,可能会对最终结果产生负面影响。

Thormar认为,

这对下游应用比如测序的影响是巨大的:从简单测序文库构建的失败到虚假文库的产生,最终导致结果的错误。因此,在测序项目开始时正确评估每个样本的质量变得至关重要。

测序文库

尽管,各大测序平台公司花大力气在降低生成原始序列的成本上,但是在构建测序库方面却不然。人类基因测序的测序文库的构建,每个样本大约花费50美元,在总花销中是相对较小的一部分。但是在其他应用中,例如细菌基因组测序或低深度RNA测序,它占据总成本很大一部分。

几个小组研究了多元化自制解决方案,期望可以有效降低成本,但在商业领域并没有太多发展。在开发单细胞测序解决方案中有一个亮点,例如10X Genomics公司的Chromium™系统,利用基于珠的系统可以并行处理数百到数万个样品。

10X Genomics 公司的CEO兼联合创始人Serge Saxonov博士坚持道,

我们认为单细胞RNA测序是进行基因表达分析的正确方式,在接下来的几年,全球许多地区,RNA试验将转向单细胞分辨率,我们的平台有可能在这方面引领浪潮。

对于大型项目,比如在降低样品成本方面,单细胞RNA测序中要求的高度多元解决方案将是关键的因素。

长读数与短读数

Illumina对于基因测序市场的主导,意味着到目前为止产生的绝大多数数据都基于短读数(short reads,高通量测序平台产生的序列就称为reads,这是测序读到的碱基序列片段,测序的最小单位)。大量短读数的产生对大多数的应用都很适用。例如检测基因组DNA的单核苷酸多态性和计数RNA的转录物。然而,在许多其他的应用中,仅有短读数是不够的,例如阅读基因组的高度重复区域和确定长链结构。

长读数平台,例如Pacific Biosciences公司的RSII和Sequel,Oxford Nanopore的MinION,通常能生成15-20kb范围长度的读数,最高曾报道过超过100kb长度的读数。这样的平台赢得科学界的赞赏,例如加利福尼亚大学戴维斯分校细胞生物学教授Charles Gasser博士。

Gasser博士评论道,

我对于用长读数方法进行基因组装配的成功印象深刻,特别是与短读数高保真数据相结合时的混合装配中。技术的结合使得小群体、小预算的单个研究者从一个新的生物基因组中产生一个可用的组装。

为了充分利用这些长读数平台,有必要通过新方法进行制备DNA样品,标准分子生物学方法尚未优化用来分离超长链DNA片段,所以,在制备长读数库时必须特别小心。

例如,供应商创建了一种高分子量试剂盒用于分离大于100kb的的DNA片段,优化靶向DNA方案来选择性富集DNA的大片段,为了保证长读数产量的最大化,这些方法和技术必须掌握。

短读数的一种特殊形式是链接读数,例如10X Genomics,可作为真正长读数的一种替代方法。链接读数是这样产生的:每个长DNA片段,通常大于100kb,其中产生的每个短读数,均加入一个独一无二的条形码,在分析阶段,这种独特的条形码就可以将分离的短读数链接在一起,从而提供长链基因信息,使得构建大单倍型块和对复杂结构信息的阐释成为可能。

Saxonov博士建议道,

短读数测序,因其高精确度和高通量,通常具有强大的功能,但只能获取小部分的基因信息。这是因为基因组是基本重复的,基因组中的大量信息编码在长链中。

数据分析

研究人员面临的领一大挑战是生成的数据量非常大。单个30X人全基因组样品的BAM文件(半压缩比对文件)约为90GB;一个相对中等的项目,包含100个样本,其BAM文件可达到9TB。

一个Illumina HiSeq X仪器,每年能产生超过130TB的数据,很快数据的存储就变成一个大问题。例如,Broad研究所以每12分钟分析一个30X人全基因组速率产生基因测序数据——每年可产生将近4000TB的BAM文件。

BAM文件可以转化为VCF文件(变体调用格式),后者仅包含不同于标准序列的信息。虽然VCF文件小并且更加好用,但是保存原始序列文件仍是必要的,方便研究者将来查看这些数据。

随着测序成本下降,一些人就得出这样的结论:对样本重测序会很容易,并且可能更便宜,而分析大量数据时,研究人员的选择空间非常大。但事实上,在OMICtools中有超过3000个序列分析工具可供选择,研究人员想要找到最好的那一个,也不容易。

临床解释和报销

最后,对于临床样本,还有一个挑战:对于测序序列的变异提供一致可靠的解释。

一个典型的外显子包含1万~2万个突变,全基因样本则会产生超过300万种变异。在通常的解释中,根据变异造成的疾病相似性分类。

为了协助指导临床医生,美国医学遗传学和基因组学,分子病理学协会和美国病理学家学院创建了一套对突变进行分类的系统。分类目录包括致病性,可能致病性,不确定的显着性(目前占外源和全基因组样本的绝大多数),可能良性和良性。

然而,这种方案有其局限性。即时使用一种公认的分类方案分类同一个数据库,不同的项目组可能会提出不同的解释。对新系统的一个试验研究中,参与的不同临床实验室仅在34%的情况下,对于分类的解释一致。

如果存在分歧或需要额外的分析来解释实验结果,那么就存在报销的问题。基于NGS的测试的报销可能是一个大障碍,但是对于解释的报销几乎是不可能的。

Rady儿童基因组医学研究所临床研究员Jennifer Friedman博士说,

实验室不可能对试验的解释付费,如果这种服务可以提供,这是非常有价值的,但是没有人做到这个。

没有办法为此付费,保险公司不报销。尽管对于精准医学的关注度上升,但是无论是临床医生或实验室做出的解释,都没有被医疗保健支付者承认或是重视。

到目前为止,病人样本的分析基本上是作为一个研究项目来对待的,是在研究型医院中的一个选择,并且仅用于有限数量的患者。

未来展望

雷锋网AIHealth栏目了解道,尽管过去几年有很大的进步,但是整个NGS工作流程,从样品文库构建到数据分析,仍然存在大量的挑战。随着基础技术的进步,新的挑战将继续出现,对于这些基因组技术的广泛应用和最大化改善人类健康而言,解决这些挑战是至关重要的。

相关文章:

基因组测序进入100美元时代?| 未来医疗周刊

PCR反应中的强大新技术:让基因分析变得更快更便宜

华大基因董事长汪健:人类的医疗方式,已经到了改变之时

打破钱学森记录的张锋:基因编辑神器CRISPR技术的开拓者


本文作者:张利

本文转自雷锋网禁止二次转载,原文链接

相关文章
|
7月前
|
存储 安全 数据安全/隐私保护
中外AIGC大模型的差距、态势与结构
【1月更文挑战第21天】中外AIGC大模型的差距、态势与结构
338 2
中外AIGC大模型的差距、态势与结构
|
1月前
|
机器学习/深度学习 人工智能 人机交互
图形学领域的研究热点会给人工智能带来哪些挑战和机遇?
图形学中的一些研究热点,如 3D 模型生成与重建,需要大量的 3D 数据来训练模型,但 3D 数据的获取往往比 2D 图像数据更困难、成本更高。而且,3D 数据的多样性和复杂性也使得数据的标注和预处理工作更加繁琐,这对人工智能的数据处理能力提出了更高要求。例如,在训练一个能够生成高精度 3D 人体模型的人工智能模型时,需要大量不同姿态、不同体型的 3D 人体扫描数据,而这些数据的采集和整理是一项艰巨的任务.
103 50
|
5月前
|
机器学习/深度学习 人工智能 安全
智能时代的伦理挑战:AI技术与人类价值的交锋
在人工智能的飞速发展之下,我们站在了一个技术与伦理交织的十字路口。本文将探讨AI技术如何重塑我们的工作、生活和思维方式,同时引发了一系列关于隐私、安全和道德的讨论。通过分析AI在不同领域的应用案例,我们将揭示这一技术革新背后的复杂伦理问题,并提出相应的解决策略。随着AI技术的不断进步,人类社会必须找到平衡创新与维护人类核心价值的方法。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
智能时代的伦理挑战:AI技术的双刃剑效应
【10月更文挑战第20天】 在21世纪的科技浪潮中,人工智能(AI)如同一颗璀璨新星,引领着人类社会迈向前所未有的智能化时代。然而,正如印度圣雄甘地所言:“你必须成为你希望在世界上看到的改变。” AI技术的发展不仅带来了效率与便利的飞跃,也引发了关于隐私侵犯、就业替代、决策透明度等一系列深刻的伦理问题。本文旨在探讨AI技术作为一把双刃剑,如何在推动社会进步的同时,对我们的生活方式、价值观念乃至法律体系提出挑战,并呼吁我们在享受科技成果的同时,不忘审视其背后的伦理责任,共同塑造一个更加公正、透明的智能未来。
46 2
|
2月前
|
人工智能 运维
突破传统:AI如何应对心电图中的长尾挑战?
【10月更文挑战第3天】心电图(ECG)是临床诊断的重要工具,但数据分布不均导致计算机辅助诊断系统在检测罕见心脏异常时面临挑战。黄超琴等人的新研究提出一种自监督异常检测预训练方法,解决了ECG数据集的长尾问题。通过在大规模数据集上预训练,模型能捕捉正常心脏模式的细微偏差,显著提升了ECG诊断准确性,尤其在罕见类型上表现优异,实现了94.7%的AUROC、92.2%的敏感性和92.5%的特异性。该方法不仅提高了诊断精度,也为处理临床长尾数据提供了新思路。然而,其计算需求和对极罕见病例的表现仍有待进一步研究。
38 3
|
3月前
|
机器学习/深度学习 搜索推荐 算法
基因测序技术的普及:个性化医疗的基石
【9月更文挑战第22天】 基因测序技术的普及为个性化医疗提供了强大的技术支持和数据基础。通过解析个体基因组的完整信息,医生能够更准确地了解患者的遗传信息和疾病状态,制定更加个性化和精准的治疗方案。随着技术的不断进步和应用的不断拓展,基因测序技术将在个性化医疗领域发挥更加重要的作用,为人类健康事业贡献更大的力量。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
技术分析:AI大模型战场的分化与赛点分析
技术分析:AI大模型战场的分化与赛点分析
|
机器学习/深度学习 人工智能 并行计算
全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题
全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题
151 0
|
机器学习/深度学习 人工智能 自然语言处理
认知智能堪比魔法:回顾2021的重大突破
随着人工智能解决方案越来越广泛的应用,仅仅在视觉、听觉、触觉等层次的感知,已经满足不了社会大众对于“真正智能”的期望。认知智能,被视为人工智能热潮能否进一步突破天花板,形成更大产业规模的关键技术。
2726 0
认知智能堪比魔法:回顾2021的重大突破
|
机器学习/深度学习 人工智能 编解码
视频行业的“达克效应”,AI或成下一个重要分水岭
视频行业的“达克效应”,AI或成下一个重要分水岭
视频行业的“达克效应”,AI或成下一个重要分水岭