2023年12月19日
30×覆盖度下单个人类基因组的测序数据需要多达70 GB的存储空间。仅2021年,因美纳仪器就产生了2.8亿GB的数据,而到2025年,我们将需要400亿GB的存储容量——这还只是针对人类基因组的存储容量。
Texas A&M AgriLife的基因组学与生物信息学服务部(简称“TxGen”)为德州农工大学和世界各地农业客户的数千个不同物种的样本提供了测序:小麦、玉米、高粱和棉花等农作物;大量害虫;动植物病原体;以及从亚马逊流域的小青蛙到非洲濒危哺乳动物等野生动物,其中还包括对野生动物保护至关重要的博物馆档案样本。TxGen的宗旨很简单:“只要有DNA,我们就能测序”
他们在基因组学方面的见解对于选择最佳候选动植物进行选择性育种和基因编辑、抗击媒介传播疾病以及应对气候挑战(如耐旱性)都非常宝贵。农业育种周期的季节性意味着他们会在一年中的某些时间段收到大量提交的材料(他们在任何时候都经常有40多个进行中的项目),其中大多数都需要快速提供结果,以便客户能及时决定种植什么。
TxGen拥有两套NovaSeq 6000基因测序仪和用于二级分析的本地DRAGEN服务器,完全有能力应对如此广泛和大量的测序需求。虽然DRAGEN也可以在云端和仪器上使用,但现场DRAGEN服务器对TxGen来说是正确的选择。在2019年安装服务器时,TxGen主任Charles Johnson博士表示,他们预计这台服务器将“解决我们一直面临的许多分析问题”,因美纳的技术“与市场上的任何其他技术相比都是前所未有的”。
他的话并非不切实际的夸赞——DRAGEN的速度是众所周知的。它能在30分钟内分析30×覆盖度的整个人类基因组,并在PrecisionFDA Truth Challenge V2的“难以绘制区域”和“所有基准区域”类别中赢得了小变异检出“最佳表现奖”,证明了它的准确性。它还在NCTR联办:肿瘤panel插入缺失分析挑战赛中获得了“最佳精确度奖”和“最佳综合表现奖”。
但是,DRAGEN在非人类的其他物种的应用领域(例如Texas A&M AgriLife的相关应用)中表现如何呢?今年秋天,TxGen副主任兼高级生物信息学科学家Marcel Brun博士在欧洲分子生物学实验室(EMBL)做了一次报告(可在本文末尾观看),介绍了他们所取得的进展,这在很大程度上要归功于DRAGEN。
DRAGEN缩短了样本拆分时间和SNP检出时间
TxGen的开创性工作证明了DRAGEN在人类基因组之外的有效性。他们发现,对每个样本使用大量唯一双标签序列条形码(UDI)可以显著降低成本和处理时间。这些UDI可确保样本库在测序后快速准确地重新拼接在一起——这一过程被检出为“样本拆分”。例如,他们能够同时对1536个水稻样本进行测序,与机器人自动化相结合,将WGS基因分型的成本降低至原来的1/10。
您可能会认为使用这么多条形码会很难管理,增加样本拆分时间。幸运的是,这是在本地运行的DRAGEN超越云端技术的众多任务之一。
据TxGen称,在云端Amazon Web Services上运行的DRAGEN可以在50多分钟内对来自300个样本的31.8亿个簇进行样本拆分。他们表示,该软件在谷歌云平台上的性能略胜一筹。在DRAGEN服务器上运行的DRAGEN bclConvert可在20分钟内完成相同数量的样本拆分。
对于TxGen而言,在本地服务器上运行的DRAGEN性能优于在云端平台运行,无需上传时间、样本拆分速度更快,所有下游步骤的处理时间均显著缩短。他们能够利用DRAGEN对221个水稻样本(每个样本测序3.6亿个碱基)进行测序read的定位和比对,以及SNP检出;6.5小时内即可完成分析,与原始SNP的一致性达到99.3%,而使用标准高性能服务器则需要108小时,分析速度是后者的17倍。
使用基于参考panel的填补进行基因分型
降低非临床应用(尤其是农业基因组学)基因分型成本的另一种方法是使用1×而非30×的低覆盖度测序,并通过参考panel推算基因型。
填补是一种利用与目标样本相同物种的现有群体单倍型来预测该样本(在1×覆盖度下,某些区域未覆盖到)等位基因和基因型的方法。DRAGEN的填补流程已在因美纳的Genomics Research Hub进行了详细介绍。填补也经常用于非农业基因组学应用中,例如丰富大型人类队列中的变异检出。
作为低覆盖度流程的一部分,TxGen团队在DRAGEN上运行了基于群体的填补,使用概率阈值来平衡获得的新检出数量和预期准确性。他们测试了四个物种:番茄、山羊、水稻和棉铃象鼻虫,发现填补每次都能提高检出率。对于水稻来说,在没有填补的情况下检出率仅为55%;而在进行填补后,检出率上升到了98.9%,填补准确率为98.5%。
受到这些结果的鼓舞,TxGen与因美纳合作为水稻和高粱建立了两个概念验证参考panel,可与DRAGEN软件一起使用。对于水稻,他们使用了一个公共FASTQ数据库,其中包含了202个样本的430 Mb数据,覆盖度为1.5×,获得了600万个变异,仅有4.8%的位点缺失。对于高粱,他们以10×覆盖度对96个样本进行了800 Mb测序,获得了700万个变异,仅有2%的位点缺失。
通向“10美元基因组”之路
TxGen从因美纳获得的出色支持为数据锦上添花。Brun表示:“DRAGEN的客户支持非常出色,每当我们遇到问题时,他们都能为我们提供帮助。我们很快就能得到答复。我们非常高兴能与他们合作;能直接与因美纳的DRAGEN团队交流真的非常棒。”
尽管采用因美纳技术距离实现公司的“100美元基因组”长期目标越来越近,但Brun和Johnson很快就提醒说,他们的客户已经想要体验“10美元基因组”了。只有通过不断的优化,找出能收集到多少数据,同时又能获得高质量的结果,才能实现这一愿望。基于参考panel的填补可能会被证明是该优化流程的重要组成部分,TxGen的科学家们认为,他们的研究结果证明了DRAGEN在非人类应用中也能有出色表现。
更多详情,请观看Marcel Brun在EMBL的完整报告: