癌症研究, 遗传&罕见疾病, 药物开发基因组学, 精准健康, 群体基因组学

独立检测证明DRAGEN提供了更为全面的基因组信息

《自然生物技术》(Nature Biotechnology)期刊发表的新研究验证了该软件的所有生殖系算法

独立检测证明DRAGEN提供了更为全面的基因组信息
图片由因美纳提供
2024年12月2日

因美纳生物信息学副总裁James Han已从业数十年,因此他见证了公司在此期间取得的每一个进步。他说:“因美纳在过去20年里一直不懈地致力于改进测序技术。我们将基因组的成本从数十万甚至数百万美元降至200美元。现在,随着实验室逐渐转向全基因组测序,瓶颈不再是实验室工作流程;而真正的瓶颈在于信息学,在于从数据中获取见解。这正是这项工作如此重要的原因。”

6年多来,因美纳的DRAGEN二级分析软件凭借其速度和准确性在竞争对手中脱颖而出。但其开发人员从科学领域的研究者处听闻这样一条评论:由于它是一种使用专有代码的商业产品,因此用户无法勘破其算法的内部工作原理(即其成功的秘密)。

生物信息学高级总监Severine Catreux甚至遇到过这样的假设,即DRAGEN团队依赖开源组件来实现如此高性能和快速的算法演进。“然而,我们的方法是完全独立的,”她说,“我们从最初的概念到完整的实施,都是在内部开发所有方法。”

这种看法需要转变。“因美纳相信,我们的方法应得到客观的评价,”Han说,“因此,我们向科学界公开了算法的工作原理。”

《自然生物技术》(Nature Biotechnology)2024年10月刊中发表了一项新的同行评审研究,其中展示了贝勒医学院人类基因组测序中心对DRAGEN的各种生殖系测序算法进行开创性第三方验证的结果,并将该软件与市场上的其他工具进行了严格比较,根据行业标准基准进行了衡量。

最具挑战性的基因需要定制解决方案

这项研究的主要作者之一、贝勒大学验证工作的负责人是分子和人类遗传学副教授Fritz Sedlazeck。他的研究重点是基因组中与罕见疾病和癌症相关的复杂部分,他的团队笃定深入研究这些区域中最大和最具挑战性的区域将有良好的应用前景。他说道:“我非常好奇,并且坚定认为我们应该研究基因组中出现的所有类型的变异,而不仅仅是那些小型变异。”

早在2010年代中期,他就发现当时可用的二级分析软件经常错误报告这些区域,并得出结论,更高的准确性需要专门的算法和靶向变异检出程序。最终,他联系了因美纳的DRAGEN团队并提供反馈,但他强调自己并不倾向于任何一家公司,并表示“我只想确保科学的正确性”。

DRAGEN团队优先筛选了科学界最感兴趣的基因,因为它们可能与医学研究相关。在过去几年中,他们迅速开发了用于表征这些基因的定制解决方案,例如,与戈谢氏病和帕金森病有关的GBA;或LPA,其拷贝数与心血管疾病风险直接相关。

这些优先级高的基因通常以多个拷贝的形式存在和/或位于基因组高度同质的区域。这种重复的遗传密码因人而异,并且它构成了一个诱杀陷阱,会在样本拆分步骤中使基因组测序仪发生混乱,该步骤是将完整的基因组从文库制备过程中产生的较小片段重新拼接在一起。

DRAGEN现在包含十多个专门的变异检出程序,可以专门用于准确读取基因组中这些最具挑战性的部分。(有关DRAGEN靶向检出程序的更多详细信息,请点击此链接)。Sedlazeck解释道,来自不同机构的研究人员在开发单个变异检出程序时取得了很大进展,但很少或没有程序能够协同工作。本文表明,借助DRAGEN,“您可以共同构建一个真正全面的基因组学工作流程,其中每个组件都可以与其他组件高效通信。DRAGEN是这些组件相互连接并从创新中受益的少数案例之一,或者说是唯一的案例。”

准确反映全球遗传多样性,并展示我们的工作

DRAGEN最近开发的另一个功能(也是主要优势)是其泛基因组参考,有时也称为多基因组参考或Graph基因组。这一突破旨在消除迄今为止大多数可用参考数据中存在的欧洲中心主义偏见。

当今研究人员最常用的参考基因组GRCh38源于20世纪90年代的人类基因组计划。它长期以来为研究人员提供了良好的服务,Sedlazeck表示:“但老实说,在我看来,它只不过是一个标尺。”非欧洲族群中出现的独特基因序列在这些数据中代表性很差,甚至没有。“我们将每个人类基因组与该标尺进行了比较,但它无法很好地处理不同祖先的不同变异。”

DRAGEN中的泛基因组参考将新读取的基因序列与该位置的其他已知变异进行比较,并从样本数据中提取更能反映全球群体的数据。Sedlazeck表示,此功能与机器学习和因美纳专有算法的强大功能相结合,是重要的里程碑之一,可以改进任何规模的变异检出——范围从单核苷酸变异到大型拷贝数变异。“通过这篇文章,我们希望证明DRAGEN在识别更复杂的变异方面已经非常成熟。这一重大的飞跃可以全面了解某个个体的基因组;我们希望这项技术能够流行起来,越来越多的研究可以利用它。”

本着科学透明的精神,《自然生物技术》(Nature Biotechnology)上发表的文章引用了所有使用的数据和真值集,以及其他计算生物学家和遗传学家重现相同结果所需的所有命令行参数。DRAGEN旨在处理从单个样本到群体规模研究(例如英国生物样本库和美国国立卫生研究院的“All of Us”研究计划)的所有内容,涵盖数十万个样本。

数字不会说谎:DRAGEN的速度和准确性独树一帜

与本研究中的其他8种变异检出程序相比,DRAGEN表现出更高的准确度和更快的读取速度——当使用来自美国国家标准研究所、完全表征的相同基准数据进行测试时,一种第三方检出程序的假阳性和假阴性错误比DRAGEN高出144%;另一种则是显示的错误多出470%。

它仅需30分钟的计算时间即可完成这种精确的分析。Sedlazeck表示:“DRAGEN可以在30分钟内将整个人类基因组的原始读取内容转化为VCF文件,再转化为变异报告。对许多人来说,这大概需要半周的时间。”这些全面、可扩展的方法对于检测所有类型的医学相关变异以及发现新的遗传标志物和药物靶点是必要的。

自2018年因美纳收购DRAGEN的原始开发商Edico Genome以来,Catreux一直在因美纳工作。她说,这次收购彻底改变了因美纳的软件格局:“我见证了DRAGEN的整个演变过程,从无人知晓的起步阶段,到如今被全世界广泛讨论的时刻。我们全权负责帮助客户处理数据,并且对改善人类健康产生真正的影响。”

她和Han很自豪能够与世界分享他们最新的劳动成果,并且他们乐于应对未来的挑战,同时倾听客户的意见并根据贝勒等领先实验室的反馈改进产品。Sedlazeck说道:“我认为现在利用这个框架可以完成的基因组学研究足以令人震惊。我非常期待看到科学家们将如何使用它。”◆

Recent Articles

对所有血癌进行全基因组测序的案例越来越多
对所有血癌进行全基因组测序的案例越来越多
在全新MiSeq™ i100系列中实现可持续的测序
在全新MiSeq™ i100系列中实现可持续的测序
当CGP发现潜在的遗传性癌症风险时
当CGP发现潜在的遗传性癌症风险时