信息学进展揭示TruPath™ Genome,实现全面的基因组见解

简介

标准短读长边合成边测序技术(SBS)技术可生成数十亿条长度达500个碱基对(bp)的测序read。标准短读长测序的优势在于高准确性与规模化通量。因美纳短读长测序还拥有成熟完善的数据分析工具与流程生态系统。尽管具备这些优势,短读长技术在检测一小部分具有挑战性、复杂的基因组区域方面能力有限,其中许多区域包含对人类遗传疾病具有潜在作用的变异。[1, 2]

基因组中部分极具医学价值的区域长期难以攻克——如今,这一局面被打破。Illumina TruPath Genome(仅供研究使用)于2026年推出,为人类全基因组全面测序提供高效解决方案。仅需约10分钟手动操作,即可结合NovaSeq X™系列标准短读长测序,获取长距离基因组见解。在此,我们描述了DRAGEN™软件套件中邻近位置信息的多种应用方式,并展示变异检测的改进效果。TruPath Genome和DRAGEN Germline应用从根本上拓展了SBS技术的应用范围,实现此前无法解析的基因组区域的长距离定相与变异/单倍型检测。

亮点

  • 最简单的样本至测序流程,手动操作仅约10分钟

  • 兼容现有NovaSeq X测序仪(需v1.4数字软件包)

  • 高度准确、可定相的生殖系单核苷酸变异(SNV)检出

  • 可更好地覆盖基因组中难以映射的区域

  • 超长定相

  • 在旁系同源区域可实现可靠的从头单倍型解析变异检测

  • 增强的结构变异检测能力

  • 提高短串联重复序列(STR)的分辨率

邻位映射读取技术

基于流动槽文库制备技术的TruPath Genome on flowcell,以前所未有的简便性实现长距离基因组解析,依托标准短读长测序技术即可完成200 kb以上的模板序列重构。

TruPath Genome采用邻位映射读取技术,省去测序前的标准文库制备步骤,提供了前所未有的工作流程简便性(图1A)[3]。TruPath Genome工作流程兼容高分子量(HMW)与标准分子量(SMW)提取方法。邻近纳米孔的空间邻近性允许重构长达200 kb以上的长距离基因组连接(图1B),应用场景广泛。

图1.邻位映射读取技术概述。
A. 完整双链DNA流经流动槽表面并被转座酶片段化,让DNA与流动槽上的纳米孔结合。结合的DNA片段进行标准簇生成。流动槽原位转座片段化,使得源自同一DNA模板分子的测序簇在流动槽表面彼此邻近分布。B. TruPath Genome检测样本的模板长度第95百分位分布。模板长度取决于起始DNA的质量。

DRAGEN Germline中TruPath Genome数据分析工作流程概述

DRAGEN Germline在从序列映射到结构变异检测的全流程整合邻近位置信息,提供更完整、可定相、结构清晰的基因组视图。

TruPath Genome数据集的长距离邻近信息可应用于分析工作流程各环节,实现更准确、全面的个体基因组解析。DRAGEN 4.5.2版本已集成多项改进(图2),用户通过单条命令即可在本地、云端或全自动测序到结果工作流程中使用。单样本TruPath Genome(常规60–70×测序深度)完整分析(启用全部检测程序),在本地DRAGEN v4服务器上3小时内即可完成。这些此前的“暗区”常藏匿罕见病相关变异,攻克这些区域不仅是技术突破,更为临床研究带来重要价值。

图2.用于分析TruPath Genome数据的DRAGEN Germline二级分析工作流程示意图

为充分利用TruPath Genome提供的邻近位置信息,对DRAGEN Germline 4.5.3二级分析工作流程做了多项改进:(a)映射程序利用邻近信息,基于长距离连接优化read定位;(b)映射时结合邻近信息与泛基因组参考,将read映射至单倍型,输出带单倍型标签的BAM文件;(c)通过统计映射至所有成对的2 kb基因组区间的邻近read数量,生成二维共映射图,反映样本基因组结构;(d)小变异检出程序利用定相read,生成长定相块的可定相小变异检出结果;(e)结构变异检出程序利用定相read,实现单倍型特异性局部组装与结构变异检测;(f)联合分析临床关键同源基因的linked read,在起始样本中对此类基因的所有拷贝进行拷贝数感知和完全定相的基因分型;(g)利用重复序列内read对与特定STR位点侧翼序列之间的临近信息,回收并明确地将这些重复序列内read分配到特定STR,显著提升STR长度估算准确性。

映射和read定相

TruPath大幅优化难映射区域的read定位,解锁>20 Mb全新基因组区域。

TruPath Genome数据集背景下的Germline read映射利用邻近簇的邻近信息,在高序列同源区域将更高比例read精准定位至正确基因组位置。该方法显著降低了低映射质量的基因组比例,让超过20 Mb的具有挑战性的基因组区域可用于变异检测(图3A)。图3B展示了临床相关基因RHCE的示例,相较标准短读长WGS read映射效果显著提升。

此外,为高效利用定相信息开展下游变异检出环节,DRAGEN Germline采用全新定相方法,在映射阶段将read定相至推断的祖先单倍型。该方法从单倍型数据库中选取最相似的单倍型片段对,结合重组率与长距离邻近信息,概率性分配read至单倍型,定义高置信度单倍型一致的定相块。定相read输出至带单倍型标签的BAM文件,用于下游变异检测,在变异之间生成准确且长距离的定相信息(图3C)。

图3.TruPath Genome数据集的映射和read定相优化。
A.
 TruPath Genome优化具有挑战性的基因组区域read映射,降低“低映射质量暗区”1占比(该区域90% read映射质量MAPQ<10)。B.TruPath Genome在RHCE基因的覆盖度优化示例,对比标准短读长WGS(Illumina DNA PCR-Free [IDPF])。RHCE基因有一个高同源性的旁系同源基因(RHD),两个基因之间存在常见的基因转换事件。两个旁系同源基因均与分子血型分型(Rh血型)相关。C.来自患有囊性纤维化个体的复合杂合细胞系(NA13591)生成的TruPath Genome数据集中CFTR基因区域的read定相示意图。

定相小变异检出

结合优化映射与单倍型标记read,TruPath实现了迄今最准确、完整的小变异检出,且现在还支持长距离完全定相。

TruPath Genome小变异检出受益于改进的映射以及read定相信息。在基因组中难映射的区域实现更高的映射质量和准确的read定位,从而在更广泛的基因组区域中进行可靠的变异检出。定相read及其相关的定相质量被直接整合到变异检测模型中,实现可定相变异检出(即区分0|1与1|0基因型),在同一相区块内输出相互定相的检测结果。这种创新带来了迄今为止最准确、完整的小变异数据集(图4A),同时实现了变异间长距离定相。(图4B)。

图4.准确完整的小变异检出与变异间长距离定相。
A. TruPath Genome对小变异检出的准确性更高。 以HG002 T2T Q100真实集为基准,对小变异检出性能进行了基准测试。UG100来源:https://cdn.sanity.io/files/l7780ks7/production-2024/0a1b6a62a6da3e3fcafb81cad4c8ff2ffe85dd41.pdf. Pacbio SPRQ: 下载自https://downloads.pacbcloud.com/public/revio/2024Q4/WGS/GIAB_trio/HG002_rep1/
https://downloads.pacbcloud.com/public/revio/2024Q4/WGS/GIAB_trio/HG002_rep1/analysis/v3.0.2/. Element 1kb: https://www.biorxiv.org/content/10.1101/2025.06.05.657102v1, 补充表5。 Illumina DNA PCR-Free: IDPF文库在NovaSeq™ X测序仪上采用10B流动槽测序,使用DRAGEN 4.5.1 Germline进行分析(6次技术重复的中位数)。 TruPath Genome Standard: 使用标准试剂盒(非高分子量)提取的DNA生成的TruPath Genome数据集,使用DRAGEN Germline 4.5.2进行分析(63次技术重复的中位数)。 TruPath Genome HMW: 使用TruPath Genome进行HMW提取测序,使用DRAGEN Germline 4.5.2进行分析(64次技术重复的中位数)。 B. 以HG002真值集数据为基准,TruPath Genome的定相测序性能。 TruPath Genome结果代表63个(标准分子量提取)或64个(高分子量提取)数据集的中位值。相区块NG50指当目标区域(1–22号染色体)的50%完成定相时,对应的相区块长度。完全基因定相比例指指定基因列表(Gencode v44 genes.gtf)中完全包含于单个相区块内的基因区域占比。定相hamming错误率以T2T Q100真值集为基准。HiFi数据(PB)定相VCF文件获取自 https://downloads.pacbcloud.com/public/revio/2024Q4/WGS/GIAB_trio/HG002_rep1/analysis/v3.0.2/.

结构变异检出改进

单倍型特异性组装和共映射图为TruPath提供了一个强大的新视角,可以更高置信地检测大型、复杂的结构变异。

TruPath Genome数据中的结构变异(SV)检测同样受益于改进的read映射和定相read。由于TruPath可提前完成read定相,DRAGEN可分别组装各单倍型,获得更纯净的组装结果与更准确的结构变异检测。这种更纯净的组装过程是TruPath Genome在SV检测中性能提升的主要原因。(图5)。

图5.TruPath Genome结构变异检出改进。
该分析使用瓶装基因组Genome in a Bottle NIST T2T-Q100 HG002 SV v1.1真值集和SV confidence BED文件。根据Genome in a Bottle结构变异基准测试指南,(https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/AshkenazimTrio/analysis/NIST_HG002_DraftBenchmark_defrabbV0.020-20250117/NIST_HG002_DraftBenchmark_defrabbV0.020-20250117_README.md),使用Truvari v4.2.2的“bench”和“refine”命令进行基准测试。

用于结构变异解读的共映射图

共映射图以二维形式呈现基因组结构,通过直观的非对角线信号揭示倒位、易位及其他大型结构变异。

除在HG002的NIST结构变异真值集(插入/缺失)上表现更优外,TruPath Genome还能生成一种新型输出结果——共映射图。可将其视为基因组三维结构的热图:非对角线异常信号直接揭示隐藏的结构变异。与参考基因组结构一致的区域,信号主要沿共映射图对角线分布,个体基因组结构与参考不同的区域则显示出强烈的非对角线信号和对角线信号减弱。不同类型的结构变异在共映射图中显示出不同的模式(图6A),并且在此类表示中可以清楚地观察到大的临床相关结构变异(图6B)。鉴于共映射图信号与标准短读长测序中目前用于结构变异检测的信号(例如,切分read和异常配对read)相比具有独立性,该信号可用于过滤DRAGEN Germline SV利用标准短读长测序信号检测到的大型SV。DRAGEN Germline将此过滤应用于染色体间或>200 kb染色体内的断裂端检出。这大幅减少了样本基因组中此类检出的总数(其中大部分是推定的假阳性),从而为这些类型的大事件提供了更小的检出集。未来DRAGEN Germline版本将进一步将共映射图信号整合到SV检测中,提升检测灵敏度与特异性。

图6.共映射图在结构变异识别中的应用。

A.不同结构变异类型在共映射图中的信号模式示意图。B.F8基因第一个内含子中存在倒位边界的个体的共映射图示例。可见非对角线区域预期的沙漏形信号以及事件边界处对角线信号的减弱。共映射图下方是该位点在参考基因组和携带倒位的个体基因组中的示意图。C.在DRAGEN Germline SV检测到真实断裂端和假阳性断裂端信号的区域的共映射图非对角线信号示例。共映射图信号可用于补充read证据并过滤假阳性断裂端检出。D.DRAGEN Germline 4.5.2中实现的基于TruPath Genome共映射的断裂端过滤效果。该过滤器对真实手动调控断裂端信号的检测灵敏度没有影响。该过滤器显著减少了检出的断裂端事件总数。该过滤器过滤器仅限于染色体间和大于200 kb的染色体内的断裂端。

旁系同源区域的小变异检出

TruPath能够在高度同源的基因家族中实现拷贝数感知、单倍型解析的变异检出——最终解决了长期以来被认为短读长无法处理的旁系同源区域。

DRAGEN Germline多区域联合检测 (MRJD)结合TruPath Genome,可在片段重复区域内实现单倍型 解析、拷贝 数感知的从头生殖系小变异检出。此类区域对标准短 读长测序分析极具挑战,高同源性与结构复杂性导致read映射模糊或错误,变异检测结果不可靠。TruPath Genome支持MRJD保留同源位点的所有read(无论映射质量如何),基于read 深度证据估算总拷贝数,然后通过整合拷贝数、read序列与长 距离邻近连锁信息重构各旁系同源基因组的底层拷贝。MRJD随后检出重建拷贝上的小变异,并报告定相变异检出结果及其分配的基因组位置或单倍型。此变异检出过程不依赖于已知的群体单倍型。对于研究林奇综合征的临床研究人员来说,区分PMS2和PMS2CL长期以来一直是一项诊断挑战。TruPath最终以单倍型水平的清晰度解析了这些区域。图7展示了高度同源的PMS2-PMS2CL基因对(各约21 kb,序列一致性约为99%)情况,其中标准短读长在多个位点产生模糊、非定相的变异检测结果,而TruPath Genome数据结合MRJD能够产生与市售长读长结果一致的定相单倍型结果。

图7.通过TruPath Genome 启用的MRJD技术解析高 同源性PMS2-PMS2CL位点的示例。.

PMS2PMS2CL在约21 kb的序列上具有约99%的序列一致性,这导致使用标准短读长测序时,会出现模糊比对和未定相信号(上图)。借助TruPath Genome的邻近信息,MRJD技术可在PMS2PMS2CL中生成单倍型解析的变异检出结果(以各位点的拷贝1与拷贝2展示),图中也展示了‑市售长‑读长数据用于对照(下图)。

基于TruPath Genome的MRJD目前支持15个临床相关基因;表1总结了所支持的位点,以及与正交长 读长数据的一致性。

表1.在推出时,基于TruPath Genome的MRJD技术所支持的医学相关旁系同源基因,其定相生殖系小变异检出与正交长‑读长数据的SNV中位一致性。一致性检测采用14个不同细胞系样本,分别使用HMW与标准DNA提取法。CFHR1‑CFHR2‑CFHR3‑CFHR4USP18无可用正交对照变异集,故一致性记为N/A。

旁系同源基因 疾病相关性 HMW DNA中位一致性 标准DNA中位一致性
PMS2 Lynch综合征 0.991 0.951
SMN1-SMN2 脊髓性肌萎缩症(SMA) 0.941 0.929
NCF1 慢性肉芽肿病 0.992 0.991
CYP21A2 先天性肾上腺皮质增生 1.000 1.000
TNXB 埃勒斯-当洛斯综合征 1.000 1.000
STRC 隐性非综合征性听力损失 0.983 0.980
CYP2D6 药物遗传学 0.973 0.976
CYP11B1-CYP11B2 糖皮质激素可治疗性醛固酮增多症 0.997 0.997
CFHR1-CFHR2-CFHR3-CFHR4 非典型溶血性尿毒综合征 N/A N/A
SP18 I型干扰素病 N/A N/A

提升短串联重复序列长度估算的准确性

邻近信号使TruPath能够回收并分配重复区内read,在完整扩增范围内实现准确的STR长度测量——避免了标准WGS中出现的平台期。

短串联重复序列扩增(STR)与多种神经系统及神经发育障碍密切相关。STR扩增长度超出健康人群的常规范围通常是致病性的重要提示,且已知扩增长度会影响多种相关疾病的表型。传统全基因组测序(WGS)可有效区分未扩增与已扩增的STR,但因无法将完全重复的read对明确归属到特定STR位点,难以准确估算大型STR扩增片段的长度,进而限制了对STR扩增状态的精细分型。

TruPath Genome提供的邻近信息可通过评估它们与特定STR位点特异性侧翼序列的邻近关系,解决完全位于扩增STR内部read的映射模糊问题。更完整地回收和分配重复序列内read还可以对特定位点的重复序列内read计数进行调整,从而解决与某些STR基序测序效率降低相关的偏差。此外,TruPath Genome提供的定相信息允许进行单倍型特异性STR大小估计,即使在两个亲本单倍型中都发生STR扩增的情况下。上述多项优化共同提升了STR长度估算准确度,实现更细致、准确的STR扩增状态分型(图8)。

图8.利用TruPath Genome可实现更准确的STR扩增测量。

A.使用DRAGEN Germline的标准WGS数据集的STR预期长度与估算长度对比。由于缺乏对重复序列内read对的明确回收,长度估算在约标准短读长测序文库片段长度(~450 bp)附近达到平台期。B.使用DRAGEN Germline的TruPath Genome数据集的STR预期长度与估算长度对比。在全长度范围内,估算长度均与预期长度高度相关,不再出现平台期。C.使用标准WGS与DRAGEN对已知表征扩增分型的Coriell样本进行STR长度分型。点颜色代表样本真实分型。数据点落在同色泳道区域内即为分型正确。D.使用TruPath Genome和DRAGEN Germline对已知分型的Coriell细胞系进行STR长度分型。点颜色代表样本真实分型。数据点落在同色泳道区域内即为分型正确。基于TruPath Genome的分型结果与真实分型一致性显著更高,且可覆盖更宽的STR长度范围。

结论与未来方向

TruPath Genome的推出,标志着流程复杂度、检测准确性与全面基因组学见解三者之间传统权衡关系的重大转折。通过将基于邻近性的长距离基因组信息整合进DRAGEN germline数据分析流程的核心模块,因美纳让标准短读长测序得以解析长期以来被认为无法触及、难以分析的基因组区域与变异类型。

对实验室与科研人员而言,其价值深远[4]:

  • 遗传病和罕见病相关变异识别: 通过解析旁系同源基因、准确测定STR扩增长度、提高SV检测能力并提供可定相变异,TruPath Genome为攻克此前无法解决的罕见病案例提供了明确路径。

  • 操作效率: 在不到3小时的分析时间内,即可实现行业顶尖的小变异检测准确度,并完成高达98%基因的定相,使实验室能够将多项检测整合为单一、简化的工作流程。

  • 远程见解可及性: 该技术可在现有NovaSeq™ X测序仪上实现高分辨率、单倍型解析的全基因组测序,单次运行最多可检测16个基因组,让全面人类基因组研究更易实现且可规模化。

TruPath不仅拓展了短读长测序的应用边界,更重新定义了其能力上限。TruPath Genome现已正式商用,而这一初始产品只是这种全新数据模式应用的开端。未来发布的DRAGEN将持续以这些分析功能为基础。在下方注册,及时获取DRAGEN Germline在邻位映射读取技术、以及TruPath Genome解决方案的最新研发进展。

了解详情:TruPath Genome

参考

1. Ebbert MTW, Jensen TD, Jansen-West K, et al. Systematic analysis of dark and camouflaged genes reveals disease-relevant genes hiding in plain sight. Genome Biol. May 20 2019;20(1):97. doi:10.1186/s13059-019-1707-2

2. Ryan NM, Corvin A. Investigating the dark-side of the genome: a barrier to human disease variant discovery? Biol Res. Jul 20 2023;56(1):42. doi:10.1186/s40659-023-00455-0

3. Illumina. Introducing constellation mapped read technology. Genomics Research Hub blog. 2024. https://www.illumina.com/science/genomics-research/articles/constellation-mapped-read-technology.html

4. Cheng S, Zhang Q, Zheng X, et al. Constellation illuminates rare disease genetics. medRxiv. Nov 10 2025:2025.10.15.25337675. doi:10.1101/2025.10.15.25337675