在前一篇博客文章中,我们介绍了因美纳5-Base解决方案 — 这是一种快速且兼容自动化的工作流程,可从单一样本中同时获取遗传和表观遗传信息。在本第二篇博客文章中,我们将探讨如何在多种应用中解读因美纳5-Base数据,涵盖遗传疾病研究、癌症检测和群体表观遗传学等领域。
软件流程由以下部分组成:
BCL Convert:测序和原始read输出。
DRAGEN二级分析:输出比对的read、检出变异并报告甲基化。DRAGEN报告汇总了各个样本的关键QC指标。
Illumina Connected Multiomics:通过复杂数据集可视化、差异甲基化检测、变异-甲基化联合分析及前沿的多组学分析,进行三级分析与生物标志物发现。
您可在云端运行该软件流程(BaseSpace Sequencing Hub上的DRAGEN、Illumina Connected Analytics或Illumina Connected Multiomics),并直接从测序仪自动启动该流程。您也可以在DRAGEN服务器上运行DRAGEN二级分析。
在DRAGEN中,我们开发了一种新的5-Base二级分析模式[1],该模式基于标准的DRAGEN DNA工作流程,通过在核心算法中整合甲基化识别逻辑,并将甲基化输出集成到现有标准化数据格式中(图1)。
图1:DRAGEN 5-Base二级分析
对哈希表构建器、定位/比对、UMI聚合、变异检测及甲基化报告等算法模型进行更新。整合的小变异检出和每个等位基因的甲基化报告输出至gVCF文件。此外,还支持传统甲基化报告(CX报告格式)。质量控制指标(例如,M-bias、对照基因组甲基化)证实测序和分析成功。
运行完成后,DRAGEN报告会提供质量控制(QC)指标的全面汇总(图2)。 这些QC指标包括其他甲基化特异性指标,例如:
甲基化/未甲基化对照基因组中的甲基化%:将小型细菌基因组(Lambda/pUC19)加入5-Base的文库制备中,作为已知甲基化水平的对照。Lambda基因组的甲基化率为0%,pUC19基因组在CpG位置的合成甲基化率超过97%。
样本中CpG/CpH结构的甲基化%:哺乳动物基因组中的甲基化主要发生在CpG胞嘧啶结构。
两条DNA链的read比对率:5-Base read应与原始顶部(OT,也表示为+)或原始底部(OB,也表示为−)DNA链等比例对齐。
图2:DRAGEN报告中的新甲基化指标提供了简单的质量控制
(左图)在哺乳动物基因组中,CpG结构的总体甲基化比例很高(40–60%),而非CpG结构未甲基化。加标甲基化和未甲基化对照基因组在CpG结构中显示出预期的甲基化水平。(右图)等比例定位到预期DNA链OT或OB的read。
图3:胞嘧啶甲基化会产生与序列变异不同的链状特征
(A)含有甲基化CpG二核苷酸的DNA片段在文库制备中发生C>T转化。在测序并与参考基因组(+)链序列比对后,该片段表现为(+)链read上的C>T突变或(−)链read上的G>A突变。
(B)未甲基化等位基因A-C-G-T的测序与标准DNA文库制备类似。匹配的等位基因碱基同时存在于(+)和(−)链上。
(C)含有甲基化CpG二核苷酸和一个C>T杂合子变异的区域图示。read按DNA起始链(+,-)分组。甲基化CpG二核苷酸表现为突变仅在同一时间出现在一条链上,而C>T序列变异则同时携带双链的突变。
您可以在基因组浏览器中检测比对上的read,以便收集有关目标区域的变异和甲基化状态的信息。例如,在一名Kabuki综合症患者中,我们发现其KMT2D基因存在一处变异(chr12:49,024,720 G>C),并在已知与Kabuki综合症相关的目标区域观察到了明显的表观特征或高/低甲基化变化
图4: Kabuki综合症患者的变异和甲基化状态的可视化
(A)相对于健康对照,在受试者中观察到差异甲基化,这些区域显示出Kabuki综合症的迹象[2]。
(B)已知KMT2D赖氨酸甲基转移酶基因的剪接变异(chr12:49,024,720 G>C)与Kabuki综合症相关。该变异在Integrative Genomics Viewer(IGV)浏览器中显示为杂合子,仅存在于一个等位基因上。此外,该区域周围的CpG位点高度甲基化。甲基化胞嘧啶读取为胸腺嘧啶,其在(+)链的粉色read上表现为C>T,在-链的蓝色read上表现为G>A。read链通过read方向进行编码(对第一对链使用IGV read染色)。
通过DRAGEN Germline运行,变异检出软件检出了一个G>C杂合子变异,该变异输出在小型变异VCF文件中:
| #Chrome | Pos | Ref | Alt | Qual | Filter | |
|---|---|---|---|---|---|---|
| chr12 | 49024720 | G | C | 50 | Pass |
在gVCF(或传统的CX报告格式)中,您可以查询目标区域中每个胞嘧啶的甲基化水平,并将其转换为bedGraph格式,以便在基因组浏览器中查看。现在,有了因美纳的5-Base解决方案,我们现可在gVCF文件中直接生成甲基化报告,从而实现在单个文件中进行准确的全基因组小变异与甲基化报告,并获得高文件压缩率。这种压缩方式适用于从小型单样本分析到大规模群体研究的所有分析。gVCF输出与引入新甲基化区域的VCF 4.5规格一致:
M5mC:每个胞嘧啶等位基因的甲基化百分比
DPM5mC:每个胞嘧啶等位基因的覆盖度
INFO:M5mC:胞嘧啶等位基因结构
基于5-Base数据的变异检出高度准确,这得益于因美纳5-Base解决方案的高数据质量(高覆盖度均一性、低错误率)以及我们针对5-Base数据优化的前沿DRAGEN算法。例如,在小型变异检测中,我们调整了检出软件,使其能更大限度地利用5-Base堆积中的可用信息。具体而言,我们扩展了检出模型,使得(+)链read上的胸腺嘧啶在一定概率上可以成为甲基化胞嘧啶(−链read中的腺嘌呤也类似)。重要的是,通过使用(+)和(−)链的read证据,基因型可以被准确分辨(图5)。此外,DRAGEN可确定已检出的变异等位基因中每个胞嘧啶的甲基化水平。因此,因美纳5-Base解决方案可检测变异与甲基化之间细微的局部相互作用,例如通过将CpG变为CpH结构来局部改变甲基化水平的C>G或G>C变异,反之亦然(图5)。
图5:变异等位基因中每个胞嘧啶的小生殖系变异检出和甲基化水平估计
(上图)可能包含甲基化C等位基因的三种杂合子基因型示例。在所有情况下,DRAGEN 5-Base基因分型仪利用两条DNA链的信息检出两个等位基因。基因分型后,通过分别定量(+)或(−)链上的过量C>T或G>A突变,检出每个C或G参考等位基因的甲基化水平。(左下图)因美纳针对NA12878的5-Base解决方案的生殖系SNV检出准确性与WGS(经Bis-SNP处理的EM-seq与重亚硫酸盐测序、经DRAGEN处理的5-Base与全基因组测序)相当。(右下图)在NA12878中发现了杂合子变异(C>G或G>C),这些变异通过改变等位基因胞嘧啶结构(CpG变为CpH,反之亦然)导致甲基化状态发生等位基因特异性变化(紫色、橙色)。例如,G>C的变异会将CGH等位基因转换为CCH等位基因,而该CCH等位基因的CpG结构丢失。
图6:DRAGEN 5-Base还支持体细胞小变异检测,并且可以检出大变异
(上图)体细胞SNV检测在各种变异等位基因频率下的灵敏度。(下图)在1例Rubinstein-Taybi综合症患者的CREBBP基因中检测到致病性拷贝数缺失。
图7:使用BAM XM标签,根据甲基化状态进行更高准确度的read分类
(左图)使用Illumina 5-Base DNA Prep处理未甲基化的Lambda噬菌体DNA并测序。低频C>T错误会导致BAM XM标签中的胞嘧啶碱基被错误标记为甲基化。(右图)仅极少量Lambda噬菌体DNA片段被归类为甲基化(对于包含两个及以上CpG二核苷酸的read对,其比例低于百万分之十)。当read对中超过70%的CpG胞嘧啶碱基被甲基化时,该片段即被归类为甲基化片段。
多组学解析和整合
Illumina Connected Multiomics提供了一个强大的数据科学平台,以简化5-Base甲基化和基因组多组学分析。该平台使团队能够定制设计复杂的工作流程,将DRAGEN的原始数据转化为可执行的生物学见解。多个用户可以跟踪分析进度,协作并行执行数据科学实验,并创建交互式仪表板来传达结果。
该平台将接收DRAGEN的输出数据,并创建多样本数据结构,从而简化队列水平的分析。这种结构简化了一些常见任务,如数据质量过滤、无监督聚类分析和差异甲基化分析。以下代表性分析工作流程展示了急性骨髓性白血病(AML)患者队列的Connected Multiomics功能。后续一篇博客文章将更详细地展示Connected Multiomics。
数据质控
该平台会首先获取DRAGEN的输出结果,然后汇总多样本队列层面的数据集,以简化按质量控制指标筛选数据等任务。图8展示了一个仪表板,其中显示了整个队列中常见全基因组测序质量控制指标的分布。
图8:质量控制仪表板
监督和非监督聚类分析
创建样本队列后,用户可以执行探索性分析,例如聚类分析,以可视化队列中的整体差异。Connected Multiomics允许用户基于单个CpG位点以及更大的基因组特征(例如启动子区)进行聚类分析,对于后者,系统会计算这些特征区域内所有CpG位点甲基化水平的平均值。针对分析的生物学或临床环境定制的自定义功能集也可用于增强聚类分析性能。图9展示了用户或团队如何探索不同UMAP参数的聚类分析性能。
图9:UMAP聚类分析的典型参数筛选
差异甲基化区域检测
Connected Multiomics通过将广泛使用的DMR检出软件(对测序数据[DSS]使用分散收缩)直接集成到其交互式沙盒环境中,简化了差异甲基化区域(DMR)的识别。样本分组可以根据PCA/UMAP任务的元数据或簇标签创建。DSS将CpG位点甲基化建模为Beta二项分布,将样本组间具有统计学显著差异的甲基化位点拼接在一起,形成DMR[3]。图10显示了如何轻松可视化和筛选DMR用于下游分析。携带IDH突变的AML患者通常具有超甲基化表型,这反映在大量超甲基化DMR上。diff.Methy表示两个样本组在特定基因组区域的平均甲基化差异,长度为DMR的碱基对长度。areaStat是DMR中所有CpG位点的综合统计学显著性,与DMR长度相关性最强。具有较大甲基化差异的较大DMR将产生较大的areaStat绝对值。显著性标签可作为指南,帮助用户解读DMR。但是,用户应最终在其特定研究背景下评价每个DMR的生物相关性。
图10:基于常用DMR指标的DSS DMR检测结果火山图
结论
因美纳5-Base解决方案和DRAGEN流程重新定义了基因组学的可能性 — 在单个高效的工作流程中结合遗传和表观遗传学见解。我们设计了一套软件解决方案,旨在简化和加速样本流程,从而获得跨多种应用的见解,包括遗传病、癌症生物学和群体规模研究。
有关因美纳5-Base解决方案的更多信息,请参阅基因组和甲基化组测序 | 甲基化组分析加DNA变异
参考文献
[1] To run DRAGEN 5-base on cloud, see https://help.connected.illumina.com/dragen-5-base. To run DRAGEN 5-base from a local server, see https://help.dragen.illumina.com/product-guide/dragen-v4.4/dragen-recipes.
[2] Aref-Eshghi, E., Schenkel, L. C., Lin, H., Skinner, C., Ainsworth, P., Paré, G., … Sadikovic, B. (2017). The defining DNA methylation signature of Kabuki syndrome enables functional assessment of genetic variants of unknown clinical significance. Epigenetics, 12(11), 923–933. https://doi.org/10.1080/15592294.2017.1381807
[3] Feng, H. & Wu, H. (2019). Differential methylation analysis for bisulfite sequencing using DSS. Quant Biol. https://doi.org/10.1007/s40484-019-0183-8