从样本到解析：借助因美纳5-碱基解决方案简化分析流程

在前一篇博客文章中，我们介绍了因美纳5-碱基解决方案 — 这是一种快速且兼容自动化的工作流程，可从单一样本中同时获取遗传和表观遗传信息。在本第二篇博客文章中，我们将探讨如何在多种应用中解读因美纳5-碱基数据，涵盖遗传疾病研究、癌症检测和群体表观遗传学等领域。

软件流程由以下部分组成：

BCL Convert：测序和原始read输出。

DRAGEN二级分析：输出比对的read、检出变异并报告甲基化。DRAGEN报告汇总了各个样本的关键QC指标。

Illumina Connected Multiomics：通过复杂数据集可视化、差异甲基化检测、变异-甲基化联合分析及前沿的多组学分析，进行三级分析与生物标志物发现。

您可在云端运行该软件流程（BaseSpace Sequencing Hub上的DRAGEN、Illumina Connected Analytics或Illumina Connected Multiomics），并直接从测序仪自动启动该流程。您也可以在DRAGEN服务器上运行DRAGEN二级分析。

在DRAGEN中，我们开发了一种新的5-碱基二级分析模式^[1]，该模式基于标准的DRAGEN DNA工作流程，通过在核心算法中整合甲基化识别逻辑，并将甲基化输出集成到现有标准化数据格式中（图1）。

运行完成后，DRAGEN报告会提供质量控制（QC）指标的全面汇总（图2）。这些QC指标包括其他甲基化特异性指标，例如：

甲基化/未甲基化对照基因组中的甲基化%：将小型细菌基因组（Lambda/pUC19）加入5-碱基的文库制备中，作为已知甲基化水平的对照。Lambda基因组的甲基化率为0%，pUC19基因组在CpG位置的合成甲基化率超过97%。

样本中CpG/CpH结构的甲基化%：哺乳动物基因组中的甲基化主要发生在CpG胞嘧啶结构。

两条DNA链的read比对率：5-碱基读数应与原始顶部（OT，也表示为+）或原始底部（OB，也表示为−）DNA链等比例对齐。

在传统的DNA文库制备中，特定read的DNA链来源不明。相比之下，5-碱基的文库制备使用定向接头，将测序片段（即read对）归属至其来源链。通常，两条DNA链表示为原始顶部（+）和原始底部（-）。按照惯例，参考基因组序列编码原始顶部DNA序列（图3）。然后，通过测序达到标准覆盖度（大于30X），两条DNA链都出现在一个基因组区域。这种表示方法实现了序列变异（存在于给定基因组位置的两条DNA链上）和胞嘧啶碱基甲基化（仅存在于给定基因组位置的一条链上）的可视化。图3C展示了典型的甲基化区域，其中连续的CpG二核苷酸均发生了甲基化。该区域还包含一个C>T杂合子变异，与CpG甲基化相反，其在特定基因组位置的两条DNA链上均有C>T突变的证据。

#Chrome	Pos	Ref	Alt	Qual	Filter
chr12	49024720		G	C	50	Pass

在gVCF（或传统的CX报告格式）中，您可以查询目标区域中每个胞嘧啶的甲基化水平，并将其转换为bedGraph格式，以便在基因组浏览器中查看。现在，有了因美纳的5-碱基解决方案，我们现可在gVCF文件中直接生成甲基化报告，从而实现在单个文件中进行准确的全基因组小变异与甲基化报告，并获得高文件压缩率。这种压缩方式适用于从小型单样本分析到大规模群体研究的所有分析。gVCF输出与引入新甲基化区域的VCF 4.5规格一致：

M5mC：每个胞嘧啶等位基因的甲基化百分比

DPM5mC：每个胞嘧啶等位基因的覆盖度

INFO:M5mC：胞嘧啶等位基因结构

基于5-碱基数据的变异检出高度准确，这得益于因美纳5-碱基解决方案的高数据质量（高覆盖度均一性、低错误率）以及我们针对5-碱基数据优化的前沿DRAGEN算法。例如，在小型变异检测中，我们调整了检出软件，使其能更大限度地利用5-碱基堆积中的可用信息。具体而言，我们扩展了检出模型，使得（+）链read上的胸腺嘧啶在一定概率上可以成为甲基化胞嘧啶（−链read中的腺嘌呤也类似）。重要的是，通过使用（+）和（−）链的read证据，基因型可以被准确分辨（图5）。此外，DRAGEN可确定已检出的变异等位基因中每个胞嘧啶的甲基化水平。因此，因美纳5-碱基解决方案可检测变异与甲基化之间细微的局部相互作用，例如通过将CpG变为CpH结构来局部改变甲基化水平的C>G或G>C变异，反之亦然（图5）。

得益于前文提及的算法更新，小变异检测亦可支持仅肿瘤样本的体细胞变异分析及肿瘤-正常配对分析模式。图6显示了文库的灵敏度图，这些文库分别由以下样本制备：1）混合NA12877和NA12878的npDNA，用以模拟变异等位基因频率（VAF）为0.5%、1%和2%的cfDNA；2）混合NA12877和NA12878的gDNA，以获得VAF为2.5%、5%、10%和20%的真实变异。75 kb或1 Mb标记是Illumina Custom Enrichment Panel v2的两个panel部分，专为Illumina 5-Base DNA Prep with Enrichment而设计，靶向75 kb或1 Mb的基因组。我们发现，对核心DRAGEN模型进行调整后，大型变异检测同样准确（图6）。因此，我们提供了基于DRAGEN 5-碱基的拷贝数变异（CNV）检测功能，并计划在未来的软件版本中发布结构变异检测（SV）和短串联重复序列（STR）检测。

根据read中胞嘧啶的联合甲基化状态进行分类，可以可靠地将read标记为甲基化或未甲基化。这对于旨在检测单个read中低信号的应用非常有用，例如癌症早期检测或微小残留疾病（MRD）筛查。以对照基因组（如Lambda未甲基化基因组）为例，使用因美纳5-碱基解决方案时，含两个或两个以上CpG的read的甲基化read分类误差小于10 PPM（百万分之一）（图7）。

多组学解析和整合

Illumina Connected Multiomics提供了一个强大的数据科学平台，以简化5-碱基甲基化和基因组多组学分析。该平台使团队能够定制设计复杂的工作流程，将DRAGEN的原始数据转化为可执行的生物学见解。多个用户可以跟踪分析进度，协作并行执行数据科学实验，并创建交互式仪表板来传达结果。

该平台将接收DRAGEN的输出数据，并创建多样本数据结构，从而简化队列水平的分析。这种结构简化了一些常见任务，如数据质量过滤、无监督聚类分析和差异甲基化分析。以下代表性分析工作流程展示了急性骨髓性白血病（AML）患者队列的Connected Multiomics功能。后续一篇博客文章将更详细地展示Connected Multiomics。

数据质控

该平台会首先获取DRAGEN的输出结果，然后汇总多样本队列层面的数据集，以简化按质量控制指标筛选数据等任务。图8展示了一个仪表板，其中显示了整个队列中常见全基因组测序质量控制指标的分布。

监督和非监督聚类分析

创建样本队列后，用户可以执行探索性分析，例如聚类分析，以可视化队列中的整体差异。Connected Multiomics允许用户基于单个CpG位点以及更大的基因组特征（例如启动子区）进行聚类分析，对于后者，系统会计算这些特征区域内所有CpG位点甲基化水平的平均值。针对分析的生物学或临床环境定制的自定义功能集也可用于增强聚类分析性能。图9展示了用户或团队如何探索不同UMAP参数的聚类分析性能。

差异甲基化区域检测

Connected Multiomics通过将广泛使用的DMR检出软件（对测序数据[DSS]使用分散收缩）直接集成到其交互式沙盒环境中，简化了差异甲基化区域（DMR）的识别。样本分组可以根据PCA/UMAP任务的元数据或簇标签创建。DSS将CpG位点甲基化建模为Beta二项分布，将样本组间具有统计学显著差异的甲基化位点拼接在一起，形成DMR^[3]。图10显示了如何轻松可视化和筛选DMR用于下游分析。携带IDH突变的AML患者通常具有超甲基化表型，这反映在大量超甲基化DMR上。diff.Methy表示两个样本组在特定基因组区域的平均甲基化差异，长度为DMR的碱基对长度。areaStat是DMR中所有CpG位点的综合统计学显著性，与DMR长度相关性最强。具有较大甲基化差异的较大DMR将产生较大的areaStat绝对值。显著性标签可作为指南，帮助用户解读DMR。但是，用户应最终在其特定研究背景下评价每个DMR的生物相关性。

结论

因美纳5-碱基解决方案和DRAGEN流程重新定义了基因组学的可能性 — 在单个高效的工作流程中结合遗传和表观遗传学解析。我们设计了一套软件解决方案，旨在简化和加速样本流程，从而获得跨多种应用的分析，包括遗传病、癌症生物学和群体规模研究。

有关因美纳5-碱基解决方案的更多信息，请参阅基因组和甲基化组测序 | 甲基化组分析加DNA变异

参考文献

[1] To run DRAGEN 5-base on cloud, see https://help.connected.illumina.com/dragen-5-base. To run DRAGEN 5-base from a local server, see https://help.dragen.illumina.com/product-guide/dragen-v4.4/dragen-recipes.

[2] Aref-Eshghi, E., Schenkel, L. C., Lin, H., Skinner, C., Ainsworth, P., Paré, G., … Sadikovic, B. (2017). The defining DNA methylation signature of Kabuki syndrome enables functional assessment of genetic variants of unknown clinical significance. Epigenetics, 12(11), 923–933. https://doi.org/10.1080/15592294.2017.1381807

[3] Feng, H. & Wu, H. (2019). Differential methylation analysis for bisulfite sequencing using DSS. Quant Biol.  https://doi.org/10.1007/s40484-019-0183-8

上一篇文章

下一篇文章

NovaSeq X 创新路线图

因美纳 5-碱基解决方案

NGS 流程助手——现已支持肿瘤工作流

Illumina Connected Multiomics

基于新一代测序的蛋白质组学服务

TruPath Genome解决方案

创新路线图

创新路线图

创新路线图

创新路线图

创新路线图

创新路线图

创新路线图

SOMAmer 蛋白质组学的未来

SOMAmer 蛋白质组学的未来

SOMAmer 蛋白质组学的未来

SOMAmer 蛋白质组学的未来

SOMAmer 蛋白质组学的未来

SOMAmer 蛋白质组学的未来

SOMAmer 蛋白质组学的未来

MiSeq i100 系列

MiSeq i100 系列

MiSeq i100 系列

MiSeq i100 系列

MiSeq i100 系列

MiSeq i100 系列

深入探索癌症，助力精准测试

深入探索癌症，助力精准测试

深入探索癌症，助力精准测试

深入探索癌症，助力精准测试

深入探索癌症，助力精准测试

Illumina COVIDSeq Test

Illumina COVIDSeq Test

Illumina COVIDSeq Test

Illumina COVIDSeq Test

基因组与甲基化组一次检测同时获得

基因组与甲基化组一次检测同时获得

基因组与甲基化组一次检测同时获得

基因组与甲基化组一次检测同时获得

基因组与甲基化组一次检测同时获得

分秒必争。无PCR的新制备方法可加快全基因组测序

分秒必争。无PCR的新制备方法可加快全基因组测序

分秒必争。无PCR的新制备方法可加快全基因组测序

分秒必争。无PCR的新制备方法可加快全基因组测序

Illumina COVIDSeq Test

Illumina COVIDSeq Test

Illumina COVIDSeq Test

Illumina COVIDSeq Test

Illumina COVIDSeq Test

基因组与甲基化组一次检测同时获得

基因组与甲基化组一次检测同时获得

基因组与甲基化组一次检测同时获得

基因组与甲基化组一次检测同时获得

基因组与甲基化组一次检测同时获得

Hear about VeriSeq NIPT from Our Customers

Hear about VeriSeq NIPT from Our Customers

Hear about VeriSeq NIPT from Our Customers

Hear about VeriSeq NIPT from Our Customers

时间就是生命—全新PCR-Free Prep建库试剂加速全基因组测序

时间就是生命—全新PCR-Free Prep建库试剂加速全基因组测序

时间就是生命—全新PCR-Free Prep建库试剂加速全基因组测序

时间就是生命—全新PCR-Free Prep建库试剂加速全基因组测序

因美纳实验流程解决方案

从样本到解析：借助因美纳5-碱基解决方案简化分析流程

多组学解析和整合

数据质控

监督和非监督聚类分析

差异甲基化区域检测

结论

参考文献