多组学解读与整合

Illumina Connected Multiomics 提供了一个强大的数据科学平台,用于简化 5-碱基甲基化和基因组多组学分析。该平台使团队能够无缝地进行设计、实验和协作,并实时交互处理传统上复杂的工作流程。Connected Multiomics 将原始数据转化为可操作的生物学见解。它将 DRAGEN 输出整合为统一的多样本数据结构,便于开展队列水平分析。该架构简化了常见任务,如数据质量过滤、无监督聚类和差异甲基化分析。此外,它还能实现信息性甲基化特征与基因组变异的多组学整合。在此,我们展示了一个具有代表性的分析工作流程,以急性髓系白血病(AML)样本队列为例,展示 Connected Multiomics 的功能。

数据质量控制

平台首先获取 DRAGEN 的输出,并在多样本队列水平对数据集进行汇总。图 1 展示了一个自动生成的仪表板,可直观显示队列中常见全基因组测序质量控制指标的分布情况。每样本甲基化百分比定义为样本基因组中所有 CpG 位点的平均甲基化水平。未甲基化对照百分比和甲基化对照百分比分别代表掺入对照基因组中所有 CpG 位点的平均甲基化水平,用于评估甲基化转化效率。甲基化对照的甲基化水平越高、未甲基化对照的甲基化水平越低,表明转化质量越好。

图 1:质量控制仪表板,显示相关的甲基化转化和测序质量指标

图 2 展示了如何针对感兴趣的质量控制指标可视化直方图,并设置自定义过滤器。这些过滤器可用于排除样本,从而潜在提高下游数据分析的质量。

图 2:队列过滤界面,用于排除质量控制指标不佳的样本

监督与非监督聚类

确定样本队列后,您可以执行探索性分析,例如聚类,以可视化数据集中的全局结构和异质性。Connected Multiomics 支持单 CpG 分辨率以及聚合基因组特征(如启动子区域,其中 CpG 甲基化在每个特征上取平均值)水平的聚类。此外,您还可以根据研究背景定义自定义特征集,以进一步提升聚类性能。

图 3 展示了如何使用通用启动子区域或 AML 特异性表观基因组特征的自定义区域集来评估主成分分析(PCA)聚类性能。值得注意的是,某些 AML 亚型(包括 KMT2Ar 和 IDH 突变病例)在使用 AML 特异性特征进行聚类时显示出更好的分离效果。为进一步提升聚类性能,平台还支持非线性降维方法,如 UMAP 和 t-SNE。然而,这些方法通常需要进行参数优化。

图 3:基于不同基因组特征的两种 PCA 可视化

对于统一流形逼近与投影(UMAP),必须仔细调整主成分数量和最近邻数量等参数。图 4 展示了如何设置多个 UMAP 优化方案并一起可视化结果。从该 UMAP 参数界面可以看出,UMAP 参数集 3 实现了所有 AML 亚型的良好分离。

图 4:UMAP 聚类的典型参数筛选

为验证聚类结果,图 5 展示了在一系列聚类数量上应用 k-means 聚类,确定 5 为该数据集的最佳聚类数。您可以将 k-means 聚类标签(聚类数参数设为 5)注释到 UMAP 上。这种定量一致性证实了视觉上观察到的聚类的生物学相关性。

图 5:K-means 聚类参数筛选及 UMAP 参数集 3 的聚类确认

差异甲基化区域鉴定

Connected Multiomics 通过将广泛使用的基于离散度收缩的测序数据差异甲基化区域(DSS)调用工具直接集成到其交互式沙盒环境中,简化了差异甲基化区域(DMR)的鉴定流程。样本分组可根据元数据或 PCA/UMAP 任务的聚类标签进行定义。DSS 将 CpG 位点甲基化建模为 beta 二项分布,并将样本组间具有统计学显著性的差异甲基化位点拼接成 DMR。图 6 展示了如何轻松可视化 DMR 并对其进行过滤以供下游分析。与文献报道一致,携带 IDH 突变的 AML 患者通常表现出广泛的高甲基化表型,因此高甲基化 DMR 的数量多于低甲基化 DMR。diff.Methy 指标代表两组样本在特定基因组区域上的平均甲基化差异,length 代表 DMR 的碱基对长度。areaStat 指标整合了 DMR 中所有 CpG 位点的统计学显著性,与 DMR 长度相关性最强。甲基化差异更大且长度更长的 DMR 将产生更大的 areaStat 绝对值。显著性标签作为参考,帮助您快速解读 DMR。然而,DMR 的解读必须结合生物学背景和研究特定的先验知识。

图 6:基于常用 DMR 指标的 DSS DMR 鉴定结果图

通路分析

DMR 鉴定完成后,Connected Multiomics 可将 DMR 转化为更具功能性的推断。图 7 展示了如何根据高甲基化差异(例如,甲基化差异大于 0.2)筛选感兴趣的 DMR,并用转录起始/终止位点 5 kb 范围内的基因名称进行注释。您可以自定义最大基因组距离,以调整 DMR-基因关联的解读,使其符合研究的生物学背景。

由于 DNA 甲基化通常在启动子区域调控基因表达,大多数与基因相关的 DMR 都定位于转录起始位点(TSS)区域。根据所应用的过滤标准,鉴定出的基因相对于 IDH 突变患者组可表现为低甲基化或高甲基化。这些基因水平的发现可通过 Connected Multiomics 集成的基因集富集分析在通路层面进一步情境化。该功能可实现对潜在生物学过程的更广泛解读。

图 7:感兴趣 DMR 的最近基因注释及基因集富集分析,鉴定感兴趣的基因通路

多组学分析

变异分析模块

Connected Multiomics 提供了一个统一环境,用于整合甲基化和基因组变异分析,释放 Illumina 5-碱基检测的多组学潜力。本节描述的代表性工作流程将 DMR 与包含小型基因组变异(包括单核苷酸多态性(SNP)和小片段插入/缺失(indel))的基因进行叠加。图 8 展示了如何使用标准变异调用格式(VCF)字段(如深度(DP))对变异进行过滤。此外,Connected Multiomics 利用 Illumina 专有的和流行的公共数据库进一步精确定位感兴趣的变异。例如,可使用 gnomAD、DRAGEN 单倍型数据库和 Primate AI 从体细胞变异鉴定结果中去除胚系变异。Promoter AI 可用于预测基因活性。图 9 展示了如何在队列水平查看变异,以观察队列中共享的变异。

甲基化与变异整合模块

Connected Multiomics 在基因水平整合甲基化和变异信息,DMR 和变异必须首先分别按照图 7 和图 10 所示进行基因注释。这种以基因为中心的整合优先考虑基因组中具有功能相关性的区域,未来版本计划扩展至额外的调控位点。图 11 展示了 DMR 和变异交集后的输出表格。该输出添加了区域甲基化视图以及在 Connected Multiomics 外部生成的附加图形,以提供背景信息。在此示例位点中,KMT2Ar 突变患者的 HOXA9 基因存在一簇变异,与 HOXA9 基因的低甲基化相关。这种相关性可能意味着这些 HOXA9 变异具有功能性后果,因为低甲基化基因与基因表达相关。因此,DMR 可为解读意义未明变异提供功能性推断。

图 8:变异过滤功能,用于富集信息性基因组变异
图 9:队列水平变异汇总
图 10:按基因邻位性注释变异
图 11:DMR 与变异调用的多组学交集输出,添加了附加图形

工作流程可视化

通过所呈现的 AML 案例研究,我们展示了一个端到端的分析流程,从图 12 的数据质量控制开始。Connected Multiomics 提供甲基化和变异分析工具,以利用 Illumina 5-碱基数据类型的多组学特性。您可以执行严格的聚类验证、基于元数据和聚类标签的 DMR 鉴定,以及将 DMR 与基因和通路信息进行情境化。同时,您可以注释和过滤基因组变异,并在队列水平可视化变异。变异可进一步通过 DMR 进行注释,从而更完整地解读疾病背后的调控和遗传驱动因素。图 12 还突出了协作分析的透明度,因为团队可以实时跟踪进展并分支分析。总之,这些功能展示了 Connected Multiomics 如何将多组学数据、分析和解读整合到一个透明且协作的环境中,从而加速从 Illumina 5-碱基数据集获得生物学见解。

图 12:本博客呈现的 AML 队列分析代表性工作流程。粉色矩形表示本博客中重点介绍的分析模块。