测序覆盖度

什么是NGS的覆盖度?

新一代测序(NGS)的覆盖度是指比对到或"覆盖"已知参考碱基序列的平均read数。测序覆盖度水平常常决定了特定碱基位置的变异发现是否具有某种水平的可信度。

对测序覆盖度的要求因应用而异,如下所述。在较高的深度水平,每个碱基被较多的比对序列所覆盖,因此碱基读取也有着较高的可信度。

测序覆盖度要求

研究人员通常根据使用的方法以及参考基因组大小、基因表达水平、感兴趣的特定应用、已发表文献和科研领域的最佳实践等其他因素来确定所需NGS覆盖水平。 此处列出了部分常见方法的推荐测序覆盖度。

测序方法 推荐覆盖度
全基因组测序(WGS) 人类全基因组测序为30倍至50倍(具体取决于应用和统计模型)
全外显子组测序 100倍
RNA测序 研究人员们通常会计算上百万待采样序列。检测罕见表达基因时通常需要提高覆盖深度。
ChIP-Seq 100倍
How to Estimate and Achieve Your Desired NGS Coverage Level

如何估计并达到所需NGS覆盖度水平

测序运行估算:

Lander/Waterman公式1是一种计算基因组覆盖度的方法。一般公式为:C = LN / G

  • C表示覆盖度 
  • G为单倍体基因组长度
  • L为读长
  • N为reads数量

我们提供以下资源帮助科学家确定覆盖度:

何时增加测序

如果需要更多数据,可以增加覆盖度或测序深度。如有必要,可将不同流动槽的测序输出与原始样本相结合。以下是测序覆盖度超出最初估计的一些原因:

  • 增加分析的统计功效
  • 研究非常罕见的事件
  • 满足期刊或领域的最低覆盖度阈值
  • 对难以测序的区域或多倍体基因组进行测序
读长配置要点

了解如何为您的测序运行选择合适的读长,以及NGS覆盖度与读长之间的关联。

了解更多
测序覆盖度和读长

根据您的样本类型、应用和覆盖度需求选择合适的测序读长。了解如何为您的测序运行选择合适的读长,以及测序覆盖度与读长的关联。

了解更多
测序覆盖度和读长

NGS覆盖度范围和均一性直方图

一般使用覆盖度直方图呈现整个数据集测序的覆盖度范围和均一性。直方图通过显示不同深度下已比对测序read所覆盖的参考碱基数量来表明整体覆盖度分布。“已比对read深度”指的是在给定参考碱基位置处完成测序和比对的碱基总数(注意"mapped"和"aligned"(比对)在测序中可互换使用)。

在测序覆盖度直方图中,read深度将被分组并显示在X轴上,而占据各read深度分组的参考碱基总数将用Y轴表示。也可记作参考碱基百分比。

覆盖度直方图示例

理想情况下,该图形状应类似泊松分布并且标准偏差较小,如左图所示。该分布有效的前提是:read随机分布于整个基因组并且整个测序运行期间对read间真实重叠的检测能力不变。

但出于各种原因,实际覆盖度直方图可能会很宽(即read深度区间宽)或呈非泊松分布,如欠佳测序覆盖度直方图示例(右图)所示。

良好(左图)和欠佳(右图)测序覆盖度直方图示例

评估新一代测序覆盖度

以下是评估NGS覆盖度的常用指标:

四分位数间距(IQR)

IQR是直方图中第75与第25百分位数之间的测序覆盖度差。该值用于衡量统计学变异性,可反映覆盖度在整个数据集范围内的不均一程度。

IQR值高表示基因组上覆盖度变化大,而低IQR则表示序列覆盖水平更加均一。在上述直方图示例中,左侧的直方图中IQR更低,表明其测序覆盖均一性优于右侧直方图。

平均(已比对)Read深度

平均已比对read深度(或平均read深度)是各参考碱基位置上已比对read深度的总和除以参考中已知碱基的数量得到的值。

平均read深度指标表示特定参考碱基位置上可能匹配的平均read数。

原始Read深度

该值是仪器所产生的序列数据总量(比对前)除以参考基因组大小得到的值。虽然测序仪器供应商通常会在性能参数中给出原始read深度,但该深度并未考虑到比对过程的效率。

如果比对过程中有大部分原始测序read作废,则比对后得到的已比对read深度会远小于原始read深度。

Reference
  1.  Lander ES, Waterman MS. Genomic mapping by fingerprinting random clones: a mathematical analysis. Genomics. 1988;2(3):231-239. doi:10.1016/0888-7543(88)90007-9