新一代测序(NGS)的覆盖度是指比对到或"覆盖"已知参考碱基序列的平均read数。测序覆盖度水平常常决定了特定碱基位置的变异发现是否具有某种水平的可信度。
对测序覆盖度的要求因应用而异,如下所述。在较高的深度水平,每个碱基被较多的比对序列所覆盖,因此碱基读取也有着较高的可信度。
研究人员通常根据使用的方法以及参考基因组大小、基因表达水平、感兴趣的特定应用、已发表文献和科研领域的最佳实践等其他因素来确定所需NGS覆盖水平。 此处列出了部分常见方法的推荐测序覆盖度。
测序方法 | 推荐覆盖度 |
---|---|
全基因组测序(WGS) | 人类全基因组测序为30倍至50倍(具体取决于应用和统计模型) |
全外显子组测序 | 100倍 |
RNA测序 | 研究人员们通常会计算上百万待采样序列。检测罕见表达基因时通常需要提高覆盖深度。 |
ChIP-Seq | 100倍 |
测序运行估算:
Lander/Waterman公式1是一种计算基因组覆盖度的方法。一般公式为:C = LN / G
我们提供以下资源帮助科学家确定覆盖度:
如果需要更多数据,可以增加覆盖度或测序深度。如有必要,可将不同流动槽的测序输出与原始样本相结合。以下是测序覆盖度超出最初估计的一些原因:
一般使用覆盖度直方图呈现整个数据集测序的覆盖度范围和均一性。直方图通过显示不同深度下已比对测序read所覆盖的参考碱基数量来表明整体覆盖度分布。“已比对read深度”指的是在给定参考碱基位置处完成测序和比对的碱基总数(注意"mapped"和"aligned"(比对)在测序中可互换使用)。
在测序覆盖度直方图中,read深度将被分组并显示在X轴上,而占据各read深度分组的参考碱基总数将用Y轴表示。也可记作参考碱基百分比。
以下是评估NGS覆盖度的常用指标:
IQR是直方图中第75与第25百分位数之间的测序覆盖度差。该值用于衡量统计学变异性,可反映覆盖度在整个数据集范围内的不均一程度。
IQR值高表示基因组上覆盖度变化大,而低IQR则表示序列覆盖水平更加均一。在上述直方图示例中,左侧的直方图中IQR更低,表明其测序覆盖均一性优于右侧直方图。
平均已比对read深度(或平均read深度)是各参考碱基位置上已比对read深度的总和除以参考中已知碱基的数量得到的值。
平均read深度指标表示特定参考碱基位置上可能匹配的平均read数。
该值是仪器所产生的序列数据总量(比对前)除以参考基因组大小得到的值。虽然测序仪器供应商通常会在性能参数中给出原始read深度,但该深度并未考虑到比对过程的效率。
如果比对过程中有大部分原始测序read作废,则比对后得到的已比对read深度会远小于原始read深度。