在游离DNA中寻找癌症驱动基因表达的线索
简介
核小体是DNA包装成的微小且精巧的片段,它就像是长长的基因项链上的珠子一样。每个核小体包含一小段DNA,这段DNA缠绕在8个组蛋白的周围。但事实证明,核小体包含的内容可能远不止这些。它可能还隐藏着哪些基因会驱动转移性癌症的线索。
2016年,一个来自华盛顿大学的团队分析了健康个体的游离DNA(cfDNA)的核小体占位图谱。1这些体内占位图谱与单细胞中观察到的表达结构和组织高度相关。这表明核小体上可能有来自原组织的表观遗传印迹。研究作者认为,在没有其他明显的基因型差异时,此种印迹可以用来确定导致疾病的不同细胞类型。研究cfDNA中的核小体也许还有助于提供使用液体活检等非侵入性筛查来检测癌症的新方法。
与此同时,格拉茨医科大学人类遗传学研究所Michael Speicher教授实验室的团队,也在研究从cfDNA中可以找到哪些生物学相关信息。由于cfDNA是核小体保护的DNA,因此他们着重研究了是否可以从cfDNA的包装方式中获得功能数据。他们的判断是对的。他们证明了转录起始位点的核小体占位模式可提供信息,帮助推断癌症驱动基因的表达。2
iCommunity采访了Speicher教授的同事,癌症研究小组的个性化医疗液体活检研究负责人Ellen Heitzer博士以及生物信息学家Peter Ulz(理学硕士)。两位研究人员介绍了他们开展的核小体研究,以及使用他们的算法获得的液体活检数据如何为研究人员提供关于癌症进展和治疗反应的重要信息。
Ellen Heitzer博士是格拉茨医科大学人类遗传学研究所癌症研究小组的个性化医疗液体活检研究负责人,Peter Ulz(理学硕士)是她团队中的生物信息学家。
Q:您的研究小组主要研究什么疾病?
Peter Ulz(PU):我们研究所有70名员工,由Michael Speicher教授领导。大部分员工在进行遗传病的常规诊断检测,但我们也研究各种液体活检应用。
Ellen Heitzer(EH):我比较感兴趣的是癌症研究。我参与了家族性癌症综合征的常规诊断和液体活检遗传分析方法的研究。在六年多的时间里,我们一直在开发能非侵入地纵向监测血浆中的癌症基因组的方法。
我们之前研究过单个循环肿瘤细胞。但现在我们更倾向于ctDNA分析。与单个循环肿瘤细胞相比,它是更好的标记,能更全面地覆盖肿瘤。
Q:液体活检的价值是什么?
EH:传统的组织活检能提供肿瘤的实时信息。但通过每4周进行一次组织活检来了解肿瘤的变化是很困难的。相反,每隔几周进行一次液体活检则比较简单。因此,液体活检可以让我们在从诊断到治疗反应再到癌症复发的整个疾病进程中跟踪患者的情况。
液体活检研究领域在不断的变化,我们也正在快速前进。
Q:从生物信息学的角度来看,分析来自液体活检样本的DNA测序数据有哪些困难?
PU:许多人认为测序运行获得的大量数据很难分析。但我们实验室进行的是小规模测序,所以对我们来说,这不是最困难的问题。我们面临的挑战是ctDNA测序中的信号非常低。来自正常细胞的cfDNA数量明显多于来自肿瘤的DNA,具体的数量取决于肿瘤的阶段和各种其他参数。对于总量较少的DNA来说,很难同时获得良好的信息,并消除整个过程中发生的偏差,更别说对于数量更少的肿瘤组分了。
Q:是什么激发了你们研究cfDNA中转录因子结合位点的核小体占位模式的想法?
PU:由于cfDNA是核小体保护的DNA,因此我们一开始就认为,液态活检样本的cfDNA包装方式一定隐藏着更多信息。在读到一些关于染色质重塑和MNase-Seq的文献后,3我们认为这些内容对cfDNA很有用。我们获得了来自低覆盖度全基因组测序(WGS)的数据,并查看了是否存在能指示基因表达与否的信号类型,然后又查看了100多个对照样本的测序数据来判断是否有类似的信号。这些结果令人鼓舞,我们用它们建立了这项研究。华盛顿大学的研究利用相同的信号推断了组织来源,这让我们更加激动。
"我们了解到,表达的和未表达的基因在转录起始位点的核小体具有不同的覆盖模式。"
Q:你们为什么选择使用WGS而不是全外显子测序(WES)来研究这种新方法?
PU:核小体占位信号位于转录位点的起始处。大部分外显子组测序试剂盒只富集基因组的编码区,而不富集非翻译区,但我们在非翻译区获得的信号强度最高。即使外显子组富集分析能富集非翻译区,非翻译区前面的部分也会丢失。不幸的是,这正是我们发现表达信息的区域。
Q:你们的研究结果是什么?
PU:我们使用WGS分析了癌症患者血浆中的cfDNA。在基因表达期间,转录起始位点的核小体会解离。细胞凋亡时,cfDNA会释放到血流中,而这部分核小体缺失的区域(NDR)由于未受到组蛋白的保护,会优先被核酸酶消化。这意味着不活跃基因的核小体未解离,其DNA片段在循环中的含量比活跃基因更加丰富。我们证明了表达的和未表达的基因在转录起始位点的核小体具有不同的覆盖模式。这种模式可以使用测序数据来确定。我们可以利用机器学习算法来高度准确地预测哪些基因可能会驱动疾病。
这项研究最有趣的地方是该方法同时适用于健康个体和癌症患者。我们可以推断出相当多关于哪些基因有表达的信息。到目前为止,我们以高覆盖度对2个来自癌症患者的ctDNA样本进行了测序,这些数据看起来很有希望。我们现在正在研究这个方法能否用于更广泛的样本,以及能否对不同的肿瘤实体进行详细分析。
Q:你们如何确认从癌症样本的WGS数据中推断的表达结果?
PU:为了确认我们的表达预测结果,我们将我们的数据和相应原发性肿瘤的RNA-Seq数据进行了比较。我们将注意力集中到了拷贝数增加较多的区域,因为这些区域的数量比平衡区域更丰富,循环中相应的肿瘤组分也会更多。我们提取了这些区域的RNA-Seq数据,并与我们的算法预测的基因表达情况进行了比较。比较的结果证实了这些预测。我们目前正在改进方法,使其更加灵敏,这样我们就可以使用血浆中的ctDNA来进行更广泛的预测。
"为了确认我们的表达预测结果,我们将我们的数据和相应原发性肿瘤的RNA-Seq数据进行了比较。"
Q:你们使用什么软件分析数据?
PU:我们使用了Burrow-Wheeler Aligner(BWA)来进行DNA比对,也用了一些使用SAMTools的脚本来分析转录起始位点附近的覆盖模式。另外,我们还使用了基于我们开发的支持向量机的机器学习方法来预测基因表达。
Q:你们在进行这项研究时遇到过哪些困难?
PU:我们在样本数量和测序成本方面有很大的困难。虽然我们有数百个样本和对应的低覆盖度WGS数据集,但由于这些数据在目标区域的测序深度不足,因此不能用于分析。对所有样本进行高覆盖度的测序可以补偿低信号,但我们无法负担这样的成本,因此我们合并了数据来克服这个问题。
Q:你们的方法需要加强哪些方面才能向临床环境转化?
PU:我们发现有些问题会使我们的方法获得的结果变得模糊。例如,高度表达的基因和不表达的基因的核小体组织方式存在差异。对于准备进行高表达时,核小体组织方式非常严格的基因,我们的方法能成功地预测它们的表达。但对于核小体组织方式不严格的基因,无论它们是否表达,我们的算法通常都会将它们预测为不表达,很难进行评估。因此,我们的算法目前还不能预测样本中每个基因的表达。我们正在努力修正这个问题。
在临床环境中应用此方法也需要液体活检样本中含有更高的肿瘤组分,这是因为它们的信号会被来自正常凋亡过程的正常DNA“污染”。我们研究中使用的2个癌症样本都具有高肿瘤组分。但患者的样本却不一定如此。而且即便使用了具有高肿瘤组分的样本,我们也必须聚焦于数量更多的拷贝数增加区域。目前,我们只能预测少量区域的基因是否表达。我们希望能预测更多区域的基因。
"另外,我们还使用了基于我们开发的支持向量机的机器学习方法来预测基因表达。"
Q:在未来,cfDNA基因表达将如何帮助我们了解疾病?
PU:科学家们一直在寻找肿瘤的遗传变异和突变。这带来了分子肿瘤学和治疗反应鉴定领域的巨大进步。但我们还缺少对某些信息的了解。我们相信,分析肿瘤中的基因表达能让我们了解疾病和治疗中发生了什么。我们希望这些分析结果能提供一系列全新的信息,帮助我们鉴定药物靶点或监测治疗,并在出现耐药性时及时发现它们。
EH:我们这种方法的另一个优点是可以使用同一数据集来进行拷贝数分析并提取表达数据。在最近的一项研究中,我们报道了新的前列腺癌焦点扩增的出现。4肿瘤基因组在肿瘤进程中具有高度动态性。将来,我们的方法能告诉我们这一焦点扩增中的基因是否在肿瘤中表达,以及它是否驱动了疾病进展或对治疗的耐受。我们相信,只要cfDNA中有足够的肿瘤DNA,我们就可以将此方法应用于任何类型的癌症。
"MiSeq和NextSeq的工作流程很简单,测序速度也很快,这大大节省了我们的时间。"
Q:如果鉴定出了新的标记,您可以使用这些研究的原始数据来评估不同的基因表达水平,了解疾病的进展吗?
PU:如果新鉴定出的标记基于基因的表达,我们可以将其整合。而目前,我们需要关注拷贝数增加区域的标记。这可能会限制其他类型的标记的寻找。从理论上讲,如果有大量的肿瘤组分,信号强度足够高,我们就可以检测基因中是否有某些反应。我们正在努力研究这个问题。
Q:MiSeq和NextSeq系统对你们的研究提供了哪些支持?
EH:MiSeq和NextSeq的工作流程很简单,测序速度也很快,这大大节省了我们的时间。我们可以在2–3天内完成从血浆DNA提取到获得最终结果的低覆盖度WGS。两个系统都能快速获得数据,这对我们来说是一个重要的优点。
Q:你们为什么选择使用TruSeq® Nano DNA Library Prep Kit?
EH:选择TruSeq Nano DNA Library Prep Kit是因为它支持低样本起始量。我们已经通过这款试剂盒获得了很好的结果。我们很喜欢使用这款试剂盒来进行拷贝数分析和WGS,我们打算继续使用它。
Q:你们研究的后续计划是什么?
PU:我们现在专注于让我们的方法更加灵敏,以便检测肿瘤DNA组分含量低的cfDNA。这样我们就能检测病程早期的样本。越早获得有关肿瘤的信息,越有利于为治疗决策提供信息。
EH:我们也在尝试在没有原发性肿瘤及其驱动基因的先验知识的情况下,使用血浆DNA来分析其他标记、突变和拷贝数变化。我们希望能获得常见可疑突变以外的其他信息,来发现能帮助我们监测和筛查癌症患者的新标记。这需要开展大量的生物信息学工作。
"我们现在专注于让我们的方法更加灵敏,以便检测肿瘤DNA组分含量低的cfDNA。这样我们就能检测病程早期的样本。"
Q:你们打算在未来的研究中使用Illumina的产品吗?
PU:我们会继续使用MiSeq和NextSeq系统,以及TruSeq Nano DNA Library Prep Kit。
目前,我们正通过进行靶向富集以更少的测序数据来测试我们的方法,并通过减小信号较低的实验规模来降低覆盖度需求。我们已经为此测试了一些Illumina DNA富集试剂盒。我们希望能通过优化这个方法来充分利用所有现有的数据集。
EH:我们还结合了TruSeq Nano DNA和Nextera® Rapid Capture实验方案来进行靶向重测序。另外还有一个Illumina Concierge项目正在进行,我们在这个项目中使用的是具有唯一分子标记的TruSeq Cancer Amplicon Kit。如果我们的研究要迁移到临床,我们就必须关注已知的、可利用的靶点。这将比通过分析整个基因组来确定适合的治疗方法,或确定患者对特定疗法耐受的原因更加高效。
深入了解本文提及的Illumina系统和产品:
MiSeq系统,www.illumina.com/systems/miseq.html
参考文献
- Snyder MW, Kircher M, Hill AG, et al.Cell-free DNA comprises an in vivo nucleosome footprint that informs its tissues of origin.Cell.2016; 164: 57–68.
- Ulz P, Thallinger GG, Auer M, et al.Inferring expressed genes by whole-genome sequencing of plasma DNA.Nature Genetics.2016; 48: 1273-78.
- Valouev A, Johnson SM, Boyd SD, et al.Determinants of nucleosome organization in primary human cells.Nature.2011; 474: 516–620.
- Ulz P, Belic J, Graf R, et al.Whole-genome plasma sequencing reveals focal amplifications as a driving force in metastatic prostate cancer.Nat Commun.2016; 7: 12008, doi: 10.1038/incomms12008.