Customer Interview

单细胞分析正在促进发育生物学的发展

一位计算机科学家通过向所有人提供生物信息学工具来改变生物学世界。

单细胞分析正在促进发育生物学的发展

单细胞分析正在促进发育生物学的发展

简介

Cole Trapnell博士是TopHat1, Cufflinks2, Monocle3以及其他计算生物学家常用的生物信息学工具的主要开发人员。他在马里兰大学读研究生时就开始学习生物信息学,并在那里获得了计算机科学博士学位。他原本并没有打算从事生物学方面的工作,但他的同事当时正在使用Solexa测序仪,并开始查看新一代测序(NGS)数据,这引起了他的兴趣。他意识到,将短read与基因组比对是一个高通量计算问题。作为哈佛大学干细胞及再生生物学系John Rinn实验室的博士后,他开创了利用单细胞转录组测序分析细胞分化的方法。

Trapnell博士现在在华盛顿大学基因组科学系,他正在利用Illumina的NGS数据专门研究转录组分析和用于单细胞实验的软件。他的实验室专注于单细胞基因组学技术。他的目标是通过鉴定将细胞从一种类型转化为另一种类型的遗传线路来确定基因组中的发育程序是如何编码的。鉴定这些线路对于了解人类健康和疾病至关重要。

Trapnell博士依赖NextSeq 550、NovaSeq 6000和一支跨学科的科学家团队来实现这一目标。“实验室中的大部分人都在进行跨学科的工作,”他说,“要么是计算机科学家在做实验,要么是血液学家和肿瘤学家在学习计算技术。”

最近,Trapnell博士与我们分享了在他眼中了解细胞谱系的重要性,他的实验室使用单细胞RNA测序(scRNA-Seq)的经验,以及他对组合标签的应用(这是一种无需分离单细胞的单细胞基因组分析方法)。他还谈到了他相信合作的力量,以及这如何指导他的研究观念。

Cole Trapnell博士是华盛顿大学基因组科学系助理教授。

Q: 您如何进行发育研究?

Cole Trapnell (CT):我们想要了解细胞从一种类型转变为另一种类型所使用的遗传线路的结构。这主要发生在发育过程中,但在疾病中也会出现。我们对发育程序及其在基因组中的编码方式很感兴趣。这是一个非常大的问题,不是那么具体。它太大了,即使是很多实验室一起研究也无法回答。

我的实验室在回答这个问题(研究发育程序在DNA中的编码方式)上取得进展的策略是建立技术和软件,并将它们交给很多其他的世界各地的科学家。

我们围绕单细胞基因组学开发了先进的技术。它可以是实验性技术,例如新检测或新实验方案,也可以是计算性技术,例如从我们已经在进行的实验中提取新信息的算法。然后我们写了一篇文章来展示这项技术,并将其与一个没有技术进步就很难完成的应用结合起来。我们大约将25%的精力用来与那些有发育或疾病相关问题的人合作,并与他们一起将我们的技术应用到他们的生物学问题上。

Q: 为什么您开发的软件全都是开源的?

CT:人们会很乐意开发一个软件来解决一个科学问题,仅仅因为它有趣。如果你试图对一个专为科学家设计的软件工具收费,那么其他人就会做出免费的工具。我希望能帮助别人。即使收取象征性的费用也会显著缩小用户规模。TopHat之所以被广泛使用,是因为它首先解决了将鸟枪法cDNA测序read定位到基因组的问题。过了很久才有更好的工具出现。

Q: 了解细胞谱系的重要性是什么?

CT:了解发育是生物学的一个基本目标,其价值部分在于满足我们对它极大的好奇心。我发现一个很吸引人的例子是秀丽隐杆线虫(C. elegans)。每条成虫都有数量和类型相同的细胞。这是一个像时钟一样运行的程序。你获得的每一条线虫都一样。而我们则不是这样。我体内的细胞数量和你不同,而且它们是不同的类型,但你和我可能看起来都差不多。了解发育程序如何再现是非常有趣的,即使面对哺乳动物的细胞数量差异时也依然如此。

就实际应用而言,举个例子,许多儿科疾病在一定程度上都与发育有关。特别是罕见遗传病,对于这类疾病,我们目前能做的并不多。但我们已经开始取得了一些进展,我们知道了一些导致这类疾病的遗传因素或驱动突变。如果你确切地知道健康人中控制组织发育的遗传线路是如何工作的,你就可以预测出疾病患者的基因线路是如何被破坏的,并进行干预。 另一个应用是器官移植。有很多疾病可以通过无限供应的可移植器官来治疗。但如果想生产器官,我们就需要了解它们在发育过程中是如何产生的,因为我们希望可以生产出一致、可重现并且稳定的器官。

"单细胞RNA测序能让你将DNA测序仪用作显微镜,确定单个细胞中的哪些基因具有转录活性。"

Q: scRNA-Seq的独特价值是什么?

CT:单细胞RNA测序能让你将DNA测序仪用作显微镜,确定单个细胞中的哪些基因具有转录活性。这是一种分析单个细胞的分子内容的方法,在实践中,人们感兴趣的是在一个实验中对多个细胞进行这种分析。

scRNA-Seq最基础的用途是确定研究的细胞类型和数量。如果某些细胞类型不符合预期的分类,你还能发现新的细胞类型。另一个应用是观察细胞对干扰的反应,例如药物暴露、环境刺激、疾病的引入或基因编辑。通常情况下,一些基因会随之改变。测量哪些基因有变化能帮助你确定干扰的机理,以便推测细胞中的分子机制。例如,如果您想了解化合物如何杀死癌细胞,那么查看基因表达可能会很有帮助。

Q: scRNA-Seq在发育研究中有什么作用?

CT:把一个细胞交给基因组,而基因组必须解决的问题是它需要对细胞分裂的时间进行编程来产生一个完整的动物。细胞必须在正确的时间和位置增殖,才能发育成肢体,大脑,心脏,肝脏等。它们使用的基因不同,合成的蛋白不同,执行的任务不同。它们共同协作,在生命体中发挥功能。当一个细胞分裂为两个细胞时,这些细胞中的一个或两个会改变其行为方式,成为一种新的细胞。这些命运决定的时间编码在其基因组中。如果对正在发育的动物进行scRNA-Seq实验,你将捕获处于命运决定不同阶段的单个细胞。

“拟时”是我们用来将数据组织成一张图片的概念,该图片代表了整个发育过程中进行命运决定的顺序。有了足够的时间点,你就可以对发育程序如何从一个细胞一直运行到成年的过程形成一个全面的了解。借助scRNA-Seq,你可以测量每个基因的转录情况,可以推断哪些基因在发育的哪个阶段、在哪些细胞类型中处于活动状态,推测哪些基因参与了不同阶段的决定过程。你可以确定导致胰腺中的细胞发育成为胰岛素分泌细胞而不是胰高血糖素分泌细胞的基因。这是对于治疗很重要的命运决定,我们需要去了解。

Q: 进行scRNA-Seq有哪些困难?

CT:单细胞数据集非常庞大。你有数以万计的细胞。我的实验室刚刚发表了一篇论文,我们在化学生物学扰动实验中研究了超过50万个细胞。进行分析可能会耗尽RAM内存。其中一部分可以用软件解决,但这意味着生物信息学人员必须重写所有代码来处理巨大的数据集。

另一个困难是我们所说的稀疏性。在这种情况下,这意味着一个细胞内表达了一个基因的五个拷贝,而你想要检测到它们。你想要知道有5个拷贝,但scRNA-Seq实验方案并不能捕获细胞中的每个mRNA。它们只能捕获一部分拷贝,但你希望能充分捕获大部分的拷贝,以便比较你关注的基因与其他基因的表达。如果捕获的部分不够大,而且总共又只有五个拷贝,那么您很可能碰巧在该细胞中捕获不到该基因的拷贝。这意味着你会在基因没有真正关闭时认为它已被关闭。而这只是因为你没有检测到它。没有证据不能证明它不存在。人们对于什么是处理稀疏性的最佳策略已经进行了大量的讨论,开展了大量的工作。

第三个困难是分类。它包括生物学上的困难和生物信息学上的困难。通常首先要做的是确定细胞的类型以及数据集中每种细胞的数量。 你可以通过了解这些来判断你的实验是否成功。生物学上的困难发生在组织制备时。你必须制备细胞悬液。这个过程可以用许多不同的方法来完成。其中一些方法可能会破坏某些细胞类型,使其他细胞完好无损,并使某些其他细胞未完全分离。进行测序实验后,你会发现细胞中缺少自己最想要的神经元或成纤维细胞。如果你研究的是纤维化,那就很糟糕了。

我们用Garnett4软件解决了生物信息学上的困难。在成纤维细胞的例子中,没有在所有成纤维细胞中表达,而不在其他细胞中表达的完美基因。这之间有一个灰色区域。如果你发现有细胞表达了5个成纤维细胞基因中的4个,它们可能是成纤维细胞,但也可能是其他细胞。人们会绘制细胞集群的图表,每个集群都是一种细胞类型。这是有问题的,原因有3个。第一,这非常慢,并且很费力。第二,由于这不是系统性的,如果改变了聚类标准,则必须回过头重做。第三,如果对一个数据集进行聚类,并将聚类算法应用于其中一个集群,则该集群将分为3个或4个或5个集群。你有1种细胞还是5种细胞?你对转录组如何定义细胞类型和聚类的假设并不正确。

我们想让一位对这个系统有深入了解的细胞生物学家提前写下他们预计每个细胞类型会表达的基因,并将其系统地应用到数据集中,然后根据那些预期对每个细胞进行评分。需要大量额外的机器学习才能让它顺利地工作,最终我们有了Garnett。Garnett是一个分类器,我们希望它能根据类型自动对细胞进行计数。

"我们想让一位对这个系统有深入了解的细胞生物学家提前写下他们预计每个细胞类型会表达的基因,并将其系统地应用到数据集中……最终我们有了Garnett。"

Q: 轨迹分析是什么?

CT:细胞从一种类型转变为另一种类型时,基因的表达是连续的。不会分成两个独立的细胞群。一些基因会先于其他基因开启或关闭。轨迹分析试图按照细胞在转变过程中的顺序和进度来组织细胞。了解这一点很重要,因为在决定过程的早期开启的基因很重要,而之后启动的基因在决定过程中可能不那么重要。以心肌细胞为例,这对于执行心肌细胞的功能(例如跳动)可能很重要,但对于决定其是否成为心肌细胞而言,也许并不重要。

Q: Monocle是什么?

CT:Monocle是一个软件工具,也是一个活跃的研究项目。它引入了用scRNA-Seq进行轨迹分析的理念。Monocle有3个主要版本。早期的版本只能处理几百个细胞的简单实验。在过去的5年里,我的实验室已经发布了更好版本的Monocle,能够利用机器学习根据细胞的基因来组织细胞。它是用R编写的开源程序,任何人都可以免费下载。

第二个版本侧重于更大的数据集,试图鉴定轨迹中的命运决定点,在命运决定点不同细胞的发育方向有所不同。第三个版本的功能相同,但具备了我们进行小鼠胚胎实验所需的规模和复杂度。在该研究中,同时有数百种细胞在分化,并且存在一些特殊的问题需要解决。

Q: SCI-Seq为什么是一项突破?

CT:单细胞组合标签测序5,或SCI-Seq是一种单细胞基因组学研究方案。你可以用它开展RNA-Seq, ATAC-Seq4(一种表观遗传学检测,测量染色体DNA的DNA结合能力)等应用。Darren Cusanovich和Risa Daza分别是Jay Shendure实验室的博士后和正式研究员,他们首先设计了基于组合标签的单细胞实验方案。他们发现,你可以在不实际分离出单个细胞的情况下进行单细胞基因组学研究。

通常,人们一直在做的工作是将悬液中的1个细胞转移到96孔板的1个孔中,再将另一个细胞放入下一个孔中,依此类推,然后用每个孔的细胞建立一个文库。这没有问题,但非常费力,而且扩展性也不太好。

组合标签方法则很不一样。在每个孔中放入很多细胞,对细胞打孔,然后在细胞内进行文库构建的第一步。在RNA-Seq中,第一步是逆转录。然后用与进行反应的孔相对应的序列标记产物。这时细胞仍然完整,将它们混合并转移到新的96孔板中。在SCI-Seq中,你需要在PCR阶段再次进行标记。这意味着你放入测序仪的每个RNA-Seq片段都被标记了2次,一次是在第一个孔中,一次是在第二个孔中,因此有96乘96种可能的组合。如果工作流程中仅使用了1000个细胞,当你看到两个read具有相同的识别条形码时,则可以推断它们来自同一个细胞。你可以进行更多轮标记。你可以使用3个标记板而不是2个,并使用数十万个细胞进行实验。

有许多不同的方法可以实施这个概念,测量不同的内容。你可以在相同的细胞中测量多种内容。在Jay Shendure和我的一篇论文中,我们在相同的细胞中进行了ATAC-Seq和RNA-Seq。所有这些SCI-Seq工作都是与Illumina合作完成的。

Q: 您对刚刚接触单细胞基因组学的人有什么建议?

CT:当我外出访问时,我发现人们对新技术掌握得如此之快,尤其是研究生和博士后,这给我留下了深刻的印象。人们真的很想采用这些新技术。对于考虑进行第一次单细胞基因组学实验的实验室,我想告诉他们,生成数据需要几周的时间,分析数据需要几个月的时间,他们需要先为此做好准备。数据集非常复杂。生物学总是很复杂。特别是RNA-Seq,根据转录推断某些信号通路的动态特征非常困难。

材料也很昂贵。如果实验设置不对,很有可能花了大笔的钱还无法得出结论。你可能会想先做一个小实验,但你可能又会考虑一个更大的实验,使用更多的对照和更好的设计。从长远来看,这可能更便宜。

关于生物信息学,我绝对会先对每种细胞类型中预计会特异性表达的基因一个非常清晰的认识。你需要在此基础上对细胞进行分类,并对你的系统有专业的了解。我们还不能通过程序从转录数据中标记细胞类型来获得更广泛的细胞生物学领域的知识。

做好编程的准备,至少在基本层面上熟悉R或Python,你将需要编写一些代码。充分利用论坛,每个主要工具都有相应的论坛,软件开发人员无法随时查看所有邮件。

"我希望看到所有我们能想象到的单个细胞测量方法,都广泛应用于生物学和医学领域。我认为你可以通过该技术获得其他技术难以获得的信息。"

Q: 单细胞基因组学接下来会怎样发展?

CT:一篇论文刚提出了SCI-Seq的扩展方法,称为sci-Plex。这是一种能分析来自不同条件的数百万个细胞的方法,它能让我们进行药物筛选。我们不是打算构建生物体中所有细胞类型的图谱,而是试图进行大规模扰动实验,建立基因调控的定量模型,揭示扰动的机制。你可以想象利用它来了解一种化合物的作用机制,你知道这种化合物有效,但你不知道它是如何工作的。

Q: 您对单细胞基因组学的长期愿景是什么?

CT:我希望看到所有我们能想象到的单个细胞测量方法,都广泛应用于生物学和医学领域。我认为你可以通过该技术获得其他技术难以获得的信息。我真的很困惑,我们的DNA编码拥有我们遇到的物种中最复杂、最美丽的程序,我想知道它如何从一个单一的静态程序中产生这么多不同的细胞类型,如何完成这么多不同的事情。即使对其中一小部分的了解,例如基因组如何编码器官中细胞空间组织的精确模式,也是一个胜利。

深入了解本文提及的产品和系统:

NovaSeq 6000系统, www.illumina.com.cn/systems/sequencing-platforms/novaseq.html

NextSeq 500系统, www.illumina.com.cn/systems/sequencing-platforms/nextseq.html

参考文献

  1. Trapnell C, Pachter L, Salzberg S. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 2009;25(9):1105-1111.
  2. Trapnell C, Roberts A, Goff L et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 2012;7(3):562-578.
  3. Trapnell C, Cacciarelli D, Grimsby J et al. The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells. Nat Biotechnol. 2014;32(4):381-386.
  4. Pliner H, Shendure J, Trapnell C. Supervised classification enables rapid annotation of cell atlases. Nat Methods. 2019;16(10):983–986.
  5. Cao J, Packer JS, Ramani V et al. Comprehensive single cell transcriptional profiling of a multicellular organism. Science. 2017; 357(6352):661–667