Customer Interview

利用LipidSeq寻找血脂异常相关变异

罗伯兹研究所的研究人员设计了用于分析脂相关遗传变异的定制靶向重测序panel。

利用LipidSeq寻找血脂异常相关变异

寻找血脂异常相关变异

简介

心血管疾病是北美地区的主要死亡原因之一。1有许多遗传性疾病和突变会增加人们患心血管疾病的风险因素,例如高胆固醇、高血压和糖尿病。这些遗传缺陷中有很多涉及脂代谢和血脂水平的调控。鉴定这些遗传变异可以促进患者干预,增加对这些疾病的分子生物学机制的了解。

在以前,遗传变异用毛细管电泳(CE)或桑格测序鉴定。但这一反复的过程费时费力。而新一代测序(NGS)等新技术能让科学家扩大研究范围,缩短发现路径。

加拿大安大略省伦敦市罗伯兹研究所Blackburn心血管遗传学实验室的主任Robert Hegele医学博士使用桑格测序研究与血脂异常以及相关代谢疾病有关的遗传变异已超过20年。2013年,他的团队开始转向NGS,使用MiSeq系统和Nextera Rapid Capture Enrichment。iCommunity采访了研究主任John Robinson,了解了他们的LipidSeq靶向重测序panel的开发以及他们如何用它发现新变异。

John Robinson是加拿大安大略省伦敦市罗伯兹研究所Robert Hegele博士实验室的研究主任。

Q:您什么时候开始参与脂质的研究?

John Robinson(JR):我在罗伯兹研究所大约工作了22年,与我们的主任Rob Hegele博士的合作超过了12年。Hegele博士是内分泌学家,专攻人类脂代谢紊乱,例如血脂异常和脂肪代谢障碍。

Q:你们最初怎样收集可能造成脂代谢紊乱的变异的数据?

JR:Hegele博士在我们的存储库中拥有近12,000个不同的人类DNA样本。我们的典型工作流程始于Hegele博士在他的诊所见到一名血脂水平异常的患者。在患者同意成为受试者并签署了知情同意书之后,我们获得他的样本。根据其临床诊断、脂质水平和家族史,我们的实验室工作人员选择了候选基因来进行研究。

例如,如果有证据表明受试者具有家族性高胆甾醇血症,我们就对低密度脂蛋白受体基因(LDLR)进行测序。我们会选择疑似含有致病性变异的外显子,然后再研究基因中的其他外显子。如果没有在LDLR基因中找到突变,我们就继续研究脂质级联反应中的下一个基因。我们会对这些外显子逐个进行这些分析工作流程,每次1000 bp。有些基因非常大,有40–50个外显子。我们可能需要一个月的时间来对每个DNA样本进行桑格测序,才能找到致病性变异。除了研究时间,进行测序、样本制备、PCR等过程都需要成本和劳动力。

"大约4年前,我们了解到NGS平台提供的重测序panel化学技术。我们实验室的工作人员一起列出了一份我们需要的基因清单。"

Q:是什么让你们决定转向使用基于NGS的靶向重测序?

JR:大约4年前,我们了解到NGS平台提供的重测序panel化学技术。我们实验室的工作人员(包括博士生、研究助理、技术员和Hegele博士)一起列出了一份我们希望在测序panel中看到的基因清单。

我们认为该panel包含了几个层面的内容。第一层是已经确定的经典血脂异常单基因。这些基因如果发生突变,可能会导致相应的表型。第一层的基因包含升高的低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)和高甘油三酸酯(TG)这些表型。这些是Hegele博士在诊所里看到的典型表型。

Hegele博士也遇到过由脂肪代谢障碍造成血脂异常的患者,以及遗传形式的糖尿病(例如青年成熟期发病型糖尿病)患者。panel的第二层基因包含与血脂异常的次级病因相关的基因。第三层是我们感兴趣的以及发现的脂质基因。这些基因已经在动物模型中鉴定过,但还没有人类基因变异的报道。这三层基因形成了我们现在称为LipidSeq的69个基因的panel。我们发表了描述该panel的论文,其中一篇发表在《脂质研究杂志》(Journal of Lipid Research)上。2,3

Q:你们如何使用该panel来发现变异?

JR:我们目前每周使用MiSeq处理24个样本。MiSeq系统会产生24对FASTQ文件,然后进行比对、局部重比对,去除PCR重复,然后再检出变异,生成24个VCF文件。我们会注释VCF文件,以便鉴定可能导致该表型的家族性变异和新型变异。

Q:除了单基因变异,你们能鉴定多基因变异吗?

JR:是的,我们可以用LipidSeq panel来鉴定多基因变异。我们鉴定了另一个维度的特定性状的遗传易感性,称为多基因性状评分。我们使用了已发表的全基因组关联研究(GWAS)中鉴定出的单核苷酸多态性(SNP)靶点,例如报道的受试者的GWAS SNP具有不同的等位基因模式,其中一个等位基因会造成受试者出现相关性状。以前,我们会用TaqMan检测来进行这些分析,会检测一个群体中的一个SNP。例如,我们的panel中除了有与升高的LDL-C相关的多个基因外,还有10个与升高的LDL-C相关的GWAS SNP靶点。对于每个SNP靶点,具有无性状的纯合LDL-C等位基因的受试者评分为0。具有杂合高LDL-C等位基因的受试者评分为1,具有纯合高LDL-C等位基因的受试者评分为2。对于每个SNP,受试者评分可能是0、1、2。如果有10个SNP可以影响性状,受试者可能具有0至20的多基因性状评分。之后,我们使用了加权因子。

"我们可能需要一个月的时间来对每个DNA样本进行桑格测序,才能找到致病性变异。除了研究时间,还有成本和劳动力。"

Q:你们在开发LipidSeq panel的过程中遇到了哪些困难?

JR:这看起来很简单,但我们必须学习如何生成BED文件,它是一个保存为文本文件的Excel文件,这样我们才能为LipidSeq panel基因的外显子区域设计捕获探针文件。我们曾经通过管理加州大学圣克鲁兹分校(UCSC)基因组浏览器的记录来手动定位给定基因每一个选择性异构体的区域。问题是如何获得一个考虑到某些转录本的选择性异构体的BED文件。如果做得不对,可能会影响寡核苷酸准确捕获DNA的能力。我们也通过反复设计了解到,必须适应GC含量和重复序列区域,才能获得足够的覆盖深度,进行准确的基因型检出。BED文件必须能准确代表panel中探针的目标区域,这一点极为重要。最后,我们还创建了生成这种BED文件的脚本。我们正在使用我们设计的第三版LipidSeq panel,并希望能在2017年使用第四版。

Q:用DesignStudio软件开发LipidSeq panel的感觉如何?

JR:使用DesignStudio软件来设计LipidSeq panel非常方便。在设计了BED文件,根据外显子边界进行了正确的碱基对填充之后,我们发现我们的panel包含700 kb针对编码外显子和SNP的捕获寡核苷酸。然后我们开始利用MiSeq系统的属性。我们了解了样本多重分析和不同的测序试剂盒,确定了我们获得到多少read以及我们能实现的覆盖深度。

Q:LipidSeq panel的工作流程是怎样的?

JR:我们每周处理24个样本,周转时间大约为2周。将DNA从基因组浓度稀释到5 ng/µL并非易事,但这是可行的,这个步骤需要几天的时间才能完成。最初,我们使用Nextera Rapid Capture Custom Enrichment Kit来同时运行12个人类DNA样本。在MiSeq v3 Reagent Kit推出之后,我们现在可以同时运行24个样本。

目前,这是一个为期2周的过程。在第1–3天,我们会用Nextera Rapid Capture Custom Enrichment Kit运行24个DNA样本,然后在MiSeq系统上进行24重测序。将24对FASTQ文件提交给我们的服务器后,再使用CLC Genomics Workbench软件批量处理这些文件,生成用于注释流程的VCF文件。

"LipidSeq panel的产出和周转时间与桑格测序几乎没有可比性。使用LipidSeq panel在MiSeq系统上对24个样本进行测序,每个人会产生700 kb的测序数据……而桑格测序每次运行只能产生1000 bp的数据。"

Q:与使用桑格测序鉴定变异相比,LipidSeq panel在MiSeq系统上的产出和周转时间如何?

JR:LipidSeq panel的产出和周转时间与桑格测序几乎没有可比性。使用LipidSeq panel在MiSeq系统上对24个样本进行测序,每个人会产生700 kb的测序数据。在2周内,我们就能获得已注释并按罕见程度和致病性分类的文件,而且还包含单基因和多基因变异。而桑格测序每次运行只能产生1000 bp的数据,这是对致病性变异的外显子的最佳猜测。此外,你还必须使用TaqMan来检测才能获得多基因性状评分。

Q:MiSeq系统产生的数据质量如何?数据如何分析?

JR:MiSeq系统运行良好,它能产生很好的数据集。我们的生物信息学软件可以同时处理批量的样本,产生高质量的VCF和注释文件。在得到这些文件后,我们会让研究助理来审核每个数据。最后,捕获的700,000个核苷酸会缩减为VCF文件上的约800个核苷酸或框架位点。这800个核苷酸会根据危害性和罕见程度缩减为约20个针对不同血脂异常综合征的候选靶点。此时,我们的工作人员正在审核一小部分内容并形成报告,Hegele博士能以此来与他的受试者交流。

"MiSeq系统是理想的平台。客户需要大量的高质量数据。其他测序技术可能具有更快的周转时间,但它们无法与MiSeq系统的高质量数据匹敌。"

Q:你们怎样将新位点加入LipidSeq panel?

JR:我们会用DesignStudio软件的导入格式来创建标准BED文件,它包含数据表中输入的所有异构体和重复探针设计。DesignStudio软件将从这里接手,为我们提供设计。当软件发出低覆盖度或GC含量警告时,我们通常已经复制了这些探针。我们可以链接到UCSC基因组浏览器来查看探针是什么样的。

Q:你们在使用LipidSeq panel研究的过程中有没有出现过意外的惊喜?

JR:根据我们观察的表型或表型的极端性的不同,某些候选基因会有不同的变异模式,还会有不同的多基因性状评分谱。这是我们正在撰写的科学论文的重点。

到目前为止,LipidSeq panel让我们获得了全部测序的2000个受试者的完整数据集,而无需考虑表型。VCF文件显示每个人有800至1000个变异。这为我们提供了一个机会,让我们可以从评估单个案例(什么变异造成了受试者的表型)转向使用序列核关联检测等工具进行关联检测。因此,我们可以从个体转变到队列和群体,使用NGS来完成其他研究人员用芯片完成的实验。在我们的案例中,我们使用了VCF文件作为受试者的变异检出文件。

Q:你们还用MiSeq系统进行其他研究吗?

JR:我们的MiSeq系统一直在处理我们实验室的样本。我们是伦敦区域基因组学中心(London Regional Genomics Center, LRGC)的客户,该中心是Hegele博士在罗伯兹研究所负责的核心实验室。我们实验室也是安大略脑研究所下属的安大略神经退行性疾病研究计划(ONDRI)的核心实验室。MiSeq系统还在用ONDRISeq重测序panel处理样本,该panel专为鉴定神经退行性疾病相关变异而设计。LRGC的另一个客户开发了基于药物基因组学的panel。LRGC还对许多细菌基因组和转录组进行了测序,并在MiSeq系统上进行了微生物组分析。

Q:研究人员如何看待MiSeq系统的数据?

JR:他们可以提供给我们DNA和RNA样本,我们会将高质量的数据返回给他们,他们对此感到很满意。比如我们会与LRGC的员工合作,建立符合其客户需求的实验。他们也很喜欢MiSeq系统能对小型细菌基因组和转录组进行测序,这样一来,他们就可以使用一个运行卡盒来进行样本的多重分析,从而节约资金,并最终为他们提供高质量的数据集。CLC Genomics Workbench软件能让他们进行不同形式和实验设计的DNA和RNA分析。这些数据集能反映不同条件下细菌转录组的表达差异和复杂环境下的微生物组图谱。

"到目前为止,LipidSeq panel让我们获得了全部测序的2000个受试者的完整数据集……因此,我们可以从个体转变到队列和群体,使用NGS来完成其他研究人员用芯片完成的实验。"

Q:你们为什么选择MiSeq系统?

JR:我们是加拿大第一批拥有Ion Torrent个人化操作基因组测序仪(PGM)的实验室。我认为PGM的产出是一个芯片500 Mb,大芯片理论产出是1 Gb,很明显,这远不及与MiSeq系统的14 Gb理论产出。MiSeq系统是理想的平台。客户需要大量的高质量数据。其他测序技术可能具有更快的周转时间,但它们无法与MiSeq系统的高质量数据匹敌。

Q:Nextera Rapid Capture Custom Enrichment Kit在你们的研究中表现如何?

JR: 我们发现Nextera Rapid Capture Custom Enrichment对我们的LipidSeq研究非常有利。我们学会了利用碱基对填充来确保目标区域有足够的覆盖度。我们通常能在大部分Nextera Rapid Capture Custom Enrichment靶点的编码区域实现200–400倍的覆盖度。

Q:您的实验室对从桑格测序到NGS的转变有什么看法?

JR:我们实验室的一些研究助理和资深员工参与了这样的转变,他们知道NGS在时间和成本方面有多么优秀。然而我们四年级的学生和研究生新生已经开始期待,他们将在两周的周转时间内获得700 kb的数据。

Q:罗伯兹研究所的文化如何为设计LipidSeq panel所需的创造力提供支持?

JR:罗伯兹研究所的文化为其科学家提供了坚实的基础。Hegele博士无疑是其研究领域的世界领导者,他创建了卓越的工作环境和科学项目,吸引着富有创造力的人们。它让我们跳出了桑格测序的思维限制并拥抱新技术,例如NGS。一个最好的例子是将观念转变为在同一个重测序检测中进行外显子重测序和多基因性状评分SNP评分,并在LipidSeq panel上将其转变为现实。这是创造力和洞察力联合的结果,它结合了桑格测序和TaqMan检测工作流程,并将其转化为使用NGS的高通量过程。

了解更多关于本文所提及Illumina系统的信息:

Nextera Rapid Capture Custom Enrichment Kit,
www.illumina.com/products/by-type/sequencing-kits/library-prep-kits/nextera-rapid-capture-custom-enrichment.html

MiSeq系统,www.illumina.com/systems/miseq.html

DesignStudio定制实验分析设计工具,www.illumina.com/informatics/research/experimental-design/designstudio.html

靶向重测序,
www.illumina.com/techniques/sequencing/dna-sequencing/targeted-resequencing.html

参考文献
  1. American Heart Association.Heart disease and stroke statistics – 201y Update: A Report From the American Heart Association.Circulation.2017;135:e146–e603.
  2. Johansen CT, Dube JB, Loyzer MN, et al.LipidSeq: A next-generation clinical resequencing panel for monogenic dyslipidemias.J of Lipid Res.2014;55(4):765–772.
  3. Hegele RA, Ban MR, Cao H, McIntyre AD, Robinson JF, Wang J. Targeted next-generation sequencing in monogenic dyslipidemias.Curr Opin Lipidol.2015;26(2):103–113.