Customer Interview

一体化的NGS数据分析、管理和存储

BaseSpace Sequence Hub提高了牛津大学的一个实验室的生产力和成本效益,满足了其临床研究团队的需求。

一体化的NGS数据分析、管理和存储

Oxford Lab Streamlines NGS Data Management

简介

今天的新一代测序(NGS)系统会产生大量的数据,这让研究人员对于如何高效地管理、分析和储存这些数据感到困惑。而云端提供的解决方案能实现无限的数据存储、实时测序运行监控以及强大的数据分析工具的访问。对于牛津分子诊断中心(OMDC)Haemato分子诊断实验室的首席临床科学家Helene Dreau(理学硕士)而言,云端还能减少对生物信息学服务的需求。

Dreau女士和她的5人团队负责支持牛津大学和牛津大学医院英国国民保健服务(NHS)信托基金的大型临床和研究团队的基因组学工作。通过Illumina MiSeq、HiSeq 2500和HiSeq 4000系统,她转向BaseSpace Informatics Suite进行数据分析。随着Dreau女士团队的测序系统生成的数据量的增加,她开始使用BaseSpace Sequence Hub,在亚马逊网络服务系统的云端中进行储存、协作和数据管理。

iCommunity采访了Dreau女士,了解了她将NGS数据分析迁移到云端的决定,以及这为她的实验室带来的好处。

Helene Dreau(理学硕士)是牛津分子诊断中心(OMDC)Haemato分子诊断实验室的首席临床科学家。

Q:您的实验室支持牛津的哪些临床研究团队?

Helene Dreau(HD):我们在牛津医院进行与血液疾病(血红蛋白病、血友病、白血病、淋巴瘤等)相关的检测服务。我们提供专门的检测,包括DNA和RNA测序以及流式细胞术。我们是Thames Valley癌症网络的一部分,负责在专业注册医师(医生)转移到地区医院完成培训之前,对他们进行教学。

我们支持牛津医院的临床研究,另外还在与英国国家健康研究所(NIHR)牛津生物医学研究中心合作,该中心致力于推动疾病预防、诊断和治疗领域的创新,并将生物医学研究进展转化为临床实践。我们在开发并验证新技术来支持这些工作。过去十年中,来自这些机构的资金让我们获得了成为基因组学中心需要的最新工具和技术。

Q:您的实验室什么时候开始使用NGS,你们开展了哪种测序应用?

HD:我们在2013年购买了MiSeq系统,随后又增置了HiSeq 2500和HiSeq 4000系统。我们使用了TruSeq Custom Amplicon等靶向测序panel,并且正在开发一个易位panel。我们也进行RNA-Seq。

Q:您如何评价您实验室中的MiSeq和HiSeq系统?

“BaseSpace Sequence Hub能让我们分析、储存和传输数据,而不需要生物信息学员工或服务器。它也支持了我们增加的数据分析工作量。”

HD:我们的Illumina NGS系统性能良好,我对它们非常满意。我已经开始使用Illumina Concierge服务来设计靶向panel。通过在MiSeq系统上使用靶向panel服务,我获得了更高的测序效率和更可靠的结果。效率对我来说极为重要,因为MiSeq系统是我们实验室的主力。检测的设置过程很简单,仪器的清洁和维护也很容易。

Q:您为什么没有为您的实验室团队增加具有生物信息学专业知识的人?

HD:我们没有足够的预算来雇佣生物信息学员工。即使有,我们也很难吸引生物信息学家到NHS实验室来。如果他们很出色,他们会希望在学术界发表文章或在工业界赚取更高的薪水。有经验的生物信息学家对提供常规服务、运行数据分析流程以及评估和发送结果的职位不感兴趣。

Q:您最初购买MiSeq系统时,如何分析和管理数据?

HD:我们使用BaseSpace Software*和MiSeq系统上的MiSeq Reporter软件来进行数据分析。

Q:在增置了HiSeq 2500和HiSeq 4000系统之后,您的数据分析和管理需求发生了怎样的变化?

HD:在我们增置了HiSeq 2500和HiSeq 4000系统后,NGS数据量急剧增加。我们还看到了临床研究中的靶向panel测序申请增加了20%,其他Oxford伙伴也对基因组检测产生了更多的感兴趣。

Q:您考虑过哪些选项来满足NGS数据分析、管理和储存不断增长的需求?

HD:我们建立了一个在现场安装服务器的业务案例,但发现这超出了我们的预算,因此我们需要更改基础架构来提供支持。此外,服务器的持续维护成本也很高。我们在2015年决定开始使用BaseSpace Sequence Hub中的BaseSpace App来进行分析。2016年8月,我们迁移到了具有企业域的BaseSpace Sequence Hub,它提供可扩展的存储(>1 TB)和24小时生物信息学专业服务支持。BaseSpace Sequence Hub能让我们分析、储存和传输数据,而不需要生物信息学员工或服务器。它也支持了我们增加的数据分析工作量。

"BaseSpace Sequence Hub能为我们提供远程NGS数据访问……即使在周末或在异地开会的时候,我们也可以利用它来维持项目的运作并保持及时的响应。"

Q:你们怎样管理对研究NGS数据的访问?

HD:使用BaseSpace Sequence Hub之后,我们有了一个数据分析、储存和分发的平台,这使得共享数据变得更容易、更经济有效。我可以为不同的研究项目创建多个工作组,为特定用户提供访问。研究人员也很喜欢远程查看数据这个功能。

BaseSpace Sequence Hub还能让我控制数据的访问,分别保存我们的研究项目数据。保持我们研究工作的私密性非常重要。

Q:您的团队如何在云端进行数据分析?

HD:在运行panel之后,我们会选择并运行适当的BaseSpace App,然后对产生的数据进行技术审核。我们都是分子生物学家,不是受过训练的生物信息学家。而设置BaseSpace App并进行数据分析的过程如此简单,我们非常满意。

Q:在BaseSpace Sequence Hub中管理项目有其他好处吗?

HD:BaseSpace Sequence Hub能为我们提供远程NGS数据访问,这在我们需要快速返回结果或我们不在实验室时非常有用。如果运行在周六下午结束,我们可以远程启动流程,在云端用Integrative Genomics Viewer(IGV)和VariantStudio软件分析数据。利用BaseSpace Sequence Hub,即使在周末或在异地开会的时候,我们也可以维持项目的运作并保持及时的响应。

我们还可以利用远程访问方便地查看运行趋势。如果发现异常情况,我们可以使用Sequencing Analysis Viewer(SAV)软件并在云端通过Illumina技术支持分享数据。这能让技术支持团队快速确定问题并在必要时派遣工程师。这对我们的仪器管理很有用。

Q:你们使用了哪些BaseSpace App?

HD:BaseSpace Sequence Hub上提供大量的应用程序,覆盖了我们工作的许多方面。对于TruSeq Custom Amplicon panel,我们使用TSCA应用程序。对于开发和验证工作,我们使用FASTQC来检查NGS数据,使用FASTQ Toolkit来操作FASTQ文件,进行接头和质量修整、长度过滤和样本消减。我们可以将某些应用程序加入流程来快速查看数据,然后再用精心设计的流程来进行分析。对于全基因组测序(WGS),我们使用Illumina Whole Genome Sequencing App。对于肿瘤-正常消减,我们使用Tumor Normal App,它会使用Strelka Somatic Variant Caller来检出肿瘤匹配样本中的体细胞小变异、结构变异和拷贝数变化(CNA)。

"没有BaseSpace Sequence Hub,我们需要花费更长的时间和更多的成本才能获得这种水平的数据产出和操作效率。"

Q:BaseSpace Sequence Hub支持国际标准化组织(ISO)认证吗?

HD:作为NHS的用户,我必须经过ISO的认证,我做的每件事都需要进行确认或验证。为了验证我的程序,我必须测试所有参数并确保系统没有损坏。如果我使用制造商提供的系统,例如BaseSpace Sequence Hub,那么验证流程则由制造商责任。我只需要确认它有效。

英国皇家认可委员会(United Kingdom Accreditation Service, UKAS)也要求我的供应商应按照所有相关标准进行认证。BaseSpace Sequence Hub的ISO 27001认证使我无需证明已经在工作流程的这一步骤中实施了QA。

Q:没有BaseSpace Sequence Hub,你们能提供相关的服务吗?

HD:没有BaseSpace Sequence Hub,我们需要花费更长的时间和更多的成本才能获得这种水平的数据产出和操作效率。我们将必须招聘一名对设置程序和系统来储存、管理和分享NGS数据感兴趣的生物信息学家。有了BaseSpace Sequence Hub,我们可以简化数据分析,以经济高效的方式提高生产力,同时为研究人员和临床医生提供安全的数据访问方式。

Q:实验室管理者在将NGS数据迁移到云端之前,应该考虑哪些问题?

HD:如果想使用云端来进行NGS数据的分析、储存和分发,需要考虑很多事情。他们需要确定他们会生成多少数据,将进行哪种类型的分析,以及数据要保存多久。在云端工作的费用不仅仅是许可证的费用。它还包含储存和计算时间的费用。一次NGS运行能产生惊人的数据量。他们没有意识到他们会收到FASTQ、BAM和VCF文件,这些文件会占用云端存储空间,增加成本。他们需要考虑获得的收益是否超过了自己创建生物信息学框架的成本。在我们的案例中,使用BaseSpace Sequence Hub来分析、储存、管理和分享产生的NGS数据是经济高效的方式。即使仅考虑我们的临床工作,购买服务器和雇佣生物信息学家的成本也是我们目前的预算无法承受的。

另外,信息的管理也是一个问题。我们的靶向panel获得的数据都是匿名的,可以维护患者信息的机密性。对于WGS服务,关于维护信息机密性的疑虑依然存在。目前,我们正在通过获得参与者的知情同意书来克服这一问题,但在未来,这将是一个挑战。

Q:您如何看待您实验室未来的发展?

HD:我们正在创建更多靶向panel,希望建立我们自己的私人临床WGS实践方法。我们正在为产前应用以及肿瘤和微小残留疾病(MRD)的早期检测开发游离DNA检测。我们还计划将我们的WGS数据与RNA-Seq整合起来。

Q:你们能在BaseSpace Sequence Hub中进行这些应用的数据分析吗?

HD:我们已经在BaseSpace Sequence Hub中开发了一些分析流程。我们的企业账户为我们提供了24小时生物信息学专业服务支持,我们将与Illumina合作,共同开发一些新的BaseSpace App。

深入了解本文提及的Illumina系统和产品:

BaseSpace Sequence Hub

Illumina Sequencing Platforms

NGS Data Analysis

NGS Data Storage

AmpliSeq for Illumina Custom DNA Panel (replaces TruSeq Custom Amplicon)

*TruSeq Custom Amplicon has been discontinued. The recommended replacement is the AmpliSeq for Illumina Custom DNA Panel.

**BaseSpace Software是BaseSpace Suite的前身。