大规模牛基因组测序实现了快速的家畜改良
简介
对牛个体进行全基因组测序(WGS)是使用现有基因组分析技术评估牛品种遗传变异的最佳方法。但是,对于大部分育种人员和研究人员来说,这一选项超出了他们的经济承受能力。因此,公牛、奶牛和小母牛的常规基因分型使用更经济的单核苷酸多态性(SNP)芯片来完成。SNP芯片旨在发现与阳性生产和健康性状,或疾病以及其他阴性性状相关的基因变异。
2012年,当时任职于Agriculture Victoria1的Ben Hayes博士建立了千牛基因组计划2来帮助全球的研究人员了解牛的遗传学特性,促进国际合作。3该计划的初始运行是在HiSeq 3000系统上对来自澳大利亚关键祖先公牛选育品系的238只动物进行测序,平均基因组覆盖度为10.5倍。该计划现在有40个国际合作机构,2700头奶牛和肉牛,已鉴定了约9000万个遗传变异。全世界的研究人员和育种人员都能受益于用此数据作出的发现,包括致死突变的鉴定4和牛的最大规模的序列水平全基因组关联研究(GWAS)5。Hans Daetwyler博士是位于澳大利亚墨尔本的乐卓博大学和维多利亚州农业部的高级研究员,他现在领导着千牛基因组计划。他的团队计划在明年进行下一轮运行,会包含更多的动物。
iCommunity采访了Daetwyler博士,了解了计划的起源、它的各种发现,以及未来使用WGS来鉴定与其他培育品种的阳性和阴性性状相关的变异的应用情况。
Hans Daetwyler博士,澳大利亚墨尔本乐卓博大学和维多利亚州农业部的高级研究员。
问:什么是千牛基因组计划?
Hans Daetwyler(HD):千牛基因组计划最初由Ben Hayes博士提出,他当时是我在维多利亚州农业部的上司。当时,对大量的动物进行测序还很昂贵,这限制了它在新旧品种的研究中的广泛应用。研究所没有足够的资金对足以进行填补的个体数量进行测序,填补是从统计学角度推断低密度SNP芯片数据中未观察到的基因型。
千牛基因组联盟的想法是比较牛的全基因组序列,包括普通牛(Bos Taurus)、瘤牛(Bos Indicus)和其他牛(Bos)品种。我们发表第一篇文章时,千牛基因组计划有234头牛和5个国际合作机构。5从那时起,我们几乎每年进行一轮新的分析。每次分析会加入更多的动物,也有更多的合作机构加入计划。到目前为止,我们对2700多头牛进行了测序。
问:千牛基因组计划开始时,您主要负责哪方面的工作?
HD:在计划的最初几年,我负责进行数据分析。合作机构会将它们与参考基因组比对的全基因组序列发给我们。我们会分析BAM文件、组合数据、进行变异检出来鉴定数据集中的SNP和插入缺失。我们会为合作机构提供原始的和经过筛选的SNP,以及计划中所有动物的相关基因型。我们至今还在重复这一流程。
Hayes博士2016年去了昆士兰大学之后,我接手了千牛基因组计划指导委员会主席的工作。
“如果农民能够在小牛出生时或非常小时获得更准确的EBV,他们就可以放心地选择和使用这些个体,比其他方式更早地进行育种。该方法将奶用公牛的世代间隔从5–6年缩短为2年。”
问:研究人员使用那些工具和方法来鉴定致病变异?
HD:十年前,他们使用低密度SNP芯片来鉴定相关遗传区域,可能会对该区域进行靶向测序来鉴定其他变异。在那时,测序很缓慢、昂贵。研究人员使用旧的NGS技术进行靶向测序,只会在他们怀疑携带数量性状基因位点(QTL)的动物中进行。他们没有参考基因组,因此不知道该分析哪里,也不知道涉及的基因数量。他们用这种方法很可能只能鉴定出少量突变。
千牛基因组计划数据库包含基于许多动物的全基因组序列。它大大加速了致病突变的发现过程,提升了全球牛群的遗传增益。
问:为什么提高奶牛和肉牛的遗传增益速度很重要?
HD:除了营养和健康管理,遗传变化是提高畜群生产率和效率,以及改善健康性状的主要手段。遗传增益需要不断积累。随着时间推移,它的表现类似复利。每次作出有利于更好的性能或更好的健康状态的遗传阳性改变,它会保留在畜群中并且阳性效应是复合的。随着时间的推移,农民工作的一个重要组成部分是提高畜群的生产力。
问:基因组选择与此前的选择性育种方法相比有什么优点?
HD:在基因组学之前,农民使用表型选择,它涉及观察个体和后代,并根据其特征选择个体用于育种。他们也会利用近亲的信息进行家系选择。
基因组选择的力量在于它将该信息与远亲的生产、效率和健康数据相结合。基因组选择提高了预测性育种价值(EBV)的准确度,特别是对于年幼的个体。如果农民能够在小牛出生时或非常小时获得更准确的EBV,他们就可以放心地选择和使用这些个体,比其他方式更早地进行育种。该方法将奶用公牛的世代间隔从5–6年缩短为2年。
问:使用基因组选择改良畜群的家畜育种人员的比例是多少?
HD:基因组选择的使用在奶牛和肉牛农民中有差异。与表型选择相反,基因组选择能够使用没有雌性后代的年轻公牛。这些经基因组检测的年轻公牛的使用率在过去几年显著增加。在一些国家,在全部人工授精(AI)用公牛中所占比例超过80%。在澳大利亚,经基因组检测的公牛的使用率约为40%。在澳大利亚肉牛中,它的比例低于奶牛,但是仍比北美的主要肉牛品种高很多。
“计划中的所有动物已经或将要重新与来自加州大学戴维斯分校农业研究所的新参考基因组进行比对。我们希望能获得更好的数据来帮助所有人。”
问:在对祖先公牛进行测序时,NGS与桑格测序相比的优势是什么?
HD:只有拥有大量的由来自NGS的全基因组序列数据,才有可能找出致病或近似致病突变。NGS能让我们以比桑格测序更低的价格对更多的动物进行测序。NGS提高了推断准确性和效率,我们可以据此推断仅进行了SNP芯片基因分型评估的个体的序列表型。这是最大的优势。
NGS的优点也影响了功能基因组研究。使用NGS的RNA测序和染色质免疫沉淀(ChIP)测序提供了多个个体的功能信息。我们使用该信息搜索了之后可用于直接基因分型的近似致病突变。对这些突变直接进行基因分型也提高了对与训练群体相关度较低的品种和个体的预测准确性。
问:如何鉴定关键祖先公牛?
HD:有多种方法可用于鉴定关键祖先公牛。主要方法是选择家系并鉴定哪些个体引起了该家系中的大部分遗传变异。更新的方法使用了基因分型乃至群体中的单倍型来分析多样性。根据是否具有大部分单倍型或是否是群体中单倍型集强有力的补充来选择关键祖先。另一个方法是分析具有已测序群体没有的单倍型的个体。
问:千牛基因组数据库中已测序的个体总数是多少?包括哪些牛品种?
HD:我们超过了最初的1000个个体的目标。在最近的分析运行中,我们有2700多个个体,而且我们还打算开始新一轮1000头公牛的运行。计划中的所有动物已经或将要重新与来自加州大学戴维斯分校农业研究所的新参考基因组进行比对。我们希望能获得更好的数据来帮助所有人。
千牛基因组数据库中的奶牛种群略多于肉牛种群。计划中的主要种群是荷斯坦牛,约占20%。安格斯牛是第二大种群,然后是瑞士褐牛。我们的数据库中也有双用途的牛,包括西门塔尔牛和德国菲纳克韦牛。最近,还引入了很多瘤牛,包括来自澳大利亚的婆罗门牛。
问:千牛基因组团队已经鉴定了多少新的牛标记?
HD:在我们启动千牛基因组计划前,研究人员在分析中最多使用600,000个变异。在我们用240头牛进行的第一次运行中,我们仅在普通牛中就鉴定了2500–2700万个SNP和插入缺失。现在,仅在普通牛中,我们就有约4000万个。如果加上瘤牛、牦牛和其他亚种,总共有约8000万个经过筛选的变异。
“千牛基因组数据库通过在动物育种中更早地使用WGS数据,加速了牛的研究。”
问:千牛基因组数据库对研究人员有什么意义?
HD:千牛参考基因组数据对于研究人员有两方面的价值。首先,研究人员可以将它作为参考集,用来推断具有SNP芯片基因分型数据的牛群个体数据集中的全基因组序列。然后,他们可以进行强大的GWAS并利用WGS研究不同的基因组选择方法。4
它也可以让研究人员分析诱发性或致死性隐性疾病突变。利用千牛基因组数据集作为对照,研究人员可以使用筛选策略,将搜索范围缩小到较小的基因组区域。
问:全世界任何地方的任何研究人员都可使用该数据库吗?
HD:千牛基因组数据库对加入计划并同意与联盟分享数据的研究机构开放。对用该数据进行的研究类型有一些限制。但是,联盟中的研究人员不可以在他们的研究机构以外分享数据。例如,如果一个研究人员的合作者希望分析千牛基因组数据,则该合作者必须成为计划的成员。
目前,我们在全球有38个合作机构。千牛基因组计划促成了许多重要的合作。这是其持久的好处之一。
问:研究人员利用千牛基因组数据库作出了哪些发现?
HD:千牛基因组数据库中的WGS数据非常有价值,支持了许多应用育种研究和其他研究。研究人员使用千牛基因组数据库鉴定了多个产奶性状的阳性变异。6另外,研究人员还用该数据也鉴定了许多致病突变。例如,我们的法国合作者发现了胚胎致死突变的致病突变,在此之前,即使我们知道它们存在,却从未发现这些突变。7
序列水平GWAS提高了我们对性状结构的理解,支持了功能研究。例如,WGS数据可进行QTL研究的填补。研究人员还使用WGS数据鉴定了SNP组并按重要性进行了排序,用于改进基因组预测。8–11
“HiSeq系统的通量较高,我们能以低廉的价格进行WGS、RNA-Seq和ChIP-Seq。数据质量非常好,这些系统一直是我们进行WGS的主力军。”
问:这些发现如何影响育种人员?
HD:千牛基因组数据库通过在动物育种中更早地使用WGS数据,加速了牛的研究。致病突变的发现对育种人员有直接的积极影响。发现突变后,它们立即被引入SNP芯片来鉴定牛群中的携带者。AI的过程中排除了这些个体,这降低了牛群中致死突变的频率。
现在,我们拥有所有群体更完整的SNP和插入缺失变异数据,可以设计更好的SNP芯片。我们不再依赖于因以“足够好”的频率出现,推断为致病性的随机SNP,而是用我们知道是致病性并且会直接影响性状的SNP来丰富芯片。
问:你们用什么NGS系统进行WGS?
HD:我们用两台HiSeq 3000系统进行测序,另外还有MiSeq和NextSeq 500系统。HiSeq系统的通量较高,我们能以低廉的价格进行WGS、RNA-Seq和ChIP-Seq。数据质量非常好,这些系统一直是我们进行WGS的主力军。我们使用MiSeq系统来进行需要read更长的应用。
我们正在研究是否要将HiSeq系统升级为NovaSeq 6000系统,NovaSeq 6000系统可让我们在一台仪器上进行大规模WGS和通过测序进行的基因分型(GBS)。
问:千牛基因组的通过测序1000多个基因组建立物种数据库的方法是否用于其他家畜或植物物种?
HD:我们正在一个绵羊的类似项目SheepGenomesDB中使用此方法。12我们对935只绵羊进行了测序,从NCBI或EBI短read序列档案中下载了原始数据,并与新西兰的AgResearch和布里斯班的CSIRO等合作者一起对其进行了处理。我们进行了变异检出,用基因、SNP和插入缺失创建了*.vcf文件并在欧洲变异数据库(European variant archive)公开了数据。13
我认为这一方法也可以用于植物。我确定它已经用于拟南芥和一些主要的作物。但是,某些植物的基因组非常大。小麦基因组有170亿个碱基对。这使得进行WGS更加昂贵,分享数据势在必行。我们在小麦中进行了外显子组测序,部分的原因是价格较低。相反,加拿大低酸油菜籽的基因组较短,仅有12亿个碱基对。这使得进行WGS相对便宜,即使是以10倍的测序深度。
植物的其他问题是有些物种是多倍体,这让测序和基因组装很复杂。多倍体植物的亚基因组之间有直系同源区域,短read能以相同的准确性定位到两个、三个或四个位置。通常,多倍体植物基因组的质量比动物或人类的基因组低。
“随着测序价格的下降,GBS有可能会取代SNP芯片。NovaSeq 6000系统较高的产出和较低的价格可能会改变未来的成本结构。”
问:您认为GBS会取代SNP芯片基因分型吗?
HD:今天牛和绵羊的大部分常规基因分型是用SNP芯片完成的,目前,SNP芯片能以比GBS低的价格提供高质量的数据。GBS的测序覆盖度较低,存在一些问题,难以区分测序错误和正确的等位基因。SNP芯片也能利用比基于测序的基因分型质量低的DNA,这有助于工业应用。
尽管如此,对于在未来GBS或SNP芯片是否是最好的方法,我仍保持开放的态度。我关注任何以最低价格提供最高质量数据的方法。随着测序价格的下降,GBS有可能会取代SNP芯片。NovaSeq 6000系统较高的产出和较低的价格可能会改变未来的成本结构。
问:千牛基因组计划接下来要做什?
HD:我们正在撰写一篇论文,覆盖了我们新一轮的测序、数据分析和参考基因组。全部的38个合作研究机构也在发布数据。
我们测试了多种变异检出软件,将在这一轮的分析中从SAMtools迁移到GATK HaploType Caller14。我们将增加千牛基因组数据库,覆盖超过3000个牛基因组,并且会包含更多公开数据。我们希望,使用新的更大的参考基因组后,我们能看到数据质量的提高和更好的填补,得到更好的结果。
深入了解本文提及的系统:
参考文献
- Agriculture Victoria, agriculture.vic.gov.au/agriculture.Accessed January 3, 2019.
- 1000 Bull Genomes Project, www.1000bullgenomes.com/.Accessed January 3, 2019.
- Hayes BJ and Daetwyler HD.1000 Bull Genomes Project to Map Simple and Complex Genetic Traits in Cattle: Applications and Outcomes.Annu Rev Anim Biosci. doi: 10.1146/annurev-animal-020518-115024.Epub ahead of print.
- Bouwman AC, Daetwyler HD, Chamberlain JA, et al.Meta-analysis of genome-wide association studies for cattle stature identifies common genes that regulate body size in mammals.Nat Genet.2018;50:362−367.
- Daetwyler HD, Capitan A, Pausch H, et al.Whole-genome sequencing of 234 bulls facilitates mapping of monogenic and complex traits in cattle.Nat Genet.2014;46:858−865.
- Pausch H, Emmerling R, Gredler-Grandl B, et al.Meta-analysis of sequence-based association studies across three cattle breeds reveals 25 QTL for fat and protein percentages in milk at nucleotide resolution.BMC Genomics.2017;18:853.
- Michot P, Fritz S, Barbat A, et al.A missense mutation in PFAS (phosphoribosylformylglycinamidine synthase) is likely causal for embryonic lethality associated with the MH1 haplotype in Montbéliarde dairy cattle.J Dairy Sci.2017;100:8176−8187.
- Brøndum RF, Su G, Janss L, et al.Quantitative trait loci markers derived from whole genome sequence data increases the reliability of genomic prediction.J Dairy Sci.2015;98:4107−4116.
- VanRaden PM, Tooker ME, O’Connell JR, et al.Selecting sequence variants to improve genomic predictions for dairy cattle.Genet Sel Evol.2017;49:32.
- Raymond B, Bouwman AC, Schrooten C, et al.Utility of whole-genome sequence data for across-breed genomic prediction.Genet Sel Evol.2018;50:27.
- MacLeod IM, Bowman PJ, Vander Jagt CJ, et al.Exploiting biological priors and sequence variants enhances QTL discovery and genomic prediction of complex traits.BMC Genomics.2016;17:144.
- SheepGenomesDB, Resources for the Sheep Genomics Community, sheepgenomesdb.org/.Accessed January 3, 2019.
- European Variation Archive, www.ebi.ac.uk/eva/.Accessed January 3, 2019.
- GATK.Haplotype Caller—Call germline SNPs and indels via local re-assembly of haplotypes.software.broadinstitute.org/gatk/documentation/tooldocs/3.8-0/org_broadinstitute_gatk_tools_walkers_haplotypecaller_HaplotypeCaller.php.Accessed November 29, 2018.