关于人类自身基因组,灵长类动物“亲戚”能够带给我们哪些启示?

一种基于自然选择训练的新算法能够找出人类的致病变异

关于人类自身基因组,灵长类动物“亲戚”能够带给我们哪些启示?
巴西马米拉瓦可持续发展保护区的洪堡松鼠猴(Saimiri cassiquiarensis)| 摄影:Marcelo Santana
2023年6月1日

每个人的遗传密码中都存在数百万个变异,不同个体间的变异有所不同,从而导致健康状况和疾病风险方面的差异。接受测序的人类基因组数量越多,研究人员就能掌握越多的数据,来比较和预测哪些变异更有可能致病。全球科学家和临床医生共同开展了大量研究,尽管如此,绝大多数变异的功能仍属未知。

遗传风险的预测也受到种族偏向性的影响。全基因组关联研究目录中78%的数据来自欧洲血统的人群;如果训练多基因风险评分时主要使用的是欧洲人群的基因组数据,则在其他种族中应用这些数据时会出现性能不稳定的情况。

要解决此问题,有一种方法是增加测序人群的多样性,但这种方法能够获取的信息仍然有限。因美纳人工智能副总裁Kyle Farh解释道:“人类存在相当严重的人口瓶颈是主要问题。尽管我们有80亿人口,但全人类的遗传多样性仍然与10,000个共同祖先(起源种群)相似。人类物种确实无法提供足够的信息。这一点在几年前就已经明确了,要真正了解人类基因组,仅凭人类基因组测序中的数据远远不够。”

智人 DNA记录的是几十万年的进化史。但为了避免偏向性以及更多地了解人类自身,科学家们正在将探索范围扩大至数千万年,以研究年代更加久远的人类“亲戚”:灵长类动物。

DNA就是活历史

进化是世界上持续时间最长的实验。大自然在一代又一代的进化中不断通过随机突变来测试基因,那些危害动物健康的变异很快就会从基因库中剔除,而那些中性或有益的变异则会留存并传递下去。Farh说道:“这些大自然实验的结果记录在每个物种的基因组中,并一直留存下来,形成一份活档案。”

“灵长目”的物种分类有500多种,包括猿、猴、原猴亚目(例如狐猴和懒猴)以及人类。我们都是相同祖先的后代,尽管在形态上千差万别,但现存灵长类动物与人类之间仍有90%以上的DNA是相同的。在黑猩猩或倭黑猩猩身上发生的突变同样会在人类身上发生,而因美纳科学家的研究表明,如果某种变异在另一种灵长类动物身上是接受自然选择的结果,则该变异有99%的概率不会在人类身上引发疾病。但这一结论不适用于亲缘关系较远的哺乳动物,比如一种在老鼠或狗身上无害的变异,在大猩猩或人类身上可能就是致病的。

在各灵长类物种平行进化的数百万年间,自然选择始终在淘汰致病突变。因此,通过对现代灵长类动物进行测序,我们可以更好地了解哪些变异不会致病。

来自因美纳和24个国家/地区的科学家们刚刚在《科学》(Science)杂志上合作发表了四篇论文,公布他们在一项大型的灵长类动物基因组研究中所取得的成果。该研究对来自233个非人灵长类的800余个动物进行了测序,物种涵盖全部16个科和86%以上的现存属。但测序只是第一步:掌握所有数据之后,还需要进行解读。为此,他们开发了PrimateAI-3D用作数据解读方法。

左:白面僧面猴(Pithecia pithecia),原产于圭亚那地区 | 摄影:Jean-Pascal Guéry。右:维埃拉伶猴(Plecturocebus vieirai),原产于巴西 | 摄影:Marcelo Santana


一种由进化训练得到的算法

大型语言模型ChatGPT因对任何提问均能给出似人反应而受到广泛关注,其人工智能的训练是基于海量的现有写作数据集,因此ChatGPT能够根据之前的对话准确预测下一个听起来最自然的语句。

PrimateAI-3D是一种基于深度学习语言架构的算法,其架构与ChatGPT类似,但建模对象是基因组而不是语言序列。开发人员在算法设计中加入了从人类的猕猴和猩猩“亲戚”身上淘汰的变异,通过这种方式有效利用自然选择来训练算法参数。神经网络会学习基因中代表良性变异的位置,并通过自然淘汰过程判断哪些区域如果发生突变可能致病。PrimateAI-3D通过这种方式学习如何准确预测人类的致病变异,准确度高于任何人类预测。

《科学》(Science)杂志上发表的研究使用以下4种专病队列比较了PrimateAI-3D与其他15种机器学习方法:神经发育障碍队列、自闭类障碍队列、先天性心脏病队列和英国生物样本库(UK Biobank)。前三个队列是迄今为止最大规模的测序研究之一,研究对象包括患病儿童及其未患病的父母;而英国生物样本库中的50万个基因组则大多来自普通人群中的健康成员。该研究还在国立卫生研究院的ClinVar数据库和其他数据集中评估了该算法。

在6种不同的临床基准方面,PrimateAI-3D的表现均远胜过所有其他现有方法。这些发现有助于研究人员优先考虑一小部分最有可能影响人类健康的变异。

此外,PrimateAI-3D在预测英国生物样本库队列中的常见病患病风险升高人群方面表现出惊人的提升,特别是在非欧洲种族群体中。该研究的主要作者之一Farh表示:“我们发现,普通人群中有97%的健康人群携带临床相关疾病的高度可干预变异,到目前为止,我们掌握的信息是患有罕见病或癌症才需要接受基因组测序,但实际情况似乎是,人群中每个健康个体的基因组中都存在极具影响力的变异,这些变异具有临床相关性,而且至关重要。”

White-fronted capuchin monkeys (Cebus albifrons), native to northwest South America | Photo by Rebecca Still


回馈长臂猿和狒狒

除对人类健康有益外,上述工作对于灵长类动物的保护也有积极作用。Farh表示:“我们急于收集这些数据是因为这些物种中的大多数正在迅速走向灭绝。”动物DNA中记录的遗传多样性不仅告诉我们该物种种群中还有多少个体,还能够追溯各代种群大小随时间的变化。“上述信息能够告诉我们这些物种的衰退速度有多快,以及它们还剩下多少时间。答案就在它们的基因组里。”

PrimateAI-3D的开发人员发现,其性能与接受训练所使用的数据集的大小直接相关,因此测序的灵长类动物物种数量越多,这项工具就越完善。猴类和猿类动物能够帮助我们,我们也能够帮助它们。Farh表示:“我认为这只是一个开始,我们还能够从中学到很多。而且我觉得人类可以通过其他物种加深对自身物种的认知这种想法非常浪漫。”

PrimateAI-3D将通过即将发布的因美纳互联软件产品对基因组学界广泛开放。

Recent Articles

两名系统集成科学家如何确保在MiSeq i100上顺畅运行工作流程
两名系统集成科学家如何确保在MiSeq i100上顺畅运行工作流程
因美纳率先发起“抗击癌症”运动
因美纳率先发起“抗击癌症”运动
新兴的群体基因组学革命
新兴的群体基因组学革命