Leadership Perspectives

Illumina 引领基因组人工智能行业发展

该公司已证实其具备解码基因组未知区域的能力

Illumina 引领基因组人工智能行业发展
照片由Illumina提供
2025年11月18日
作者:Kyle Farh,杰出科学家兼人工智能副总裁

在基因组学发展的漫长历程中,数据获取曾是最大难题。首个人类参考基因组图谱耗时13年、耗资数十亿美元。随着技术持续优化,如今基因组测序仅需数小时即可高效完成,成本更降至历史水平的极小比例,为科研与临床应用提供了可靠支持。

如今,该行业每年产生超过400亿GB的基因组数据。 获取数据已不再是问题,理解数据才是。与参考基因组相比,我们每个人大约有400万个遗传变异,这些变异使我们成为独特的个体,其中99.9%的变异功能是未知的。我们知道,哪怕是一个微小的变异,也可能导致毁灭性的遗传疾病。但是,我们如何从这海量的数据中筛选出无害变异和致病变异呢?

这项任务超出了人类的能力。基因组科学新时代的关键是人工智能(AI)。

过去两年,随着ChatGPT等大型语言模型的广泛应用,人工智能的热潮已达到顶峰。这些应用借助所有已发布作品的语料库生成新的文本、图像甚至视频,其革命性毋庸置疑。但区别在于,这些人类创作的信息源一开始便具备高度结构化的特征,而基因组生物学则复杂几个数量级。

但我们能够破译这套密码,而且已经在行动。

我们最近宣布成立BioInsight,这是Illumina的一个新业务部门,将公司的软件、信息学、AI、制药数据合作伙伴关系以及大型国家基因组计划团队聚集在一起,以满足行业对大型、全面数据解决方案的需求。我很高兴继续领衔该业务的 AI 分支;过去七年,我们始终致力于开发全球领先的基因组人工智能算法,至今仍在不断迭代。

这些算法已贯穿整个基因组工作流程:在测序环节,它们实时校正错误、质控把关,并把原始信号更快转化为可用数据;在二级分析中,它们以更高精度检出变异;而在三级分析——即判定变异临床意义、从数百万位点中锁定真正致病的少数几个——我们的旗舰算法表现尤为出色。更重要的是,这不仅关乎技术能力,更关乎基因组 AI 能为人类健康带来的实际改变。

Splice AI, PrimateAI-3D和PromoterAI

2019年,我们发布了SpliceAI。这个深度神经网络能够识别隐性剪接突变,它们不直接编码蛋白质,却决定了蛋白质编码序列。人类基因组超过98%属于非编码区,但非编码变异仍可能致病,忽视它们将带来风险。这些变异虽位于经典剪接位点之外,却能破坏mRNA正常剪接模式,已证实与儿童发育障碍及癌症相关。当时同类第三方工具对前体mRNA剪接位点的预测准确率仅22%–30%,而SpliceAI达到95%。

2023年,我们在前一款模型成功的基础上再进一步,意识到要预测人类蛋白质编码变异的致病性,最好把视野扩展到人类之外。

尽管人类最近的共同祖先生活在大约6000万年前,但人类(Homo sapiens)与其他灵长类动物共享超过90%的DNA。Illumina团队推断,若能比对尽可能多的灵长类基因组,找出它们共有的变异,就可反推出这些序列既然未被自然选择淘汰,在人类身上也应属无害;排除这些无害位点后,便能更精准地锁定真正的致病变异。

为此,我们启动了迄今最大规模的灵长类测序项目:覆盖全球、涵盖全部16个科233个物种的800多个个体。凭借这套数据,我们的新一代核心算法PrimateAI-3D实质上以“进化”本身为训练集,并于当年6月在《Science》发表了研究成果

就在今年夏季,我们再次把研究范围延伸至非编码基因组,推出PromoterAI。这个深度学习模型能够在启动子区域找到致病变异,启动子区域是基因前面的调控序列,定义了基因转录的起始位置,并使其能够制造RNA和蛋白质。

即使一个基因的蛋白质编码序列没有变异,该基因的启动子区域的突变也可能阻止其正常表达。事实上,我们在《科学》杂志上发表的论文发现,启动子片段对罕见疾病的遗传原因的贡献高达6%。若将PromoterAI、PrimateAI-3D与SpliceAI联合使用,诊断率可比单独依赖蛋白截短变异提高一倍。

照片由Illumina提供

市场竞争力无可匹敌

如今无数企业都在投资人工智能——甚至包括基因组AI。但对我们许多同行来说,基因组学只是他们同时追求的众多项目中的一个。而在Illumina,基因组学就是我们的核心业务,是我们深耕27年的专业领域;我们自豪地将我们的算法与世界上最好的算法进行对比。

PrimateAI-3D的一项惊人事实:其在《科学》杂志上的研究将其与其他15种机器学习方法进行了比较,以检测六个不同临床基准和四个队列(英国生物银行、神经发育障碍队列、自闭症谱系障碍队列和先天性心脏病队列)中的致病变异。结果,PrimateAI-3D不仅在每个类别中检测到最多的变异——且没有任何竞争者能在超过一个类别中拿到第二。

与此同时,我们并不是孤军奋战。基因组学(以及多组学)的数据挑战将需要需要整个生态共建,,才能真正造福人类健康。我们正携手各方:成立“基因组发现联盟”共享专有数据;与NVIDIA合作推进多组学数据分析与解读平台;与Tempus利用其数据平台训练算法;并将AI分析技术与阿斯利康的顶尖智慧相结合。

制药企业已开始意识到AI在药物开发中的巨大潜力。依托各部门杰出人才的协同力量,Illumina全新的BioInsight业务将构建大规模数据资产与AI解决方案,供合作伙伴和客户使用,共同推进下一波生物学发现。

我对我们的AI团队所取得的成就感到非常自豪,更期待与大家分享他们即将揭晓的新突破。证据显而易见:基因组学的下一个时代已经到来,而我们正引领前行。

前瞻性声明的使用
本文可能包含前瞻性声明,这些声明涉及风险和不确定性。未来的实际结果可能与任何前瞻性声明存在重大差异。例如,(i)研究、开发和推出新技术存在重大挑战;(ii)我们和我们的合作伙伴部署新产品、服务和应用以及扩大基因组相关产品和服务市场的能力;以及(iii)多方合作相关的挑战,包括我们对这些合作伙伴表现的依赖,以及其他详细记录在我们向证券交易委员会提交的文件中的因素,包括我们最近提交的10-K和10-Q表格。我们没有义务,也不打算更新前瞻性声明。

近期文章

解码基因组,共抗抗菌药物耐药性
解码基因组,共抗抗菌药物耐药性
内布拉斯加在精准肿瘤学领域的独到经验
内布拉斯加在精准肿瘤学领域的独到经验
将肿瘤学领导者联合起来,推进基因组学的可及性
将肿瘤学领导者联合起来,推进基因组学的可及性