关闭广告

一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军

新智元247人阅读


新智元报道

编辑:元宇

【新智元导读】加州大学伯克利分校等机构的研究人员,近日推出了一种全新的基因组语言模型GPN-Star,可以将全基因组比对和物种树信息装进大模型,在人类基因变异预测方面达到了当前最先进的水平。

让大模型读懂物种关系,这可能吗?

近日,加州大学伯克利分校等机构的研究人员,推出了一个全新、通用且功能强大的GLM框架GPN-Star。


论文地址:https://www.biorxiv.org/content/10.1101/2025.09.21.677619v1

GPN-Star破解了传统GLMs又大又烧算力、且在一些预测任务中不如传统进化模型等短板。

同时,它也克服了GPN-MSA在新数据场景下泛化能力不足等弱点。

GPN-Star的三点重要改进

GPN-Star(Genomic Pretrained Network with Species Tree and Alignment Representations,融合物种进化树与序列比对表示的基因组预训练神经网络),是一种基因组语言模型,它的灵感来自经典进化模型,目标是画出演化轨迹。

研究人员采用了专门的Transformer架构,既能够捕捉到WGA中的进化信号,又能够融入基因组上下文信息(图1A)。


该模型是纯编码器,以掩码语言建模(MLM)为目标训练,输入跨物种WGA窗口和系统发育树。

相比GPN-MSA,GPN-Star实现了三点升级:

  • 训练数据更加多样

    GPN-MSA仅在人类基因组上进行掩码训练,而GPN-Star则在多个物种中预测被掩码的碱基,显著扩大了训练数据的规模与多样性。

  • 显式引入物种间系统发育关系

    GPN-Star通过定制的注意力模块,可能更贴近生物学实现更精准建模。

  • 灵活适配任意比对数据

    无需像GPN-MSA手动剔除近缘物种。

GPN-Star是一个通用且高度灵活的框架,可适用于任何物种的比对数据,仅需最小程度的超参数调优即可获得强大性能。

研究人员先将其在人类基因组落地,分别用目前最大规模的脊椎动物、哺乳动物与灵长类WGA数据分别训练了三个GPN-Star模型(V)、(M)、(P)(图1B)。


研究人员重点分析了2亿参数版本,结果显示其计算资源开销远低于之前的GLM模型。

与以往超长时跨度(例如从原核生物到人类)的GLM不同,GPN-Star聚焦于近缘系统发育距离(图1B)。

很多情况下,建模较短进化历史往往更具优势。尤其是在解释某些类型的遗传变异时,捕捉近期的进化约束效果更佳(图1C)。


致病性编码变异预测

研究人员系统评估了GPN-Star在一系列标准测试集中的预测能力。

对比PhyloP、PhastCons、CADD、以及新一代多物种GLM(如Nucleotide Transformer 2.5B、Evo-2 40B 和 GPN-MSA)之后,GPN-Star (V) 在精确率-召回曲线面积(AUPRC)方面表现最佳,与蛋白语言模型 ESM-1b相当(图 2A)。


研究人员用COSMIC数据库评估了GPN-Star体细胞错义变异的预测性能,结果GPN-Star(V)明显优于所有对比模型,表现出极强的体细胞致病性预测能力(图2B)。


研究人员还在ProteinGym的31个DMS数据集上测试,GPN-Star(V)为基因组级最佳,仅略逊蛋白专用ESM-1b(图2D)。


在非编码任务中,研究人员重点评估致病非编码变异。

评测用OMIM与HGMD,评测结果GPN-Star(M)双基准夺冠(图2E、F)。


考虑到启动子区域在转录起始和基因调控中的关键作用,研究人员还评估了GPN-Star在OMIM启动子变异中的表现,并启动了三个子专用模型:PromoterAI、SpeciesLM和GPN-Promoter。

如图2H所示,GPN-Star(M)在预测性能上明显优于所有对比模型,尤其是在与其他启动子模型的比较中,其提升幅度尤为显著。


定位错义变异

为了进一步评估GPN-Star的实用价值,研究人员还测试了它在对来自英国生物银行(UK Biobank)65个性状的GWAS(全基因组关联研究)精细定位错义变异中,区分潜在因果变异与非因果变异的能力。

在所有参评模型中,GPN-Star(M)在区分这些精细定位的错义变异中表现最好(图2C)。


在对英国生物银行的83个性状的GWAS精细定位数据的基准测试中,GPN-Star(M)再次优于所有其他模型(图2G)。


对于位于启动子区域的精细定位变异,GPN-Star(M)再次超越了所有模型,包括PromoterAI、SpeciesLM和GPN-Promoter(图2H)。


强大的全基因组变异解读框架

上述结果表明,GPN-Star是一个强大、多用途的全基因组变异解读框架。

研究人员在多个基准测试中,观察到基于更长进化时间尺度训练的模型,更容易预测编码变异以及低频、效应大的变异。

而非编码变异以及高频、效应较小的变异,则更适合使用在较短进化时间尺度上训练的模型进行预测。

PhyloP和PhastCons分数在三种进化时间尺度下也呈现出类似趋势,但在每一种时间尺度下,GPN-Star表现都优于二者(图2I)。


考虑到GPN-Star在致病变异和精细定位变异预测中的强劲表现,研究人员进一步探索了它在稀有变异关联分析(RVAT)中的应用潜力,发现GPN-Star提升了稀有变异关联分析的能力。

学习基因组功能元件及依赖关系

GLM模型可以通过预测被遮蔽的核苷酸来学习强大的序列表示。

为探究这一点,研究人员可视化了基因区、cCRE和背景区的基因组窗口嵌入(图4A)。


研究发现,保守序列窗口的嵌入在功能区域上的聚类性更强(图4B),说明GPN-Star在预测时能识别基因组的关键功能元素。


为了进一步分析GPN-Star是否理解基因组「语法」,研究人员系统地对序列中每个位置进行突变,并计算该变异对其它位置预测概率的影响。

在编码酶酪氨酸羟化酶的TH基因启动子及首个外显子区域中,研究人员观察到两个强依赖模块:

一个在编码区,另一个在转录因子CREB的结合位点,该位点突变已知会引发酪氨酸羟化酶缺乏症和肌张力障碍(图4C)。


在HBA1基因中,研究人员也观察到跨外显子的依赖关系。

该基因的内含子极短,能够完整落入模型上下文窗口内。剪接供体与受体区域间的依赖关系尤其显著,与已有研究结果一致。

随后研究人员分析了LDLR启动子,该区域与家族性高胆固醇血症相关,且已通过MPRA等方法广泛研究。

模型可根据碱基依赖图中的块结构准确预测TFBS的位置(图4D),同时还能识别TFBS之间的依赖关系。


最后,研究人员分析了一个被认为受到灵长类特异性进化约束的开放区域。

在该区域的一个潜在TEAD4结合位点附近,GPN-Star(P)模型预测到了最强的依赖信号。

这些结果表明,GPN-Star能够通过协同进化信号学习有意义的碱基依赖结构,且与已知功能依赖一致。

这相较于传统的保守性评分方法(如PhyloP和PhastCons)是一次显著的进步。

为了更直接地评估模型预测与基因组中进化约束之间的关联,研究人员利用了gnomAD v3.1.2提供的等位基因频率数据,该版本汇总了来自76,156名个体的全基因组测序样本。

研究人员重点将GPN-Star与PhyloP和PhastCons进行对比,这两种模型同样基于全基因组比对(WGA)数据来学习进化约束。

为了评估模型对等位基因频率与约束关系的捕捉能力,研究人员选取了这三种模型在脊椎动物、哺乳动物和灵长类三个不同进化时间尺度上的版本,对gnomAD v3中第22号染色体的全部变异进行了预测(该染色体未用于GPN-Star模型训练)。

随后,研究人员按照每个模型的评分分位数对变异进行分组,并对各组中的平均等位基因频率进行比较。

如图5A所示,在所有三个时间尺度下,GPN-Star评分最低分位数中的变异平均频率显著低于对应的PhyloP和PhastCons分组,表明GPN-Star更准确地捕捉了人类基因组中的选择性约束。


研究人员进一步进行量化分析,关注模型评分分布中「最具约束力」的尾部区间。如图5B所示,三种GPN-Star模型在稀有变异富集上均明显优于PhyloP、PhastCons和CADD。


在GPN-Star各版本中,基于脊椎动物训练的模型整体表现最佳,甚至超过了同样以脊椎动物数据训练的GPN-MSA。

进一步按分子功能后果对变异进行分层分析后,GPN-Star在所有类别中均取得最高富集度。

其中,GPN-Star(V)在错义变异中表现最优,而GPN-Star(M)则在同义与非编码变异方面领先,这一趋势与先前基准测试中的观察结果一致。

研究人员研究了上下文相关的突变率差异对模型预测的影响,发现控制突变率变异有助于提升变异效应预测的准确性。

由于GPN-Star是在真实基因组序列上训练的,其预测自然同时反映了突变过程和选择过程的综合影响。

研究人员在致病性预测和复杂性状遗传力方面的结果证明了GPN-Star在人类遗传学中的实用性。

将进化数据与功能基因组数据结合,开发更强大的多模态基因语言模型,是未来非常值得探索的方向。

参考资料:

https://www.biorxiv.org/content/10.1101/2025.09.21.677619v1%20

https://x.com/yun_s_song/status/1969994081251266665

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

深圳楼市的罕见机会,来了

博闻财经 浏览 257

别只穿黑白色 这5种色调让你瞬间变身焦点!

Geear集者 浏览 13516

笑不活了!网友集体冲进李亚鹏账号评论区,各种神评涌现太离谱!

娱乐圈笔娱君 浏览 218

台积电回应承担苹果芯片缺陷成本传闻

界面新闻 浏览 10719

工业知识联盟在深成立 为工业AI的可靠发展筑牢知识底座

南方都市报 浏览 202

勇士副总经理:续约追梦后 邓利维的第二个电话就打给了萨里奇

直播吧 浏览 13599

奥卡福本场比赛数据:1助攻3关键传球17次丢失球权,评分7.2

直播吧 浏览 8798

一滴水循环使用3.5次,台积电回应南科厂水情吃紧:营运未受影响

IT之家 浏览 13781

俄呼吁彻查"北溪"管道被炸真相:这是非常危险的先例

新华社 浏览 53683

巅峰哈登进攻水平?不逊乔丹力压科比

OnFire 浏览 12108

张兰再败诉!​​​国外账户被接管 损失5千万美元

素素娱乐 浏览 14230

东风奕派2026款纳米01、2026款eπ008五座版上市

网易汽车 浏览 176

整形医生称泰勒·斯威夫特怀孕了

阿废冷眼观察所 浏览 148

鸿蒙版微信一周年:从“能用”到“好用” 超2000万下载量背后的进化史

快科技 浏览 293

272马力四驱 全新一汽奥迪Q5L高功率实车曝光

网易汽车 浏览 310

特朗普被指一边喊一边咒骂 让乌方把顿巴斯地区给俄方

红星新闻 浏览 448

夏天穿T恤不注意这3点,真的丑爆了!

她暖 浏览 12269

Vogue这一夜太抓马了

细语 浏览 31

500亿顶流基大动作!招商中证白酒指数基金放开限购

界面新闻 浏览 12021

哈马斯证实达成加沙停火协议

CCTV国际时讯 浏览 306

热议日本3-2巴西:几十年认准一条路;人家从容我们连滚带爬

懂球帝 浏览 256
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1