关闭广告

一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军

新智元2072人阅读


新智元报道

编辑:元宇

【新智元导读】加州大学伯克利分校等机构的研究人员,近日推出了一种全新的基因组语言模型GPN-Star,可以将全基因组比对和物种树信息装进大模型,在人类基因变异预测方面达到了当前最先进的水平。

让大模型读懂物种关系,这可能吗?

近日,加州大学伯克利分校等机构的研究人员,推出了一个全新、通用且功能强大的GLM框架GPN-Star。


论文地址:https://www.biorxiv.org/content/10.1101/2025.09.21.677619v1

GPN-Star破解了传统GLMs又大又烧算力、且在一些预测任务中不如传统进化模型等短板。

同时,它也克服了GPN-MSA在新数据场景下泛化能力不足等弱点。

GPN-Star的三点重要改进

GPN-Star(Genomic Pretrained Network with Species Tree and Alignment Representations,融合物种进化树与序列比对表示的基因组预训练神经网络),是一种基因组语言模型,它的灵感来自经典进化模型,目标是画出演化轨迹。

研究人员采用了专门的Transformer架构,既能够捕捉到WGA中的进化信号,又能够融入基因组上下文信息(图1A)。


该模型是纯编码器,以掩码语言建模(MLM)为目标训练,输入跨物种WGA窗口和系统发育树。

相比GPN-MSA,GPN-Star实现了三点升级:

  • 训练数据更加多样

    GPN-MSA仅在人类基因组上进行掩码训练,而GPN-Star则在多个物种中预测被掩码的碱基,显著扩大了训练数据的规模与多样性。

  • 显式引入物种间系统发育关系

    GPN-Star通过定制的注意力模块,可能更贴近生物学实现更精准建模。

  • 灵活适配任意比对数据

    无需像GPN-MSA手动剔除近缘物种。

GPN-Star是一个通用且高度灵活的框架,可适用于任何物种的比对数据,仅需最小程度的超参数调优即可获得强大性能。

研究人员先将其在人类基因组落地,分别用目前最大规模的脊椎动物、哺乳动物与灵长类WGA数据分别训练了三个GPN-Star模型(V)、(M)、(P)(图1B)。


研究人员重点分析了2亿参数版本,结果显示其计算资源开销远低于之前的GLM模型。

与以往超长时跨度(例如从原核生物到人类)的GLM不同,GPN-Star聚焦于近缘系统发育距离(图1B)。

很多情况下,建模较短进化历史往往更具优势。尤其是在解释某些类型的遗传变异时,捕捉近期的进化约束效果更佳(图1C)。


致病性编码变异预测

研究人员系统评估了GPN-Star在一系列标准测试集中的预测能力。

对比PhyloP、PhastCons、CADD、以及新一代多物种GLM(如Nucleotide Transformer 2.5B、Evo-2 40B 和 GPN-MSA)之后,GPN-Star (V) 在精确率-召回曲线面积(AUPRC)方面表现最佳,与蛋白语言模型 ESM-1b相当(图 2A)。


研究人员用COSMIC数据库评估了GPN-Star体细胞错义变异的预测性能,结果GPN-Star(V)明显优于所有对比模型,表现出极强的体细胞致病性预测能力(图2B)。


研究人员还在ProteinGym的31个DMS数据集上测试,GPN-Star(V)为基因组级最佳,仅略逊蛋白专用ESM-1b(图2D)。


在非编码任务中,研究人员重点评估致病非编码变异。

评测用OMIM与HGMD,评测结果GPN-Star(M)双基准夺冠(图2E、F)。


考虑到启动子区域在转录起始和基因调控中的关键作用,研究人员还评估了GPN-Star在OMIM启动子变异中的表现,并启动了三个子专用模型:PromoterAI、SpeciesLM和GPN-Promoter。

如图2H所示,GPN-Star(M)在预测性能上明显优于所有对比模型,尤其是在与其他启动子模型的比较中,其提升幅度尤为显著。


定位错义变异

为了进一步评估GPN-Star的实用价值,研究人员还测试了它在对来自英国生物银行(UK Biobank)65个性状的GWAS(全基因组关联研究)精细定位错义变异中,区分潜在因果变异与非因果变异的能力。

在所有参评模型中,GPN-Star(M)在区分这些精细定位的错义变异中表现最好(图2C)。


在对英国生物银行的83个性状的GWAS精细定位数据的基准测试中,GPN-Star(M)再次优于所有其他模型(图2G)。


对于位于启动子区域的精细定位变异,GPN-Star(M)再次超越了所有模型,包括PromoterAI、SpeciesLM和GPN-Promoter(图2H)。


强大的全基因组变异解读框架

上述结果表明,GPN-Star是一个强大、多用途的全基因组变异解读框架。

研究人员在多个基准测试中,观察到基于更长进化时间尺度训练的模型,更容易预测编码变异以及低频、效应大的变异。

而非编码变异以及高频、效应较小的变异,则更适合使用在较短进化时间尺度上训练的模型进行预测。

PhyloP和PhastCons分数在三种进化时间尺度下也呈现出类似趋势,但在每一种时间尺度下,GPN-Star表现都优于二者(图2I)。


考虑到GPN-Star在致病变异和精细定位变异预测中的强劲表现,研究人员进一步探索了它在稀有变异关联分析(RVAT)中的应用潜力,发现GPN-Star提升了稀有变异关联分析的能力。

学习基因组功能元件及依赖关系

GLM模型可以通过预测被遮蔽的核苷酸来学习强大的序列表示。

为探究这一点,研究人员可视化了基因区、cCRE和背景区的基因组窗口嵌入(图4A)。


研究发现,保守序列窗口的嵌入在功能区域上的聚类性更强(图4B),说明GPN-Star在预测时能识别基因组的关键功能元素。


为了进一步分析GPN-Star是否理解基因组「语法」,研究人员系统地对序列中每个位置进行突变,并计算该变异对其它位置预测概率的影响。

在编码酶酪氨酸羟化酶的TH基因启动子及首个外显子区域中,研究人员观察到两个强依赖模块:

一个在编码区,另一个在转录因子CREB的结合位点,该位点突变已知会引发酪氨酸羟化酶缺乏症和肌张力障碍(图4C)。


在HBA1基因中,研究人员也观察到跨外显子的依赖关系。

该基因的内含子极短,能够完整落入模型上下文窗口内。剪接供体与受体区域间的依赖关系尤其显著,与已有研究结果一致。

随后研究人员分析了LDLR启动子,该区域与家族性高胆固醇血症相关,且已通过MPRA等方法广泛研究。

模型可根据碱基依赖图中的块结构准确预测TFBS的位置(图4D),同时还能识别TFBS之间的依赖关系。


最后,研究人员分析了一个被认为受到灵长类特异性进化约束的开放区域。

在该区域的一个潜在TEAD4结合位点附近,GPN-Star(P)模型预测到了最强的依赖信号。

这些结果表明,GPN-Star能够通过协同进化信号学习有意义的碱基依赖结构,且与已知功能依赖一致。

这相较于传统的保守性评分方法(如PhyloP和PhastCons)是一次显著的进步。

为了更直接地评估模型预测与基因组中进化约束之间的关联,研究人员利用了gnomAD v3.1.2提供的等位基因频率数据,该版本汇总了来自76,156名个体的全基因组测序样本。

研究人员重点将GPN-Star与PhyloP和PhastCons进行对比,这两种模型同样基于全基因组比对(WGA)数据来学习进化约束。

为了评估模型对等位基因频率与约束关系的捕捉能力,研究人员选取了这三种模型在脊椎动物、哺乳动物和灵长类三个不同进化时间尺度上的版本,对gnomAD v3中第22号染色体的全部变异进行了预测(该染色体未用于GPN-Star模型训练)。

随后,研究人员按照每个模型的评分分位数对变异进行分组,并对各组中的平均等位基因频率进行比较。

如图5A所示,在所有三个时间尺度下,GPN-Star评分最低分位数中的变异平均频率显著低于对应的PhyloP和PhastCons分组,表明GPN-Star更准确地捕捉了人类基因组中的选择性约束。


研究人员进一步进行量化分析,关注模型评分分布中「最具约束力」的尾部区间。如图5B所示,三种GPN-Star模型在稀有变异富集上均明显优于PhyloP、PhastCons和CADD。


在GPN-Star各版本中,基于脊椎动物训练的模型整体表现最佳,甚至超过了同样以脊椎动物数据训练的GPN-MSA。

进一步按分子功能后果对变异进行分层分析后,GPN-Star在所有类别中均取得最高富集度。

其中,GPN-Star(V)在错义变异中表现最优,而GPN-Star(M)则在同义与非编码变异方面领先,这一趋势与先前基准测试中的观察结果一致。

研究人员研究了上下文相关的突变率差异对模型预测的影响,发现控制突变率变异有助于提升变异效应预测的准确性。

由于GPN-Star是在真实基因组序列上训练的,其预测自然同时反映了突变过程和选择过程的综合影响。

研究人员在致病性预测和复杂性状遗传力方面的结果证明了GPN-Star在人类遗传学中的实用性。

将进化数据与功能基因组数据结合,开发更强大的多模态基因语言模型,是未来非常值得探索的方向。

参考资料:

https://www.biorxiv.org/content/10.1101/2025.09.21.677619v1%20

https://x.com/yun_s_song/status/1969994081251266665

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

一年要卖出400万辆车,零跑汽车发布未来十年战略

贝壳财经 浏览 1228

日本新首相高市早苗上台,日美同盟是共振还是错位

环球网资讯 浏览 1947

或命名为瑞虎3L 奇瑞瑞虎T13T谍照曝光

车质网 浏览 1381

维拉已放弃买断桑乔!曼联若解约多特或引进,只会免费签约不给钱

罗米的曼联博客 浏览 1635

50+女人的穿搭封神技巧来了,抓准这4点,轻松穿出简约高级感

静儿时尚达人 浏览 1085

40岁宋仲基带老婆参加友人婚礼,被误认成徐帆

丁丁鲤史纪 浏览 938

清华联合字节跳动:AI学会用图像思考,让机器像人一样推理世界

科技行者 浏览 928

新款坦克400 4种动力+激光雷达 纯电续航200公里

念寒车评 浏览 1662

变盘?危险的下注开始了

大猫财经Pro 浏览 922

网约车送断指乘客在交警带路闯红灯时出车祸 被判全责

新民晚报 浏览 3777

泽连斯基新年致辞:不要"乌克兰的终结"

中国经济网 浏览 1211

不一定能掀桌男主,但一定是个好演员!

伊周潮流 浏览 950

泰柬两国密集表态说法大相径庭 泰国称不会停止行动

环球网资讯 浏览 5077

颜丙燕公开恋情 男友小她20岁,被误认成“儿子”

韩小娱 浏览 1972

剧组撞死猫风波持续发酵

小撇说事 浏览 1734

“小黑靴”今年冬天又火了!这4组搭配照着搭就很时髦

LinkFashion 浏览 1681

女生被同学殴打13次后确诊精神分裂 当地启动全面复查

大风新闻 浏览 7074

新奥能源研究院院长刘敏胜:探索球形环氢硼聚变技术,开发商用聚变能源

红星新闻 浏览 2010

高市早苗当选日本首相 成为日本历史上首名女首相

环球网 浏览 7923

业余球手夺一球致胜冠军!高芙贡献名面,周杰伦球都没碰到就出局

网球之家 浏览 1128

果然,51岁钟汉良还是赢了

温柔娱公子 浏览 1366
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1