关闭广告

突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

机器之心Pro2336人阅读


机器之心报道

机器之心编辑部

LLM在持续学习方面有了新突破。

近日,谷歌推出了一种全新的用于持续学习的机器学习范式 —— 嵌套学习,模型不再采用静态的训练周期,而是以不同的更新速度在嵌套层中进行学习,即将模型视为一系列嵌套问题的堆叠,使其能够不断学习新技能,同时又不会遗忘旧技能。



而这或将标志着人工智能朝着「真正像大脑一样进化的方向」迈出了一大步。



这种方法一经发布,便引起网友的热议,不少网友表示,「这很令人兴奋,是迈向真正自适应、自我改进智能的重要一步。」



下面来详细了解一下。

在谷歌看来,过去十年,得益于强大的神经网络结构和高效的训练算法,机器学习(ML)领域取得了令人惊叹的进展,可尽管大语言模型(LLMs)取得了巨大成功,一些根本性问题仍然存在,尤其是「持续学习(Continual Learning)」—— 即模型能否在不遗忘旧知识的前提下,不断学习新知识与技能。

在人类学习和自我改进方面,人脑是最完美的范例,它依靠神经可塑性(neuroplasticity)不断调整结构,以适应新的经验、记忆与学习。缺乏这种能力的人,就会像患有前向性遗忘症(anterograde amnesia)一样,只能理解眼前的信息。

当前的 LLM 也面临着类似的限制,「知识」仅限于输入窗口的上下文,或是预训练阶段学到的静态信息。

为了弥补这些缺点,一个直觉式的做法是不断用新数据更新模型参数,但这往往导致所谓的「灾难性遗忘」(Catastrophic Forgetting,CF)—— 模型学了新任务,却失去了旧任务的能力。过去的研究尝试通过改进网络结构或优化算法来缓解这一问题。

然而,长期以来,大家总是把「模型结构」与「优化算法」当作两件事来看待,这种割裂的视角阻碍了统一高效学习系统的建立。

谷歌发表于 NeurIPS 2025 的论文《Nested Learning:深度学习架构的幻象》 中,提出了一个新的学习框架 —— 嵌套学习(Nested Learning),用以弥合架构与优化之间的鸿沟。其核心思想是:一个机器学习模型并非单一的学习过程,而是由多个相互关联、层次分明的优化子问题组成。

谷歌认为模型架构与优化算法本质上是同一类事物;它们只是不同层级的「优化层」(optimization levels),各自拥有独立的信息流与更新频率。

通过识别这种内在结构,嵌套学习为 AI 设计揭示了一个此前被忽视的维度,让我们能在不同时间尺度上构建更具「深度」的学习组件,从而解决灾难性遗忘等问题。

基于嵌套学习原理,谷歌设计了一个自我修改型架构 ——Hope,实验表明:Hope 在语言建模任务中表现优异,并且在长上下文记忆管理方面超越了当前最先进的模型。



  • 论文标题:Nested Learning: The Illusion of Deep Learning Architectures
  • 论文地址:https://abehrouz.github.io/files/NL.pdf

嵌套学习范式(The Nested Learning Paradigm)

嵌套学习揭示出,复杂的机器学习模型其实是一组相互嵌套或并行运行的优化问题,每个子问题都有自己的上下文流(context flow),也就是其试图从中学习的特定信息集。

也就是说,传统深度学习方法其实是在「压缩」这些内部信息流,而嵌套学习为我们提供了新的设计维度,从而可以构建具有更深计算深度的学习组件。

以联想记忆(Associative Memory)为例,联想记忆是指根据一个事物联想到另一个事物的能力,像是大家看到一张脸就想起一个名字。基于此,谷歌发现:训练过程本身,尤其是反向传播(backpropagation)过程,可以被建模为一种联想记忆机制,该模型学习将每个数据点映射到其局部误差(local error)上,以衡量该数据点的「意外程度」。

类似地,就像 Miras 之类研究所指出的那样,Transformer 的注意力机制也可以形式化为联想记忆模块,用于学习序列中 token 之间的映射关系。



在人脑中,统一的结构与可重复使用的模块,以及多时间尺度更新(multi-time–scale update),是人类持续学习的关键。而嵌套学习使得模型的每个组件都能以不同的频率进行更新,这表明,常见架构(如 Transformer、记忆模块)其实都是具有不同更新频率的线性层。

通过定义更新频率(update frequency rate),即每个组件的权重被调整的频次,谷歌可以将这些优化问题组织成有序的「层级」,这便构成了嵌套学习范式的核心。

嵌套学习的实际应用

嵌套学习视角提供了改进现有算法和架构的原则性方法:

  • 深度优化器:

嵌套学习将优化器(如动量优化器)视为联想记忆模块,从而可以将联想记忆的原理应用于它们,观察到,许多标准优化器依赖简单的点积相似度(dot-product similarity),而这并未考虑不同数据样本之间的复杂关系。

通过将优化目标改为更标准的损失指标,如 L2 回归损失(L2 regression loss),可以推导出新的动量公式,使优化器对噪声数据更具鲁棒性。

  • 连续体记忆系统(Continuum Memory Systems):

在传统 Transformer 中:序列模型充当短期记忆,保存即时上下文;前馈神经网络则充当长期记忆,存储预训练知识。嵌套学习范式将这一概念扩展到一个称之为「连续体记忆系统」(CMS)的结构中,其中记忆被视为一系列模块,每个模块以不同的特定频率更新。

这为持续学习创建了一个更加丰富、高效的记忆系统。

Hope:具备连续记忆的自我修改架构

作为概念验证,谷歌基于嵌套学习原理设计了 Hope 架构,它是 Titans 架构的一个变体。

Titans 架构是基于「惊讶度」优先级的长期记忆系统,但它仅有两层参数更新机制,属于一阶上下文学习。

Hope 则是一个自我修改的循环架构(self-modifying recurrent architecture),能够执行无限层次的上下文学习,并通过 CMS 模块扩展上下文窗口。它能够通过自我引用过程优化自身记忆,形成具有无限循环学习层次的结构。

实验与结果

谷歌评估了嵌套学习框架下:新型深度优化器的有效性,以及 Hope 在语言建模、长上下文推理、持续学习与知识整合任务上的表现。

结果显示:

  • Hope 在多项语言建模与常识推理任务上表现出更低的困惑度(perplexity)与更高的准确率;



不同架构在语言建模任务(困惑度,左)和常识推理任务(准确率,右)上的性能对比:包括 Hope、Titans、Samba 以及基线 Transformer。

  • 在长上下文大海捞针任务( NIAH)中,Hope 展现出显著更优的记忆管理能力。这证明 CMS 提供了一种更高效、更有效的方法来处理扩展的信息序列。



不同架构在长上下文任务中、不同难度等级下的性能对比:包括 Hope、Titans、TTT 和 Mamba2。其中,NIAH-PK、NIAH-H 和 NIAH-W 分别表示大海捞针任务的三种类型:通行密钥、数字和单词。

总的来看,嵌套学习代表了谷歌对深度学习理解迈进了新阶段,通过将架构与优化视为统一的、层次化的优化系统,打开了一个全新的设计维度。由此产生的模型(如 Hope)则表明,这种系统性整合方法能够带来更强的表达能力、更高的效率与持续学习能力。

或许可以说,嵌套学习为弥合当前 LLM「易遗忘」的局限与人脑卓越的持续学习能力之间的差距奠定了坚实的理论与实践基础,为构建下一代可自我改进的人工智能(self-improving AI)提供了新的可能性。

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

https://x.com/behrouz_ali/status/1986875258935066946

https://x.com/JeffDean/status/1986938111839129858

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

苹果计划为 iPad Pro 引入 iPhone 17 Pro 的均热板散热

威锋网 浏览 2358

李小鹏女儿14岁奥莉近照刷屏!真是女大十八变

今古深日报 浏览 591

以色列和哈马斯代表团将于5日在埃及举行间接会晤

国际在线 浏览 2551

全网围观,这年度夫妻撕叉大戏来了

独立鱼 浏览 2411

全球研发投入2000强中国占29%:谁在玩命砸钱?钱都花哪了?

澎湃新闻 浏览 2009

国际乒联2025年第42周世界排名:王楚钦孙颖莎各自领跑男女单打

懂球帝 浏览 2654

女生希望"慢慢相处" 男子以送早餐为名进酒店实施性侵

红星新闻 浏览 6197

烂番茄68%,《阿凡达2》导演的套路失灵了

瓜农娟姐 浏览 2025

今日热点:许光汉否认和周子瑜恋情;郝熠然与诚实一口终止合作……

伊周潮流 浏览 568

业主私挖300平地下室:白天用挖机挖 半夜偷偷运土

扬子晚报 浏览 10849

上赛季至今五大联赛仅6人直接参与40球+:凯恩第1,青木在列

懂球帝 浏览 1902

吴尊元旦晒全家福!一家四口笑容灿烂温馨幸福

失宠的小野猪 浏览 1864

页岩油超级并购来了?Coterra考虑联姻Devon Energy,股价一度涨超10%

华尔街见闻官方 浏览 1779

E句话|说错话,张凌赫ins发文道歉了

仙女事件簿 浏览 1126

癌症晚期男子驾车撞死婆孙2人后病亡 法院判赔超200万

台州交通广播 浏览 5831

WTT重庆冠军赛:莫雷加德3-0横扫丹麦猛将,即将迎战国乒温瑞博

乒谈 浏览 1145

王楚钦横扫帕尔采访!太久没打直呼生疏,亲承中国是最好办赛环境

篮球资讯达人 浏览 1544

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

红星新闻 浏览 5288

英法空袭叙利亚中部地区 宣称打击极端组织"伊斯兰国"

环球网资讯 浏览 1813

美军新锐舰队为应对中国大举集结 集结地却远在夏威夷

枢密院十号 浏览 10772

止步“五连涨”!美股12月“开门黑”

中新经纬 浏览 1995
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1