谷歌新论文引爆AI圈:优化器竟是记忆体,嵌套学习改写深度学习范式

【量子位 2025年12月22日讯】继2017年“Attention is All You Need”奠定Transformer架构地位后,谷歌最新研究再掀行业震动。一篇题为《嵌套学习:深度学习架构的幻象》(Nested Learning: The Illusion of Deep Learning Architectures)的论文,因提出“优化器本质是记忆系统”“深度学习需新增‘频率’维度”等颠覆性观点,被业内资深研究者誉为“Attention is All You Need V2”。该研究直指当前大模型“数字失忆症”痛点,为解决持续学习、长期记忆难题提供了全新框架,其设计的HOPE架构已在语言建模、常识推理任务中展现出媲美顶尖模型的性能。

核心突破:优化器不只是“引擎”,更是“记忆黑盒子”

长期以来,行业将优化器(如SGD、Adam)视为训练模型的“导航仪”——仅负责计算梯度、指引参数更新方向。但谷歌研究团队通过数学证明发现,主流优化器本质是关联记忆系统,这一发现彻底重构了对深度学习底层逻辑的认知:

  • 优化器的“记忆能力”被长期忽视优化器在训练过程中,会默默“记录”梯度变化的历史模式:不仅关注当前梯度(即时路况),还会压缩、存储过往所有梯度的变化规律(行驶日志)。例如Adam优化器的动量项,本质是对历史梯度的加权记忆,帮助模型在更新时避免“频繁变向”。研究团队指出,当我们训练模型时,实际是在运行多个“嵌套并行的小型学习程序”——优化器的记忆系统与模型参数更新、注意力机制,在不同时间尺度上协同工作,共同完成知识学习与存储。

  • 深度学习是“嵌套系统”的扁平化投影传统认知中,Transformer、RNN等架构是“分层堆叠的独立模块”,但嵌套学习范式揭示,这些架构本质是“多尺度记忆-学习模块的嵌套组合”。以RNN+Attention混合模型为例,RNN的循环单元负责高频短期记忆(如句子内上下文),Attention机制负责中频关联(如句间语义匹配),而优化器的记忆系统则负责低频长期知识沉淀(如语法规则)。过往的深度学习框架,仅展现了这一立体嵌套系统的“平面视角”,忽略了不同模块在时间频率上的协同作用。

直击痛点:大模型“数字失忆症”源于“记忆频谱缺失”

当前大模型(如ChatGPT)的“短期记忆差”“无法持续学习”,并非参数不足,而是缺乏覆盖多时间尺度的“记忆通道”——这是嵌套学习范式针对行业痛点的核心诊断:

  • 物理世界启发:人类记忆的“多频率频谱”人类大脑通过不同频率的神经活动处理记忆:高频脑波(如γ波)处理即时感官信息(工作记忆),中频脑波(如β波)整合近期经验(近期记忆),低频脑波(如δ波)巩固长期知识(长期记忆)。这种“连续记忆频谱”,让人类能顺畅完成“对话理解-经验总结-技能沉淀”的知识转化。

  • 大模型的“记忆断层”现有大模型仅有两种极端记忆模式:一是对话缓存(高频,如当前对话上下文),对话结束即消失;二是预训练冻结知识(低频,如训练数据中的常识),无法更新。中间的“近期记忆”“中期归纳”等关键通道完全缺失,导致模型“学了就忘”——例如刚教给模型的新概念,三句话后就无法关联,或需以“覆盖旧知识、消耗巨额算力”为代价更新,这正是“数字失忆症”的根源。

实践验证:HOPE架构构建“连续记忆系统”,性能媲美顶尖模型

基于嵌套学习范式,谷歌团队设计了HOPE(Hierarchical Optimizer-based Persistent Memory)架构,其核心是连续记忆光谱,通过多频率更新的MLP模块,实现记忆的分层沉淀:

  • 记忆模块按频率分工HOPE包含一系列按频率排列的MLP模块:高频模块(更新周期100步)沉淀长期知识(如专业领域规则)。信息输入后,会自动流向适配频率的模块,模仿人类“海马体-新皮层”的记忆巩固机制。

  • 实验性能亮眼,持续学习潜力突出在标准任务测试中,HOPE展现出强劲竞争力:1.3B参数版本在Wiki.bblt、PIQA、BoolQ等10项任务中,平均得分达52.26,与Transformer++、RetNet等主流架构持平;当参数提升至更大规模(配合100B训练 tokens)时,其在常识推理(HellaSwag acc 56.84)、语言建模(LMB.pplt 11.63)等任务上,性能接近Titans等顶尖大模型。更关键的是,HOPE在持续学习测试中表现突出:新增知识可通过中频模块渐进吸收,无需全量重训,旧知识遗忘率降低40%以上。

行业意义:不止于技术突破,更是深度学习的“范式重构”

这篇论文被称为“Attention V2”,核心在于其提供了全新的AI设计逻辑,而非单一技术模块:

  • 从“堆深度”到“补频率”,打开新研究维度过去十年,行业仅聚焦“模型深度/参数量”这一维度,嵌套学习则指出,“频率(模块更新节奏)”是同等重要的核心维度。未来大模型的突破,可能不在于堆叠更多Transformer层,而在于设计更精细的“多频率记忆协同机制”——例如为机器人模型增加“实时力觉记忆(高频)”“操作经验归纳(中频)”“物理规律沉淀(低频)”的三层频率模块。

  • 可解释性突破:从“黑箱”到“白箱”传统深度学习因“参数冗余、梯度流动复杂”难以解释,而嵌套学习将架构拆解为“多频率记忆模块”,每个模块的目标(如高频模块负责即时交互)、更新逻辑(如低频模块按固定周期沉淀)清晰可追溯,为AI的“可解释性”提供了数学白箱框架。

  • 应用前景:持续学习、个性化AI成为可能基于HOPE的连续记忆系统,未来大模型可实现“终身学习”——用户无需反复输入相同信息,模型能通过中频模块归纳个人偏好,通过低频模块巩固长期习惯;在机器人领域,嵌套学习可让机械臂同时掌握“实时力控(高频)”“任务流程优化(中频)”“环境适应规则(低频)”,大幅提升物理交互的灵活性。

尽管嵌套学习仍处于前沿探索阶段,尚未完全取代Transformer架构,但它已像当年的Attention机制一样,为深度学习打开了全新视野。正如研究者所言:“下一代AI的智能,不仅来自更深的网络,更来自能像人类一样‘分层记忆、持续学习’的系统。”随着更多团队基于这一范式展开研究,AI或许将逐步告别“数字失忆症”,走向更贴近人类认知的智能形态。

© 版权声明

相关文章