谷歌双料技术亮相NeurIPS 2025 新架构攻克Transformer上下文难题引热议

AI 资讯22小时前发布 dennis
0

在2025年NeurIPS大会上,Transformer的提出者谷歌带来了颠覆性的AI技术突破。其发布的Titans新架构与MIRAS理论框架,成功将大模型上下文窗口扩展至200万token,一举攻克了传统Transformer计算成本随序列长度激增的核心瓶颈。而与此同时,AI教父Hinton抛出的“谷歌是否后悔公开Transformer技术”的灵魂拷问,也让这场技术突破附上了行业竞争与技术伦理的深层讨论。

Titans架构:以“惊喜指标”重构模型记忆模式

长期以来,Transformer架构的自注意力机制存在致命短板——每个token需与其他所有token建立关联,导致计算量和内存消耗呈序列长度平方增长,这使其在处理超长文本时力不从心。虽有RNN、SSM等线性模型尝试突破,但往往以牺牲信息完整性为代价。谷歌推出的Titans架构,则通过创新的神经长期记忆模块,实现了RNN的速度与Transformer性能的融合。

这个记忆模块本质是一个多层感知机,与传统模型训练后权重固定不同,它能在推理阶段动态更新权重。其核心亮点在于引入“惊喜指标”来管理记忆:当新输入与模型当前记忆差异较小时(如在动物主题内容中出现“猫”),判定为低惊喜度,仅作短期记忆处理;而当输入信息严重偏离现有记忆(如在财务报告总结中插入香蕉皮图片),则判定为高惊喜度,优先存入长期记忆。同时搭配动量机制和自适应权重衰减,既能捕捉关联信息,又能主动遗忘无效内容,保障了处理效率。

其中Titans的MAC变体更是巧妙调整注意力机制的输入来源,将长期记忆摘要与短期输入共同处理,在“大海捞针”等超长上下文任务中保持了高准确率,验证了其处理200万token上下文的能力。

MIRAS框架:统一序列建模,拓展模型设计空间

如果说Titans是解决问题的具体工具,MIRAS就是支撑其运行的核心理论基石。这个框架的核心创新在于,将各类序列模型视为解决“融合新信息与保留旧记忆”这一核心问题的不同路径,而非孤立的技术方案。

MIRAS通过四大关键设计维度定义序列模型:负责信息存储的记忆架构、决定关注重点的注意力偏差、平衡新旧知识的保留门控,以及更新记忆状态的记忆算法。它打破了现有模型依赖均方误差或点积相似度的局限,引入非欧几里得目标函数,构建了更灵活的生成式框架。基于此,谷歌研发出YAAD、MONETA、MEMORA三款无注意力模型。例如YAAD采用温和的Huber损失处理错误,对拼写错误等异常值更稳健;MEMORA则通过概率图模式确保信息整合过程的稳定可控。实验显示,这些模型不仅性能优于Mamba 2等主流基线模型,还保持了高效的并行训练和线性推理速度。

技术突破背后,行业灵魂拷问引深思

此次技术发布的热度,还因一场大佬对话持续升温。在大会现场,Hinton向谷歌首席科学家Jeff Dean尖锐发问,质疑谷歌当初公开Transformer论文是否值得。Jeff Dean当场明确回应并不后悔,强调这项研究对全球AI发展意义重大。

这一问答背后折射出AI行业的发展悖论。2017年Transformer技术的公开,引爆了全球AI创新浪潮,但也让谷歌的技术优势被竞争对手快速追赶。如今谷歌推出Titans与MIRAS,被业内视为重新建立技术壁垒的重要尝试。值得注意的是,清华姚班校友钟沛林参与了这两项核心工作,为技术突破注入了华人力量。

目前,基于Titans架构的技术已在语言建模、常识推理等任务中展现优势,甚至在BABILong基准测试中,以更少参数量超越了GPT – 4等超大型模型。业内推测,未来该技术可能应用于Gemini系列模型的迭代。而谷歌此次的技术探索,不仅为超长上下文处理提供了新范式,也将推动整个行业重新思考模型架构设计与技术开源的平衡之道,为AGI的发展铺就了新的技术路径。

© 版权声明

相关文章