【量子位 2025年12月6日讯】Transformer架构的“推理天花板”被华为诺亚方舟实验室打破!其全新研发的Nexus高阶注意力架构,通过重构传统Attention机制的核心逻辑,在不增加任何参数量的前提下,让模型在数学计算、科学问答等复杂推理任务中的性能显著飙升。实测显示,70M参数的小模型在科学问答(SciQ)任务上准确率提升7个百分点,7B大模型替换架构后多步数学推理能力提升超5%,为大模型效率优化提供了全新范式。
直击Transformer核心痛点:传统Attention难破“多跳推理”困局
自2017年Transformer架构提出以来,凭借自注意力机制(Self-Attention)的长距离依赖捕捉能力,成为AI领域的“基础设施”。但随着任务复杂度提升,其核心缺陷逐渐暴露:传统Attention机制本质是“两两配对”的关联计算,只能处理“A认识B”这类直接关系,面对“张三通过李四认识王五”的多跳逻辑、“数学公式推导”的多步计算时,便会出现“一本正经胡说八道”的推理失效问题。
根源在于传统Attention的Query(Q)和Key(K)向量生成方式——输入序列通过固定线性变换生成Q、K,每个token的查询向量仅由自身决定,无法感知全局上下文。这种“静态投影”模式导致注意力权重只能反映局部直接关联,难以构建连贯的推理链条。例如在求解“3x+5=20”时,模型能识别“3x”“5”“20”等token,却无法有序完成“移项→计算→验证”的多步逻辑,最终输出错误结果。
此前行业尝试通过“堆参数”“加提示词”等方式弥补,但要么推高计算成本,要么依赖人工设计,无法从根本上解决架构性缺陷。华为诺亚团队则另辟蹊径,从Attention机制本身入手,打造出能建模高阶关系的Nexus架构。
三刀革新Attention机制:动态生成+递归推理+权重共享
Nexus架构的核心突破在于“高阶注意力机制”,通过三个关键设计,在不增加参数的前提下重构模型推理逻辑:
第一刀:让Q/K“先思考再对话”,动态捕捉全局上下文
传统Attention中,Q和K由输入直接线性生成,如同“没做准备就对话”;Nexus则在Q/K生成前增加“预推理”环节——先通过嵌套的自注意力模块,让每个token从全局序列中聚合信息,形成具备上下文感知能力的初始表示,再基于此生成最终Q/K。
以“机器学习模型需要大量数据训练”这句话为例:传统Attention中,“数据”的Q向量仅由自身决定,无法关联“机器学习”“训练”的语义;而Nexus的Q向量生成时,会先融合“机器学习需要训练”的全局逻辑,再与“数据”的Key向量计算关联,从而准确捕捉“数据支撑训练”的深层关系。这种动态生成方式,让Q/K摆脱了线性投影的僵硬,能自适应复杂语义场景。
第二刀:递归框架构建“推理链”,轻松应对多跳逻辑
Nexus引入递归嵌套结构,将注意力计算从“单层配对”升级为“多层递进”:若单层Attention是“一阶关系”(A-B),则将前一层Attention输出作为下一层输入,可构建“二阶关系”(A-B-C)、“三阶关系”(A-B-C-D),形成类似人类思考的“推理链”。
论文中定义的高阶注意力公式显示,第m阶注意力的输入源于第m-1阶的输出,这种结构天然适配多步推理任务。例如解决“小明有5个苹果,妈妈又买了3个,分给弟弟2个,还剩几个”时,Nexus会先计算“5+3”(一阶),再处理“8-2”(二阶),每一步推理结果都作为下一步的输入,避免传统模型“一步算错全错”的问题。在AIME24(多步数学竞赛题)测试中,Qwen2.5-7B模型替换Nexus后准确率从45.2%提升至47.5%,印证了递归推理的有效性。
第三刀:权重共享实现“零参数增量”,兼顾性能与效率
复杂架构常伴随参数暴涨,但Nexus通过“权重共享策略”破解这一难题:无论是内层预推理的注意力模块,还是外层最终计算的注意力模块,均复用同一组WQ、WK、WV投影权重。这意味着,即便推理路径更复杂,模型参数量仍与原始Transformer完全一致。
在Pythia-70M模型的消融实验中,使用权重共享的Nexus版本,平均推理准确率比基线模型高出近1个百分点,而计算开销仅增加12%(远低于参数扩容带来的成本增长)。这种“零参数增量”设计,让中小模型也能低成本获得高阶推理能力,打破了“推理强=参数大”的行业误区。
实测全面领先:小模型逆袭,大模型即插即用
Nexus的性能已在两类场景中得到验证,无论是从零训练的小模型,还是现有大模型的架构改造,均展现出显著优势:
小模型:全任务突破,科学推理提升最明显
研究团队在Pythia系列(70M-1B参数)上从头训练Nexus,并在ARC-C(科学常识)、LogiQA(逻辑推理)等6个数据集测试。结果显示,所有规模的Nexus模型均超越原始Transformer,尤其在需要多步推理的任务中提升突出:
-
SciQ(科学问答):70M模型准确率从61.5%升至68.5%,1B模型从75.8%升至77.7%;
-
PiQA(物理常识):1B模型准确率从62.5%提升至63.6%,在“物体受力平衡”等需要逻辑推导的题目中表现更优。
这表明Nexus并非靠“表面模式匹配”提升性能,而是真正增强了模型的推理能力,能处理无法通过简单语义关联解决的复杂问题。
大模型:即插即用改造成本低,推理链更连贯
针对已训好大模型,Nexus展现出“即插即用”的灵活性——无需重新预训练,仅在监督微调(SFT)阶段将标准注意力层替换为Nexus结构,即可实现性能提升:
-
Qwen2.5-1.5B:在MATH-500(数学计算)任务上准确率从78.6%升至80.1%;
-
Qwen2.5-7B:在GPQA-Diamond(复杂逻辑问答)任务上准确率从40.1%提升至40.7%,尤其在“法律条款解读”“技术文档分析”等长文本推理场景中,输出逻辑更连贯。
这种低改造成本的特性,让企业无需投入巨额算力重训模型,即可快速升级推理能力,具备极高的落地价值。
未来可期:多模态场景拓展,重构模型“思考方式”
尽管目前Nexus主要应用于语言模型,但其高阶关系建模的思路具备普适性。华为诺亚团队表示,下一步将探索Nexus在视觉Transformer(ViT)和多模态大模型中的应用——例如在视频理解中,“A看到B拿起C”的三元关系、在图像 captioning中“红色裙子的女孩在公园散步”的多元素关联,均需高阶注意力捕捉,而Nexus有望成为解决这些问题的关键。
从行业视角看,Nexus的出现也为大模型发展提供了新启示:长期以来,“堆参数”“扩数据”成为提升模型能力的主要路径,但Nexus证明,通过架构创新优化核心机制,同样能实现性能突破。正如华为诺亚研究员所言:“Transformer的智商天花板,从来不在参数量,而在注意力机制的表达能力。”
目前,Nexus的论文已在arXiv公开(https://arxiv.org/abs/2512.03377),相关代码与实验细节同步释出。随着更多开发者基于该架构进行优化,未来或许会出现“小参数、强推理”的新一代模型,推动AI从“大规模”向“高效率”转型。