华为首发扩散语言模型Agent 生成范式革新让复杂任务提速8倍

AI 资讯10小时前发布 dennis
0

【量子位 2026年2月10日讯】Agent作为大模型落地现实世界的关键载体,其核心竞争力已从“能否答对”转向“能否高效搞定”。华为诺亚方舟实验室联合UCL、南洋理工大学、清北等高校团队,发布业界首个扩散语言模型Agent(DLLM Agent),通过颠覆传统自回归(AR)生成范式,在准确率持平的前提下,实现端到端执行速度平均提升30%以上,部分复杂任务效率更是达到传统AR Agent的8倍,为高效Agent构建开辟全新技术路径。

核心命题破局:生成范式重塑Agent效率

随着Agent在多轮推理、工具调用等复杂场景的应用日益广泛,一个行业忽视的底层问题浮出水面:当框架、工具、数据等条件完全一致时,仅改变语言模型的生成范式,能否系统性优化Agent的规划与行为模式?

华为团队在最新研究《DLLM Agent: See Farther, Run Faster》中给出了肯定答案。传统Agent多基于自回归语言模型(AR)构建,生成过程需按token顺序“边想边写”,易出现路径冗余、回溯频繁等问题;而DLLM Agent采用扩散式生成范式,通过并行化信息处理与全局规划能力,让Agent“看得更远、走得更直”,从根本上解决了AR Agent效率瓶颈。

极致公平实验:唯一变量验证范式优势

为确保实验结果的客观性,研究团队设计了“极端公平”的对照实验:采用同一Agent框架DeepDiver、同一套工具接口与解析规则,使用完全相同的训练任务,统一32K上下文长度、最大交互轮数等核心参数,仅改变底层生成范式——AR Agent基于openpangu 7b-v1,DLLM Agent则采用从该模型续训而来的openpangu diffusion 7b,二者基础推理能力保持一致。

针对扩散范式的特性,团队还优化了训练策略,通过针对性调整的Mask策略和Attention裁剪策略,提升DLLM Agent训练与推理的一致性,确保实验差异仅源于生成范式本身。

实测数据亮眼:速度与路径双优化

实验结果显示,DLLM Agent的优势贯穿多个测试场景,实现“同样终点,更短路径”的高效执行。

在包含110条任务的BrowseComp-zh中文多轮Web浏览基准测试中,DLLM Agent与AR Agent准确率均为15.5%,但工具调用次数从7.5次降至6.7次,交互轮数从14.8轮缩减至13.0轮,端到端延迟下降约30%。数据分布更清晰显示,DLLM Agent调用信息检索工具的次数显著少于AR Agent,任务轨迹更简洁高效。

更令人震撼的是复杂多约束检索案例:面对“动物命名+中国互联网母公司+团队合并+软硬件布局”的四维度查询,AR Agent需经多轮规划、反复验证,生成多个中间文档,耗时1152.68秒;而DLLM Agent通过一次明确任务拆解和极短工具调用轨迹,仅用140.95秒便完成任务,效率提升8.18倍。

不过原生DLLM也存在短板,其结构化工具调用错误率从1.9%升至6.4%,需通过针对性策略优化弥补。

天生强规划:扩散范式的效率密码

DLLM Agent的高效并非仅源于并行解码速度,更核心的优势在于其生成范式带来的强规划能力,具体体现在三大维度:

1. 任务拆解:先全局后细节

DLLM Planner展现出类人思维的两阶段特征:在1-2个扩散步骤内即可并行提取用户问题的全部核心约束,快速构建全局规划框架,再逐步细化逻辑细节;而AR Agent需按顺序逐点梳理,早期判断偏差后需通过多轮重新规划修正,易产生冗余文档。

2. 工具调用:先定向后补参

在工具使用阶段,DLLM Agent先明确调用工具类型,再并行生成参数细节,将整个工具调用视为“动作块”反复优化;AR Agent则遵循“函数名→参数1→参数2”的流水线模式,一旦前端出现错误,无法原地修正,只能依赖下一轮调用补救。

3. 注意力演化:先锁定后收敛

DLLM生成过程中,高不确定性集中在决策早期,一旦确定高层规划,后续细节生成收敛速度极快,注意力机制呈现“全局→局部”的协调模式;而AR Agent更侧重token级局部最优,易陷入路径冗余。

技术启示:扩散范式成Agent设计新维度

研究团队也指出,DLLM Agent并非AR Agent的简单替代,扩散模型对结构化输出更敏感,需通过训推一致的Mask策略与Attention策略(如context-clean corruption和span-aware attention mask)优化性能。这意味着要充分发挥扩散范式优势,需针对Agent交互场景重新对齐接口与训练目标。

此次研究的核心价值,在于证明生成范式本身可深刻塑造Agent行为方式。DLLM Agent展现的“更早全局规划、更少路径冗余、更快任务结束”等特性,让扩散范式从“另一种生成模型”升级为高效Agent的核心设计维度。

从技术落地来看,DLLM Agent的并行化处理与全局规划能力,可广泛应用于智能检索、复杂任务调度、多工具协同等场景,尤其适用于对效率要求较高的企业级应用。华为团队已开放论文与官方网页,为行业提供可复用的技术方案,未来随着结构化输出优化等问题的解决,扩散式生成范式有望成为高效Agent的主流选择,推动大模型在现实场景的规模化落地。

© 版权声明

相关文章