颠覆ChatGPT架构!蚂蚁LLaDA2.1开源 扩散模型飙出892 tokens_秒

AI 资讯40分钟前发布 dennis
0

【量子位 2026年2月11日讯】在自回归模型垄断大模型赛道的当下,蚂蚁技术研究院抛出颠覆性创新!2月11日,蚂蚁正式开源新一代扩散语言模型LLaDA2.1,其100B参数版本在HumanEval+编程任务中创下892 tokens/秒的峰值速度,远超主流自回归模型几十tokens/秒的生成效率。更令人惊喜的是,该模型通过独创的可纠错编辑机制,实现了速度与质量的解耦,在33项权威基准测试中全面超越前代,标志着曾被视为“学术玩具”的扩散模型正式迈入实用化阶段。

双模式解码 速度质量按需切换

LLaDA2.1的核心突破在于解决了扩散模型“快而不准”的致命短板。与ChatGPT等自回归模型“逐字生成、无法修改”的模式不同,LLaDA2.1创新性地采用“草稿生成+编辑修正”的双阶段机制,如同人类写作时“先动笔再润色”的思路,彻底释放了扩散模型的并行计算潜力。

基于这一底层架构,模型设计了灵活的双模式解码策略:

  • 极速模式(Speedy Mode):通过激进的并行生成算法快速产出初稿,再通过T2T(Token-to-Token)编辑模块修正错误,适合代码草稿、快速推理等对速度敏感的场景,100B版本峰值速度达892 tokens/秒,16B Mini版本更是突破1500 tokens/秒;

  • 质量模式(Quality Mode):采用保守阈值减少编辑次数,优先保障输出准确性,在正式文档生成、高精度推理等场景中表现优异,多项指标超越前代模型及同类竞品。

用户仅需一条配置指令即可实现模式切换,无需在多个模型版本间反复选择,大幅降低了使用门槛,标志着LLaDA系列从研究模型向实用产品的关键转变。

三大技术杀手锏 破解扩散模型痛点

为实现“又快又准”的核心目标,LLaDA2.1亮出三大技术创新:

首先是可纠错编辑(ECE)机制,将推理过程拆分为M2T(Mask-to-Token)草稿生成和T2T编辑修正两个阶段。在补全赫拉克利特名言“No man ever steps in the same river twice”的测试中,传统扩散模型会因早期错误生成“walks”而无法修正,最终输出错误结果;而LLaDA2.1能在编辑阶段检测到“steps”的置信度更高,果断完成替换,成功恢复正确引文。

其次是EBPO强化学习算法,这是业界首次在100B规模扩散模型上成功实施大规模RL训练。针对扩散模型序列似然难以计算的难题,蚂蚁团队以证据下界(ELBO)为代理目标,通过向量化似然估计技术实现并行计算,使模型在指令遵循、函数调用等对齐类任务上显著提升,证明扩散模型不仅能快,更能精准理解用户意图。

最后是单模型多场景适配,LLaDA2.1无需二次开发即可支持量化与非量化部署,适配从复杂编程、数学推理到知识问答的全场景需求。在编码、数学、推理等多个类别测试中,无论是极速模式下的性能损耗控制,还是质量模式下的精度表现,均展现出强大的综合能力。

全面开源 重构大模型技术格局

LLaDA2.1的开源堪称对现有大模型技术路线的一次重要补充。目前,蚂蚁已在GitHub、Hugging Face及ModelScope等平台开放模型权重、技术报告及代码,提供100B(LLaDA2.1-flash)和16B(LLaDA2.1-mini)两个版本,满足不同算力环境的部署需求。其中Mini版本的轻量化设计,为边缘设备、低算力场景提供了高效解决方案,进一步拓宽了扩散模型的应用边界。

业内观察人士指出,LLaDA2.1的成功证明了非共识技术路线的巨大潜力。在行业普遍追求更大参数规模的当下,蚂蚁通过底层架构创新,让扩散模型实现了对自回归模型的效率反超,为大模型技术发展提供了新的方向。随着该模型的开源,预计将推动更多开发者参与扩散模型的应用探索,在编程辅助、内容生成、智能交互等场景催生出更高效的解决方案。

从技术报告来看,LLaDA2.1在保持极致速度的同时,质量表现同样亮眼:在HumanEval+编程基准中,质量模式下的AScore仅比极速模式下降3.04,而在BigCodeBench-Full测试中甚至实现质量提升。这种“鱼和熊掌兼得”的特性,使其有望成为自回归模型之外的重要选择,为大模型产业注入新的活力。

目前,开发者可通过官方开源渠道获取LLaDA2.1的相关资源,探索扩散模型在各类场景中的应用潜力。随着技术生态的不断完善,曾非主流的扩散模型能否改写大模型行业格局,值得持续关注。

© 版权声明

相关文章