蚂蚁赵俊博：扩散模型打破自回归垄断，千亿级LLaDA 2.0实现Token直接修改，AGI路径添新选项

0 0

【量子位 2025年12月13日讯】当主流大模型还在依赖“逐字生成”的自回归架构时，AI技术圈正悄然酝酿一场架构革命。在量子位MEET2026智能未来大会上，浙江大学百人计划研究员、蚂蚁集团资深技术专家赵俊博带来重磅突破：团队基于扩散架构打造的千亿级扩散语言模型LLaDA 2.0，不仅实现参数规模新突破，更颠覆了传统生成逻辑——推理时可直接修改Token，无需像自回归模型那样“推倒重来”，为AI生成效率与可控性提升开辟新路径。

核心突破：扩散架构重构生成逻辑，三大优势打破自回归垄断

在赵俊博看来，所有生成模型的本质都是拟合数据分布，而自回归模型“逐词预测”的路径并非唯一选择。扩散语言模型（dLLM）通过“加噪-去噪”的“完形填空”机制，展现出与自回归模型截然不同的技术优势：

Token可编辑，告别“生成即定局”自回归模型如同“落子无悔”的棋手，生成一个Token后便无法修改，若中间出现错误，需重新生成整段内容；而扩散模型在推理过程中，可对已生成的Token进行直接修改与调控。例如在代码生成场景中，若模型初步生成的函数逻辑存在漏洞，无需删除重写，只需通过指令让模型定位错误Token并替换，大幅提升迭代效率。赵俊博团队正在研发的“Editable and Controllable Generation”技术，已实现对文本片段的局部调整，未来有望支持多模态内容的动态优化。
参数更精简，计算成本显著降低在不采用MoE（混合专家）架构的前提下，相同计算量与性能目标下，扩散模型的参数规模可远小于自回归模型。赵俊博引用新加坡国立大学研究数据指出，扩散模型更倾向于“小模型+大数据”的训练模式，在计算受限场景中，仅需自回归模型20%-50%的参数，即可达到相近性能。以LLaDA系列为例，80亿参数的LLaDA 1.0可对标130亿参数的自回归模型LLaMA-3，而千亿级的LLaDA 2.0，其训练与推理成本仅为同级别自回归模型的60%。
数据吸收快，“Super Data Learners”属性凸显自回归模型训练到一定epoch（轮次）后，性能便会趋于饱和，无法再从数据中获取更多信息；而扩散模型如同图像领域的扩散模型一样，具备“持续学习”能力——在相同数据集与架构下，可通过增加训练轮次不断提升性能，最终实现对自回归模型的性能反超。赵俊博团队测试显示，LLaDA在训练30个epoch后，文本生成质量较初始状态提升42%，而同期自回归模型的性能提升不足5%。

技术落地：LLaDA 2.0开源千亿模型，攻克三大工程难题

作为扩散语言模型领域的关键里程碑，赵俊博团队近期开源的LLaDA 2.0，首次将扩散语言模型参数规模推至千亿级别，背后攻克了一系列工程化挑战：

注意力掩码适配：兼顾连贯性与并行效率为平衡文本序列连贯性与解码速度，LLaDA 2.0采用“区块内并行+区块间自回归”的混合注意力机制：将文本分割为多个区块，区块内部通过并行解码加速计算，区块之间则采用因果注意力确保逻辑连贯。同时，模型集成香港大学孔令鹏教授提出的几何加权方法，优化长序列文本的注意力分配，支持最长32K Token的上下文处理，可完整理解整本书籍或复杂代码库。
训练框架创新：5D并行+显存优化团队开发的专属训练框架，集成Megatron 5D并行能力（数据并行、张量并行、流水线并行、序列并行、专家并行），确保千亿参数模型在分布式训练中的稳定性；通过基于cuDNN的后端优化，注意力层显存占用降低90%，训练速度较基准框架提升30%，成功完成首个千亿级扩散语言模型的长上下文训练。
多场景适配：编码与创作能力突出实测显示，LLaDA 2.0在编码任务中表现尤为亮眼——在HumanEval代码生成基准测试中，通过率达68.3%，超越GPT-5.1的62.1%；在文学创作场景中，模型可先确定文本框架（开头与结尾），再动态优化中间内容，生成符合七言律诗韵律的诗句，展现出独特的“创作逻辑”。目前，LLaDA 2.0已在Hugging Face开源，支持SFT（监督微调）与DPO（直接偏好优化），开发者可直接调用模型进行二次开发。

行业格局：巨头纷纷入局，扩散模型成AGI新赛道

赵俊博在演讲中透露，扩散语言模型的发展势头已引发行业广泛关注，谷歌、字节等科技巨头及一批初创公司均已布局相关领域：谷歌推出Gemini Diffusion多模态扩散模型，字节则在探索扩散架构与推荐系统的结合，美国初创公司开发的Mercury系列扩散模型，已在客服对话场景实现落地。

尽管前景广阔，但扩散语言模型仍处于早期阶段。赵俊博坦言，该领域面临两大核心挑战：一是继续扩展参数规模时，会遭遇“性能瓶颈”，千亿级以上模型的性能提升幅度逐渐放缓；二是推理效率虽优于自回归模型，但与终端侧轻量化需求仍有差距，需进一步优化量化压缩技术。不过他也强调，自回归模型从ChatGPT问世至今仅发展3年，而扩散语言模型的训推生态才刚起步，随着社区共建深入，未来有望形成与自回归模型分庭抗礼的技术格局。

目前，赵俊博团队已联合ZenMux平台计划推出LLaDA 2.0的API服务，并持续迭代推理引擎dInfer，目标将关键场景的TPS（每秒事务处理量）提升至千量级，实现5倍以上的速度突破。这场“非共识”的技术探索，不仅为AI生成提供了新范式，更让AGI的实现路径多了一种可能——当模型既能高效生成，又能灵活调控时，离“可控、可靠的通用智能”或许更近一步。

# AI 资讯