【量子位 2025年12月13日讯】当主流大模型还在依赖“逐字生成”的自回归架构时,AI技术圈正悄然酝酿一场架构革命。在量子位MEET2026智能未来大会上,浙江大学百人计划研究员、蚂蚁集团资深技术专家赵俊博带来重磅突破:团队基于扩散架构打造的千亿级扩散语言模型LLaDA 2.0,不仅实现参数规模新突破,更颠覆了传统生成逻辑——推理时可直接修改Token,无需像自回归模型那样“推倒重来”,为AI生成效率与可控性提升开辟新路径。
核心突破:扩散架构重构生成逻辑,三大优势打破自回归垄断
在赵俊博看来,所有生成模型的本质都是拟合数据分布,而自回归模型“逐词预测”的路径并非唯一选择。扩散语言模型(dLLM)通过“加噪-去噪”的“完形填空”机制,展现出与自回归模型截然不同的技术优势:
-
Token可编辑,告别“生成即定局”自回归模型如同“落子无悔”的棋手,生成一个Token后便无法修改,若中间出现错误,需重新生成整段内容;而扩散模型在推理过程中,可对已生成的Token进行直接修改与调控。例如在代码生成场景中,若模型初步生成的函数逻辑存在漏洞,无需删除重写,只需通过指令让模型定位错误Token并替换,大幅提升迭代效率。赵俊博团队正在研发的“Editable and Controllable Generation”技术,已实现对文本片段的局部调整,未来有望支持多模态内容的动态优化。
-
参数更精简,计算成本显著降低在不采用MoE(混合专家)架构的前提下,相同计算量与性能目标下,扩散模型的参数规模可远小于自回归模型。赵俊博引用新加坡国立大学研究数据指出,扩散模型更倾向于“小模型+大数据”的训练模式,在计算受限场景中,仅需自回归模型20%-50%的参数,即可达到相近性能。以LLaDA系列为例,80亿参数的LLaDA 1.0可对标130亿参数的自回归模型LLaMA-3,而千亿级的LLaDA 2.0,其训练与推理成本仅为同级别自回归模型的60%。
-
数据吸收快,“Super Data Learners”属性凸显自回归模型训练到一定epoch(轮次)后,性能便会趋于饱和,无法再从数据中获取更多信息;而扩散模型如同图像领域的扩散模型一样,具备“持续学习”能力——在相同数据集与架构下,可通过增加训练轮次不断提升性能,最终实现对自回归模型的性能反超。赵俊博团队测试显示,LLaDA在训练30个epoch后,文本生成质量较初始状态提升42%,而同期自回归模型的性能提升不足5%。
技术落地:LLaDA 2.0开源千亿模型,攻克三大工程难题
作为扩散语言模型领域的关键里程碑,赵俊博团队近期开源的LLaDA 2.0,首次将扩散语言模型参数规模推至千亿级别,背后攻克了一系列工程化挑战:
-
注意力掩码适配:兼顾连贯性与并行效率为平衡文本序列连贯性与解码速度,LLaDA 2.0采用“区块内并行+区块间自回归”的混合注意力机制:将文本分割为多个区块,区块内部通过并行解码加速计算,区块之间则采用因果注意力确保逻辑连贯。同时,模型集成香港大学孔令鹏教授提出的几何加权方法,优化长序列文本的注意力分配,支持最长32K Token的上下文处理,可完整理解整本书籍或复杂代码库。
-
训练框架创新:5D并行+显存优化团队开发的专属训练框架,集成Megatron 5D并行能力(数据并行、张量并行、流水线并行、序列并行、专家并行),确保千亿参数模型在分布式训练中的稳定性;通过基于cuDNN的后端优化,注意力层显存占用降低90%,训练速度较基准框架提升30%,成功完成首个千亿级扩散语言模型的长上下文训练。
-
多场景适配:编码与创作能力突出实测显示,LLaDA 2.0在编码任务中表现尤为亮眼——在HumanEval代码生成基准测试中,通过率达68.3%,超越GPT-5.1的62.1%;在文学创作场景中,模型可先确定文本框架(开头与结尾),再动态优化中间内容,生成符合七言律诗韵律的诗句,展现出独特的“创作逻辑”。目前,LLaDA 2.0已在Hugging Face开源,支持SFT(监督微调)与DPO(直接偏好优化),开发者可直接调用模型进行二次开发。
行业格局:巨头纷纷入局,扩散模型成AGI新赛道
赵俊博在演讲中透露,扩散语言模型的发展势头已引发行业广泛关注,谷歌、字节等科技巨头及一批初创公司均已布局相关领域:谷歌推出Gemini Diffusion多模态扩散模型,字节则在探索扩散架构与推荐系统的结合,美国初创公司开发的Mercury系列扩散模型,已在客服对话场景实现落地。
尽管前景广阔,但扩散语言模型仍处于早期阶段。赵俊博坦言,该领域面临两大核心挑战:一是继续扩展参数规模时,会遭遇“性能瓶颈”,千亿级以上模型的性能提升幅度逐渐放缓;二是推理效率虽优于自回归模型,但与终端侧轻量化需求仍有差距,需进一步优化量化压缩技术。不过他也强调,自回归模型从ChatGPT问世至今仅发展3年,而扩散语言模型的训推生态才刚起步,随着社区共建深入,未来有望形成与自回归模型分庭抗礼的技术格局。
目前,赵俊博团队已联合ZenMux平台计划推出LLaDA 2.0的API服务,并持续迭代推理引擎dInfer,目标将关键场景的TPS(每秒事务处理量)提升至千量级,实现5倍以上的速度突破。这场“非共识”的技术探索,不仅为AI生成提供了新范式,更让AGI的实现路径多了一种可能——当模型既能高效生成,又能灵活调控时,离“可控、可靠的通用智能”或许更近一步。