【量子位 2025年12月19日讯】在国产AI芯片热度攀升却仍面临“落地难”的行业困局下,百度智能云AI计算首席科学家王雁鹏在量子位MEET2026智能未来大会上,带来了基于昆仑芯大规模实战经验的深度洞察。他明确指出,当下评判国产AI芯片实力的标准已告别“唯算力论”,转向“模型覆盖能力”与“集群规模能力”两大核心维度——能否稳定支撑从百亿到万亿参数、从稠密模型到MoE架构、从单模态到多模态的完整模型谱系,同时在万卡级集群上实现高效扩展,成为国产芯片能否真正替代国际竞品的关键。
此次大会吸引近1500名线下观众参与,线上直播观看量超350万,王雁鹏的分享不仅拆解了国产芯片在大规模训练场景中的三大核心挑战,更首次系统披露了百度昆仑芯在MoE模型、多模态训练上的突破路径,为行业提供了可落地的实践参考。
行业现状:国产替代“推理易、训练难”,万卡集群成攻坚高地
尽管国产AI芯片市场估值高涨、新品频出,但王雁鹏直言,行业仍存在“看似矛盾却真实的现状”:一方面是市场对国产替代方案的迫切期待,另一方面英伟达仍凭借稳定的大规模训练能力,保持着高利润率与估值增长。其核心原因在于,国产芯片的替代是“渐进式过程”,推理场景的突破已验证可行性(如昆仑芯第一代产品就实现百度搜索线上系统全量推理),但真正的难点集中在大规模训练领域。
“当训练规模从百卡扩展到万卡,挑战呈指数级增长。”王雁鹏以集群稳定性为例解释,100张卡时若有效训练时间达99%,1%的中断损耗尚在可控范围;但线性扩展到1万张卡后,这1%的中断将直接导致整个集群“不可用”。而GPU作为高晶体管密度、高功耗的器件,故障率本身就比CPU高出多个量级,再加上训练任务往往需要连续运行数月,如何保障集群稳定成为首要难题。
更关键的是,当前AI训练的“Scale(规模)”已发生维度变化——不再局限于模型架构的迭代,而是延伸至“模型参数Scale”与“任务训练规模Scale”。前者意味着芯片需适配十亿、百亿、千亿甚至万亿参数的模型,后者则要求支持从百卡到万卡的集群跨越,两者叠加带来的“系统级Scale”,使得硬件需应对不同模型切分策略、并行策略,以及由此产生的复杂算力调度需求。
三大核心挑战:从集群稳定到生态适配,昆仑芯的攻坚路径
基于昆仑芯在百度搜索、智能云等业务中的大规模实践,王雁鹏将国产芯片在大规模训练中的挑战拆解为三类,并针对性给出解决方案:
挑战一:集群稳定性——事前监控与快速恢复双管齐下
为应对GPU高故障率问题,百度构建了“全周期保障体系”:
-
事前精细化监控:不依赖芯片自身报错能力,而是通过系统级工具提前排查潜在故障。例如针对“静默错误”(无明显报错但数据精度异常),开发专用检测算法,精准定位故障节点,避免因“隐性问题”导致数月训练功亏一篑;
-
事后快速恢复:搭建“透明Checkpoint(检查点)”机制,可在故障发生后,从最近的有效节点恢复训练,而非从头重算。王雁鹏透露,该机制已将故障后的训练损失降低60%以上,某万亿参数模型训练因硬件中断仅损失2小时进度。
挑战二:集群扩展能力——从百卡到万卡的“线性突破”
万卡集群的核心诉求是“线性扩展”,即集群算力随卡数增加同比例提升,否则规模扩张将失去意义。百度昆仑芯的扩展路径分为三个关键阶段:
-
百卡阶段:验证技术可行性,重点突破RDMA高速通信技术适配,确保单节点间数据传输效率;
-
千卡阶段:应对“网络非对等”问题——由于集群中不同机器的网络位置差异,传统“同等对待”策略会导致性能损耗。为此开发“网络亲和性调度算法”,将通信需求高的节点优先部署在网络拓扑近的位置,提升整体效率;
-
万卡阶段:首创“XPU驱动的any to any通信”技术。以昆仑芯XPU为核心,绕开CPU对通信的干扰,直接驱动网络传输;同时针对不同任务的流量需求设置优先级,实现多任务、多并行策略(PP管道并行、TP张量并行、EP专家并行等)下的流量协同。目前,基于该技术的昆仑芯万卡集群,已实现95%的扩展线性度,接近国际顶尖水平。
挑战三:模型生态与精度体系——破解“算子适配”与“精度对齐”难题
王雁鹏直言,英伟达的核心护城河并非硬件本身,而是过去十余年沉淀的“模型生态”——上万种模型变体、成熟的算子体系、全框架适配能力,确保了训练精度的稳定性。尽管大模型时代Transformer架构的统一,为国产芯片带来了适配机遇,但“参数Scale与训练规模Scale的双重变化”,仍让生态适配面临新挑战:
“不同参数规模的模型、不同集群规模,会导致算子映射到硬件时出现不同size、不同形状,甚至不同并行策略。”王雁鹏举例,某千亿参数模型训练曾因“一个算子精度差0.1%”,导致两个月训练结果无效。为此,百度昆仑芯构建了“高度泛化的算子体系”:
-
针对不同算子size做高强度兼容性优化,确保从十亿参数到万亿参数模型都能稳定调用;
-
建立“小规模验证机制”,无需每次用万卡集群对比精度,通过百卡级测试即可预判大规模训练的可靠性,大幅降低试错成本。
目前,昆仑芯已实现与主流AI框架(TensorFlow、PyTorch)的深度适配,算子覆盖率超98%,在Qwen-7B、Llama 3等主流模型上的精度对齐率达99.9%。
MoE与多模态新突破:小芯片搭大集群可行,异构调度提效5倍
针对当前AI训练的两大重要方向——MoE(混合专家模型)与多模态,王雁鹏详细拆解了昆仑芯的技术突破,打破了“只有大芯片才能支撑MoE”的行业误区。
MoE模型:极致通信优化让“小芯片集群”可行
MoE模型凭借“不增加激活参数规模却能扩展模型参数”的特性,成为延续Scaling Law的关键方向,但也带来新挑战:模型参数更大、输入序列更长,导致通信占比从稠密模型(Dense)的15%飙升至40%-60%,传统架构难以承载。
王雁鹏表示,百度的解决方案是“通信-计算-显存协同优化”:
-
分层与聚合通信:将MoE模型的专家通信拆分为多层级,同时对相同类型的通信请求进行聚合,减少数据传输次数;
-
激活值Offload(卸载):将部分非关键激活值暂存至内存,释放显存空间用于专家参数存储;
-
细粒度通信计算Overlap(重叠):让通信操作与计算操作并行执行,避免因等待数据传输导致的算力闲置。
通过这些优化,昆仑芯在万卡集群上实现了MoE模型训练效率的显著提升——MFU(模型计算效率)可追平英伟达千卡集群水平,且验证了“小芯片搭大集群”的可行性,为国产芯片避开“大芯片制程限制”提供了新路径。
多模态训练:异构调度破解“效率低”难题
多模态模型(如图文、音视频融合)则面临“模态差异导致的效率瓶颈”。不同模态(文本、图像、音频)的计算强度、数据量差异巨大,若采用传统同构拆分方法,训练MFU(模型计算效率)往往低于10%,算力浪费严重。
对此,百度开发了“异构数据均衡调度体系”:
-
计算量感知Packing:根据不同模态的计算需求,动态调整数据打包策略,避免“小任务占用大算力”;
-
异构并行策略:针对LLM(大语言模型)与ViT(视觉Transformer)的参数差异,采用不同的TP(张量并行)切分方式;
-
VPP(可变管道并行)机制:支持不均匀的层拆分,消除传统PP(管道并行)中的“气泡时间”(某阶段空闲等待)。
王雁鹏透露,通过这套方案,昆仑芯将多模态训练的MFU提升至50%,接近纯文本模型的效率水平,已成功支撑百度“Qianfan-VL”多模态模型(5千卡集群训练)、“蒸汽机”音视频生成模型(6千卡集群训练)的全栈训练,其中“蒸汽机”模型更是实现“无限时长”音视频生成,突破传统AI视频10秒左右的时长限制。
评判新标准:模型覆盖与集群规模双维度,昆仑芯已实现万卡突破
在演讲结尾,王雁鹏提出了衡量国产AI芯片“能否真正用起来”的两大核心指标,为行业提供了清晰的评估框架:
-
模型覆盖能力:能否覆盖大语言模型、多模态模型、文生视频等完整模型体系,而非局限于单一类型;
-
集群规模能力:能否实现从百卡、千卡到万卡的全规模覆盖,且在万卡级集群上保持高效扩展与稳定运行。
目前,百度昆仑芯已在这两大维度上实现关键突破:模型覆盖上,完成主流大模型体系的适配,包括千亿参数稠密模型、万亿参数MoE模型,以及文生图、文生视频等多模态模型;集群规模上,已成功运行万卡级训练任务,未来计划向“数万卡”规模推进。
王雁鹏特别强调,硬件的价值需通过“模型绑定”验证——正如Google通过Gemini模型证明TPU的训练能力,昆仑芯也在通过绑定百度自研的顶尖模型(如Qianfan-VL、蒸汽机),持续验证硬件实力。“只有让更先进的模型在国产芯片上全栈训练出来,硬件才能真正被行业接受。”
此次百度昆仑芯的实践披露,不仅为国产AI芯片的大规模训练提供了“可复用的技术模板”,更打破了“国产芯片只能做中低端场景”的刻板印象。随着模型覆盖能力的持续完善与万卡集群技术的成熟,国产AI芯片正从“推理替代”向“训练突围”迈进,为中国AI产业构建“安全可控”的算力底座提供了关键支撑。而王雁鹏提出的“双指标评估体系”,也将成为未来行业判断国产芯片实力的重要参考,推动行业从“算力比拼”转向“场景落地能力竞争”。