【量子位 2026年1月1日讯】AI算力市场的“性价比鸿沟”再度拉大!Signal65最新发布的测试报告显示,在AI推理核心场景中,英伟达GB200 NVL72平台的“每美元性能”达到AMD MI355X的15倍——尽管单GPU小时成本贵1.86倍,但生成同等数量token的成本仅为AMD的1/15。这一数据不仅印证了黄仁勋“买越多,省越多”的算力经济学逻辑,更揭示出MoE(专家混合)模型时代,“端到端平台能力”已成为决定算力成本的核心变量,英伟达凭借硬件互联与软件优化的双重优势,进一步巩固了AI算力霸主地位。
报告基于2025年10-12月SemiAnalysis Inference MAX基准测试数据,覆盖密集模型、MoE模型等全场景,其结论为企业选择AI算力平台提供了关键参考:在复杂推理场景中,英伟达不仅性能领先,长期成本优势更远超预期。
一、实测数据震撼:模型越复杂,英伟达优势越悬殊
测试从“交互性需求”(tokens/sec/user)与“模型复杂度”两个维度展开,结果显示,随着场景对算力要求提升,英伟达与AMD的差距呈指数级扩大,尤其在MoE模型上优势显著。
1. 密集模型:基础场景已显差距
在Llama 3.3 70B(密集模型)测试中,英伟达B200的领先幅度随交互性提升而扩大:
-
低交互性(30 tokens/sec/user):B200性能为AMD MI355X的1.8倍,每美元性能优势1倍;
-
高交互性(110 tokens/sec/user):B200性能跃升至MI355X的6倍,每美元性能优势达3.2倍。
这意味着,当企业需要为用户提供更流畅的实时交互(如智能客服、实时翻译)时,英伟达平台的成本优势会快速凸显。
2. MoE模型:中等复杂度差距翻倍
在GPT-OSS-120B(中等规模MoE模型,1170亿总参数,单token激活51亿参数)测试中,差距进一步拉大:
-
100 tokens/sec/user:B200性能是MI355X的3倍,每美元性能优势1.6倍;
-
250 tokens/sec/user(接近推理场景实际需求):B200性能达MI355X的6.6倍,每美元性能优势3.5倍。
更关键的是,从10月到12月的两个月间,英伟达峰值吞吐从7000 tokens/sec提升至14000以上,AMD仅从6000提升至8500,双方优化速度的差距进一步扩大性能鸿沟。
3. 前沿推理模型:28倍性能差,成本仅1/15
在DeepSeek-R1(前沿MoE推理模型,6710亿总参数,单token激活370亿参数)测试中,英伟达GB200 NVL72(72卡互联系统)展现出“碾压级”优势:
-
低交互性(25 tokens/sec/user):GB200 NVL72每GPU性能是AMD MI355X的16倍;
-
高交互性(75 tokens/sec/user):性能优势扩大至28倍,结合1.86倍的价格溢价,每美元性能达MI355X的15倍——生成同等token,英伟达成本仅为AMD的1/15;
-
极限能力:GB200 NVL72在28卡配置下可实现275 tokens/sec/user的交互性,而AMD MI355X峰值仅75 tokens/sec/user,无法满足高并发推理场景需求。
二、英伟达的“破局关键”:硬件互联+软件调度,破解MoE通信瓶颈
MoE模型的核心痛点是“多GPU通信延迟”——专家子网络分布在不同GPU上时,数据传输会导致算力单元空闲,直接推高成本。英伟达通过“硬件互联技术+软件调度框架”的组合拳,成功突破这一瓶颈,而这正是AMD等竞品尚未补齐的短板。
1. 硬件:NVLink互联,72卡变“一块巨型GPU”
GB200 NVL72采用NVLink高速互联技术,将72块GPU连接成单一计算域,提供130 TB/s的互联带宽,是传统PCIe带宽的数十倍:
-
优势:多GPU间数据传输延迟大幅降低,避免MoE模型中“专家激活时等待数据”的问题,让算力单元利用率提升至90%以上;
-
对比:AMD MI355X依赖传统互联方案,8卡以上系统即出现“扩展天花板”,通信延迟随GPU数量增加呈线性上升,算力浪费严重。
2. 软件:Dynamo框架优化,动态调度提升效率
英伟达自研的Dynamo推理框架,通过两大核心技术进一步优化性能:
-
分离式预填充-解码调度:将模型推理的“预填充”(处理输入上下文)与“解码”(生成输出token)阶段分离,并行利用算力资源,减少空闲时间;
-
动态KV缓存路由:根据token激活的专家子网络,动态分配缓存资源,避免重复计算,尤其在MoE模型中可降低30%以上的内存占用。
软件与硬件的深度协同,让GB200 NVL72在复杂场景中既能“跑得起”,更能“跑得省”。
三、算力经济学验证:“买贵的”反而“花得少”
表面看,英伟达平台的单GPU成本更高——Oracle Cloud数据显示,GB200 NVL72每GPU每小时16美元,AMD MI355X为8.6美元,前者是后者的1.86倍。但结合性能优势计算“每美元性能”与“单token成本”,结果完全反转,印证了黄仁勋“买越多,省越多”的逻辑。
1. 与AMD对比:15倍每美元性能,长期成本骤降
以DeepSeek-R1 75 tokens/sec/user场景为例:
-
性能差距:GB200 NVL72是MI355X的28倍;
-
价格差距:GB200 NVL72是MI355X的1.86倍;
-
每美元性能:28÷1.86≈15倍,即生成1个token,英伟达成本仅为AMD的1/15。
若企业每月生成100亿token,采用英伟达平台可节省约87%的算力成本,且规模越大,节省金额越可观。
2. 与上一代对比:GB200比H200“贵1.67倍,省12倍”
即便与英伟达上一代H200对比,GB200 NVL72的成本优势也十分显著:
-
价格:CoreWeave数据显示,GB200每GPU每小时10.5美元,H200为6.31美元,贵1.67倍;
-
性能:在DeepSeek-R1场景中,GB200性能是H200的20倍;
-
每美元性能:20÷1.67≈12倍,单token成本降至H200的1/12。
这意味着,企业升级到GB200平台,虽然初期投入增加,但长期算力成本会大幅下降,符合“规模摊薄成本”的经济学规律。
四、行业启示:MoE时代,“平台能力”比单卡性能更重要
此次测试结果的核心启示在于,随着AI模型从“密集型”向“MoE型”演进,算力竞争已从“单卡性能比拼”升级为“端到端平台能力竞争”,企业选择算力平台需关注三大维度:
1. 硬件互联能力:多GPU协同是关键
MoE模型需要多GPU分担“专家子网络”计算,若互联带宽不足,会出现“算力闲置”。英伟达NVLink的高带宽优势,使其在多卡场景下效率远超依赖传统互联的竞品,这也是GB200 NVL72能突破“8卡扩展天花板”的核心原因。
2. 软件生态适配:从框架到工具的全栈优化
英伟达不仅提供硬件,更通过Dynamo推理框架、TensorRT加速引擎等软件工具,为MoE模型量身定制优化方案,实现“硬件性能最大化”。相比之下,AMD依赖开源工具(如vLLM),缺乏深度定制优化,在复杂场景中效率差距明显。
3. 长期成本视角:避免“只看单价,忽视总拥有成本”
企业选购算力时,不能仅关注单GPU小时价格,更需计算“每token成本”“长期运维成本”。英伟达虽单价高,但性能与效率优势带来的长期成本节省,远超过初期投入,尤其适合大规模、高负载的AI推理场景(如大模型服务、企业级AI应用)。
五、竞品现状:AMD仍有生存空间,但难撼英伟达主导地位
报告并未完全否定AMD的竞争力,指出在特定场景下,AMD仍有一定价值:
-
密集模型+低交互性场景:如批量数据处理(文档分析、离线翻译),AMD MI355X的单卡成本优势可部分发挥;
-
容量驱动场景:若企业仅需“存储大量模型权重”而非“高并发推理”,AMD的性价比仍有吸引力。
此外,AMD正在开发机柜级解决方案Helios,计划通过提升互联能力缩小差距,预计未来12个月内推出,但短期内难以撼动英伟达在MoE推理场景的领先地位。
结语:算力经济学重塑AI产业格局
英伟达此次实测数据,不仅是对“买越多,省越多”逻辑的验证,更标志着AI算力市场进入“平台竞争时代”——单一硬件参数已无法决定最终价值,端到端的协同能力才是关键。对于企业而言,选择英伟达平台,不仅是选择更优的性能,更是选择长期可控的算力成本;对于行业而言,这种“性能-成本”的正向循环,将进一步推动MoE模型的规模化应用,加速AI从“实验室”走向“产业落地”。
正如黄仁勋所言,AI算力的价值衡量标准已从“单纯算力”转向“每美元能产出多少智能”。在这一标准下,英伟达凭借技术积累与生态优势,仍将在未来一段时间内引领AI算力市场,而其算力经济学逻辑,也将持续影响企业的AI战略决策。
要不要我帮你整理一份英伟达与AMD算力成本对比表?清晰呈现不同模型、不同交互性场景下的性能、价格与每美元性能数据,方便企业快速评估选型。