摩尔线程开发者大会放全栈大招:花港架构效能提升10倍,万卡集群+AI算力本构建国产GPU生态

【量子位 2025年12月22日讯】上市仅15天,国产GPU头部企业摩尔线程便以一场“全栈技术秀”彰显行业野心。12月20日,在首届MUSA开发者大会(MDC 2025)上,摩尔线程发布第五代全功能GPU架构“花港”,同步推出三款新芯片、两款硬件产品及夸娥万卡智算集群,形成覆盖“云-边-端”的全场景算力布局。这场国内首个聚焦全功能GPU的开发者盛会,不仅标志着国产GPU从“单点性能突破”迈向“全栈生态构建”,更以“算力密度提升50%、效能提升10倍”的技术硬实力,向高端GPU市场发起冲击。

核心突破:花港架构定义全功能GPU新基准

作为本次大会的“技术基石”,新一代GPU架构“花港”重构了全功能GPU的性能与场景边界,从计算密度、精度支持到互联能力实现全方位升级:

  • 性能与能效双飞跃花港架构采用全新指令集,在同等芯片面积下算力密度提升50%,单位瓦特性能(能效)优化10倍,为大规模智算集群提供“绿色算力底座”。例如,在相同功耗下,基于花港架构的GPU完成大模型推理任务的速度,较上一代产品提升近3倍,大幅降低数据中心运营成本。

  • 全精度覆盖适配多元场景架构首次实现从FP4(低精度)到FP64(高精度)的全精度端到端计算,新增MTFP6/MTFP4混合低精度加速技术——针对AI训练场景,FP4精度可将Transformer算子吞吐量提升2倍;针对科学计算场景,FP64精度能满足量子模拟、流体力学等高精度计算需求,真正做到“一架构通吃AI+图形+科学计算”。

  • 超大规模集群能力打底集成自研MTLink高速互联技术,单集群支持十万卡级扩展,为万亿参数大模型训练铺平道路。在架构层面优化异步编程模型,支持“常驻核函数”“线程束特化”,让GPU在处理多任务并行时,资源利用率提升30%以上。

产品矩阵:从云端集群到端侧设备的全场景覆盖

围绕花港架构,摩尔线程推出“芯片-硬件-集群”三位一体的产品组合,精准匹配不同算力需求:

  • 两款核心芯片:AI与图形双线突破
  1. 华山芯片(AI训推一体):专为大模型训练与推理设计,原生支持矩阵rowmax计算、在线量化/反量化等硬件加速,Attention算子吞吐量较国际主流产品提升15%。其浮点算力、访存带宽等关键指标对标英伟达高端型号,可支撑万亿参数模型训练,填补国产GPU在超大规模AI算力领域的空白。

  2. 庐山芯片(高性能图形渲染):图形性能实现代际跃升——AI计算性能提升64倍、几何处理性能提升16倍、光线追踪性能提升50倍,内置AI生成式渲染架构(AGR),支持DirectX 12 Ultimate。例如,渲染3A游戏复杂场景时,帧率较上一代产品提升15倍,同时通过AI生成细节纹理,让画面真实度媲美电影级效果。

  • 端侧硬件:让AI开发“开箱即用”
  1. MTT AIBOOK(AI算力本):搭载自研“长江”智能SoC芯片,提供50 TOPS异构AI算力,运行基于Linux的MT AIOS系统,兼容Windows办公与安卓应用。预装完整AI开发环境,支持本地运行72B参数大模型(如MUSAChat-72B),开发者可随时随地调试Agent、生成AIGC内容,真正实现“端侧智算自由”。

  2. AICube(桌面AI计算魔方):定位“个人智算终端”,体积仅为传统服务器的1/10,却能提供等效于10台高性能PC的算力,适用于小批量模型推理、数据预处理等场景,为中小团队及个人开发者降低算力门槛。

  • 夸娥万卡智算集群:国产算力效率新标杆作为衡量GPU企业系统级能力的关键,夸娥万卡集群首次公开核心工程指标:训练Dense大模型时算力利用率(MFU)达60%,MOE模型MFU达40%,有效训练时间占比超90%,线性扩展效率95%——这些指标已接近国际主流水平。更值得关注的是,该集群已完整复现DeepSeek V3的FP8训练,自研FP8 GEMM算力利用率高达90%;联合硅基流动优化后,MTT S5000单卡在DeepSeek V3 671B模型推理中,Prefill吞吐突破4000 tokens/s,Decode吞吐超1000 tokens/s,刷新国产GPU推理性能纪录。

生态布局:从软件开源到人才培育,构筑长期护城河

GPU的竞争本质是生态的竞争。摩尔线程此次同步升级MUSA软件栈5.0,并推出多维度生态举措,打破“硬件强、软件弱”的国产GPU困境:

  • 全栈软件优化,兼容主流框架MUSA 5.0实现三大突破:一是适配JAX、TensorFlow等新增AI框架,覆盖95%以上主流开发工具;二是核心库性能飙升——muDNN的GEMM/FlashAttention效率超98%,编译器性能提升3倍;三是创新推出muLang编程语言,兼容TileLang、Triton,支持开发者灵活调优。同时,摩尔线程宣布逐步开源MATE算子库、MT DeepEP通信库等核心组件,向社区开放底层能力。

  • 开发者培育:从高校到产业的全链路赋能依托“摩尔学院”平台,摩尔线程已汇聚20万名开发者,计划未来培育百万规模社群。具体举措包括:走进全国200所高校开展产教融合,共建联合实验室;举办“繁星计划”竞赛,激励开发者基于MUSA生态开发创新应用;提供从入门到大师的在线课程,覆盖GPU编程、大模型训练等核心技能。中国工程院院士郑纬民评价:“国产GPU要从‘能跑’到‘愿意用’,关键在于让开发者有友好的工具、有成长的空间。”

行业意义:国产GPU迈向“全功能+生态化”新阶段

摩尔线程此次大会的成果,不仅是企业自身的技术跃迁,更折射出国产GPU行业的发展拐点:

  • 打破“单一场景”局限,定义全功能标准不同于专注AI加速的单一功能产品,花港架构及系列产品覆盖AI、图形、科学计算等全场景,复刻了英伟达CUDA生态“以通用可编程性撬动多元应用”的成功路径,为国产GPU树立“全功能”标杆。

  • 从“算力供给”到“生态共建”,提升产业话语权万卡集群效率的公开、软件栈的开源及开发者培育,表明摩尔线程已从“硬件供应商”转变为“生态构建者”。这种转变将吸引更多企业与开发者加入MUSA生态,形成“硬件-软件-应用”的正向循环,逐步打破国外GPU生态的垄断。

随着花港架构的落地与生态的逐步完善,摩尔线程正推动国产GPU从“跟跑”向“并跑”迈进。正如其创始人张建中所言:“生态是GPU的核心护城河,我们要与开发者一起,让国产算力不仅‘能用’,更‘好用、耐用’。”未来,当MUSA生态支撑起更多世界级应用与模型时,国产GPU或许将真正迎来属于自己的时代。

© 版权声明

相关文章