国产万亿级多模态大模型开源 为企业级智能体打造核心算力底座

AI 资讯12小时前发布 dennis
0

国产大模型再迎技术突破,YuanLab.ai团队正式开源发布源Yuan3.0 Ultra多模态基础大模型,这一面向万亿参数规模打造的旗舰模型,不仅是业界仅有的三个万亿级开源多模态大模型之一,更围绕企业应用与智能体工具调用完成深度优化,成为OpenClaw等框架构建企业级Agent AI的核心能力支撑,为大模型从技术展示走向企业规模化落地提供了全新路径。

源Yuan3.0 Ultra采用统一多模态模型架构,实现视觉与语言信息的协同建模,其语言主干网络基于混合专家(MoE)架构打造,在训练初始阶段参数规模达1515B,研发团队通过自研的Layer-Adaptive Expert Pruning(LAEP)算法对模型结构进行自适应裁剪与优化,最终将参数精简至1010B,激活参数为68.8B,整体预训练算力效率提升49%。同时,模型创新引入Localized Filtering Attention(LFA)机制,强化对语义关系的建模能力,相较经典Attention结构实现了更高的模型精度,在算力效率与模型性能之间找到最优解。

与普通大模型不同,源Yuan3.0 Ultra从设计之初就聚焦企业复杂业务场景的实际需求,在多模态文档理解、多源信息检索整合、数据分析与业务决策辅助三大核心能力上实现行业领先,成为适配企业级Agent的专属大模型。在复杂文档与图表信息理解方面,模型在DocMatix、MMTab等权威评测中超越Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2等国际前沿模型,能精准解析技术方案、财报报告等图文混排文档的结构,提取关键数据指标,为财报分析、合同审阅等场景的智能体系统提供支撑;在多源信息检索整合上,其在ChatRAG、SummEval等评测中同样表现突出,可完成企业知识环境中检索、理解、综合生成的全流程处理,破解传统检索系统结果零散的痛点;在数据分析领域,模型在Spider、BIRD等Text-to-SQL基准评测中领先Kimi K2.5、DeepSeek V3.2等模型,能将自然语言转化为结构化查询语句,高效支撑企业智能体的数据分析与报告生成任务。

此次源Yuan3.0 Ultra的技术突破,更在于为大模型发展探索出“更高效率、更强智能”的全新思路,打破了“参数越大能力越强”的单一发展模式。研发团队通过研究发现,MoE大模型训练稳定阶段存在专家负载极度不均衡的问题,最高与最低专家负载差异近500倍,造成大量算力浪费,而这一现象本质是模型自发形成的功能专一化分工。基于此提出的LAEP算法,能动态识别低贡献专家,让计算资源集中于核心能力模块,这一过程类似人类大脑对神经连接的优化重组,在保留专业化分工的同时提升整体效率。在推理策略上,模型摒弃单纯延长推理链条的方式,采用Fast-thinking强化学习范式,通过反思抑制奖励机制(RIRM)约束无效反思,让计算资源优先服务于高信息增益步骤,实现了模型精度提升与推理Token消耗下降的双重优化,真正做到“更有效思考”。

作为一款全面开源的大模型,源Yuan3.0 Ultra向社区开放了16bit与4bit模型权重、完整技术报告、训练方法及评测结果,开发者可免费下载使用并进行二次训练与行业定制,其提出的LAEP算法也为业界MoE大模型的结构创新与算力效率提升提供了全新参考。据了解,源Yuan3.0系列还将推出Flash、Pro等版本,对应40B、200B等不同参数量,满足企业多样化的应用需求,相关成果将陆续发布。

当前,大模型正从通用工具向企业级智能体快速演进,OpenClaw等智能体框架成为企业实现数字化转型的重要载体,而高性能的多模态大模型则是智能体发挥作用的核心底座。源Yuan3.0 Ultra的开源发布,不仅填补了国产万亿级开源多模态大模型的空白,更凭借针对企业场景的深度优化,成为企业级智能体的“最强拍档”。随着这一模型的落地与普及,将进一步降低企业构建智能体系统的技术门槛,推动大模型在金融、政务、制造等各行各业的规模化应用,让AI真正成为企业业务发展的核心驱动力。

© 版权声明

相关文章