【量子位 2026年2月3日讯】当行业还在为大模型参数规模“卷”向万亿级时,阶跃星辰走出了一条反常识的技术路线。2月2日,这家AI初创公司正式发布并开源新一代Agent基座模型Step 3.5 Flash,以“稀疏MoE架构+低参数激活”的创新设计,在1960亿总参数基础上,实现每个token仅激活约110亿参数,既保留大模型的智能水平,又将单请求代码类任务推理速度推至每秒350个token的新纪录。更值得关注的是,华为昇腾、沐曦股份、壁仞科技等多家头部芯片厂商已同步完成适配,通过“模芯协同”大幅降低推理成本,为Agent模型规模化落地扫清算力障碍。
一、技术突破:反常识架构设计,破解Agent时代“速度与智能”两难
Step 3.5 Flash的核心创新,在于跳出“参数堆料”的行业惯性,用架构优化重新定义Agent模型的效率标准,精准击中当前智能体开发的三大痛点:响应慢、成本高、适配难。
1. 稀疏MoE架构:1960亿参数的“轻量运行”
不同于传统大模型全参数激活的模式,Step 3.5 Flash采用稀疏混合专家(MoE)架构,将模型能力与运行效率做到极致平衡:
-
参数激活逻辑:总参数量达1960亿,但每个token仅调用约110亿参数(占比不足6%),相当于让“1960亿参数的大脑”仅用“110亿参数的能耗”工作,在保证复杂任务处理能力的同时,大幅降低算力消耗;
-
注意力机制优化:未跟风采用行业热门的Linear Attention,而是选择滑动窗口注意力(SWA)架构,既能像人类一样“有重点分配注意力”,避免长上下文处理时的算力二次瓶颈,又对投机采样(Speculative Sampling)技术高度兼容,进一步提升推理速度。
阶跃星辰联合创始人兼CTO朱亦博在博客中解释:“Agent时代的用户不关心模型有多少参数,只关心‘多久能拿到结果’。SWA架构让模型处理256K长上下文时,不会像传统模型那样‘记不住前面内容’,同时算力开销降低40%以上。”
2. 速度与智能双优:350 tokens/s推理+数学竞赛屠榜
测试数据显示,Step 3.5 Flash在“快”与“强”两个维度均表现亮眼:
-
速度碾压:单请求代码类任务最高推理速度达350 tokens/s,远超行业主流Agent模型(平均50-100 tokens/s),在OpenRouter发布的Fastest Models榜单中,以167 tokens/s的生成速率跻身全球最快模型行列,彻底消除AI交互的“延迟感”;
-
智能顶尖:在高难度数学推理任务中,该模型拿下AIME 2025(美国数学邀请赛)97.3分、IMOAnswerBench(国际数学奥林匹克题基准)85.4分、HMMT 2025(哈佛-麻省理工数学竞赛)96.2分,均为国内开源模型第一;开启并行协同推理(PaCoRe)模式后,得分更逼近满分,证明“低参数激活”未以“降智”为代价。
这种“又快又强”的特性,使其能完美适配Agent核心场景——比如处理几十万token的代码库自动化调试、多步逻辑拆解的数据分析任务时,既能快速响应,又能保证结果准确性。
二、生态协同:多家国产芯片同步适配,推理成本直降50%
Step 3.5 Flash的发布,并非孤立的模型创新,而是阶跃星辰“模芯生态创新联盟”的阶段性成果。通过与头部芯片厂商的底层联合优化,该模型实现“发布即适配”,大幅降低企业和开发者的应用门槛。
1. 国产芯片全覆盖:华为昇腾、沐曦等六家厂商完成适配
截至2月3日,已有六家头部芯片厂商完成对Step 3.5 Flash的深度适配,覆盖从云端到端侧的主流算力平台:
-
云端芯片:华为昇腾910B、沐曦MX1、壁仞BR100、燧原云燧T20,可支持大规模Agent集群部署,满足企业级高并发需求;
-
端侧芯片:天数智芯天垓100、阿里平头哥玄铁910,适配后模型可在NVIDIA DGX Spark、Apple M3/M4 Max、AMD AI Max+ 395等个人工作站流畅运行,开发者无需依赖云端服务器即可本地测试。
天数智芯相关负责人表示:“通过优化模型与GPU的指令集适配,Step 3.5 Flash在天垓100芯片上的推理效率提升35%,单token处理成本从0.002元降至0.0011元,帮助中小开发者以‘桌面级算力’使用千亿级模型。”
2. 模芯联盟发力:打通“芯片-模型-平台”壁垒
此次适配成果,源于阶跃星辰2025年7月发起的“模芯生态创新联盟”。该联盟联合近10家芯片及基础设施厂商,通过三大举措打破技术壁垒:
-
联合优化:芯片厂商提前获取模型架构细节,针对性调整硬件驱动与软件栈;阶跃星辰则根据不同芯片特性优化模型算子,比如为华为昇腾适配Atlas加速库,为沐曦芯片优化矩阵运算逻辑;
-
标准统一:制定“Agent模型算力适配标准”,避免不同芯片厂商“各自为战”,让开发者无需修改代码即可在不同平台部署模型;
-
成本分摊:联盟共同承担适配研发成本,将成果免费开放给开发者,进一步降低大模型应用门槛。
业内分析认为,这种“模型-芯片”深度协同,正成为Agent规模化落地的关键。过去企业部署大模型,常面临“模型跑不起来”“跑起来太贵”的问题,而Step 3.5 Flash与国产芯片的适配,让“低成本用大模型”成为可能。
三、应用场景:从自动编程到端云协同,Agent落地能力获验证
Step 3.5 Flash不仅在技术指标上亮眼,在实际应用场景中也展现出企业级落地能力,尤其适用于高频工具调用、长流程自动化等Agent核心需求。
1. 自动编程与系统构建:自然语言转复杂工具
在编程领域,该模型可基于自然语言指令,完成从“需求拆解”到“代码生成”的全流程自动化:
-
复杂系统开发:输入“构建一个可视化地理空间分析系统,支持实时数据导入与热力图展示”,模型能自动拆解为“前端界面设计-后端数据接口开发-地图SDK集成-热力图算法实现”四个子任务,生成可直接运行的Python+JavaScript代码,且注释完整;
-
代码调试优化:面对几十万行代码的老旧项目,可快速定位漏洞(如内存泄漏、逻辑错误),并生成修复方案,调试效率较人工提升10倍以上。
2. 端云协同:云端大脑+本地设备高效联动
针对数据隐私与本地算力需求,Step 3.5 Flash支持“端云协同”模式:
-
云端任务拆解:作为“云端大脑”,将用户复杂需求(如“分析某地区近5年经济数据并生成可视化报告”)拆解为“数据清洗-统计分析-图表生成”等子任务,再分配给本地设备(如企业服务器、个人电脑)执行;
-
本地数据安全处理:敏感数据(如企业财务数据、用户隐私信息)无需上传云端,仅在本地设备完成计算,云端仅接收处理结果,兼顾效率与数据安全。
目前,该模型已在OpenRouter、GitHub及阶跃AI APP同步上线,开发者可免费试用,支持一键部署至自有服务器或本地工作站。
四、行业意义:Agent时代的“范式突破”,开源生态加速创新
Step 3.5 Flash的发布,不仅是一款模型的落地,更代表着大模型行业从“参数竞赛”向“效率竞赛”的范式转变,对Agent生态发展具有三重意义:
1. 打破“参数迷信”,定义Agent模型新标准
过去行业默认“参数越大,能力越强”,但Step 3.5 Flash证明,通过架构优化与精准训练,“小参数激活”也能实现“大参数模型”的能力。朱亦博将这种转变比作“从功能机到智能机”:“就像2008年大家还在比手机屏幕大小,iPhone却用触摸屏重新定义手机。Agent模型不该再比参数,而该比‘解决问题的效率’。”
这种思路为中小AI企业提供了新方向——无需投入数十亿训练千亿级模型,通过架构创新也能做出有竞争力的产品,避免行业陷入“军备竞赛”式的资源浪费。
2. 国产芯片适配,降低算力依赖风险
此次与华为昇腾、沐曦等国产芯片的同步适配,减少了对海外芯片的依赖。过去开源模型常“优先适配NVIDIA GPU”,国内企业部署时需额外采购昂贵硬件,而Step 3.5 Flash对国产芯片的全面支持,让企业可选择性价比更高的本土算力方案,尤其在当前国际供应链不确定的背景下,具有重要战略意义。
3. 开源推动生态共建
阶跃星辰选择将Step 3.5 Flash开源,而非闭源商用,旨在吸引更多开发者参与模型优化与场景拓展。目前GitHub仓库已收到超200条社区贡献,开发者针对教育、医疗、工业等垂直领域,开发出定制化Agent插件,加速大模型在实际行业中的落地。
结语:Agent时代的“效率革命”已至
Step 3.5 Flash的发布,标志着大模型行业正式进入“Agent效率竞争”阶段。当行业还在纠结“300B参数不够就做1T”时,阶跃星辰用“1960亿参数+110亿激活”的反常识设计,证明“架构创新比参数堆料更重要”;用“350 tokens/s推理+国产芯片全适配”,解决了Agent规模化落地的核心痛点。
对开发者而言,这款开源模型提供了“又快又强又便宜”的Agent底层选择,无需再为“速度”和“智能”做取舍;对行业而言,它树立了“模型-芯片”协同的新标杆,为大模型从“技术演示”走向“生产力工具”提供了可行路径。
随着更多开发者基于Step 3.5 Flash构建细分场景Agent,以及“模芯生态创新联盟”的持续扩容,Agent时代的“效率革命”或将加速到来。正如朱亦博所说:“我们希望Step 3.5 Flash成为开发者的‘Agent搭子’,让每个人都能轻松用上高效、可靠的智能体技术。”