【量子位 2026年2月6日讯】AI交互迎来“从节点到连续”的关键突破。2月5日,面壁智能正式开源全模态模型MiniCPM-o4.5,这款仅9B参数的端侧模型,凭借首创的“全双工多模态实时流机制”,实现“边看、边听、主动说”的无缝交互——既能在空气炸锅“叮”声响起时主动提醒,也能在解说画面时实时响应插入指令,彻底告别传统AI“你问一句、我答一句”的回合制局限,为手机、汽车、机器人等终端场景注入“持续在场”的智能能力。
一、交互革命:从“对讲机”到“随身伙伴”,三大核心能力重构体验
传统多模态模型受限于“串行处理”逻辑,一旦开始生成输出就暂停感知外界,如同“说话时就捂住耳朵”。而MiniCPM-o4.5通过底层架构革新,让AI首次具备类人化的实时交互能力:
1. 全双工并行:边感知边输出,两流并行不阻塞
模型引入“全双工多模态实时流机制”,将视频、音频输入流与语音、文本输出流拆分为两条并行链路——例如用户逛超市时,AI可一边持续识别货架商品变化(视觉输入),一边回答“水果价格”的问题(语音输出),无需等待用户说完或加载新画面。实测显示,即使在输出语音时,模型对突发声音(如敲门声、烧水沸腾声)的识别延迟仍控制在100毫秒内,无明显卡顿。
2. 主动交互:无需提问也能“抢答”,场景理解驱动响应
不同于依赖“静音检测(VAD)”的传统语音助手,MiniCPM-o4.5以1Hz频率持续进行语义判断,基于场景理解主动介入。例如:
-
厨房场景:听到空气炸锅“叮”声后,主动提示“加热完成,可取出食物”;
-
电梯场景:预先接收“提醒下3楼”指令后,持续识别楼层数字,到达时自动播报;
-
运动场景:盯着健身动作实时计数,完成预设组数后主动说“已达标,可休息”。
这种“预判式响应”,解决了“等用户提问已错过时机”的核心痛点。
3. 动态插话:说话时也能听指令,对话不中断
模型突破“说话时无法感知输入”的技术瓶颈,在自身输出语音的同时,仍能捕捉用户新指令并即时调整。测试中,当AI正在解说“画面中蓝色鸭子位置”时,用户突然插入“找小黄鸭”的需求,模型在说完当前分句后,立即切换话题定位小黄鸭,无需等待完整输出结束,交互流畅度接近真人对话。
二、技术拆解:端侧原生架构+软硬协同,9B参数实现SOTA性能
MiniCPM-o4.5的突破,源于“从0到1”的端侧原生设计,而非云端模型的压缩适配,核心技术可概括为三点:
1. 流式模态处理:编码器/解码器升级,支持实时数据流转
团队将原本离线的视觉、音频编码器与语音解码器,改造为支持“毫秒级流式输入/输出”的在线版本:
-
视觉侧:采用帧间特征复用技术,避免每帧画面重新计算,降低端侧算力消耗;
-
语音侧:通过文本与语音Token交错建模,解决长语音生成中音色漂移问题,同时支持实时打断;
-
时序对齐:借助时分复用机制,将多模态数据在毫秒级时间线上统一建模,确保“看”与“说”的同步性。
2. 端到端全模态架构:稠密特征直连大模型,感知不脱节
模型摒弃“模态特征先拼接再输入”的传统方案,通过稠密特征将视觉、音频编码器直接连接到大语言模型主干——这意味着AI在生成回答时,视觉画面(如货架商品变化)、音频信号(如环境声音)仍在持续更新,而非依赖某一时刻的“快照数据”,大幅提升场景理解的连贯性。
3. 跨芯片适配:软硬协同优化,国产芯片性能拉满
依托面壁智能两年积累的“软硬一体”技术栈,MiniCPM-o4.5已在天数智芯、华为昇腾、平头哥、海光、沐曦等6款国产芯片上完成端到端推理优化:
-
芯片设计阶段:模型团队提前介入,提出算子适配需求,例如优化视觉特征提取的卷积算子;
-
模型训练阶段:针对不同芯片的算力特点调整量化策略,在INT8量化下仍保持95%以上的全模态性能;
-
实测数据:在华为昇腾910B芯片上,模型推理速度较通用方案提升3倍,显存占用降低40%,满足端侧实时运行需求。
三、性能与场景:9B参数斩获多领域SOTA,端侧落地覆盖全场景
尽管参数规模仅9B,MiniCPM-o4.5在全模态基准测试中表现亮眼,同时已明确多场景落地路径:
1. Benchmark测试:多维度领先,小参数也有大能力
在全模态理解、视觉分析、语音交互等核心测试中,模型均达到行业领先水平:
-
全模态对话:在MMBench多模态评测中,综合得分超越13B参数的Qwen-VL,尤其在“视觉+语音联动”任务(如根据画面解说并响应声音指令)中优势显著;
-
语音生成:音色自然度、情感表现力评分超微软Azure TTS,长语音(10分钟以上)合成的稳定性提升60%;
-
声音克隆:仅需3秒用户音频样本,即可生成定制音色,克隆相似度达92%,支持角色扮演对话(如用克隆音色模拟卡通角色)。
2. 落地场景:从个人终端到产业设备,全天候陪伴成可能
基于“端侧部署+持续感知”的核心特性,MiniCPM-o4.5已锁定三大落地方向:
-
个人终端:手机端可作为“随身助手”,实时提醒日程、识别路边商品价格;未来将与面壁首款AI硬件“松果派(Pinea Pi)”开发板配套,支持开发者快速搭建端侧智能设备;
-
智能座舱:持续监测路况(视觉)、乘客指令(语音),在驾驶中主动提示“前方限速”“后排乘客呼叫”,无需手动唤醒;
-
具身智能:为机器人提供“不中断的感知-决策”能力,例如服务机器人在引导用户时,可同时识别障碍物并调整路线,无需暂停交互。
四、行业意义:端侧AI进入“连续智能”时代,开源加速生态建设
面壁智能CEO李大海表示:“过去的AI是‘节点式工具’,而MiniCPM-o4.5试图成为‘连续式伙伴’——这不是体验升级,而是端侧AI能否真正融入现实世界的分水岭。”
目前,MiniCPM-o4.5的代码与模型权重已在GitHub、Hugging Face、ModelScope三大平台开源,同时提供全双工交互在线体验Demo。团队还计划于年中推出“松果派”开发板,实现“模型+硬件”开箱即用,降低开发者端侧全模态应用的开发门槛。
对于行业而言,这款模型的开源不仅提供了“小而强”的端侧全模态方案,更验证了“不堆算力、聚焦端侧”的差异化路线可行性——在云端大模型竞争白热化的当下,面壁智能的探索或许正为AI落地打开另一扇门:让智能不再依赖数据中心,而是真正“嵌入”日常生活的每一个终端。
我可以帮你整理MiniCPM-o4.5的开源平台地址、在线体验链接及核心技术参数,制作成一份“开发者快速上手清单”,方便你直接获取资源并测试模型能力。需要我这样做吗?