面壁智能开源MiniCPM-o4.5：全双工交互让AI告别“对讲机”，端侧部署开启全天候陪伴

0 0

【量子位 2026年2月6日讯】AI交互迎来“从节点到连续”的关键突破。2月5日，面壁智能正式开源全模态模型MiniCPM-o4.5，这款仅9B参数的端侧模型，凭借首创的“全双工多模态实时流机制”，实现“边看、边听、主动说”的无缝交互——既能在空气炸锅“叮”声响起时主动提醒，也能在解说画面时实时响应插入指令，彻底告别传统AI“你问一句、我答一句”的回合制局限，为手机、汽车、机器人等终端场景注入“持续在场”的智能能力。

一、交互革命：从“对讲机”到“随身伙伴”，三大核心能力重构体验

传统多模态模型受限于“串行处理”逻辑，一旦开始生成输出就暂停感知外界，如同“说话时就捂住耳朵”。而MiniCPM-o4.5通过底层架构革新，让AI首次具备类人化的实时交互能力：

1. 全双工并行：边感知边输出，两流并行不阻塞

模型引入“全双工多模态实时流机制”，将视频、音频输入流与语音、文本输出流拆分为两条并行链路——例如用户逛超市时，AI可一边持续识别货架商品变化（视觉输入），一边回答“水果价格”的问题（语音输出），无需等待用户说完或加载新画面。实测显示，即使在输出语音时，模型对突发声音（如敲门声、烧水沸腾声）的识别延迟仍控制在100毫秒内，无明显卡顿。

2. 主动交互：无需提问也能“抢答”，场景理解驱动响应

不同于依赖“静音检测（VAD）”的传统语音助手，MiniCPM-o4.5以1Hz频率持续进行语义判断，基于场景理解主动介入。例如：

厨房场景：听到空气炸锅“叮”声后，主动提示“加热完成，可取出食物”；
电梯场景：预先接收“提醒下3楼”指令后，持续识别楼层数字，到达时自动播报；
运动场景：盯着健身动作实时计数，完成预设组数后主动说“已达标，可休息”。

这种“预判式响应”，解决了“等用户提问已错过时机”的核心痛点。

3. 动态插话：说话时也能听指令，对话不中断

模型突破“说话时无法感知输入”的技术瓶颈，在自身输出语音的同时，仍能捕捉用户新指令并即时调整。测试中，当AI正在解说“画面中蓝色鸭子位置”时，用户突然插入“找小黄鸭”的需求，模型在说完当前分句后，立即切换话题定位小黄鸭，无需等待完整输出结束，交互流畅度接近真人对话。

二、技术拆解：端侧原生架构+软硬协同，9B参数实现SOTA性能

MiniCPM-o4.5的突破，源于“从0到1”的端侧原生设计，而非云端模型的压缩适配，核心技术可概括为三点：

1. 流式模态处理：编码器/解码器升级，支持实时数据流转

团队将原本离线的视觉、音频编码器与语音解码器，改造为支持“毫秒级流式输入/输出”的在线版本：

视觉侧：采用帧间特征复用技术，避免每帧画面重新计算，降低端侧算力消耗；
语音侧：通过文本与语音Token交错建模，解决长语音生成中音色漂移问题，同时支持实时打断；
时序对齐：借助时分复用机制，将多模态数据在毫秒级时间线上统一建模，确保“看”与“说”的同步性。

2. 端到端全模态架构：稠密特征直连大模型，感知不脱节

模型摒弃“模态特征先拼接再输入”的传统方案，通过稠密特征将视觉、音频编码器直接连接到大语言模型主干——这意味着AI在生成回答时，视觉画面（如货架商品变化）、音频信号（如环境声音）仍在持续更新，而非依赖某一时刻的“快照数据”，大幅提升场景理解的连贯性。

3. 跨芯片适配：软硬协同优化，国产芯片性能拉满

依托面壁智能两年积累的“软硬一体”技术栈，MiniCPM-o4.5已在天数智芯、华为昇腾、平头哥、海光、沐曦等6款国产芯片上完成端到端推理优化：

芯片设计阶段：模型团队提前介入，提出算子适配需求，例如优化视觉特征提取的卷积算子；
模型训练阶段：针对不同芯片的算力特点调整量化策略，在INT8量化下仍保持95%以上的全模态性能；
实测数据：在华为昇腾910B芯片上，模型推理速度较通用方案提升3倍，显存占用降低40%，满足端侧实时运行需求。

三、性能与场景：9B参数斩获多领域SOTA，端侧落地覆盖全场景

尽管参数规模仅9B，MiniCPM-o4.5在全模态基准测试中表现亮眼，同时已明确多场景落地路径：

1. Benchmark测试：多维度领先，小参数也有大能力

在全模态理解、视觉分析、语音交互等核心测试中，模型均达到行业领先水平：

全模态对话：在MMBench多模态评测中，综合得分超越13B参数的Qwen-VL，尤其在“视觉+语音联动”任务（如根据画面解说并响应声音指令）中优势显著；
语音生成：音色自然度、情感表现力评分超微软Azure TTS，长语音（10分钟以上）合成的稳定性提升60%；
声音克隆：仅需3秒用户音频样本，即可生成定制音色，克隆相似度达92%，支持角色扮演对话（如用克隆音色模拟卡通角色）。

2. 落地场景：从个人终端到产业设备，全天候陪伴成可能

基于“端侧部署+持续感知”的核心特性，MiniCPM-o4.5已锁定三大落地方向：

个人终端：手机端可作为“随身助手”，实时提醒日程、识别路边商品价格；未来将与面壁首款AI硬件“松果派（Pinea Pi）”开发板配套，支持开发者快速搭建端侧智能设备；
智能座舱：持续监测路况（视觉）、乘客指令（语音），在驾驶中主动提示“前方限速”“后排乘客呼叫”，无需手动唤醒；
具身智能：为机器人提供“不中断的感知-决策”能力，例如服务机器人在引导用户时，可同时识别障碍物并调整路线，无需暂停交互。