高通万卫星详解AI演进新路径：从生成式迈向智能体，混合AI与分布式协同成未来关键

0 0

【量子位 2025年12月12日讯】在量子位MEET2026智能未来大会上，高通公司AI产品技术中国区负责人万卫星带来了一场聚焦终端侧AI发展的深度演讲。他不仅首次系统梳理出AI应用演进的四大阶段，明确当前产业正处于“生成式AI向智能体AI跃迁”的关键窗口期，还披露了高通在端侧大模型部署、技术突破及未来生态布局的核心进展，为行业指明“混合AI+分布式协同”的发展方向。

AI演进四阶段：从感知到物理，智能体成当前核心跃迁目标

万卫星在演讲中提出，AI应用的发展并非线性推进，而是呈现出清晰的阶段性特征，可划分为四大阶段：

感知AI（已成熟落地）：作为AI发展的基础阶段，涵盖传统自然语言处理、语音降噪、图片识别与分割等技术，早在多年前就已广泛应用于手机、PC等终端设备，例如手机的人脸识别解锁、照片自动分类功能，均属于感知AI范畴。
生成式AI（当前主流）：伴随ChatGPT兴起而快速爆发，核心是基于海量数据预训练，在人类监督下完成特定生成任务，文生图、聊天机器人、AI翻译等均是典型应用。目前行业关注点仍集中于此，但已显现向下一阶段演进的趋势。
智能体AI（正在到来）：这是当前产业跃迁的核心目标，与生成式AI的“被动响应”不同，智能体AI可在几乎无人类干预的情况下，自主完成行动、预测、意图理解与任务编排。例如用户通过自然语言指令，智能体可自动打开APP、调取数据、执行操作，全程无需手动介入。万卫星强调，“生态系统从单体模型向复合系统转变，是迈向智能体AI的关键基础”。
物理AI（探索初期）：作为AI发展的远景目标，物理AI要求系统能理解真实物理世界的规律，并依据物理定律做出反馈，例如机器人在复杂环境中自主规避障碍物、调整动作力度，目前该阶段仍处于研究探索期，技术成熟度较低。

从终端侧能力演进来看，当前正同步经历“模态升级”——从单一文字模态，向支持文本、图片、视频、音频、语音的多模态甚至全模态方向发展，这为智能体AI的落地提供了关键技术支撑。

端侧AI突破：百亿级模型落地多设备，三大技术破解核心挑战

终端侧是AI贴近用户、实现个性化体验的关键场景，高通在该领域已实现多项突破，同时也针对性解决了行业共性难题。

端侧大模型部署能力显著提升

目前高通已实现不同终端设备的大模型适配，参数量级覆盖广泛：

手机可支持近100亿参数大模型部署，PC适配能力提升至200亿参数，车载场景更是突破200亿-600亿参数规模，满足车载语音助手、自动驾驶辅助决策等复杂需求。
模型能力与上下文处理效率同步升级：今年年初，支持思维链（CoT）推理的模型已实现端侧全部署，意味着终端设备可独立完成逻辑分析任务；上下文长度从两年前的1K-2K，提升至去年的4K，2025年进一步扩展至8K-16K，特殊场景下（如长文档处理）甚至可支持128K上下文窗口，例如手机端可直接处理完整的长篇报告、学术论文。

三大核心挑战与高通技术破局方案

端侧AI虽优势显著，但受限于终端设备的硬件特性，面临内存、带宽、功耗三大核心挑战。对此，高通通过三项关键技术实现突破：

量化与压缩技术：从早期的8bit、4bit量化，演进至2025年的2bit极致压缩，在保证模型精度的前提下，大幅降低内存占用。例如原本需占用10GB内存的模型，经2bit压缩后，内存需求可减少至原来的1/4，使手机等内存有限的设备也能运行大模型。
并行解码技术：针对大语言模型自回归架构“生成token效率低”的痛点，高通创新采用“草稿模型+目标模型”协同模式——先通过端侧小型草稿模型（约为目标模型的1/50）一次性推理多个token，再交由原始大模型校验。由于草稿模型基于目标模型训练，校验接受率极高，可显著提升token生成速度，改善用户交互时延。
先进NPU与异构计算架构：通过自研eNPU（高效神经网络处理单元）及异构计算系统，实现CPU、GPU、NPU的协同调度，让端侧AI从“被动响应服务”转向“主动个性化服务”。例如手机可根据用户使用习惯，主动推送AI生成的日程提醒、工作建议，而非等待用户触发指令。