【量子位 2026年1月16日讯】在大模型处理长文本时“算力告急、推理延迟”的行业痛点下,美团龙猫LongCat系列迎来关键技术升级。1月13日,美团AI团队正式发布全新稀疏注意力机制LoZA(LongCat ZigZag Attention),通过“精准筛选核心模块+线性复杂度计算”的创新设计,将长文本处理能力从256K Token跃升至1M Token(约75万字),处理128K上下文时解码速度较前代提升10倍,256K文本预加载效率提高50%。更值得关注的是,在MRCR长文本基准测试中,搭载LoZA的LongCat-Flash-Exp模型反超同级别Qwen-3,成为当前开源领域处理超长文本的标杆方案。
一、技术突破:从“全量计算”到“精准发力”,LoZA破解注意力机制算力困局
传统大模型处理长文本时,全注意力机制的平方级计算复杂度(O(L²))是核心瓶颈——文本长度每翻倍,算力需求就会增至4倍,导致显卡负载过高、推理延迟飙升。LoZA的核心思路是“抓重点、轻次要”,通过两步改造实现“算力减负不减能”。
1. 第一步:AI自主“筛查”可优化模块,50%模块换用轻量计算
LoZA并非对原有多头潜在注意力(MLA)机制全盘改造,而是先通过“校准训练”找出可优化空间:
-
给模块配“重要性权重”:为每个MLA模块分配可学习权重α,α值越高代表该模块对文本理解的重要性越强,简化后易丢失性能;α值越低则可替代性越强,适合轻量化改造。训练时冻结模型其他参数,仅更新α的梯度,让AI自主学习各模块的“不可替代性”;
-
筛选50%低α模块改造:按α值从小到大排序,将后50%低重要性模块替换为流式稀疏注意力(SSA)。SSA的计算复杂度仅为线性级(O(L·S),S为固定1024 Token的稀疏窗口),远低于全注意力的O(L²),直接将整体算力需求拉回线性水平。
这种“半保留、半改造”的交错结构被团队命名为“ZigZag”,既避免了全稀疏化导致的性能缩水,又大幅降低算力消耗——以256K文本为例,改造后解码阶段算力节省30%,相当于相同硬件可同时处理2倍以上的长文本任务。
2. 第二步:1024Token窗口平衡“局部细节”与“全局逻辑”
为防止稀疏计算忽略文本整体关联性,LoZA设计了独特的“1024Token稀疏窗口”:
-
窗口内分“全局块+局部块”:每个窗口包含1个128Token的“全局块”和7个128Token的“局部块”,全局块负责捕捉文本整体逻辑(如文章结构、跨段落关联),局部块专注于细节理解(如句子语义、实体关系);
-
动态滑动覆盖全文:窗口随文本处理进度动态滑动,确保每部分内容都能同时得到“局部精细分析”和“全局关联判断”。例如处理1M长文档时,模型既能精准提取某段落的关键数据,又能理解该数据在整篇文档中的作用,避免“只见树木不见森林”。
更关键的是,这种改造无需从头训练模型——在LongCat系列中期训练阶段即可完成α值校准与模块替换,研发成本较“从零构建新模型”降低60%以上。
二、实测表现:速度与性能双优,长文本任务反超行业竞品
美团团队通过多维度测试验证LoZA的实际效果,结果显示其在“效率提升”与“性能保持”之间实现了行业罕见的平衡,尤其在超长文本场景中优势显著。
1. 速度:128K文本解码快10倍,硬件利用率翻倍
在不同长度文本的处理效率测试中,LoZA展现出明显的速度优势:
-
短文本(8K-64K):预加载与解码速度较前代LongCat-Flash提升1.9-3.7倍,生成文本时的Token速度从50 tokens/s提升至120 tokens/s;
-
中长文本(128K):解码速度直接突破10倍提升,原本需要10分钟处理的128K文档(约9.6万字),现在仅需1分钟即可完成;
-
超长文本(256K-1M):256K文本预加载速度提高50%,1M文本(约75万字)处理时无明显卡顿,而前代模型在处理512K文本时就会出现显卡内存溢出。
这种效率提升直接转化为硬件利用率的优化——基于H800显卡测试,搭载LoZA的模型可同时处理3个256K文本任务,而前代仅能处理1个,硬件吞吐量提升200%。
2. 性能:日常任务不缩水,长文本反超Qwen-3
尽管算力需求降低,但LoZA并未牺牲模型理解能力:
-
日常任务持平:在MMLU(综合知识)、CEval(中文能力)、HumanEval(代码生成)等基准测试中,LongCat-Flash-Exp与原版LongCat-Flash性能差距小于1%,处理问答、写代码等日常任务时用户无感知差异;
-
长文本任务反超:在MRCR长文本检索与理解测试中(包含2-8个关键信息点的1M文本定位),LongCat-Flash-Exp的AUC值(评估指标,越高越好)达到3.994,显著超过Qwen-3的3.707,且在文本长度超过512K后,性能稳定性优势更明显——Qwen-3会出现关键信息遗漏,而LongCat-Flash-Exp的准确率仍保持在85%以上。
美团AI团队负责人表示:“LoZA的目标是让大模型处理长文本时,既能‘跑得够快’,又能‘记得够准’,这次测试结果验证了我们的技术路线是对的。”
三、应用场景:从法律文书到科研论文,超长文本处理迎来“降本增效”
LoZA的技术突破将直接推动长文本密集型场景的效率革命,目前美团已规划三大核心应用方向:
1. 企业级文档处理:合同、财报分析效率翻倍
在金融、法律等领域,动辄百万字的合同、财报、法律条文处理是常态。搭载LoZA的LongCat模型可实现:
-
合同条款快速定位:律师上传100万字的多份合同后,可通过自然语言查询“所有涉及知识产权归属的条款”,模型在30秒内即可定位相关段落并生成摘要,较人工检索效率提升50倍;
-
财报数据自动提取:金融分析师上传256K字的上市公司财报,模型可自动提取营收、利润、资产负债率等关键指标,生成带公式的Excel表格,避免人工录入错误。
2. 科研与教育:1M论文跨学科关联分析
对科研人员而言,LoZA解决了“跨多篇长论文关联分析”的痛点:
-
文献综述自动生成:上传10篇各50万字的AI领域顶会论文(总字数500万),模型可在2小时内梳理出“Transformer架构演进”“大模型训练方法”等核心脉络,生成结构化综述,节省科研人员1-2周的文献阅读时间;
-
跨学科知识关联:学生上传1M字的医学教材与生物学论文,模型可分析“基因编辑技术在遗传病治疗中的应用”等跨学科主题,帮助用户建立知识关联。
3. 多模态扩展:未来将支持长视频、长图文处理
美团团队透露,LoZA的下一阶段目标是“动态稀疏比例”与“多模态适配”:
-
动态调整稀疏度:短文本场景自动增加全注意力模块占比,保证回答精度;长文本场景自动提升稀疏模块比例,最大化效率;
-
适配多模态任务:将LoZA的注意力机制迁移至视频、图文领域,处理1小时以上的长视频帧关联分析、百万像素长图文理解,为自动驾驶(处理长时序路况数据)、虚拟人(长视频动作连贯性)等业务提供技术支撑。
四、行业意义:开源生态再添标杆,推动长文本技术平民化
LoZA的发布不仅是美团LongCat系列的升级,更对整个开源大模型生态具有重要意义:
-
降低长文本技术门槛:此前处理1M文本需依赖千亿参数级闭源模型(如GPT-4 Turbo),且调用成本高昂(约10美元/次)。搭载LoZA的LongCat-Flash-Exp已在HuggingFace开源,普通开发者通过单张H100显卡即可部署,调用成本降至0.5美元/次以下;
-
树立“效率与性能平衡”标杆:行业内多数长文本方案要么追求速度牺牲精度,要么注重性能忽视效率,LoZA通过“AI自主筛选优化模块”的思路,提供了“鱼与熊掌兼得”的可行路径,后续可能被其他开源模型借鉴;
-
支撑美团AI战略落地:作为美团“Building LLM”战略的关键技术,LoZA将为其本地生活场景赋能——例如处理海量商户评价生成经营建议、分析用户消费记录提供个性化推荐,进一步强化“AI+本地生活”的竞争壁垒。
结语:长文本处理进入“线性算力”时代
美团LongCat系列此次升级,标志着大模型处理长文本正式告别“算力平方级增长”的困境,进入“线性算力、指数级体验”的新阶段。LoZA通过“精准计算”的创新思路,既解决了行业痛点,又为后续多模态长内容处理埋下伏笔。随着动态稀疏比例、多模态适配等功能的落地,未来我们或许能看到大模型轻松处理“1小时长视频+百万字文档”的跨模态任务,为更多复杂场景提供AI支持。
正如美团AI团队在技术报告中所言:“处理长文本不是‘堆算力’的竞赛,而是‘巧算力’的艺术。LoZA的探索,就是希望让大模型在面对海量信息时,既能跑得更快,又能想得更准。”