2025年12月1日,快手科技在多模态AI领域抛出重磅成果——自主研发的旗舰级视频-语言大模型Keye-VL正式对外开源。该模型在VideoQA、视频字幕生成、跨模态检索等12项国际权威视频理解评测任务中斩获SOTA(当前最优)成绩,其中在复杂场景视频推理数据集MSRVTT上的准确率突破90%,刷新行业纪录。此次开源不仅向全球开发者开放模型权重与训练代码,更免费开放包含500万条视频-文本对的大规模数据集,助力多模态视频感知技术的产业化落地。
12项任务霸榜,性能碾压主流模型
视频理解相较于图像理解,需同时处理“时空动态信息”与“语义关联”,技术难度呈指数级提升。此前,谷歌Gemini 3 Video、Meta FLAVA等国际主流模型长期垄断视频理解领域的性能榜首,而国产模型多在细分任务中表现突出,缺乏全面领先的旗舰产品。
Keye-VL的出现彻底改变这一格局。测试数据显示,该模型在12项国际核心评测任务中均取得第一:在VideoQA任务(视频问答)的MSRVTT-QA数据集上,准确率达90.2%,较Gemini 3 Video提升4.3个百分点;在视频字幕生成任务的YouCook2数据集上,BLEU-4得分达58.7,超越Meta FLAVA 6.1分;在跨模态检索任务的LSMDC数据集上,文本到视频的检索准确率达89.5%,实现“精准定位视频片段”的突破。
“Keye-VL的优势不仅在于准确率,更在于对复杂视频场景的理解能力。”快手AI实验室负责人王仲远介绍,模型能精准识别视频中的“动作关联”“情感倾向”甚至“隐含逻辑”,例如观看一段家庭聚餐视频后,能回答“谁是这场聚餐的组织者”“餐桌上的菜品反映出什么地域饮食习惯”等深层问题。
技术革新:三大核心架构破解视频理解难题
Keye-VL的性能突破源于快手在多模态领域的长期技术积累,核心在于三大创新架构:
一是“时空融合Transformer”。传统模型多将视频拆分为单帧图像处理,易丢失动作连续性信息。Keye-VL通过“帧级-片段级-视频级”三级编码,将视频的空间特征(如物体形态)与时间特征(如动作变化)深度融合,构建“动态特征图谱”,在处理运动模糊、多目标交互等复杂场景时,特征提取准确率提升30%。
二是“视频-语言跨模态对齐模块”。针对视频与文本语义鸿沟问题,该模块引入“动态注意力机制”,让模型在理解文本查询时,能自动聚焦视频中最相关的时空片段。例如用户询问“视频中第三分钟出现的工具是什么”,模型会精准定位对应片段并提取工具特征,避免“答非所问”。
三是“增量式训练体系”。依托快手平台海量的短视频数据,团队构建了包含500万条视频-文本对的Keye-VideoData数据集,涵盖生活、美食、运动、科技等20个细分领域。通过“基础预训练-任务微调-人类反馈强化学习”的增量训练,模型实现“从通用理解到场景专精”的进化,适配不同行业的视频分析需求。
全链路开源:降低门槛,赋能千行百业
此次快手采取“全链路开源”策略,在GitHub、Hugging Face等平台同步开放三大核心资源,彻底打破多模态视频技术的应用壁垒:
其一,开放Keye-VL全参数模型权重,提供7B、14B、34B三个参数版本,其中7B版本可在消费级GPU(如RTX 4090)上运行,14B版本适配云端服务器,满足不同开发者的需求;其二,开源完整的训练代码与推理工具包,包含数据预处理、模型训练、性能评估的全流程脚本,新手开发者可快速上手;其三,免费开放Keye-VideoData数据集的核心子集(含100万条视频-文本对),解决行业“高质量数据稀缺”的痛点。
开源消息发布后,立即引发行业热烈反响。字节跳动、百度等企业的AI团队已表示将基于Keye-VL开展二次开发;清华大学、上海交通大学等高校计划将模型纳入人工智能课程教学案例。某短视频MCN机构负责人表示:“借助Keye-VL的视频理解能力,我们能快速筛选高潜力视频素材,还能自动生成多语言字幕,运营效率预计提升60%。”
行业影响:引领多模态视频技术产业化落地
Keye-VL的开源不仅是技术突破,更将加速多模态视频技术在各行业的落地应用。目前,该模型已在快手内部实现规模化应用:在内容审核领域,能自动识别视频中的违规场景,审核效率提升50%;在创作者工具中,推出“AI字幕生成”“智能剪辑建议”等功能,帮助普通用户快速制作优质视频;在电商场景中,通过分析商品展示视频,自动提取产品卖点并生成推荐文案,提升转化效率。
王仲远透露,快手计划启动“Keye-VL生态共建计划”,投入1亿元资金扶持基于该模型的创新应用,重点支持视频监控、智能教育、医疗影像分析等领域的开发者。“我们希望通过开源,汇聚全球智慧,让多模态视频技术从实验室走向更多实际场景,真正赋能千行百业。”
随着Keye-VL的开源与推广,国产多模态模型在视频理解领域的技术话语权显著提升。业内专家指出,这一成果不仅填补了国内旗舰级视频-语言模型的空白,更将推动全球多模态AI技术向“更精准、更高效、更普惠”的方向发展。