【量子位 2025年12月10日讯】生成式AI视频赛道在年末迎来“狂飙时刻”。快手旗下可灵AI自12月初起,以“日均一更”的速度密集释放重磅功能:全球首个统一多模态视频创作工具“可灵O1”、支持“音画同出”的2.6模型、表现力升级的数字人2.0,再到配套的主体库与对比模板,5天内5次迭代不仅刷新行业更新频率纪录,更通过技术突破解决了AI视频创作“可控性弱、流程割裂”的核心痛点,推动专业级视频生产门槛大幅降低。
核心升级一:可灵O1引擎,打破视频创作“工具割裂”困局
作为此次更新的“旗舰级功能”,可灵O1以“统一多模态引擎”重构视频创作逻辑,将过去需多工具配合的复杂流程浓缩至单一平台,实现从灵感到成品的“一站式闭环”:
-
全任务融合,告别多工具跳转:传统AI视频创作中,“文生视频”“图生视频”“视频编辑”需切换不同模型或工具,而可灵O1将参考生视频、首尾帧生视频、内容增删(如给视频添加角色/删除冗余画面)、风格重绘(如将写实视频转为动漫风)、镜头延展(如延长视频结尾镜头)等7大核心任务,全部整合进同一引擎。用户上传一段宠物视频后,可直接在平台内完成“添加背景音效”“将宠物形象替换为卡通版”“调整镜头运镜”等操作,无需导出至第三方工具。
-
多模态参考,解决“主体一致性”难题:AI视频创作的长期痛点是“主体易变形”——比如生成的人物在镜头切换后五官、服装突变。可灵O1支持上传1-10张参考图构建“主体库”,无论是人物、道具还是场景,模型都能像“人类导演记镜头”一样精准记忆特征。例如上传3张不同角度的“红色连衣裙女孩”参考图,生成视频中即使镜头从正面切换至侧面,女孩的服装、发型细节始终一致,盲测显示主体一致性较Google Veo 3.1提升247%。
-
指令灵活组合,创意实现更精准:用户可通过“文字+图片+视频”多模态输入组合指令,实现复杂创作需求。比如上传一张“咖啡馆场景图”,搭配文字“让穿蓝色衬衫的男生在吧台点单,镜头缓慢推进,风格为复古胶片风”,可灵O1能精准解析场景、人物、动作与风格要求,生成符合预期的视频。在“指令变换”任务中,其效果较Runway Aleph的胜负比达230%,尤其擅长理解“角色互动”“光影细节”等精细需求。
核心升级二:2.6模型“音画同出”,终结“先画后音”低效流程
继可灵O1之后,12月3日推出的2.6模型带来另一项里程碑突破——“音画同出”能力,彻底改变传统AI视频“先生成无声画面、再人工配音加音效”的割裂流程:
-
单次生成完整视听内容:用户输入文本或图片+文本提示,模型可一次性输出包含“自然语音+动作音效+环境氛围音”的完整视频。例如输入文字“雨天便利店,店员给顾客递伞,背景有雨声和开门铃铛声”,生成的视频中不仅有画面动态,还同步包含“您好,您的伞”的中文语音、雨滴敲打玻璃的音效,以及推门时的铃铛声,音画协同误差控制在0.1秒以内。
-
多类型声音覆盖,适配多元场景:目前支持生成说话、对话、旁白、唱歌、Rap等人声,以及脚步声、开关门、背景音乐等环境音效,可单独或混合生成。比如电商商家上传产品图后,输入“这款无线耳机续航24小时,佩戴轻盈”的旁白文本,模型可生成带清晰解说+耳机佩戴音效的商品展示视频;自媒体创作者则能借助“多人对白”功能,制作访谈、短剧等内容,无需额外配音。
-
音质与语义理解双领先:生成的语音自然度媲美专业配音,中文语音生成效果经测试处于全球领先水平,同时支持英文输出;音效层次丰富,混音效果接近专业后期水准,避免传统AI音效“机械感强、与画面脱节”的问题。更关键的是,模型能深度理解文本语义,比如输入“生气地说‘怎么又迟到了’”,生成的语音会带有急促语调与情绪起伏,画面中人物的表情也会同步呈现怒意,实现“声情并茂”的效果。
核心升级三:数字人2.0“会表演”,5分钟长视频突破创作限制
除视频生成与音频能力外,可灵AI同步升级的数字人2.0功能,将数字人从“对口型机器”升级为“会表演的角色”:
-
从“动嘴”到“传神”,微表情与肢体语言更自然:通过新增的“多模态导演模块”,数字人能分析输入音频的语气、节奏,以及文本提示的情绪要求,自动生成匹配的微表情与肢体动作。比如输入一段悲伤的旁白音频,搭配文字“表现出眼眶泛红、双手轻握的委屈感”,数字人会同步呈现皱眉、含泪的表情,以及轻微颤抖的手部动作,打破“恐怖谷效应”。
-
支持5分钟长视频,满足完整内容创作:此前多数AI数字人工具仅支持几十秒短视频生成,可灵数字人2.0直接将时长上限提升至5分钟,且保持1080p高清画质。这意味着创作者可一次性生成完整的“产品教学视频”“微课内容”“短剧片段”,无需分段拼接。某教育机构使用后,制作“小学数学知识点讲解”数字人视频的时间从“2小时”压缩至“10分钟”。
-
低门槛操作,成本大幅降低:用户仅需三步即可生成数字人视频:上传角色图(支持真人、卡通、动物等形象)、输入配音文本或上传音频、添加表演要求(如“镜头推进、角色微笑”),全程无需专业技术。按会员价计算,生成1秒数字人视频最低仅需0.12元,较传统数字人制作成本降低90%,目前已被2万余家企业用于广告营销、电商直播等场景。
密集更新背后:快手AI生态的“普惠创作”野心
5天内5次高频更新,看似“狂飙”的节奏,实则是可灵AI对“让每个人都能用AI讲好故事”初心的落地推进。从技术层面看,这些升级并非孤立功能堆砌,而是围绕“降低门槛、提升效率、强化可控性”三大核心目标展开:
-
技术底层协同:可灵O1的多模态引擎为2.6模型的“音画同出”提供了语义理解基础,数字人2.0则复用了主体一致性技术,形成“1+1>2”的效果;
-
用户需求驱动:无论是“主体一致性”还是“音画同出”,均来自创作者高频反馈的痛点——此前超60%的用户吐槽“模型记不住主体”“配音加音效太耗时”,此次更新直接回应这些需求;
-
商业化落地支撑:截至2025年10月,可灵AI累计服务超2万家企业客户,覆盖影视、广告、电商等领域,年化收入运行率破1亿美元。此次升级进一步拓宽应用场景,比如“音画同出”可帮助电商商家快速制作带货视频,“数字人2.0”则为在线教育机构提供低成本虚拟老师解决方案。
快手高级副总裁、可灵AI事业部负责人盖坤表示:“AI视频工具的终极目标不是取代创作者,而是让创意摆脱技术束缚。”从早期“威尔·史密斯吃意大利面”的经典案例,到此次年末的密集升级,可灵AI正逐步实现这一目标——当专业级视频制作从“需要团队协作、数天周期”变为“个人单机、分钟级完成”,更多普通人的创意或将迎来爆发,生成式AI视频的“普惠时代”正加速到来。