可灵AI年末5天连推5大更新：“音画同出”+多模态创作引擎，重构AI视频生产流程

0 0

【量子位 2025年12月10日讯】生成式AI视频赛道在年末迎来“狂飙时刻”。快手旗下可灵AI自12月初起，以“日均一更”的速度密集释放重磅功能：全球首个统一多模态视频创作工具“可灵O1”、支持“音画同出”的2.6模型、表现力升级的数字人2.0，再到配套的主体库与对比模板，5天内5次迭代不仅刷新行业更新频率纪录，更通过技术突破解决了AI视频创作“可控性弱、流程割裂”的核心痛点，推动专业级视频生产门槛大幅降低。

核心升级一：可灵O1引擎，打破视频创作“工具割裂”困局

作为此次更新的“旗舰级功能”，可灵O1以“统一多模态引擎”重构视频创作逻辑，将过去需多工具配合的复杂流程浓缩至单一平台，实现从灵感到成品的“一站式闭环”：

全任务融合，告别多工具跳转：传统AI视频创作中，“文生视频”“图生视频”“视频编辑”需切换不同模型或工具，而可灵O1将参考生视频、首尾帧生视频、内容增删（如给视频添加角色/删除冗余画面）、风格重绘（如将写实视频转为动漫风）、镜头延展（如延长视频结尾镜头）等7大核心任务，全部整合进同一引擎。用户上传一段宠物视频后，可直接在平台内完成“添加背景音效”“将宠物形象替换为卡通版”“调整镜头运镜”等操作，无需导出至第三方工具。
多模态参考，解决“主体一致性”难题：AI视频创作的长期痛点是“主体易变形”——比如生成的人物在镜头切换后五官、服装突变。可灵O1支持上传1-10张参考图构建“主体库”，无论是人物、道具还是场景，模型都能像“人类导演记镜头”一样精准记忆特征。例如上传3张不同角度的“红色连衣裙女孩”参考图，生成视频中即使镜头从正面切换至侧面，女孩的服装、发型细节始终一致，盲测显示主体一致性较Google Veo 3.1提升247%。
指令灵活组合，创意实现更精准：用户可通过“文字+图片+视频”多模态输入组合指令，实现复杂创作需求。比如上传一张“咖啡馆场景图”，搭配文字“让穿蓝色衬衫的男生在吧台点单，镜头缓慢推进，风格为复古胶片风”，可灵O1能精准解析场景、人物、动作与风格要求，生成符合预期的视频。在“指令变换”任务中，其效果较Runway Aleph的胜负比达230%，尤其擅长理解“角色互动”“光影细节”等精细需求。

核心升级二：2.6模型“音画同出”，终结“先画后音”低效流程

继可灵O1之后，12月3日推出的2.6模型带来另一项里程碑突破——“音画同出”能力，彻底改变传统AI视频“先生成无声画面、再人工配音加音效”的割裂流程：

单次生成完整视听内容：用户输入文本或图片+文本提示，模型可一次性输出包含“自然语音+动作音效+环境氛围音”的完整视频。例如输入文字“雨天便利店，店员给顾客递伞，背景有雨声和开门铃铛声”，生成的视频中不仅有画面动态，还同步包含“您好，您的伞”的中文语音、雨滴敲打玻璃的音效，以及推门时的铃铛声，音画协同误差控制在0.1秒以内。
多类型声音覆盖，适配多元场景：目前支持生成说话、对话、旁白、唱歌、Rap等人声，以及脚步声、开关门、背景音乐等环境音效，可单独或混合生成。比如电商商家上传产品图后，输入“这款无线耳机续航24小时，佩戴轻盈”的旁白文本，模型可生成带清晰解说+耳机佩戴音效的商品展示视频；自媒体创作者则能借助“多人对白”功能，制作访谈、短剧等内容，无需额外配音。
音质与语义理解双领先：生成的语音自然度媲美专业配音，中文语音生成效果经测试处于全球领先水平，同时支持英文输出；音效层次丰富，混音效果接近专业后期水准，避免传统AI音效“机械感强、与画面脱节”的问题。更关键的是，模型能深度理解文本语义，比如输入“生气地说‘怎么又迟到了’”，生成的语音会带有急促语调与情绪起伏，画面中人物的表情也会同步呈现怒意，实现“声情并茂”的效果。

核心升级三：数字人2.0“会表演”，5分钟长视频突破创作限制

除视频生成与音频能力外，可灵AI同步升级的数字人2.0功能，将数字人从“对口型机器”升级为“会表演的角色”：

从“动嘴”到“传神”，微表情与肢体语言更自然：通过新增的“多模态导演模块”，数字人能分析输入音频的语气、节奏，以及文本提示的情绪要求，自动生成匹配的微表情与肢体动作。比如输入一段悲伤的旁白音频，搭配文字“表现出眼眶泛红、双手轻握的委屈感”，数字人会同步呈现皱眉、含泪的表情，以及轻微颤抖的手部动作，打破“恐怖谷效应”。
支持5分钟长视频，满足完整内容创作：此前多数AI数字人工具仅支持几十秒短视频生成，可灵数字人2.0直接将时长上限提升至5分钟，且保持1080p高清画质。这意味着创作者可一次性生成完整的“产品教学视频”“微课内容”“短剧片段”，无需分段拼接。某教育机构使用后，制作“小学数学知识点讲解”数字人视频的时间从“2小时”压缩至“10分钟”。
低门槛操作，成本大幅降低：用户仅需三步即可生成数字人视频：上传角色图（支持真人、卡通、动物等形象）、输入配音文本或上传音频、添加表演要求（如“镜头推进、角色微笑”），全程无需专业技术。按会员价计算，生成1秒数字人视频最低仅需0.12元，较传统数字人制作成本降低90%，目前已被2万余家企业用于广告营销、电商直播等场景。

密集更新背后：快手AI生态的“普惠创作”野心

5天内5次高频更新，看似“狂飙”的节奏，实则是可灵AI对“让每个人都能用AI讲好故事”初心的落地推进。从技术层面看，这些升级并非孤立功能堆砌，而是围绕“降低门槛、提升效率、强化可控性”三大核心目标展开：

技术底层协同：可灵O1的多模态引擎为2.6模型的“音画同出”提供了语义理解基础，数字人2.0则复用了主体一致性技术，形成“1+1>2”的效果；
用户需求驱动：无论是“主体一致性”还是“音画同出”，均来自创作者高频反馈的痛点——此前超60%的用户吐槽“模型记不住主体”“配音加音效太耗时”，此次更新直接回应这些需求；
商业化落地支撑：截至2025年10月，可灵AI累计服务超2万家企业客户，覆盖影视、广告、电商等领域，年化收入运行率破1亿美元。此次升级进一步拓宽应用场景，比如“音画同出”可帮助电商商家快速制作带货视频，“数字人2.0”则为在线教育机构提供低成本虚拟老师解决方案。

快手高级副总裁、可灵AI事业部负责人盖坤表示：“AI视频工具的终极目标不是取代创作者，而是让创意摆脱技术束缚。”从早期“威尔·史密斯吃意大利面”的经典案例，到此次年末的密集升级，可灵AI正逐步实现这一目标——当专业级视频制作从“需要团队协作、数天周期”变为“个人单机、分钟级完成”，更多普通人的创意或将迎来爆发，生成式AI视频的“普惠时代”正加速到来。

# AI 资讯