3 月 19 日,天工 AI 旗下文转视频模型 SkyReels-V4 一举登顶 Artificial Analysis 文转视频(含音频)全球排行榜,超越谷歌 Veo 3.1、OpenAI Sora 2 等一众知名模型成为新晋全球第一。距离其预览版拿下该榜单全球第二仅过去一个月,此次升级实现了模型能力的全方位跃升,更将视频生成技术从零散片段的 “生成” 阶段,推向可控、连续的完整内容 “生产” 阶段,为 AIGC 视频工业化发展奠定核心技术基础。
此次 SkyReels-V4 的登顶,并非单纯的分数提升,而是模型在逻辑理解、生成可控性上的双重突破。相较于此前版本,该模型完成了两大核心升级:全模态强化学习体系全面迭代,以及新增关键帧参考与网格参考能力,最终实现了视频生成 “好看、讲得通、可控制” 的三大核心诉求,让 AI 视频创作彻底告别 “随缘抽卡” 的时代。
在逻辑理解层面,SkyReels-V4 通过搭建全模态语义 Reward 模型和阶梯式课程强化学习路径,让模型真正具备了理解视频叙事逻辑的能力。不同于以往机械拼接画面的模式,新模型拥有了 “全局评判标准”,会从整段视频的连贯性、合理性出发生成内容,同时通过由简入繁的训练路径,逐步掌握从静物到复杂剧情的视频创作能力。实测中,该模型能精准还原含分镜、音效要求的复杂提示词,生成的《龙虾军团占领你的电脑》电影级短片,不仅完美复刻了赛博龙虾撬机箱、涌硬盘等关键情节,更实现了音画同步的沉浸式体验,达到 1080P 电影级画质、15 秒时长的创作水准。
生成可控性的提升,则是 SkyReels-V4 此次升级的另一大亮点。新增的关键帧参考功能支持用户上传多张关键帧图片,模型可自动补全中间画面,精准把控剧情节奏与动作连贯性;而网格参考功能更是为 AI 漫短剧量身打造,用户上传至多 9 张剧情关键帧,模型就能稳定提取角色特征与场景风格,生成逻辑完整、角色一致的叙事视频,解决了此前 AI 视频创作中角色 “变脸”、场景脱节的行业痛点,实现了 AI 漫短剧的一次直出。
技术突破的背后,是天工 AI 底层架构的创新重构。SkyReels-V4 搭载自研对称双流 MMDiT 架构,从底层实现音视频的深度融合,让音画同步生成成为常态;其全模态参考能力则将文本、图像、视频、音频、遮罩等所有输入形式统一到一个框架下处理,原本需要多个模型接力、多次手动对齐的工作,如今可一次生成完成,大幅降低了视频创作的工程复杂度。在仅 8.4 美元 / 分钟的 API 定价下,该模型实现了比同类产品更优的性价比,为技术的规模化落地创造了条件。
技术的成熟也快速推动了商业化落地,短剧成为 SkyReels-V4 能力验证的最佳试验场。天工 AI 将该模型应用于旗下海外付费短剧平台 DramaWave,该平台自 2024 年 10 月上线后,月活已突破 8000 万,年化流水收入超 4.8 亿美元,AI 自制剧月产能超 30 部,单部成本不足 2 万美元却能实现单日超 10 万美元的投放效果。SkyReels-V4 为平台提供了从剧本到画面的全流程 AI 创作能力,完美契合短剧高频、标准化的生产需求,同时凭借成本低、迭代快的优势,大幅提升了短剧创作的效率与收益,跑通了从技术到产品再到商业化的完整闭环。
值得关注的是,SkyReels-V4 的能力并非仅局限于短剧领域。其底层的多模态技术底座可复用于游戏过场动画、音乐视频、广告创作等多个场景,随着技术的持续优化,将为更多内容创作领域带来工业化变革。而此次尚未正式发布的 SkyReels-V4,还将在月底的中关村论坛年会期间推出最终版本,其后续的能力升级更值得行业期待。
在当下 AI 领域各类热点层出不穷的背景下,天工 AI 始终聚焦 “原生多模态” 技术的深耕,成为此次 SkyReels-V4 登顶的核心原因。从早期的文生图、图生图,到 SkyReels 系列实现动态视频生成,再到融合 Mureka 音乐模型补齐音频能力,天工 AI 逐步完成了多模态能力的融合与大一统,构建起从底层技术、模型研发到产品商业化的完整 AI 体系。商业化落地带来的收入与用户反馈数据,又持续反哺研发,形成技术与商业的正向循环。
SkyReels-V4 的登顶,不仅彰显了中国 AI 视频生成技术的全球领先地位,更标志着 AIGC 视频产业正式迈入工业化生产的新阶段。当视频创作成为可拆解、可设计、可稳定复现的流程,内容生产的效率与想象力将被彻底释放。而天工 AI 凭借在多模态领域的持续深耕,正为这一变革提供核心技术支撑,未来其技术能力还将在更多领域落地开花,推动 AIGC 产业向更深度、更广泛的方向发展。