天工AI SkyReels-V4登顶全球视频榜多模态技术开启视频工业化生产新时代

0 0

3 月 19 日，天工 AI 旗下文转视频模型 SkyReels-V4 一举登顶 Artificial Analysis 文转视频（含音频）全球排行榜，超越谷歌 Veo 3.1、OpenAI Sora 2 等一众知名模型成为新晋全球第一。距离其预览版拿下该榜单全球第二仅过去一个月，此次升级实现了模型能力的全方位跃升，更将视频生成技术从零散片段的 “生成” 阶段，推向可控、连续的完整内容 “生产” 阶段，为 AIGC 视频工业化发展奠定核心技术基础。

此次 SkyReels-V4 的登顶，并非单纯的分数提升，而是模型在逻辑理解、生成可控性上的双重突破。相较于此前版本，该模型完成了两大核心升级：全模态强化学习体系全面迭代，以及新增关键帧参考与网格参考能力，最终实现了视频生成 “好看、讲得通、可控制” 的三大核心诉求，让 AI 视频创作彻底告别 “随缘抽卡” 的时代。

在逻辑理解层面，SkyReels-V4 通过搭建全模态语义 Reward 模型和阶梯式课程强化学习路径，让模型真正具备了理解视频叙事逻辑的能力。不同于以往机械拼接画面的模式，新模型拥有了 “全局评判标准”，会从整段视频的连贯性、合理性出发生成内容，同时通过由简入繁的训练路径，逐步掌握从静物到复杂剧情的视频创作能力。实测中，该模型能精准还原含分镜、音效要求的复杂提示词，生成的《龙虾军团占领你的电脑》电影级短片，不仅完美复刻了赛博龙虾撬机箱、涌硬盘等关键情节，更实现了音画同步的沉浸式体验，达到 1080P 电影级画质、15 秒时长的创作水准。

生成可控性的提升，则是 SkyReels-V4 此次升级的另一大亮点。新增的关键帧参考功能支持用户上传多张关键帧图片，模型可自动补全中间画面，精准把控剧情节奏与动作连贯性；而网格参考功能更是为 AI 漫短剧量身打造，用户上传至多 9 张剧情关键帧，模型就能稳定提取角色特征与场景风格，生成逻辑完整、角色一致的叙事视频，解决了此前 AI 视频创作中角色 “变脸”、场景脱节的行业痛点，实现了 AI 漫短剧的一次直出。

技术突破的背后，是天工 AI 底层架构的创新重构。SkyReels-V4 搭载自研对称双流 MMDiT 架构，从底层实现音视频的深度融合，让音画同步生成成为常态；其全模态参考能力则将文本、图像、视频、音频、遮罩等所有输入形式统一到一个框架下处理，原本需要多个模型接力、多次手动对齐的工作，如今可一次生成完成，大幅降低了视频创作的工程复杂度。在仅 8.4 美元 / 分钟的 API 定价下，该模型实现了比同类产品更优的性价比，为技术的规模化落地创造了条件。

技术的成熟也快速推动了商业化落地，短剧成为 SkyReels-V4 能力验证的最佳试验场。天工 AI 将该模型应用于旗下海外付费短剧平台 DramaWave，该平台自 2024 年 10 月上线后，月活已突破 8000 万，年化流水收入超 4.8 亿美元，AI 自制剧月产能超 30 部，单部成本不足 2 万美元却能实现单日超 10 万美元的投放效果。SkyReels-V4 为平台提供了从剧本到画面的全流程 AI 创作能力，完美契合短剧高频、标准化的生产需求，同时凭借成本低、迭代快的优势，大幅提升了短剧创作的效率与收益，跑通了从技术到产品再到商业化的完整闭环。

值得关注的是，SkyReels-V4 的能力并非仅局限于短剧领域。其底层的多模态技术底座可复用于游戏过场动画、音乐视频、广告创作等多个场景，随着技术的持续优化，将为更多内容创作领域带来工业化变革。而此次尚未正式发布的 SkyReels-V4，还将在月底的中关村论坛年会期间推出最终版本，其后续的能力升级更值得行业期待。

在当下 AI 领域各类热点层出不穷的背景下，天工 AI 始终聚焦 “原生多模态” 技术的深耕，成为此次 SkyReels-V4 登顶的核心原因。从早期的文生图、图生图，到 SkyReels 系列实现动态视频生成，再到融合 Mureka 音乐模型补齐音频能力，天工 AI 逐步完成了多模态能力的融合与大一统，构建起从底层技术、模型研发到产品商业化的完整 AI 体系。商业化落地带来的收入与用户反馈数据，又持续反哺研发，形成技术与商业的正向循环。

SkyReels-V4 的登顶，不仅彰显了中国 AI 视频生成技术的全球领先地位，更标志着 AIGC 视频产业正式迈入工业化生产的新阶段。当视频创作成为可拆解、可设计、可稳定复现的流程，内容生产的效率与想象力将被彻底释放。而天工 AI 凭借在多模态领域的持续深耕，正为这一变革提供核心技术支撑，未来其技术能力还将在更多领域落地开花，推动 AIGC 产业向更深度、更广泛的方向发展。

# AI 资讯