国产视频模型跻身全球TOP2!SkyReels-V4解锁音视频创作全流程 (1)

AI 资讯9小时前发布 dennis
0

AI视频生成赛道再添国产黑马。权威机构Artificial Analysis最新榜单显示,昆仑天工旗下SkyReels-V4模型以1098的ELO评分,跃居文转视频(含音频)全球榜第2位,力压Google Veo 3.1、OpenAI Sora 2等国际主流模型,在历史总榜中更是跻身第4位,标志着国产视频大模型正式进入全球第一梯队。这款集多模态生成、专业修复、全维度编辑于一体的基础模型,正以“音画同步一次生成”的核心优势,重构AI创作的行业标准。

榜单突围:国产模型打破国际垄断

Artificial Analysis作为全球公认的AI领域权威评测机构,其测试全程独立进行,不依赖厂商自报数据,评测结果极具公信力。SkyReels-V4在含音频的文转视频赛道中,以1098分的成绩紧随Kling 3.0 Pro之后,成为榜单前五中唯一的国产模型。其历史总榜第4的排名,进一步验证了该模型在视频生成、编辑、修复等综合能力上的国际竞争力。

值得注意的是,SkyReels-V4的迭代速度堪称行业标杆。就在一个月前,昆仑天工刚开源SkyReels-V3,此次V4版本不仅实现了技术能力的跨越式提升,更完成了从“单一视频生成”到“全模态一体化创作”的转型,展现出强劲的技术迭代实力。

核心能力:四大技能重构创作流程

SkyReels-V4以“全球首个支持多模态输入+联合音视频生成+统一生成/修复/编辑”的全功能定位,解锁了四大核心创作技能,彻底告别传统AI视频工具“功能单一、操作繁琐”的痛点。

多模态精准控制是其标志性优势。模型支持文本、图像、视频片段、掩码、音频等多种素材混合输入,能实现“图像主体+视频动作+音频背景”的跨模态融合创作。在经典案例中,它可将《低俗小说》舞蹈片段中的人物,精准替换为参考图像中的狗和猫,完整保留原视频的动作节奏、背景音乐与场景环境,甚至狗狗弯腰的动作变化时机与原版完全卡点,展现出对多模态参考的精准把控能力。

专业级视频修复能力覆盖日常创作与工业级需求。无论是去除视频字幕、水印、Logo,还是精准替换主体、修改物体属性、更换背景,模型都能在不破坏画面结构的前提下完成局部优化。以去除英文字幕为例,它能自动识别字幕区域并进行无痕处理,让画面保持干净自然,解决了传统工具“修痕明显”的行业难题。

全维度视频编辑赋予创作者无限创意空间。不同于聚焦“保真修复”的功能,全维度编辑支持从局部到全局的自由改造:可给女团舞视频中的C位舞者精准添加指定帽子,也能移除深夜探险视频中的特定人物;既能将草地背景一键替换为赛博朋克都市,还能调整镜头运镜方式,实现电影级的推拉摇移效果,让创作从“被动生成”变为“主动设计”。

高品质音频生成让音画协同更自然。模型内置多语言语音合成、音效生成、背景音乐适配等能力,支持情感语音、歌词同步演唱等高阶玩法。在短剧创作案例中,它能精准还原人物对话的情绪张力,敲击桌面的音效真实可辨,甚至带有环境回音,音频质量在信号清晰度、音色真实度等硬指标上媲美专业工具。

技术解密:双流架构实现音画深度融合

SkyReels-V4的突破,源于其创新的双流MMDiT(Multimodal Diffusion Transformer)架构设计。模型将视频生成与音频生成分为两个并行分支,共享同一个多模态大语言模型(MLLM)编码器,从底层实现音画的深度绑定,彻底解决了传统模型“音画分离、后期拼接”的痛点。

为实现音画精准对齐,团队在每个Transformer模块中加入双向交叉注意力机制,让视频分支根据音频调整节奏,音频分支同步匹配视频细节;配合RoPE旋转位置编码的频率缩放技术,即便音视频Token数量级差异显著,也能在微秒级时间轴上实现严丝合缝的对齐。在输入处理上,模型采用“通道拼接+时序拼接”的双维策略,将各类多模态素材统一转化为带掩码的修复类任务,支持任意时空掩码的灵活编辑,实现“改哪不影响别处”的精准控制。

在效率与画质的平衡上,模型采用“低清快速生成+高清关键帧补全+超分插值优化”的工程方案,配合视频稀疏注意力(VSA)机制,将长序列注意力计算量压缩至原来的1/3,最终实现1080p、32帧、15秒的电影级画质输出,兼顾生成速度与视觉效果。

生态落地:从技术突破到产业赋能

昆仑天工始终坚持多模态原生对齐的技术路线,SkyReels-V4的成功正是这一战略的阶段性成果。从早期文生图、图生图技术积累,到SkyReels系列进军视频生成领域,再到自研音乐模型Mureka补齐音频链路,昆仑天工逐步构建起“文本-图像-视频-音频”的全模态创作生态。

目前,这些技术能力已通过旗下DramaWave、FreeReels等短剧平台实现产业落地。创作者可在同一生态中完成脚本生成、视频制作、配乐适配、字幕同步等全流程操作,70,000+部多语言短剧的实践数据,又反向驱动模型持续迭代优化,形成“技术-产品-数据”的正向循环。

未来,昆仑天工计划进一步攻克更长视频生成、4K/8K高分辨率输出、跨语言音视频协同等技术难题,并持续降低推理成本,推动AI创作工具在广告营销、影视制作、教育培训等更多行业的规模化应用。随着SkyReels-V4的推出,国产AI视频模型不仅在技术上实现了对国际巨头的追赶,更在应用落地层面探索出独具特色的发展路径,为全球AI创作领域注入中国力量。

© 版权声明

相关文章