2026年2月,昆仑万维(Skywork AI)正式发布了其全能视频大模型系列的新一代里程碑——SkyReels V4。该版本标志着视频生成技术从“纯视觉合成”向“音画同步统一生成”的重大跨越,并同步在CVPR 2026等顶级学术会议上展示了其核心技术突破。
—
简介
SkyReels V4 是一款统一的多模态视频基础模型,旨在通过单一架构实现高质量视频与音频的同步生成、修复与编辑。它支持高达 1080p 分辨率、32 FPS 的电影级画质,单次生成时长可达 15秒,并能通过高效的生成策略扩展至更长篇幅。该模型不仅能理解复杂的文本指令,还能深度融合图像、视频片段及音频参考,提供极高的一致性。
—
产品矩阵与模型分工
SkyReels V4 采用了模块化且高度协同的家族化设计:
SkyReels-Gen(生成模型): 核心模型,负责从文/图到视频的初步构建。
SkyReels-Audio(音效模型): 专攻时序对齐的音频生成,确保环境音、配音与画面动作分秒不差。
SkyReels-Edit(编辑/修复): 专注视频局部重绘(Inpainting)、风格转换及视频扩展。
SkyReels-SR & Interp(增强): 专门负责超分辨率提升与补帧,将低分辨率序列转换为高清晰度成片。
—
核心技术突破
双流 MMDiT 架构(Dual-stream MMDiT): 模型拥有平行的视频和音频生成分支,共享一个基于多模态大语言模型(MMLM)的文本编码器,实现了视觉与听觉特征在深层空间的本质对齐。
SpaceTimePilot 技术: 通过显式的时空控制机制,解决了长视频生成中常见的物体形变和背景漂移问题,确保了动作的连贯性。
通道拼接统一框架(Channel-Concatenation): 将视频生成、补全、扩展和编辑统一为一种数学表达方式,使得模型在处理不同任务时具有极强的通用性和稳定性。
高效推理策略: 采用“低分辨全序列 + 高分辨关键帧”联合生成的策略,大幅降低了显存占用和计算延迟,使得在消费级显卡上运行成为可能。
—
用户体验与应用场景
电影级短片创作: 创作者只需输入分镜描述,模型即可自动配好契合画面节奏的音效。
虚拟数字人交互: 支持高精度的口型同步(Lip-sync)和自然的肢体语言。
视频后期处理: 能够一键移除视频中的多余物体,或将视频背景从“繁华都市”切换为“未来废土”。
叙事性视频扩展: 不再是简单的画面拉伸,而是能理解剧情逻辑,进行“镜头切换式”的叙事延伸。
—
多媒体内容创作
SkyReels V4 极大地简化了多媒体创作工作流。通过情境学习(In-context Learning),用户可以提供多张参考图来定义角色一致性,并上传一段参考音频(如环境白噪音或特定曲风),模型会自动在生成的视频中融入相似风格的声场,真正实现“所想即所得”的音画一体化创作。
—
行业地位与开发者生态
作为全球领先的开源视频模型,SkyReels V4 在多项评估指标上(如画面一致性、音画同步率)超越了同时期的主流商业模型。