视频先被压缩为更少的时空 latent tokens,DiT 在这些 token 上建模空间、时间和语义关系,再由 Video VAE decoder 还原视频。
Video generation foundations
视频生成模型技术原理
从 Video VAE、DiT 与 Flow Matching 理解现代视频生成,再系统解析 Wan 与 LTX 两条生态路线。
总体问题:视频生成为什么需要 latent space
现代视频生成模型的核心不是直接生成像素,而是在 Video VAE 压缩后的时空 latent token 上,用 DiT 和 Flow Matching 学习从噪声到视频的生成过程。
Wan 更像开放高质量视频生成与角色/编辑能力平台,重点在 T2V、I2V、VACE、Wan-Animate、Wan-S2V 与控制生态。
LTX 更像高效率视频/音视频生产栈,重点在高压缩 latent、distillation、FP8、多尺度 pipeline、IC-LoRA 与 joint audio-video。
统一 pipeline
视频生成的基础抽象是:像素视频进入 Video VAE encoder,得到 latent tokens;DiT / Flow Matching 在 latent 空间去噪或积分;最终由 decoder 还原为视频。
这两个式子给出核心取舍:VAE 压缩率越高,token 数越少、推理越快;但压缩越强,细节和短时运动越容易丢失,decoder、upscaler、detailer 和多尺度推理就要承担更多补偿责任。
视频生成通用原理:从 token 成本到条件注入
Video VAE、DiT、Flow Matching / Rectified Flow、条件注入、多尺度推理、蒸馏与 LoRA 构成现代视频模型的共同工程骨架。
Video VAE 与 latent token
Video VAE 将 \(T\times H\times W\times3\) 视频压缩成更少的时空 latent tokens。3D causal VAE 还会在时间维保持因果结构,使长视频、分段编码和流式解码更可控。
DiT 与时空注意力
DiT 用 Transformer 替代传统 U-Net,在 latent tokens 上建模空间结构、时间运动、镜头节奏和语义条件。视频场景中 token 数快速增长,因此注意力成本和显存占用成为主瓶颈。
Flow Matching / Rectified Flow
Flow Matching 学习从噪声分布到数据分布的连续速度场。Rectified Flow 相关训练和采样范式常与大规模 DiT 结合,适合少步生成和更直接的 ODE 轨迹学习。
条件注入
文本、图像、视频、mask、pose、depth、camera、audio 等条件可通过 cross-attention、adapter、latent concat、LoRA 或专用分支注入。不同注入方式决定控制强度、训练成本和组合能力。
多尺度推理与 upscaler
基础模型可先负责低分辨率构图、运动和镜头,再由 spatial upscaler、temporal upscaler、tile-based detailer 补回分辨率、帧率、边缘和局部纹理。
蒸馏、FP8 与 LoRA
distillation 减少采样步数,FP8/量化降低显存,LoRA/IC-LoRA 让控制和任务适配不必训练完整模型。这些工程路线决定视频模型能否进入可部署生产流。
Token Cost Lab
调节帧数、分辨率和压缩率,观察 latent token 数与注意力成本如何变化。这里用简化估算展示趋势,不代表具体模型的真实吞吐。
N = 0, attention cost ≈ 0
提高压缩率会降低 token 数,但 decoder 与 upscaler 必须补偿细节损失。
训练与采样骨架
训练
for video, condition in dataloader:
z0 = video_vae.encode(video)
t = sample_time()
noise = randn_like(z0)
zt = interpolate_or_noise(z0, noise, t)
target = flow_or_denoising_target(z0, noise, t)
pred = dit(zt, t, condition)
loss = mse(pred, target)
update(model, loss)
采样 / 推断
z = sample_noise(latent_shape)
for t in scheduler.timesteps(num_steps):
condition = encode_text_image_audio_control(inputs)
velocity_or_noise = dit(z, t, condition)
z = scheduler.step(z, t, velocity_or_noise)
video = video_vae.decode(z)
return postprocess(video)
Wan 生态:开放高质量视频生成与角色/编辑能力平台
Wan 不是一个单模型,而是一组围绕 Wan-VAE、Video DiT、Flow Matching、条件控制、角色动画、音频驱动和视频编辑发展的模型族。
Wan2.2 MoE:按去噪阶段拆专家
Wan2.2 的 MoE 可理解为 timestep-level expert routing:高噪早期专家负责整体结构,低噪后期专家负责纹理和边缘。它不是 LLM 常见的 token-level router。
高噪阶段先决定 layout / motion;低噪阶段再强化 detail / texture。
VACE:统一生成与编辑协议
VACE = Base Video DiT + Video Condition Unit + Context Adapter。它支持 R2V、V2V、MV2V 与多任务组合,将 reference、editing video、mask 等条件统一成 VCU,再通过 Context Adapter 注入视频 DiT。
- 典型任务:Move-Anything、Swap-Anything、Reference-Anything、Expand-Anything、Animate-Anything、Masked Video-to-Video editing。
- VACE 既有 Wan 版本,也有 LTX-Video 版本,因此它是两个生态之间的重要桥梁。
Wan-Animate:角色动画与角色替换
Wan-Animate 输入角色图和参考视频,输出目标角色模仿参考动作/表情的视频,或将参考视频中的人物替换为目标角色。它不是普通 I2V,而是身份保持、动作迁移、表情迁移与替换融合的任务模型。
| 模式 | 输入 | 作用 |
|---|---|---|
| Animation mode | 角色图 + 参考视频 | 身份保持 + 动作/表情迁移 |
| Replacement mode | 角色图 + 参考视频 | 人物替换 + 环境光照融合 |
replacement mode 中的 Relighting LoRA 用于改善光照、色调和环境融合。
Wan-S2V / Wan2.2-S2V
Wan-S2V / Wan2.2-S2V 是 audio-driven video:音频作为输入条件,驱动人物图像中的角色说话、唱歌或表演。它关注口型、表情、身体动作和电影镜头感。
适合唱歌、对白、配音驱动、角色表演、半身或全身人物视频。注意:它的音频是输入条件,不是生成目标本身。
Wan-Fun / Fun-Control / Fun-Camera
Wan-Fun 是 Wan 生态的可控生成分支。Control 支持 Canny、Depth、Pose、MLSD、trajectory 等结构控制,Control-Camera 聚焦相机运动控制,更接近 ControlNet / T2V-Control 风格的专门控制模型。
Wan-Fun 偏结构和相机控制;VACE 偏统一生成/编辑任务协议;Wan-Animate 偏角色动作、表情和替换;Wan-S2V 偏音频驱动角色视频。
社区/研究扩展
DiffSynth-Studio、ComfyUI-WanVideoWrapper、LightX2V、TeaCache、Video-As-Prompt、Wan-Move、Helios、DriVerse、AniCrafter、HyperMotion、UniAnimate-DiT 等应标注为社区或研究扩展,不应描述成官方核心能力。
LTX 生态:高效率视频/音视频生产栈
LTX 的关键词是高压缩 latent、实时/快速生成、distillation、FP8、多尺度 upscaling、IC-LoRA、音视频联合生成和 production workflow。
LTX multiscale pipeline
低分辨率阶段负责全局构图、主体运动和镜头节奏;upscaler 提升分辨率和帧率;detail/refinement 补充纹理、边缘、局部运动和光照。
LTX-Video / LTXV 基础模型
LTX-Video / LTXV 是 Lightricks 的视频生成基础模型路线,使用高压缩 Video VAE 和 DiT,目标是减少 latent token 数并提升推理速度。
它支持 T2V、I2V、多关键帧 conditioning、video extension、video-to-video。高压缩会损失细节,因此 denoising decoder、multiscale pipeline 和 upscaler 需要补回细节。
LTXV 版本谱系
- LTXV 2B:轻量、低显存、快速实验。
- LTXV 2B distilled:更快的蒸馏版本。
- LTXV 13B:高质量视频生成基座。
- LTXV 13B distilled:少步采样、快速迭代。
- FP8 variants:量化部署、降低显存。
- Spatial upscaler / Temporal upscaler / Detailer:补空间、时间与局部细节。
LTX IC-LoRA 控制模型
IC-LoRA, In-Context LoRA,是 LTX 的轻量控制路线。与训练完整控制模型相比,它更容易组合,也更适合生产流中按任务接入条件。
常见类型包括 Depth Control、Pose Control、Canny / Edge Control、Union IC-LoRA、Detailer LoRA 和 Creative Lab LoRA。
LTX-2 / LTX-2.3
LTX-2 / LTX-2.3 从 video-only 扩展到 joint audio-video generation:在统一模型内同时生成同步的视频和音频。
核心结构可理解为非对称双流 DiT:视频流更大,音频流较小;视频 latent 和音频 latent 分别由不同 VAE 编码;双向 audio-video cross-attention 负责同步语义、动作、口型、环境音和视觉事件;modality-aware CFG 分别控制文本遵循和跨模态一致性。
LTX-2 / LTX-2.3 双流结构
与 Wan-S2V 不同,LTX-2 / LTX-2.3 的音频不是外部驱动条件,而是模型需要生成的目标之一。
LTX-2.3 Creative Lab
Creative Lab 可理解为围绕 LTX-2.3 的任务型 LoRA / IC-LoRA 集合,用于视频增强、视频编辑、VFX、修复和风格/场景转换,例如 Day-To-Night、Colorization、Decompression、Deblur、Inpainting / Outpainting、Water Simulation、Ingredients / Reference-based video 和 Instant-Shave。
Wan vs LTX:质量、速度、控制与音频能力
Wan 更像开放高质量视频生成与角色/编辑能力平台;LTX 更像高效率视频/音视频生产栈。
| 维度 | Wan 生态 | LTX 生态 |
|---|
Audio-driven vs Joint audio-video
这一区分很关键:Wan-S2V 用音频驱动视频;LTX-2 / LTX-2.3 同时生成音频和视频。
音频是输入条件,目标是口型、表情、身体动作和表演同步。
音频是生成目标之一,目标是视觉事件、环境音、foley 或语音与视频同步生成。
关键技术瓶颈:从长视频一致性到部署成本
视频生成的难点不是单一指标,而是长时序、物理、控制、音画同步和硬件预算共同约束。
角色身份、背景布局、物体状态和镜头语义需要跨 clip 保持一致。诊断时应看跨段 identity drift、场景重置和运动断裂。
接触、碰撞、液体、布料、手部操作和多主体交互仍容易出现局部合理但全局不守恒的问题。
prompt 只能给出弱约束时,模型容易忽略数量、方向、镜头和对象关系。pose、depth、mask、reference 和 camera control 可增强约束。
audio-driven video 关注输入音频到口型/动作的对齐;joint audio-video 还要同时保证生成音频、视觉事件和场景语义同步。
长视频和高分辨率放大 token 数、KV/activation、VAE decode 和 upscaler 成本。distilled、FP8、offload、cache、tile refinement 与多尺度 pipeline 是常见缓解路径。
内容准确性边界
- 不要把社区项目说成官方核心模型。
- 不要把 Wan-S2V 说成“生成音频”的模型。
- 不要把 LTX-2 / LTX-2.3 说成“只是音频驱动视频”。
- 不要把 Wan2.2 的 MoE 解释成普通 LLM token router。
- 不要把 VACE 只描述成普通视频编辑器。
- 不要声称所有模型都一定可商用,除非具体项目 license 已确认。
- 不要使用未经确认的 benchmark 排名或绝对优劣判断。
研究阅读路线:从基础机制到生态模型
建议先读 VAE / DiT / Flow Matching,再进入 Wan、LTX、VACE、Wan-Animate 和 LTX-2。
理解 latent compression、3D causal VAE、decoder 重建边界。
理解时空 tokens、attention 成本、文本和多模态条件注入。
理解 velocity field、Rectified Flow、少步采样和 scheduler。
读 Wan2.1 / Wan2.2、VACE、Wan-Animate、Wan-S2V 与 Wan-Fun。
读 LTX-Video / LTXV、distilled / FP8 / upscaler、IC-LoRA。
比较 Wan-S2V 与 LTX-2 / LTX-2.3 的任务定义和结构差异。
Glossary:关键术语
这些术语用于区分通用视频生成机制、Wan 任务模型和 LTX 生产栈组件。
参考资料与进一步阅读
这里列出应优先核对的来源类型。具体模型能力、license 与部署细节应以官方仓库、论文、模型卡或项目页为准。