Video generation foundations

视频生成模型技术原理

从 Video VAE、DiT 与 Flow Matching 理解现代视频生成,再系统解析 Wan 与 LTX 两条生态路线。

Video VAE DiT Flow Matching Wan LTX VACE IC-LoRA Audio-Video

总体问题:视频生成为什么需要 latent space

现代视频生成模型的核心不是直接生成像素,而是在 Video VAE 压缩后的时空 latent token 上,用 DiT 和 Flow Matching 学习从噪声到视频的生成过程。

通用机制

视频先被压缩为更少的时空 latent tokens,DiT 在这些 token 上建模空间、时间和语义关系,再由 Video VAE decoder 还原视频。

Wan 路线

Wan 更像开放高质量视频生成与角色/编辑能力平台,重点在 T2V、I2V、VACE、Wan-Animate、Wan-S2V 与控制生态。

LTX 路线

LTX 更像高效率视频/音视频生产栈,重点在高压缩 latent、distillation、FP8、多尺度 pipeline、IC-LoRA 与 joint audio-video。

统一 pipeline

视频生成的基础抽象是:像素视频进入 Video VAE encoder,得到 latent tokens;DiT / Flow Matching 在 latent 空间去噪或积分;最终由 decoder 还原为视频。

video frames T × H × W × 3 Video VAE encoder latent tokens zT → z0 decoder x_hat DiT / Flow Matching text, image, control, audio, LoRA, adapters
\[ x\in\mathbb{R}^{T\times H\times W\times 3},\quad z=\mathrm{VAE}_{enc}(x),\quad z_0=\mathrm{DiT}_{denoise}(z_T,c),\quad \hat{x}=\mathrm{VAE}_{dec}(z_0). \]
\[ N=\frac{T}{s_t}\times\frac{H}{s_h}\times\frac{W}{s_w},\qquad \text{Self-Attention Cost}\approx O(N^2). \]

这两个式子给出核心取舍:VAE 压缩率越高,token 数越少、推理越快;但压缩越强,细节和短时运动越容易丢失,decoder、upscaler、detailer 和多尺度推理就要承担更多补偿责任。

视频生成通用原理:从 token 成本到条件注入

Video VAE、DiT、Flow Matching / Rectified Flow、条件注入、多尺度推理、蒸馏与 LoRA 构成现代视频模型的共同工程骨架。

Video VAE 与 latent token

Video VAE 将 \(T\times H\times W\times3\) 视频压缩成更少的时空 latent tokens。3D causal VAE 还会在时间维保持因果结构,使长视频、分段编码和流式解码更可控。

DiT 与时空注意力

DiT 用 Transformer 替代传统 U-Net,在 latent tokens 上建模空间结构、时间运动、镜头节奏和语义条件。视频场景中 token 数快速增长,因此注意力成本和显存占用成为主瓶颈。

Flow Matching / Rectified Flow

Flow Matching 学习从噪声分布到数据分布的连续速度场。Rectified Flow 相关训练和采样范式常与大规模 DiT 结合,适合少步生成和更直接的 ODE 轨迹学习。

条件注入

文本、图像、视频、mask、pose、depth、camera、audio 等条件可通过 cross-attention、adapter、latent concat、LoRA 或专用分支注入。不同注入方式决定控制强度、训练成本和组合能力。

多尺度推理与 upscaler

基础模型可先负责低分辨率构图、运动和镜头,再由 spatial upscaler、temporal upscaler、tile-based detailer 补回分辨率、帧率、边缘和局部纹理。

蒸馏、FP8 与 LoRA

distillation 减少采样步数,FP8/量化降低显存,LoRA/IC-LoRA 让控制和任务适配不必训练完整模型。这些工程路线决定视频模型能否进入可部署生产流。

Token Cost Lab

调节帧数、分辨率和压缩率,观察 latent token 数与注意力成本如何变化。这里用简化估算展示趋势,不代表具体模型的真实吞吐。

pixel tokens0
latent tokens0
attention N²0
sampler work0

N = 0, attention cost ≈ 0

提高压缩率会降低 token 数,但 decoder 与 upscaler 必须补偿细节损失。

训练与采样骨架

训练

for video, condition in dataloader:
    z0 = video_vae.encode(video)
    t = sample_time()
    noise = randn_like(z0)
    zt = interpolate_or_noise(z0, noise, t)
    target = flow_or_denoising_target(z0, noise, t)
    pred = dit(zt, t, condition)
    loss = mse(pred, target)
    update(model, loss)

采样 / 推断

z = sample_noise(latent_shape)
for t in scheduler.timesteps(num_steps):
    condition = encode_text_image_audio_control(inputs)
    velocity_or_noise = dit(z, t, condition)
    z = scheduler.step(z, t, velocity_or_noise)
video = video_vae.decode(z)
return postprocess(video)

Wan 生态:开放高质量视频生成与角色/编辑能力平台

Wan 不是一个单模型,而是一组围绕 Wan-VAE、Video DiT、Flow Matching、条件控制、角色动画、音频驱动和视频编辑发展的模型族。

WAN
Wan2.1T2V / I2V / FLF2V / VACE
Wan2.2A14B MoE / TI2V-5B / S2V / Animate
VACEVCU + Context Adapter
Wan-Animate身份保持、动作迁移、替换融合
Wan-S2Vaudio-driven character video
Wan-FunControl / Camera / trajectory

Wan2.2 MoE:按去噪阶段拆专家

Wan2.2 的 MoE 可理解为 timestep-level expert routing:高噪早期专家负责整体结构,低噪后期专家负责纹理和边缘。它不是 LLM 常见的 token-level router。

High-noise Expert整体构图、主体关系、镜头运动、低频结构
Low-noise Expert纹理、边缘、清晰度、细节修复

高噪阶段先决定 layout / motion;低噪阶段再强化 detail / texture。

VACE:统一生成与编辑协议

VACE = Base Video DiT + Video Condition Unit + Context Adapter。它支持 R2V、V2V、MV2V 与多任务组合,将 reference、editing video、mask 等条件统一成 VCU,再通过 Context Adapter 注入视频 DiT。

  • 典型任务:Move-Anything、Swap-Anything、Reference-Anything、Expand-Anything、Animate-Anything、Masked Video-to-Video editing。
  • VACE 既有 Wan 版本,也有 LTX-Video 版本,因此它是两个生态之间的重要桥梁。

Wan-Animate:角色动画与角色替换

Wan-Animate 输入角色图和参考视频,输出目标角色模仿参考动作/表情的视频,或将参考视频中的人物替换为目标角色。它不是普通 I2V,而是身份保持、动作迁移、表情迁移与替换融合的任务模型。

模式输入作用
Animation mode角色图 + 参考视频身份保持 + 动作/表情迁移
Replacement mode角色图 + 参考视频人物替换 + 环境光照融合

replacement mode 中的 Relighting LoRA 用于改善光照、色调和环境融合。

Wan-S2V / Wan2.2-S2V

Wan-S2V / Wan2.2-S2V 是 audio-driven video:音频作为输入条件,驱动人物图像中的角色说话、唱歌或表演。它关注口型、表情、身体动作和电影镜头感。

适合唱歌、对白、配音驱动、角色表演、半身或全身人物视频。注意:它的音频是输入条件,不是生成目标本身。

Wan-Fun / Fun-Control / Fun-Camera

Wan-Fun 是 Wan 生态的可控生成分支。Control 支持 Canny、Depth、Pose、MLSD、trajectory 等结构控制,Control-Camera 聚焦相机运动控制,更接近 ControlNet / T2V-Control 风格的专门控制模型。

Wan-Fun 偏结构和相机控制;VACE 偏统一生成/编辑任务协议;Wan-Animate 偏角色动作、表情和替换;Wan-S2V 偏音频驱动角色视频。

社区/研究扩展

DiffSynth-Studio、ComfyUI-WanVideoWrapper、LightX2V、TeaCache、Video-As-Prompt、Wan-Move、Helios、DriVerse、AniCrafter、HyperMotion、UniAnimate-DiT 等应标注为社区或研究扩展,不应描述成官方核心能力。

LTX 生态:高效率视频/音视频生产栈

LTX 的关键词是高压缩 latent、实时/快速生成、distillation、FP8、多尺度 upscaling、IC-LoRA、音视频联合生成和 production workflow。

LTX
LTX-Video / LTXV高压缩 VAE + DiT + denoising decoder
2B / 13Bdistilled / FP8 / fast iteration
Upscalersspatial / temporal / detailer
IC-LoRAdepth / pose / canny / union / detailer
LTX-2 / 2.3joint audio-video generation
Creative LabVFX / restoration / editing LoRA

LTX multiscale pipeline

低分辨率阶段负责全局构图、主体运动和镜头节奏;upscaler 提升分辨率和帧率;detail/refinement 补充纹理、边缘、局部运动和光照。

Base generation全局构图、主体运动、镜头节奏
Spatial latent upscaling提升空间分辨率
Temporal upscaling提升帧率或时间分辨率
Tile refinement / detailer纹理、边缘、局部光照
Final video生产流输出

LTX-Video / LTXV 基础模型

LTX-Video / LTXV 是 Lightricks 的视频生成基础模型路线,使用高压缩 Video VAE 和 DiT,目标是减少 latent token 数并提升推理速度。

它支持 T2V、I2V、多关键帧 conditioning、video extension、video-to-video。高压缩会损失细节,因此 denoising decoder、multiscale pipeline 和 upscaler 需要补回细节。

LTXV 版本谱系

  • LTXV 2B:轻量、低显存、快速实验。
  • LTXV 2B distilled:更快的蒸馏版本。
  • LTXV 13B:高质量视频生成基座。
  • LTXV 13B distilled:少步采样、快速迭代。
  • FP8 variants:量化部署、降低显存。
  • Spatial upscaler / Temporal upscaler / Detailer:补空间、时间与局部细节。

LTX IC-LoRA 控制模型

IC-LoRA, In-Context LoRA,是 LTX 的轻量控制路线。与训练完整控制模型相比,它更容易组合,也更适合生产流中按任务接入条件。

Base LTX Model + ΔW_IC-LoRA(condition) → Controlled Generation / Editing

常见类型包括 Depth Control、Pose Control、Canny / Edge Control、Union IC-LoRA、Detailer LoRA 和 Creative Lab LoRA。

LTX-2 / LTX-2.3

LTX-2 / LTX-2.3 从 video-only 扩展到 joint audio-video generation:在统一模型内同时生成同步的视频和音频。

核心结构可理解为非对称双流 DiT:视频流更大,音频流较小;视频 latent 和音频 latent 分别由不同 VAE 编码;双向 audio-video cross-attention 负责同步语义、动作、口型、环境音和视觉事件;modality-aware CFG 分别控制文本遵循和跨模态一致性。

LTX-2 / LTX-2.3 双流结构

与 Wan-S2V 不同,LTX-2 / LTX-2.3 的音频不是外部驱动条件,而是模型需要生成的目标之一。

Text prompt
Video latent streamlarger DiT branch
Audio latent streammel / audio VAE / vocoder route
Synchronized video + audio

LTX-2.3 Creative Lab

Creative Lab 可理解为围绕 LTX-2.3 的任务型 LoRA / IC-LoRA 集合,用于视频增强、视频编辑、VFX、修复和风格/场景转换,例如 Day-To-Night、Colorization、Decompression、Deblur、Inpainting / Outpainting、Water Simulation、Ingredients / Reference-based video 和 Instant-Shave。

Wan vs LTX:质量、速度、控制与音频能力

Wan 更像开放高质量视频生成与角色/编辑能力平台;LTX 更像高效率视频/音视频生产栈。

维度Wan 生态LTX 生态

Audio-driven vs Joint audio-video

这一区分很关键:Wan-S2V 用音频驱动视频;LTX-2 / LTX-2.3 同时生成音频和视频。

Wan-S2V image + audio + prompt → character video

音频是输入条件,目标是口型、表情、身体动作和表演同步。

LTX-2 / LTX-2.3 text prompt → synchronized video + audio

音频是生成目标之一,目标是视觉事件、环境音、foley 或语音与视频同步生成。

关键技术瓶颈:从长视频一致性到部署成本

视频生成的难点不是单一指标,而是长时序、物理、控制、音画同步和硬件预算共同约束。

长视频一致性

角色身份、背景布局、物体状态和镜头语义需要跨 clip 保持一致。诊断时应看跨段 identity drift、场景重置和运动断裂。

物理与交互

接触、碰撞、液体、布料、手部操作和多主体交互仍容易出现局部合理但全局不守恒的问题。

文本遵循与细粒度控制

prompt 只能给出弱约束时,模型容易忽略数量、方向、镜头和对象关系。pose、depth、mask、reference 和 camera control 可增强约束。

音视频同步

audio-driven video 关注输入音频到口型/动作的对齐;joint audio-video 还要同时保证生成音频、视觉事件和场景语义同步。

显存、速度与部署

长视频和高分辨率放大 token 数、KV/activation、VAE decode 和 upscaler 成本。distilled、FP8、offload、cache、tile refinement 与多尺度 pipeline 是常见缓解路径。

内容准确性边界

  • 不要把社区项目说成官方核心模型。
  • 不要把 Wan-S2V 说成“生成音频”的模型。
  • 不要把 LTX-2 / LTX-2.3 说成“只是音频驱动视频”。
  • 不要把 Wan2.2 的 MoE 解释成普通 LLM token router。
  • 不要把 VACE 只描述成普通视频编辑器。
  • 不要声称所有模型都一定可商用,除非具体项目 license 已确认。
  • 不要使用未经确认的 benchmark 排名或绝对优劣判断。

研究阅读路线:从基础机制到生态模型

建议先读 VAE / DiT / Flow Matching,再进入 Wan、LTX、VACE、Wan-Animate 和 LTX-2。

1Video VAE

理解 latent compression、3D causal VAE、decoder 重建边界。

2DiT

理解时空 tokens、attention 成本、文本和多模态条件注入。

3Flow Matching

理解 velocity field、Rectified Flow、少步采样和 scheduler。

4Wan

读 Wan2.1 / Wan2.2、VACE、Wan-Animate、Wan-S2V 与 Wan-Fun。

5LTX

读 LTX-Video / LTXV、distilled / FP8 / upscaler、IC-LoRA。

6Audio-Video

比较 Wan-S2V 与 LTX-2 / LTX-2.3 的任务定义和结构差异。

Glossary:关键术语

这些术语用于区分通用视频生成机制、Wan 任务模型和 LTX 生产栈组件。

参考资料与进一步阅读

这里列出应优先核对的来源类型。具体模型能力、license 与部署细节应以官方仓库、论文、模型卡或项目页为准。

Wan2.1 / Wan2.2官方仓库与模型卡。
VACEWan2.1 / Wan2.2 VACE 论文与仓库。
Wan-Animate论文与模型卡。
Wan-S2V / Wan2.2-S2V论文、项目页与模型卡。
Wan-Fun / Wan2.1-Fun模型卡与控制生态说明。
LTX-Video论文、官方仓库与模型卡。
LTXV variants2B、13B、distilled、FP8、upscaler 相关模型卡。
LTX-2 / LTX-2.3论文、模型卡与官方仓库。
LTX-2.3 Creative Labcollection 与任务型 LoRA / IC-LoRA 说明。
工程工作流ComfyUI-LTXVideo、LTX-Video-Trainer、LTX-2 Trainer。