视频生成模型技术原理

总体问题：视频生成为什么需要 latent space

现代视频生成模型的核心不是直接生成像素，而是在 Video VAE 压缩后的时空 latent token 上，用 DiT 和 Flow Matching 学习从噪声到视频的生成过程。

通用机制

视频先被压缩为更少的时空 latent tokens，DiT 在这些 token 上建模空间、时间和语义关系，再由 Video VAE decoder 还原视频。

Wan 路线

Wan 更像开放高质量视频生成与角色/编辑能力平台，重点在 T2V、I2V、VACE、Wan-Animate、Wan-S2V 与控制生态。

LTX 路线

LTX 更像高效率视频/音视频生产栈，重点在高压缩 latent、distillation、FP8、多尺度 pipeline、IC-LoRA 与 joint audio-video。

统一 pipeline

视频生成的基础抽象是：像素视频进入 Video VAE encoder，得到 latent tokens；DiT / Flow Matching 在 latent 空间去噪或积分；最终由 decoder 还原为视频。

\[ x\in\mathbb{R}^{T\times H\times W\times 3},\quad z=\mathrm{VAE}_{enc}(x),\quad z_0=\mathrm{DiT}_{denoise}(z_T,c),\quad \hat{x}=\mathrm{VAE}_{dec}(z_0). \]

\[ N=\frac{T}{s_t}\times\frac{H}{s_h}\times\frac{W}{s_w},\qquad \text{Self-Attention Cost}\approx O(N^2). \]

这两个式子给出核心取舍：VAE 压缩率越高，token 数越少、推理越快；但压缩越强，细节和短时运动越容易丢失，decoder、upscaler、detailer 和多尺度推理就要承担更多补偿责任。

视频生成通用原理：从 token 成本到条件注入

Video VAE、DiT、Flow Matching / Rectified Flow、条件注入、多尺度推理、蒸馏与 LoRA 构成现代视频模型的共同工程骨架。

Video VAE 与 latent token

Video VAE 将 \(T\times H\times W\times3\) 视频压缩成更少的时空 latent tokens。3D causal VAE 还会在时间维保持因果结构，使长视频、分段编码和流式解码更可控。

DiT 与时空注意力

DiT 用 Transformer 替代传统 U-Net，在 latent tokens 上建模空间结构、时间运动、镜头节奏和语义条件。视频场景中 token 数快速增长，因此注意力成本和显存占用成为主瓶颈。

Flow Matching / Rectified Flow

Flow Matching 学习从噪声分布到数据分布的连续速度场。Rectified Flow 相关训练和采样范式常与大规模 DiT 结合，适合少步生成和更直接的 ODE 轨迹学习。

条件注入

文本、图像、视频、mask、pose、depth、camera、audio 等条件可通过 cross-attention、adapter、latent concat、LoRA 或专用分支注入。不同注入方式决定控制强度、训练成本和组合能力。

多尺度推理与 upscaler

基础模型可先负责低分辨率构图、运动和镜头，再由 spatial upscaler、temporal upscaler、tile-based detailer 补回分辨率、帧率、边缘和局部纹理。

蒸馏、FP8 与 LoRA

distillation 减少采样步数，FP8/量化降低显存，LoRA/IC-LoRA 让控制和任务适配不必训练完整模型。这些工程路线决定视频模型能否进入可部署生产流。

Token Cost Lab

调节帧数、分辨率和压缩率，观察 latent token 数与注意力成本如何变化。这里用简化估算展示趋势，不代表具体模型的真实吞吐。

frames T80 width W1280 height H720 temporal stride4 spatial stride16 steps20

pixel tokens0

latent tokens0

attention N²0

sampler work0

N = 0, attention cost ≈ 0

提高压缩率会降低 token 数，但 decoder 与 upscaler 必须补偿细节损失。

训练与采样骨架

训练

for video, condition in dataloader:
    z0 = video_vae.encode(video)
    t = sample_time()
    noise = randn_like(z0)
    zt = interpolate_or_noise(z0, noise, t)
    target = flow_or_denoising_target(z0, noise, t)
    pred = dit(zt, t, condition)
    loss = mse(pred, target)
    update(model, loss)

采样 / 推断

z = sample_noise(latent_shape)
for t in scheduler.timesteps(num_steps):
    condition = encode_text_image_audio_control(inputs)
    velocity_or_noise = dit(z, t, condition)
    z = scheduler.step(z, t, velocity_or_noise)
video = video_vae.decode(z)
return postprocess(video)

Wan 生态：开放高质量视频生成与角色/编辑能力平台

Wan 不是一个单模型，而是一组围绕 Wan-VAE、Video DiT、Flow Matching、条件控制、角色动画、音频驱动和视频编辑发展的模型族。

WAN

Wan2.1T2V / I2V / FLF2V / VACE

Wan2.2A14B MoE / TI2V-5B / S2V / Animate

VACEVCU + Context Adapter

Wan-Animate身份保持、动作迁移、替换融合

Wan-S2Vaudio-driven character video

Wan-FunControl / Camera / trajectory

Wan2.2 MoE：按去噪阶段拆专家

Wan2.2 的 MoE 可理解为 timestep-level expert routing：高噪早期专家负责整体结构，低噪后期专家负责纹理和边缘。它不是 LLM 常见的 token-level router。

High-noise Expert整体构图、主体关系、镜头运动、低频结构

Low-noise Expert纹理、边缘、清晰度、细节修复

高噪阶段先决定 layout / motion；低噪阶段再强化 detail / texture。

VACE：统一生成与编辑协议

VACE = Base Video DiT + Video Condition Unit + Context Adapter。它支持 R2V、V2V、MV2V 与多任务组合，将 reference、editing video、mask 等条件统一成 VCU，再通过 Context Adapter 注入视频 DiT。

典型任务：Move-Anything、Swap-Anything、Reference-Anything、Expand-Anything、Animate-Anything、Masked Video-to-Video editing。
VACE 既有 Wan 版本，也有 LTX-Video 版本，因此它是两个生态之间的重要桥梁。

Wan-Animate：角色动画与角色替换

Wan-Animate 输入角色图和参考视频，输出目标角色模仿参考动作/表情的视频，或将参考视频中的人物替换为目标角色。它不是普通 I2V，而是身份保持、动作迁移、表情迁移与替换融合的任务模型。

模式	输入	作用
Animation mode	角色图 + 参考视频	身份保持 + 动作/表情迁移
Replacement mode	角色图 + 参考视频	人物替换 + 环境光照融合

replacement mode 中的 Relighting LoRA 用于改善光照、色调和环境融合。

Wan-S2V / Wan2.2-S2V

Wan-S2V / Wan2.2-S2V 是 audio-driven video：音频作为输入条件，驱动人物图像中的角色说话、唱歌或表演。它关注口型、表情、身体动作和电影镜头感。

适合唱歌、对白、配音驱动、角色表演、半身或全身人物视频。注意：它的音频是输入条件，不是生成目标本身。

Wan-Fun / Fun-Control / Fun-Camera

Wan-Fun 是 Wan 生态的可控生成分支。Control 支持 Canny、Depth、Pose、MLSD、trajectory 等结构控制，Control-Camera 聚焦相机运动控制，更接近 ControlNet / T2V-Control 风格的专门控制模型。

Wan-Fun 偏结构和相机控制；VACE 偏统一生成/编辑任务协议；Wan-Animate 偏角色动作、表情和替换；Wan-S2V 偏音频驱动角色视频。

社区/研究扩展

DiffSynth-Studio、ComfyUI-WanVideoWrapper、LightX2V、TeaCache、Video-As-Prompt、Wan-Move、Helios、DriVerse、AniCrafter、HyperMotion、UniAnimate-DiT 等应标注为社区或研究扩展，不应描述成官方核心能力。

LTX 生态：高效率视频/音视频生产栈

LTX 的关键词是高压缩 latent、实时/快速生成、distillation、FP8、多尺度 upscaling、IC-LoRA、音视频联合生成和 production workflow。

LTX

LTX-Video / LTXV高压缩 VAE + DiT + denoising decoder

2B / 13Bdistilled / FP8 / fast iteration

Upscalersspatial / temporal / detailer

IC-LoRAdepth / pose / canny / union / detailer

LTX-2 / 2.3joint audio-video generation

Creative LabVFX / restoration / editing LoRA

LTX multiscale pipeline

低分辨率阶段负责全局构图、主体运动和镜头节奏；upscaler 提升分辨率和帧率；detail/refinement 补充纹理、边缘、局部运动和光照。

Base generation全局构图、主体运动、镜头节奏

Spatial latent upscaling提升空间分辨率

Temporal upscaling提升帧率或时间分辨率

Tile refinement / detailer纹理、边缘、局部光照

Final video生产流输出

LTX-Video / LTXV 基础模型

LTX-Video / LTXV 是 Lightricks 的视频生成基础模型路线，使用高压缩 Video VAE 和 DiT，目标是减少 latent token 数并提升推理速度。

它支持 T2V、I2V、多关键帧 conditioning、video extension、video-to-video。高压缩会损失细节，因此 denoising decoder、multiscale pipeline 和 upscaler 需要补回细节。

LTXV 版本谱系

LTXV 2B：轻量、低显存、快速实验。
LTXV 2B distilled：更快的蒸馏版本。
LTXV 13B：高质量视频生成基座。
LTXV 13B distilled：少步采样、快速迭代。
FP8 variants：量化部署、降低显存。
Spatial upscaler / Temporal upscaler / Detailer：补空间、时间与局部细节。

LTX IC-LoRA 控制模型

IC-LoRA, In-Context LoRA，是 LTX 的轻量控制路线。与训练完整控制模型相比，它更容易组合，也更适合生产流中按任务接入条件。

Base LTX Model + ΔW_IC-LoRA(condition) → Controlled Generation / Editing

常见类型包括 Depth Control、Pose Control、Canny / Edge Control、Union IC-LoRA、Detailer LoRA 和 Creative Lab LoRA。

LTX-2 / LTX-2.3

LTX-2 / LTX-2.3 从 video-only 扩展到 joint audio-video generation：在统一模型内同时生成同步的视频和音频。

核心结构可理解为非对称双流 DiT：视频流更大，音频流较小；视频 latent 和音频 latent 分别由不同 VAE 编码；双向 audio-video cross-attention 负责同步语义、动作、口型、环境音和视觉事件；modality-aware CFG 分别控制文本遵循和跨模态一致性。

LTX-2 / LTX-2.3 双流结构

与 Wan-S2V 不同，LTX-2 / LTX-2.3 的音频不是外部驱动条件，而是模型需要生成的目标之一。

Text prompt

Video latent streamlarger DiT branch

Audio latent streammel / audio VAE / vocoder route

Bidirectional audio-video cross-attention

Synchronized video + audio

LTX-2.3 Creative Lab

Creative Lab 可理解为围绕 LTX-2.3 的任务型 LoRA / IC-LoRA 集合，用于视频增强、视频编辑、VFX、修复和风格/场景转换，例如 Day-To-Night、Colorization、Decompression、Deblur、Inpainting / Outpainting、Water Simulation、Ingredients / Reference-based video 和 Instant-Shave。

Wan vs LTX：质量、速度、控制与音频能力

Wan 更像开放高质量视频生成与角色/编辑能力平台；LTX 更像高效率视频/音视频生产栈。

维度	Wan 生态	LTX 生态

Audio-driven vs Joint audio-video

这一区分很关键：Wan-S2V 用音频驱动视频；LTX-2 / LTX-2.3 同时生成音频和视频。

Wan-S2V image + audio + prompt → character video

音频是输入条件，目标是口型、表情、身体动作和表演同步。

LTX-2 / LTX-2.3 text prompt → synchronized video + audio

音频是生成目标之一，目标是视觉事件、环境音、foley 或语音与视频同步生成。

关键技术瓶颈：从长视频一致性到部署成本

视频生成的难点不是单一指标，而是长时序、物理、控制、音画同步和硬件预算共同约束。

长视频一致性

角色身份、背景布局、物体状态和镜头语义需要跨 clip 保持一致。诊断时应看跨段 identity drift、场景重置和运动断裂。

物理与交互

接触、碰撞、液体、布料、手部操作和多主体交互仍容易出现局部合理但全局不守恒的问题。

文本遵循与细粒度控制

prompt 只能给出弱约束时，模型容易忽略数量、方向、镜头和对象关系。pose、depth、mask、reference 和 camera control 可增强约束。

音视频同步

audio-driven video 关注输入音频到口型/动作的对齐；joint audio-video 还要同时保证生成音频、视觉事件和场景语义同步。

显存、速度与部署

长视频和高分辨率放大 token 数、KV/activation、VAE decode 和 upscaler 成本。distilled、FP8、offload、cache、tile refinement 与多尺度 pipeline 是常见缓解路径。

内容准确性边界

不要把社区项目说成官方核心模型。
不要把 Wan-S2V 说成“生成音频”的模型。
不要把 LTX-2 / LTX-2.3 说成“只是音频驱动视频”。
不要把 Wan2.2 的 MoE 解释成普通 LLM token router。
不要把 VACE 只描述成普通视频编辑器。
不要声称所有模型都一定可商用，除非具体项目 license 已确认。
不要使用未经确认的 benchmark 排名或绝对优劣判断。

研究阅读路线：从基础机制到生态模型

建议先读 VAE / DiT / Flow Matching，再进入 Wan、LTX、VACE、Wan-Animate 和 LTX-2。

1Video VAE

理解 latent compression、3D causal VAE、decoder 重建边界。

2DiT

理解时空 tokens、attention 成本、文本和多模态条件注入。

3Flow Matching

理解 velocity field、Rectified Flow、少步采样和 scheduler。

4Wan

读 Wan2.1 / Wan2.2、VACE、Wan-Animate、Wan-S2V 与 Wan-Fun。

5LTX

读 LTX-Video / LTXV、distilled / FP8 / upscaler、IC-LoRA。

6Audio-Video

比较 Wan-S2V 与 LTX-2 / LTX-2.3 的任务定义和结构差异。

Glossary：关键术语

这些术语用于区分通用视频生成机制、Wan 任务模型和 LTX 生产栈组件。

参考资料与进一步阅读

这里列出应优先核对的来源类型。具体模型能力、license 与部署细节应以官方仓库、论文、模型卡或项目页为准。

Wan2.1 / Wan2.2官方仓库与模型卡。

VACEWan2.1 / Wan2.2 VACE 论文与仓库。

Wan-Animate论文与模型卡。

Wan-S2V / Wan2.2-S2V论文、项目页与模型卡。

Wan-Fun / Wan2.1-Fun模型卡与控制生态说明。

LTX-Video论文、官方仓库与模型卡。

LTXV variants2B、13B、distilled、FP8、upscaler 相关模型卡。

LTX-2 / LTX-2.3论文、模型卡与官方仓库。

LTX-2.3 Creative Labcollection 与任务型 LoRA / IC-LoRA 说明。

工程工作流ComfyUI-LTXVideo、LTX-Video-Trainer、LTX-2 Trainer。