AIGC 与 LLM 数学基础系统教程蓝图
AIGC 与 LLM 数学基础系统教程蓝图
用途:这份 Markdown 文档可以直接交给 Codex、Cursor、Claude Code 或其他代码/文档生成工具,让它们据此生成一套系统博客教程。
目标读者:具备机器学习或算法背景,希望系统补齐 AIGC、LLM、Diffusion、RLHF、DPO 等方向所需数学基础的研究者或工程师。
写作原则:每一个名词都要做到“先讲直觉,再给数学形式,再说明在模型中的作用,最后给一个最小例子”。
0. 如何使用这份文档
这份文档不是传统数学课的目录,而是从 AIGC/LLM 的实际模型机制倒推数学需求。推荐学习主线如下:
张量线性代数
→ 矩阵微积分与自动微分
→ 概率统计与信息论
→ 优化理论与数值计算
→ 深度学习机制
→ Transformer 与 LLM
→ 生成模型:VAE / GAN / Diffusion / Flow Matching
→ RLHF / DPO / 偏好优化
→ 评测统计、泛化理论与研究方法
Codex 生成博客教程时,建议将本文档拆成一个系列:
01_为什么学习_aigc_llm_数学.md
02_线性代数与张量计算.md
03_矩阵微积分与自动微分.md
04_概率统计与语言建模.md
05_信息论_cross_entropy_kl_perplexity.md
06_优化算法_sgd_adam_adamw.md
07_数值计算_混合精度_量化_flashattention.md
08_深度学习通用机制.md
09_transformer_attention_rope.md
10_llm_预训练与_next_token_prediction.md
11_lora_adapter_moe_高效微调.md
12_vae_elbo_变分推断.md
13_gan_对抗生成与分布匹配.md
14_diffusion_ddpm_score_sde.md
15_latent_diffusion_多模态生成.md
16_flow_matching_ode_optimal_transport.md
17_rlhf_ppo_偏好学习.md
18_dpo_及现代对齐方法.md
19_llm_评测统计与置信区间.md
20_研究路线_论文阅读与实践项目.md
每篇博客建议采用统一结构:
1. 这个主题解决什么问题?
2. 为什么 AIGC/LLM 需要它?
3. 通俗解释
4. 数学定义
5. 关键公式推导
6. 在模型中的具体位置
7. 最小代码或伪代码
8. 常见误区
9. 练习题
10. 延伸阅读
1. 总体学习目标
学完这条路线后,应该能够:
- 看懂 Transformer、Diffusion、RLHF、DPO 等主流论文中的核心公式。
- 从零实现一个小型 decoder-only Transformer。
- 理解 next-token prediction、cross-entropy、perplexity 与最大似然之间的关系。
- 推导 attention、softmax、LayerNorm/RMSNorm、LoRA、DPO loss 等核心表达。
- 理解 VAE、GAN、DDPM、Score-based Model、Latent Diffusion、Flow Matching 的概率建模思想。
- 用统计方法评估模型结果,而不是只报告单一 benchmark 分数。
- 根据研究方向选择进阶数学:随机过程、最优传输、随机矩阵、信息几何、强化学习、因果推断等。
2. 数学模块总览
| 数学模块 | 需要掌握到什么程度 | 在 AIGC/LLM 中的对应位置 |
|---|---|---|
| 线性代数与张量计算 | 向量、矩阵、张量、矩阵乘法、特征值、SVD、范数、投影、低秩分解、高维几何 | embedding、attention、LoRA、KV cache、MoE、表示空间分析 |
| 矩阵微积分与自动微分 | Jacobian、Hessian、链式法则、VJP、JVP、trace trick、softmax 梯度 | backprop、Transformer block、optimizer、adapter/LoRA 微调 |
| 概率论与统计推断 | 条件概率、期望、方差、MLE、MAP、Bayes、KL、采样、Monte Carlo、置信区间 | next-token modeling、sampling、perplexity、diffusion noising、模型评测 |
| 信息论 | entropy、cross-entropy、KL divergence、mutual information、bits/nats | 语言模型 loss、压缩视角、distillation、RLHF/DPO 中的 KL 正则 |
| 优化理论 | SGD、Momentum、Adam、AdamW、学习率调度、正则化、非凸优化、约束优化、对偶 | 预训练、SFT、LoRA、RLHF、DPO、scaling 实验 |
| 数值计算 | 浮点误差、conditioning、mixed precision、量化、矩阵乘法复杂度、memory bandwidth | FP16/BF16、INT8/INT4 quantization、FlashAttention、训练稳定性 |
| 统计学习理论 | bias-variance、泛化误差、overfitting、Rademacher、VC、PAC-Bayes、分布偏移 | scaling laws、benchmark 置信度、ablation、OOD/generalization |
| 随机过程/ODE/SDE | Markov chain、Gaussian transition、Brownian motion、reverse SDE、ODE solver | DDPM、score-based diffusion、flow matching、图像/视频生成 |
| 强化学习与偏好学习 | MDP、policy gradient、advantage、PPO、KL-constrained optimization、Bradley–Terry 模型 | RLHF、RLAIF、DPO、GRPO、agent 训练 |
Part I:线性代数与张量计算
3. 为什么线性代数是 LLM 的第一语言
LLM 中几乎所有核心计算都可以看成矩阵或张量运算:
- token 被映射为 embedding 向量;
- attention 用矩阵乘法计算 token 之间的相似度;
- MLP 用线性变换加非线性激活提取特征;
- LoRA 用低秩矩阵更新减少微调参数量;
- KV cache 保存历史 key/value 张量;
- MoE 用路由矩阵选择专家网络;
- 量化、压缩、蒸馏也大量依赖矩阵近似。
如果说程序员看到的是代码,模型看到的是向量空间。
4. 核心概念解释:线性代数
4.1 Scalar:标量
通俗解释:标量就是一个普通数字,比如温度、概率、loss 值。
数学定义:标量通常记作 (a \in \mathbb{R}),表示实数域中的一个元素。
在 LLM 中的作用:
- learning rate 是标量;
- loss 是标量;
- attention score 中每两个 token 的相似度是标量;
- softmax 输出的每个概率也是标量。
例子:
loss = 2.37
learning_rate = 3e-4
4.2 Vector:向量
通俗解释:向量是一串数字,可以表示一个对象在多个维度上的特征。
数学定义:
[ \mathbf{x} = [x_1, x_2, \dots, x_d]^\top \in \mathbb{R}^d ]
在 LLM 中的作用:一个 token 经过 embedding layer 后会变成一个向量。例如“猫”这个 token 可能被表示成 4096 维向量。
直觉:向量之间的方向相近,通常代表语义上更相近。
4.3 Matrix:矩阵
通俗解释:矩阵是二维数字表。它可以表示一组向量,也可以表示一种线性变换。
数学定义:
[ A \in \mathbb{R}^{m \times n} ]
表示一个有 (m) 行、(n) 列的矩阵。
在 LLM 中的作用:
- embedding table 是矩阵;
- attention 中的 (W_Q, W_K, W_V) 是矩阵;
- MLP 中的上投影、下投影都是矩阵;
- LoRA 的 (A, B) 也是矩阵。
例子:
如果输入 hidden state 为:
[ X \in \mathbb{R}^{T \times d_{model}} ]
查询矩阵为:
[ W_Q \in \mathbb{R}^{d_{model} \times d_k} ]
那么:
[ Q = XW_Q \in \mathbb{R}^{T \times d_k} ]
4.4 Tensor:张量
通俗解释:张量是多维数组。标量是 0 维张量,向量是 1 维张量,矩阵是 2 维张量,更高维的数据就是高阶张量。
数学定义:
[ X \in \mathbb{R}^{B \times T \times d} ]
可以表示 batch size 为 (B)、序列长度为 (T)、hidden dimension 为 (d) 的一批 token 表示。
在 LLM 中的作用:深度学习框架中的大部分数据都是张量。
常见 shape:
input_ids: [B, T]
embedding: [B, T, d_model]
Q, K, V: [B, H, T, d_head]
attention map: [B, H, T, T]
logits: [B, T, vocab_size]
4.5 Shape:形状
通俗解释:shape 描述张量每个维度有多大。
在 LLM 中的作用:理解 shape 是调试 Transformer 的基础。很多模型 bug 不是算法错,而是 shape 对不上。
例子:
假设:
B = 2 # batch size
T = 5 # sequence length
d_model = 768 # hidden size
H = 12 # number of heads
d_head = 64 # 768 / 12
则 embedding shape 是:
[B, T, d_model] = [2, 5, 768]
拆成多头后:
[B, H, T, d_head] = [2, 12, 5, 64]
4.6 Dot Product:点积 / 内积
通俗解释:点积衡量两个向量方向是否相近。方向越相近,点积越大。
数学定义:
[ \mathbf{x}^\top \mathbf{y} = \sum_{i=1}^d x_i y_i ]
在 attention 中的作用:attention 通过 (QK^\top) 计算每个 token 对其他 token 的相关性。
直觉:如果 query 向量和 key 向量方向接近,说明当前 token 应该更多关注那个 token。
4.7 Matrix Multiplication:矩阵乘法
通俗解释:矩阵乘法可以看成“批量做点积”,也可以看成“对一批向量做线性变换”。
数学定义:
如果:
[ A \in \mathbb{R}^{m \times n}, \quad B \in \mathbb{R}^{n \times p} ]
则:
[ AB \in \mathbb{R}^{m \times p} ]
其中:
[ (AB){ij} = \sum{k=1}^{n} A_{ik}B_{kj} ]
在 LLM 中的作用:
- embedding lookup 后的投影;
- attention score:(QK^\top);
- attention 加权求和:(AV);
- feed-forward network:(XW_1)、(XW_2);
- logits:(XW_{vocab})。
4.8 Vector Space:向量空间
通俗解释:向量空间是所有可能向量组成的空间。模型内部的 hidden state 就生活在这样的空间里。
数学定义:一个集合如果对向量加法和标量乘法封闭,并满足若干代数性质,就叫向量空间。
在 LLM 中的作用:LLM 的语义、语法、事实、风格等信息都被编码到高维向量空间中。
例子:词向量中常见的类比现象:
king - man + woman ≈ queen
这不是严格规则,但体现了语义可能以方向和子空间形式存在。
4.9 Basis:基
通俗解释:基是一组“坐标轴”。有了基,就可以用坐标表示空间中的任意向量。
数学定义:如果一组向量线性无关,并且能张成整个空间,它们就是一组基。
在 LLM 中的作用:embedding 维度可以理解为某种隐式坐标系。不过神经网络中的基通常没有人类可解释的含义。
4.10 Projection:投影
通俗解释:投影就是把一个向量“照到”某个方向或子空间上,看看它在那个方向上有多少成分。
数学定义:向量 (x) 在单位向量 (u) 上的投影为:
[ \mathrm{proj}_u(x)= (x^\top u)u ]
在 LLM 中的作用:
- attention 中 (W_Q,W_K,W_V) 可视作把 hidden state 投影到不同子空间;
- interpretability 中常用投影分析某个语义方向;
- LoRA 的低秩更新也可以理解为限制参数变化在低维子空间内。
4.11 Norm:范数
通俗解释:范数衡量向量或矩阵的大小。
常见形式:
[ |x|_2 = \sqrt{\sum_i x_i^2} ]
[ |x|_1 = \sum_i |x_i| ]
在 LLM 中的作用:
- gradient norm 用于判断梯度是否爆炸;
- weight decay 控制权重范数;
- normalization 层与向量尺度有关;
- embedding norm 会影响 logits 与 softmax 分布。
4.12 Cosine Similarity:余弦相似度
通俗解释:余弦相似度只关心两个向量方向是否接近,不太关心长度。
数学定义:
[ \cos(\theta)=\frac{x^\top y}{|x||y|} ]
在 AIGC/LLM 中的作用:
- 文本 embedding 检索;
- RAG 相似度搜索;
- 表示空间分析;
- 聚类和近邻查询。
4.13 Eigenvalue / Eigenvector:特征值与特征向量
通俗解释:如果一个向量经过矩阵变换后方向不变,只是长度被缩放了,那么它就是这个矩阵的特征向量,缩放倍数就是特征值。
数学定义:
[ Av = \lambda v ]
其中 (v) 是特征向量,(\lambda) 是特征值。
在 LLM 中的作用:
- 分析权重矩阵的谱性质;
- 研究训练稳定性;
- 理解 Hessian 曲率;
- 分析表示空间的主方向。
4.14 SVD:奇异值分解
通俗解释:SVD 把一个矩阵拆成“旋转—缩放—旋转”的形式,可以看出矩阵最重要的方向。
数学定义:
[ A = U\Sigma V^\top ]
其中 (\Sigma) 对角线上的值叫奇异值。
在 LLM 中的作用:
- 低秩近似;
- 模型压缩;
- 权重分析;
- LoRA 的数学直觉;
- 表示空间主成分分析。
4.15 Rank:秩
通俗解释:秩表示矩阵中真正独立的信息维度。
数学定义:矩阵的秩是其列空间或行空间的维数。
在 LoRA 中的作用:LoRA 假设模型微调所需的权重变化可以近似为低秩矩阵:
[ \Delta W = BA, \quad \mathrm{rank}(\Delta W) \le r ]
其中 (r) 远小于原矩阵维度,所以参数量显著减少。
4.16 Low-rank Approximation:低秩近似
通俗解释:低秩近似就是用更少的独立方向近似原始矩阵,保留主要信息,丢掉次要信息。
数学形式:
[ A \approx A_r = U_r\Sigma_rV_r^\top ]
在 AIGC/LLM 中的作用:
- LoRA;
- 模型压缩;
- adapter 参数高效微调;
- 权重矩阵分析;
- 表示空间降维。
4.17 High-dimensional Geometry:高维几何
通俗解释:高维空间和二维、三维空间的直觉很不一样。例如高维空间中随机向量往往近似正交。
在 LLM 中的作用:
- embedding 生活在高维空间;
- attention 用高维向量内积衡量相关性;
- 大模型表示可能分布在复杂的高维流形上;
- 高维稀疏性、集中现象会影响模型行为。
Part II:矩阵微积分与自动微分
5. 为什么需要矩阵微积分
训练神经网络本质上是在问:
参数变一点,loss 会怎么变?
这个“怎么变”就是梯度。LLM 有数十亿到数万亿参数,不可能手工对每个参数求导,因此需要把矩阵微积分、链式法则和自动微分结合起来。
6. 核心概念解释:微积分与自动微分
6.1 Derivative:导数
通俗解释:导数表示一个量变化时,另一个量变化得有多快。
数学定义:
[ f’(x)=\lim_{h\to 0}\frac{f(x+h)-f(x)}{h} ]
在模型训练中的作用:导数告诉我们应该如何调整参数来降低 loss。
6.2 Gradient:梯度
通俗解释:梯度是多变量函数中“上升最快的方向”。如果要最小化 loss,就沿着负梯度方向走。
数学定义:
[ \nabla_x f(x)=\left[\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\dots,\frac{\partial f}{\partial x_d}\right]^\top ]
在 LLM 中的作用:每次训练都会计算 loss 对参数的梯度,然后 optimizer 根据梯度更新参数。
6.3 Jacobian:雅可比矩阵
通俗解释:Jacobian 描述一个向量函数的每个输出对每个输入的敏感程度。
数学定义:如果 (f: \mathbb{R}^n \to \mathbb{R}^m),则:
[ J_{ij}=\frac{\partial f_i}{\partial x_j} ]
在 LLM 中的作用:
- softmax 的导数是 Jacobian;
- attention 输出对输入的敏感度可由 Jacobian 描述;
- 分析模型局部行为、对抗扰动和 interpretability 时会用到。
6.4 Hessian:海森矩阵
通俗解释:Hessian 描述 loss 曲面的弯曲程度。
数学定义:
[ H_{ij}=\frac{\partial^2 f}{\partial x_i \partial x_j} ]
在 LLM 中的作用:
- 分析 loss landscape;
- 判断优化难度;
- 二阶优化方法;
- pruning、量化、sharpness 分析。
6.5 Chain Rule:链式法则
通俗解释:复杂函数由很多简单函数嵌套组成,链式法则告诉我们如何把每一层的导数乘起来。
数学定义:
如果:
[ y=f(g(x)) ]
则:
[ \frac{dy}{dx}=\frac{df}{dg}\frac{dg}{dx} ]
在神经网络中的作用:反向传播就是链式法则在计算图上的系统应用。
6.6 Computational Graph:计算图
通俗解释:计算图把一次模型前向计算拆成节点和边。节点是操作,边是数据流。
在 LLM 中的作用:深度学习框架会记录计算图,然后自动做反向传播。
例子:
input → embedding → attention → MLP → logits → loss
反向传播方向相反:
loss → logits → MLP → attention → embedding → parameters
6.7 Backpropagation:反向传播
通俗解释:反向传播把 loss 的责任从输出层一层层分配回所有参数。
数学本质:链式法则 + 动态规划。
在 LLM 中的作用:训练时计算所有参数的梯度。
6.8 Automatic Differentiation:自动微分
通俗解释:自动微分不是数值差分,也不是符号求导,而是把每个基本操作的精确导数按链式法则组合起来。
两种常见模式:
- forward-mode:适合输入维度少、输出维度多;
- reverse-mode:适合输入维度多、输出是标量 loss。神经网络训练主要用 reverse-mode。
6.9 VJP:Vector-Jacobian Product
通俗解释:VJP 不是显式构造巨大的 Jacobian,而是直接计算一个向量乘 Jacobian 的结果。
数学形式:
[ v^\top J ]
在深度学习中的作用:反向传播主要计算 VJP,因为完整 Jacobian 太大,显式存储不可行。
6.10 JVP:Jacobian-Vector Product
通俗解释:JVP 计算 Jacobian 乘一个向量。
数学形式:
[ Jv ]
用途:
- forward-mode autodiff;
- 二阶优化;
- influence function;
- 一些高效敏感性分析。
6.11 Trace Trick:迹技巧
通俗解释:trace trick 是矩阵求导里常用的整理技巧,可以把标量写成 trace 形式,让求导更容易。
常见恒等式:
[ x^\top Ay = \mathrm{tr}(x^\top Ay)=\mathrm{tr}(yx^\top A) ]
在深度学习中的作用:推导线性层、attention、矩阵范数、低秩分解等梯度时非常有用。
6.12 Softmax Gradient:Softmax 梯度
softmax 定义:
[ p_i = \frac{e^{z_i}}{\sum_j e^{z_j}} ]
Jacobian:
[ \frac{\partial p_i}{\partial z_j} = p_i(\delta_{ij}-p_j) ]
其中 (\delta_{ij}) 是 Kronecker delta,(i=j) 时为 1,否则为 0。
和交叉熵结合时的经典结果:
如果:
[ L=-\sum_i y_i\log p_i ]
则:
[ \frac{\partial L}{\partial z_i}=p_i-y_i ]
这个公式是语言模型训练中最重要的梯度公式之一。
Part III:概率统计与信息论
7. 为什么语言模型首先是概率模型
LLM 的核心任务不是“直接输出一个确定答案”,而是对下一个 token 的概率分布建模:
[ p_\theta(x_t|x_{<t}) ]
也就是说,给定前文,模型预测下一个 token 是每个词的概率。
8. 核心概念解释:概率统计
8.1 Random Variable:随机变量
通俗解释:随机变量是一个结果不确定的量。
数学定义:随机变量是从样本空间到数值空间的函数。
在 LLM 中的作用:下一个 token 可以看成一个离散随机变量。
8.2 Probability Distribution:概率分布
通俗解释:概率分布告诉我们每个结果发生的可能性。
离散分布例子:
P(token = “猫”) = 0.30
P(token = “狗”) = 0.20
P(token = “车”) = 0.01
在 LLM 中的作用:logits 经过 softmax 后得到 vocabulary 上的概率分布。
8.3 Categorical Distribution:类别分布
通俗解释:类别分布表示从多个类别中选一个。
数学定义:
[ X \sim \mathrm{Categorical}(p_1,p_2,\dots,p_K) ]
其中:
[ \sum_{i=1}^K p_i=1 ]
在 LLM 中的作用:每一步生成 token,本质上就是从 vocabulary 的 categorical distribution 中采样。
8.4 Gaussian Distribution:高斯分布 / 正态分布
通俗解释:高斯分布就是常见的钟形曲线。
数学定义:
[ x \sim \mathcal{N}(\mu,\sigma^2) ]
密度函数为:
[ p(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) ]
在 AIGC 中的作用:
- VAE latent variable 通常假设为高斯;
- Diffusion 的加噪过程是高斯 transition;
- 初始化、噪声采样、重参数化技巧都常用高斯分布。
8.5 Conditional Probability:条件概率
通俗解释:条件概率表示在已知某件事发生的情况下,另一件事发生的概率。
数学定义:
[ P(A|B)=\frac{P(A,B)}{P(B)} ]
在 LLM 中的作用:语言模型建模的是:
[ p(x_t|x_1,x_2,\dots,x_{t-1}) ]
也就是“给定前文,下一个 token 的概率”。
8.6 Bayes Rule:贝叶斯公式
通俗解释:贝叶斯公式用于根据观察到的证据更新我们对假设的相信程度。
数学定义:
[ P(H|D)=\frac{P(D|H)P(H)}{P(D)} ]
其中:
- (P(H)):先验;
(P(D H)):似然; (P(H D)):后验; - (P(D)):证据。
在 AIGC/LLM 中的作用:
- MAP 估计;
- Bayesian inference;
- classifier guidance;
- 不确定性建模;
- latent variable model。
8.7 Expectation:期望
通俗解释:期望是随机变量的平均结果。
数学定义:
离散情形:
[ \mathbb{E}[X]=\sum_x xP(X=x) ]
连续情形:
[ \mathbb{E}[X]=\int xp(x)dx ]
在深度学习中的作用:训练目标通常是数据分布上的期望风险:
[ \min_\theta \mathbb{E}{(x,y)\sim p{data}}[L(f_\theta(x),y)] ]
现实中我们用 mini-batch 均值近似这个期望。
8.8 Variance:方差
通俗解释:方差衡量随机变量波动有多大。
数学定义:
[ \mathrm{Var}(X)=\mathbb{E}[(X-\mathbb{E}[X])^2] ]
在模型训练中的作用:
- 梯度估计有方差;
- 初始化要控制激活方差;
- attention 缩放因子 (\sqrt{d_k}) 与点积方差有关;
- diffusion 的 noise schedule 控制噪声方差。
8.9 Covariance:协方差
通俗解释:协方差衡量两个变量是否一起变化。
数学定义:
[ \mathrm{Cov}(X,Y)=\mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])] ]
在 AIGC/LLM 中的作用:
- 表示空间分析;
- PCA;
- whitening;
- Gaussian latent variable;
- feature correlation 分析。
8.10 Maximum Likelihood Estimation:最大似然估计,MLE
通俗解释:MLE 的思想是:选择一组参数,让已经观察到的数据出现的概率最大。
数学定义:
[ \theta^*=\arg\max_\theta \prod_{i=1}^n p_\theta(x_i) ]
通常取 log:
[ \theta^*=\arg\max_\theta \sum_{i=1}^n \log p_\theta(x_i) ]
在 LLM 中的作用:next-token prediction 可以看成最大化训练文本的条件似然:
[ \max_\theta \sum_t \log p_\theta(x_t|x_{<t}) ]
8.11 MAP:最大后验估计
通俗解释:MAP 在 MLE 的基础上加入先验偏好。
数学定义:
[ \theta^*=\arg\max_\theta p(\theta|D) =\arg\max_\theta p(D|\theta)p(\theta) ]
在深度学习中的作用:正则化可以看成某种先验。例如 L2 regularization 对应高斯先验。
8.12 Monte Carlo:蒙特卡洛方法
通俗解释:当期望或积分算不出来时,就随机采样很多次,用平均值近似。
数学形式:
[ \mathbb{E}{x\sim p}[f(x)] \approx \frac{1}{N}\sum{i=1}^N f(x_i) ]
在 AIGC/LLM 中的作用:
- mini-batch training;
- sampling;
- diffusion sampling;
- policy gradient;
- benchmark bootstrap。
8.13 Sampling:采样
通俗解释:采样就是从一个概率分布中抽取一个具体结果。
在 LLM 生成中的作用:模型输出 vocabulary 上的概率分布,然后通过采样策略选择下一个 token。
常见采样方法:
- greedy decoding:永远选概率最大的 token;
- temperature sampling:调节分布尖锐程度;
- top-k sampling:只从概率最高的 k 个 token 中采样;
- top-p sampling:只从累计概率达到 p 的 token 集合中采样。
9. 核心概念解释:信息论
9.1 Entropy:熵
通俗解释:熵衡量不确定性。分布越均匀,不确定性越高;分布越集中,不确定性越低。
数学定义:
[ H(p)=-\sum_i p_i \log p_i ]
在 LLM 中的作用:
- 生成分布的不确定性;
- 模型信心;
- decoding 策略;
- 数据压缩视角。
9.2 Cross-Entropy:交叉熵
通俗解释:交叉熵衡量用一个分布 (q) 去表示真实分布 (p) 时的代价。
数学定义:
[ H(p,q)=-\sum_i p_i\log q_i ]
在 LLM 中的作用:语言模型训练通常最小化 next-token cross-entropy。
如果真实标签是 one-hot,那么 loss 就是正确 token 的负 log 概率:
[ L=-\log q_{y} ]
9.3 KL Divergence:KL 散度
通俗解释:KL 散度衡量两个概率分布的差异,但它不是对称距离。
数学定义:
[ D_{KL}(p|q)=\sum_i p_i\log\frac{p_i}{q_i} ]
在 AIGC/LLM 中的作用:
- VAE 的 posterior regularization;
- RLHF 中限制新 policy 不要偏离 reference model;
- DPO 中 policy ratio 的理论基础;
- distillation 中对齐 teacher/student 分布。
9.4 Mutual Information:互信息
通俗解释:互信息衡量知道一个变量后,能减少另一个变量多少不确定性。
数学定义:
[ I(X;Y)=D_{KL}(p(x,y)|p(x)p(y)) ]
在 AIGC/LLM 中的作用:
- 表示学习;
- bottleneck 分析;
- 多模态对齐;
- prompt 和输出之间的信息依赖。
9.5 Perplexity:困惑度
通俗解释:perplexity 可以理解为模型在每一步平均“困惑于多少个选择”。越低越好。
数学定义:如果 cross-entropy 是 (H),则:
[ \mathrm{PPL}=\exp(H) ]
在 LLM 中的作用:常用于衡量语言模型对测试文本的预测能力。
注意:perplexity 低不等于回答能力强,因为指令遵循、推理、工具使用、安全性、事实性等能力无法完全由 perplexity 捕捉。
9.6 Bits 与 Nats
通俗解释:信息量可以用不同单位度量。使用 (\log_2) 时单位是 bits,使用自然对数 (\log_e) 时单位是 nats。
在 LLM 中的作用:loss 通常用 nats 表示;压缩视角下也可以换算成 bits-per-token。
Part IV:优化理论与数值计算
10. 为什么优化决定模型能不能训好
有了模型和 loss,还需要找到让 loss 尽可能低的参数。LLM 训练通常是大规模非凸优化问题:参数极多,数据极大,loss landscape 非常复杂。
11. 核心概念解释:优化
11.1 Objective Function:目标函数
通俗解释:目标函数定义了我们要优化什么。
在 LLM 中:
[ \min_\theta \mathcal{L}(\theta) = -\sum_t \log p_\theta(x_t|x_{<t}) ]
11.2 Loss Function:损失函数
通俗解释:loss 衡量模型当前做得有多差。
在训练中:loss 越小,说明模型对训练目标拟合得越好。
常见 loss:
- cross-entropy loss;
- mean squared error;
- contrastive loss;
- DPO loss;
- diffusion denoising loss。
11.3 SGD:随机梯度下降
通俗解释:SGD 每次用一小批数据估计梯度,然后沿负梯度方向更新参数。
数学形式:
[ \theta_{t+1}=\theta_t-\eta \nabla_\theta L(\theta_t) ]
在深度学习中的作用:SGD 是现代优化器的基础。
11.4 Mini-batch
通俗解释:一次不用全部数据,而是抽一小批数据来估计梯度。
优点:
- 降低计算成本;
- 利用 GPU 并行;
- 引入适度噪声,有时能帮助泛化。
11.5 Momentum:动量
通俗解释:动量让优化像带惯性的球,减少梯度方向来回震荡。
数学形式:
[ v_t=\beta v_{t-1}+\nabla_\theta L(\theta_t) ]
[ \theta_{t+1}=\theta_t-\eta v_t ]
11.6 Adam
通俗解释:Adam 同时估计梯度的一阶矩和二阶矩,为每个参数自适应调整步长。
核心形式:
[ m_t=\beta_1m_{t-1}+(1-\beta_1)g_t ]
[ v_t=\beta_2v_{t-1}+(1-\beta_2)g_t^2 ]
[ \theta_{t+1}=\theta_t-\eta\frac{\hat{m}_t}{\sqrt{\hat{v}_t}+\epsilon} ]
在 LLM 中的作用:Adam/AdamW 是训练 Transformer 的常见优化器。
11.7 AdamW
通俗解释:AdamW 把 weight decay 从梯度更新中解耦出来,通常比 Adam + L2 regularization 更适合大规模深度网络。
核心区别:
- Adam + L2:把正则项加入梯度;
- AdamW:单独对权重做衰减。
在 LLM 中的作用:预训练和微调中非常常见。
11.8 Learning Rate Schedule:学习率调度
通俗解释:学习率决定每一步走多远。训练早期通常需要 warmup,后期需要 decay。
常见策略:
- linear warmup;
- cosine decay;
- step decay;
- constant with warmup。
在 LLM 中的作用:学习率设置直接影响训练稳定性和最终性能。
11.9 Weight Decay:权重衰减
通俗解释:weight decay 会让权重不要无限变大,从而起到正则化作用。
数学直觉:惩罚大的权重范数。
[ L’=L+\lambda|\theta|_2^2 ]
11.10 Gradient Clipping:梯度裁剪
通俗解释:当梯度过大时,把它缩小到合理范围,防止训练发散。
数学形式:
如果 (|g| > c),则:
[ g \leftarrow c\frac{g}{|g|} ]
在 LLM 中的作用:长序列、大 batch、RLHF 训练中都常用。
11.11 Non-convex Optimization:非凸优化
通俗解释:非凸问题的 loss landscape 可能有很多山谷、鞍点和平坦区域。
在深度学习中的作用:神经网络训练几乎都是非凸优化。
重要直觉:大模型虽然非凸,但高维参数空间中存在很多可用的低 loss 区域,实际训练通常能找到表现不错的解。
11.12 Regularization:正则化
通俗解释:正则化是防止模型死记硬背训练集的方法。
常见正则化方法:
- weight decay;
- dropout;
- data augmentation;
- early stopping;
- label smoothing;
- KL regularization。
11.13 Constrained Optimization:约束优化
通俗解释:优化时不仅要让目标函数变好,还要满足某些约束。
数学形式:
[ \min_x f(x) \quad \text{s.t.} \quad g(x)\le 0 ]
在 RLHF 中的作用:对齐训练常把“提高 reward”和“不要偏离原模型太远”一起考虑:
[ \max_\pi \mathbb{E}[r(x,y)] - \beta D_{KL}(\pi|\pi_{ref}) ]
11.14 Duality:对偶
通俗解释:对偶把一个带约束的问题转换成另一个相关问题,有时更容易分析。
在 LLM alignment 中的作用:DPO 的推导涉及 KL-constrained RL 与 reward-policy duality。
12. 核心概念解释:数值计算
12.1 Floating Point:浮点数
通俗解释:计算机不能精确表示所有实数,只能用有限位数近似。
在 LLM 中的作用:训练大模型时,数值精度会影响稳定性、速度和显存占用。
12.2 FP32、FP16、BF16
通俗解释:这些是不同精度的浮点格式。
- FP32:精度高,但显存和计算成本高;
- FP16:更省显存、更快,但容易溢出或下溢;
- BF16:指数范围接近 FP32,训练大模型更稳定。
12.3 Mixed Precision:混合精度训练
通俗解释:部分计算用低精度提高速度,关键累积或参数更新用高精度保持稳定。
在 LLM 中的作用:几乎是现代大模型训练的标配。
12.4 Quantization:量化
通俗解释:量化是用更少 bit 表示权重或激活,例如从 FP16 降到 INT8 或 INT4。
在 LLM 中的作用:
- 降低显存占用;
- 提高推理速度;
- 支持本地部署;
- 可能带来精度损失。
12.5 Conditioning:条件数与病态问题
通俗解释:如果输入稍微变一点,输出就剧烈变化,这个问题就很病态。
在训练中的作用:差的 conditioning 会让优化更困难,可能导致梯度不稳定。
12.6 FLOPs
通俗解释:FLOPs 表示浮点运算次数,是衡量计算量的重要单位。
在 LLM 中的作用:训练 compute、推理成本、scaling law 分析都会用到 FLOPs。
12.7 Memory Bandwidth:显存带宽
通俗解释:显存带宽表示数据从显存读写的速度。很多 LLM 推理瓶颈不是算力,而是搬数据。
在 LLM 中的作用:KV cache、attention、large batch inference 都受显存带宽限制。
12.8 FlashAttention
通俗解释:FlashAttention 不是改变 attention 数学公式,而是更高效地组织计算和内存访问,减少显存读写。
核心思想:避免显式存储完整 (T\times T) attention matrix,使用分块计算提高效率。
在 LLM 中的作用:长上下文训练和推理的重要底层技术。
Part V:深度学习通用机制
13. 核心概念解释:深度学习基础
13.1 Neuron:神经元
通俗解释:神经元接收输入,做加权求和,再经过非线性函数。
数学形式:
[ y=\sigma(w^\top x+b) ]
13.2 MLP:多层感知机
通俗解释:MLP 是由多层线性变换和非线性激活组成的网络。
数学形式:
[ h_1=\sigma(W_1x+b_1) ]
[ y=W_2h_1+b_2 ]
在 Transformer 中的作用:Transformer block 中 attention 后面的 feed-forward network 本质上就是 MLP。
13.3 Activation Function:激活函数
通俗解释:激活函数提供非线性,否则多层线性网络仍然等价于一层线性变换。
常见激活函数:
- ReLU;
- GELU;
- SiLU;
- SwiGLU。
13.4 Initialization:初始化
通俗解释:初始化决定训练开始时参数的尺度。如果尺度不合适,信号可能爆炸或消失。
在 LLM 中的作用:大模型训练稳定性高度依赖初始化、归一化和残差结构。
13.5 Residual Connection:残差连接
通俗解释:残差连接让网络学习“在原输入基础上改一点”,而不是每层都完全重写表示。
数学形式:
[ y=x+F(x) ]
在 Transformer 中的作用:帮助梯度流动,使很深的网络可以训练。
13.6 Normalization:归一化
通俗解释:归一化控制激活的尺度,让训练更稳定。
常见方法:
- BatchNorm;
- LayerNorm;
- RMSNorm。
13.7 LayerNorm
通俗解释:LayerNorm 对一个 token 的 hidden dimension 做归一化。
数学形式:
[ \mu=\frac{1}{d}\sum_i x_i ]
[ \sigma^2=\frac{1}{d}\sum_i(x_i-\mu)^2 ]
[ \mathrm{LayerNorm}(x)=\gamma\frac{x-\mu}{\sqrt{\sigma^2+\epsilon}}+\beta ]
13.8 RMSNorm
通俗解释:RMSNorm 不减均值,只用 root mean square 控制向量尺度。
数学形式:
[ \mathrm{RMS}(x)=\sqrt{\frac{1}{d}\sum_i x_i^2+\epsilon} ]
[ \mathrm{RMSNorm}(x)=\gamma\frac{x}{\mathrm{RMS}(x)} ]
在 LLM 中的作用:许多现代 LLM 使用 RMSNorm,因为它简单、高效、稳定。
13.9 Dropout
通俗解释:训练时随机丢掉一部分神经元或激活,防止模型过度依赖某些路径。
在大模型中的注意点:预训练大模型中 dropout 的使用和小模型不同,有些大模型会少用或不用 dropout,更多依赖数据规模和其他正则机制。
Part VI:Transformer 与 LLM
14. Transformer 的核心公式
Transformer 的核心计算是 scaled dot-product attention:
[ Q=XW_Q,\quad K=XW_K,\quad V=XW_V ]
[ \mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V ]
15. 核心概念解释:Transformer / LLM
15.1 Token
通俗解释:token 是模型处理文本的基本单位。它可能是一个字、一个词、一个子词,甚至一个标点或空格片段。
在 LLM 中的作用:LLM 不是直接处理自然语言字符串,而是处理 token id 序列。
15.2 Tokenizer
通俗解释:tokenizer 把文本切成 token,并映射为整数 id。
例子:
"I love AI" → [40, 3021, 15592]
常见 tokenizer:
- BPE;
- SentencePiece;
- WordPiece;
- unigram language model tokenizer。
15.3 Vocabulary:词表
通俗解释:词表是模型认识的所有 token 集合。
在 LLM 中的作用:模型最终输出一个长度为 vocabulary size 的 logits 向量,然后 softmax 成每个 token 的概率。
15.4 Embedding
通俗解释:embedding 把离散 token id 映射成连续向量。
数学形式:
如果词表大小为 (V),hidden dimension 为 (d),则 embedding table 是:
[ E\in\mathbb{R}^{V\times d} ]
每个 token id 对应矩阵中的一行。
15.5 Positional Encoding:位置编码
通俗解释:Transformer 本身不天然知道 token 的顺序,所以需要额外注入位置信息。
在 LLM 中的作用:帮助模型区分“我爱你”和“你爱我”。
常见位置方法:
- sinusoidal positional encoding;
- learned positional embedding;
- RoPE;
- ALiBi。
15.6 RoPE:Rotary Position Embedding
通俗解释:RoPE 用旋转的方式把位置信息编码到 query 和 key 中,使 attention score 能感知相对位置。
数学直觉:把向量的二维子空间看成复平面,对不同位置施加不同角度的旋转。
在 LLM 中的作用:现代 decoder-only LLM 中非常常见,尤其适合相对位置建模。
15.7 Attention
通俗解释:attention 让每个 token 根据相关性选择应该关注其他哪些 token。
三类向量:
- Query:我现在想找什么信息;
- Key:我能提供什么索引;
- Value:我真正携带的信息内容。
15.8 Scaled Dot-product Attention
数学公式:
[ \mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V ]
为什么要除以 (\sqrt{d_k}):
如果 (Q) 和 (K) 的元素方差约为 1,那么点积的方差会随 (d_k) 增大。除以 (\sqrt{d_k}) 可以让 attention logits 的尺度更稳定,避免 softmax 饱和。
15.9 Causal Mask
通俗解释:causal mask 防止模型在预测当前位置时偷看未来 token。
在 decoder-only LLM 中的作用:保证自回归生成成立。
形式:attention matrix 中未来位置被设为 (-\infty),softmax 后概率接近 0。
15.10 Multi-head Attention
通俗解释:multi-head attention 让模型在多个子空间中并行关注不同关系。
数学形式:
[ \mathrm{head}_i=\mathrm{Attention}(XW_Q^i,XW_K^i,XW_V^i) ]
[ \mathrm{MHA}(X)=\mathrm{Concat}(\mathrm{head}_1,\dots,\mathrm{head}_H)W_O ]
直觉:一个 head 可能关注语法依赖,另一个 head 可能关注实体关系,还有一个 head 可能关注局部上下文。
15.11 Residual Stream
通俗解释:residual stream 是 Transformer 中信息流动的主干,每一层 attention 和 MLP 都是在这个主干上写入增量信息。
在 interpretability 中的作用:很多机制解释会把 Transformer 看成多个模块不断向 residual stream 写入特征。
15.12 MLP / FFN
通俗解释:Transformer 中的 MLP 负责对每个 token 的表示做非线性变换。
常见形式:
[ \mathrm{FFN}(x)=W_2\sigma(W_1x+b_1)+b_2 ]
15.13 SwiGLU
通俗解释:SwiGLU 是一种带门控的激活结构,可以让模型选择性通过信息。
简化形式:
[ \mathrm{SwiGLU}(x)=\mathrm{SiLU}(xW_1)\odot (xW_2) ]
其中 (\odot) 表示逐元素乘法。
15.14 Next-token Prediction
通俗解释:给定前面的 token,预测下一个 token。
数学形式:
[ \max_\theta \sum_t \log p_\theta(x_t|x_{<t}) ]
训练 loss:
[ \mathcal{L}=-\sum_t \log p_\theta(x_t|x_{<t}) ]
15.15 Logits
通俗解释:logits 是 softmax 之前的原始分数。它们还不是概率。
数学形式:
[ p_i=\frac{e^{z_i}}{\sum_j e^{z_j}} ]
其中 (z_i) 是第 (i) 个 token 的 logit。
15.16 Temperature
通俗解释:temperature 控制采样的随机性。
数学形式:
[ p_i=\frac{e^{z_i/T}}{\sum_j e^{z_j/T}} ]
- (T<1):分布更尖锐,更保守;
- (T>1):分布更平坦,更随机。
15.17 Top-k Sampling
通俗解释:只从概率最高的 k 个 token 里采样,避免采到极低概率 token。
15.18 Top-p Sampling / Nucleus Sampling
通俗解释:选择累计概率达到 (p) 的最小 token 集合,然后在其中采样。
区别于 top-k:top-k 固定数量,top-p 根据分布形状动态改变候选集合大小。
15.19 KV Cache
通俗解释:自回归生成时,每一步都会用到过去 token 的 key 和 value。KV cache 把它们缓存起来,避免重复计算。
在推理中的作用:显著加速长文本生成,但会占用大量显存。
15.20 LoRA
通俗解释:LoRA 不直接更新完整大矩阵,而是只学习一个低秩增量。
数学形式:
[ W’=W+\Delta W ]
[ \Delta W=BA ]
其中:
[ B\in\mathbb{R}^{d_{out}\times r},\quad A\in\mathbb{R}^{r\times d_{in}},\quad r\ll \min(d_{in},d_{out}) ]
好处:参数少、显存低、适合任务微调。
15.21 Adapter
通俗解释:adapter 是插入模型中的小模块。原模型参数可以冻结,只训练 adapter。
在 LLM 中的作用:参数高效微调。
15.22 Prefix Tuning / Prompt Tuning
通俗解释:不改模型主体参数,而是学习一些虚拟 token 或 prefix,引导模型完成任务。
在 LLM 中的作用:轻量微调、任务适配。
15.23 MoE:Mixture of Experts
通俗解释:MoE 有多个专家网络,每个 token 只激活其中一部分专家。
数学直觉:通过稀疏激活扩大模型总参数量,同时控制每次推理的计算量。
关键概念:
- router;
- expert;
- top-k routing;
- load balancing loss。
15.24 Scaling Laws
通俗解释:scaling laws 描述模型性能如何随着参数量、数据量、计算量增长而变化。
常见形式:
[ L(N,D,C) \approx aN^{-\alpha}+bD^{-\beta}+cC^{-\gamma} ]
其中 (N) 表示模型规模,(D) 表示数据规模,(C) 表示计算量。
在研究中的作用:指导模型尺寸、数据量和训练 compute 的分配。
Part VII:AIGC 生成模型数学
16. 生成模型的统一视角
生成模型的目标是学习数据分布 (p_{data}(x)),然后从中生成新样本。
不同方法的建模方式不同:
| 方法 | 核心思想 | 数学关键词 |
|---|---|---|
| VAE | 学习 latent variable model,用 ELBO 近似似然 | 变分推断、KL、重参数化 |
| GAN | 生成器和判别器进行 minimax game | 博弈、JS divergence、Wasserstein |
| Diffusion | 从数据逐步加噪,再学习反向去噪 | Markov chain、Gaussian、score matching |
| Score-based Model | 学习 (\nabla_x\log p_t(x)) | score、SDE、reverse process |
| Latent Diffusion | 在 latent space 中做 diffusion | autoencoder、cross-attention、conditional generation |
| Flow Matching | 学习从噪声到数据的连续 vector field | ODE、probability path、optimal transport |
17. VAE:变分自编码器
17.1 Latent Variable:潜变量
通俗解释:潜变量是看不见但影响观测数据的隐藏因素。
例子:一张人脸图片背后可能有姿态、光照、表情、身份等潜变量。
数学形式:
[ z \sim p(z), \quad x \sim p_\theta(x|z) ]
17.2 Autoencoder:自编码器
通俗解释:自编码器先把输入压缩成 latent 表示,再从 latent 表示重构输入。
结构:
x → encoder → z → decoder → reconstructed x
17.3 ELBO:Evidence Lower Bound
通俗解释:真实的 (\log p_\theta(x)) 通常难以直接最大化,所以 VAE 最大化它的一个下界。
数学形式:
[ \log p_\theta(x) \ge \mathbb{E}{q\phi(z|x)}[\log p_\theta(x|z)] - D_{KL}(q_\phi(z|x)|p(z)) ]
两项解释:
- reconstruction term:希望 decoder 能重构输入;
- KL term:希望 encoder 得到的 latent distribution 不要偏离先验太远。
17.4 Variational Inference:变分推断
| 通俗解释:真实后验太难算,就用一个简单分布 (q_\phi(z | x)) 去近似它。 |
在 VAE 中的作用:encoder 输出近似后验。
17.5 Reparameterization Trick:重参数化技巧
通俗解释:为了让采样过程可微,把随机性从参数中分离出来。
数学形式:
[ z=\mu+\sigma\odot\epsilon,\quad \epsilon\sim\mathcal{N}(0,I) ]
这样梯度可以通过 (\mu) 和 (\sigma) 传播。
18. GAN:生成对抗网络
18.1 Generator:生成器
通俗解释:生成器把随机噪声变成看起来像真实数据的样本。
数学形式:
[ \hat{x}=G(z),\quad z\sim p(z) ]
18.2 Discriminator:判别器
通俗解释:判别器判断一个样本是真实数据还是生成器伪造的。
数学形式:
[ D(x)\in[0,1] ]
18.3 Minimax Game:极小极大博弈
通俗解释:生成器想骗过判别器,判别器想识别真假,两者互相对抗。
经典目标:
[ \min_G \max_D \mathbb{E}{x\sim p{data}}[\log D(x)] + \mathbb{E}_{z\sim p_z}[\log(1-D(G(z)))] ]
18.4 Jensen-Shannon Divergence
通俗解释:JS divergence 是一种衡量两个分布差异的方法。原始 GAN 在理想情况下与最小化 JS divergence 有关。
18.5 Wasserstein Distance
通俗解释:Wasserstein distance 可以理解为把一个分布搬运成另一个分布所需的最小成本。
在 GAN 中的作用:WGAN 使用 Wasserstein 距离缓解训练不稳定和梯度消失问题。
18.6 Mode Collapse:模式崩塌
通俗解释:生成器只会生成少数几种样本,忽略数据分布中的多样性。
例子:训练人脸生成模型,但它总生成非常相似的几张脸。
19. Diffusion:扩散模型
19.1 Diffusion Model
通俗解释:扩散模型先把真实图片一步步加噪成纯噪声,再学习如何从噪声一步步去噪回图片。
两阶段:
forward process: x0 → x1 → x2 → ... → xT ≈ noise
reverse process: noise → ... → x2 → x1 → x0
19.2 Markov Chain:马尔可夫链
通俗解释:下一步只依赖当前状态,不依赖更早历史。
数学形式:
[ p(x_t|x_{t-1},x_{t-2},\dots,x_0)=p(x_t|x_{t-1}) ]
在 DDPM 中的作用:forward noising process 是一个 Markov chain。
19.3 Gaussian Transition:高斯转移
DDPM 前向过程:
[ q(x_t|x_{t-1})=\mathcal{N}(\sqrt{1-\beta_t}x_{t-1},\beta_t I) ]
通俗解释:每一步都把图像稍微缩小一点,再加一点高斯噪声。
19.4 Closed Form of Noising
DDPM 中可以直接从 (x_0) 采样到任意时刻 (x_t):
[ q(x_t|x_0)=\mathcal{N}(\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I) ]
其中:
[ \alpha_t=1-\beta_t,\quad \bar{\alpha}t=\prod{s=1}^t\alpha_s ]
等价采样形式:
[ x_t=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon, \quad \epsilon\sim\mathcal{N}(0,I) ]
19.5 Denoising Objective:去噪目标
常见训练目标:
[ \mathbb{E}{t,x_0,\epsilon} \left[ |\epsilon-\epsilon\theta(x_t,t)|^2 \right] ]
通俗解释:模型看到加噪后的 (x_t),学习预测当初加入的噪声 (\epsilon)。
19.6 Score
通俗解释:score 是 log probability 对输入的梯度,指向概率密度增加最快的方向。
数学定义:
[ s(x)=\nabla_x\log p(x) ]
在 diffusion 中的作用:反向去噪过程可以由 score 指导。
19.7 Score Matching
通俗解释:score matching 不直接学习概率密度,而是学习概率密度的梯度。
在生成模型中的作用:score-based generative model 的核心训练思想。
19.8 SDE:随机微分方程
通俗解释:SDE 描述带随机噪声的连续时间动态过程。
常见形式:
[ dx=f(x,t)dt+g(t)dw ]
其中 (dw) 表示 Brownian motion 的随机增量。
在 diffusion 中的作用:连续时间 diffusion 可以用 SDE 描述。
19.9 Reverse SDE
通俗解释:如果正向 SDE 把数据变成噪声,反向 SDE 就把噪声变回数据。
在生成中的作用:从高斯噪声开始,沿反向 SDE 采样得到图片或视频。
19.10 ODE:常微分方程
通俗解释:ODE 描述确定性的连续变化。
数学形式:
[ \frac{dx}{dt}=f(x,t) ]
在生成模型中的作用:probability flow ODE、flow matching、rectified flow 都会用到 ODE。
19.11 Classifier-free Guidance
通俗解释:classifier-free guidance 同时使用有条件和无条件预测,增强生成结果对 prompt 的遵循程度。
常见形式:
[ \epsilon_{guided}=\epsilon_{uncond}+w(\epsilon_{cond}-\epsilon_{uncond}) ]
其中 (w) 是 guidance scale。
直觉:如果 (w) 太小,图像可能不听 prompt;如果太大,可能过度锐化或产生伪影。
20. Latent Diffusion 与多模态生成
20.1 Latent Space:潜空间
通俗解释:潜空间是压缩后的表示空间。图片不直接在像素空间生成,而是在更小、更语义化的 latent space 中生成。
20.2 Latent Diffusion
通俗解释:先用 autoencoder 把图片压缩到 latent space,再在 latent space 中运行 diffusion。
优点:比直接在像素空间做 diffusion 更省计算。
20.3 Cross-attention
通俗解释:cross-attention 让一种模态的信息去关注另一种模态的信息。
在 text-to-image 中的作用:图像 latent query 关注文本 token 的 key/value,从而把文本条件注入图像生成过程。
20.4 Conditional Generation:条件生成
通俗解释:生成过程不是无条件随机生成,而是在某些条件下生成。
条件可以是:
- 文本 prompt;
- 类别标签;
- 草图;
- 深度图;
- 边缘图;
- 音频;
- 视频帧。
20.5 Information Bottleneck:信息瓶颈
通俗解释:压缩表示时,保留任务相关信息,丢掉无关细节。
在 latent diffusion 中的作用:autoencoder latent space 可视为一种信息瓶颈,减少生成建模负担。
21. Flow Matching
21.1 Continuous Normalizing Flow
通俗解释:把一个简单分布通过连续可逆变换变成复杂数据分布。
数学关键词:
- ODE;
- vector field;
- change of variables;
- log-density evolution。
21.2 Vector Field:向量场
通俗解释:向量场给空间中每个点分配一个方向和速度。
在 flow matching 中的作用:模型学习一个 vector field,把噪声样本逐渐推向数据样本。
21.3 Probability Path:概率路径
通俗解释:概率路径描述从噪声分布到数据分布之间的一系列中间分布。
在生成模型中的作用:flow matching 通过学习这条路径上的速度场来生成样本。
21.4 Continuity Equation:连续性方程
通俗解释:连续性方程描述概率密度如何随向量场流动而变化。
直觉:概率质量不会凭空产生或消失,只是在空间中移动。
21.5 Optimal Transport:最优传输
通俗解释:最优传输研究如何以最小成本把一个分布搬运成另一个分布。
在生成模型中的作用:某些 flow matching 路径与 optimal transport 有紧密关系,可以产生更直的生成路径和更高效的采样。
Part VIII:RLHF、DPO 与偏好优化
22. 为什么 LLM 对齐需要强化学习和偏好学习
预训练模型学会了预测文本,但不一定会按照人类意图回答。后训练阶段需要让模型更有帮助、更诚实、更安全、更符合指令。常见路线包括:
- SFT:supervised fine-tuning,用人工示范训练;
- RM:reward model,用人类偏好排序训练奖励函数;
- PPO/RLHF:用强化学习优化 reward,同时用 KL 限制偏离;
- DPO:直接从偏好数据优化 policy,避免显式 reward model 和复杂 RL loop。
23. 核心概念解释:强化学习
23.1 MDP:Markov Decision Process
通俗解释:MDP 是强化学习中描述智能体与环境交互的数学框架。
组成部分:
- state:状态;
- action:动作;
- reward:奖励;
- transition:状态转移;
- policy:策略;
- discount factor:折扣因子。
23.2 Policy:策略
通俗解释:策略决定在某个状态下选择什么动作。
数学定义:
[ \pi(a|s) ]
表示状态 (s) 下选择动作 (a) 的概率。
在 LLM 中的对应:
- state:prompt 和已生成上下文;
- action:下一个 token;
- policy:LLM 的 token 分布。
23.3 Reward:奖励
通俗解释:奖励告诉模型某个行为好不好。
在 RLHF 中:reward model 会给模型输出一个分数,表示它有多符合人类偏好。
23.4 Value Function:价值函数
通俗解释:价值函数估计从当前状态开始,未来能获得多少奖励。
数学形式:
[ V^\pi(s)=\mathbb{E}_\pi\left[\sum_t \gamma^t r_t|s_0=s\right] ]
23.5 Advantage:优势函数
通俗解释:advantage 衡量某个动作比平均水平好多少。
数学形式:
[ A(s,a)=Q(s,a)-V(s) ]
在 PPO 中的作用:policy gradient 常用 advantage 降低方差并提升训练稳定性。
23.6 Policy Gradient
通俗解释:policy gradient 直接调整策略参数,让高奖励动作概率变大,低奖励动作概率变小。
数学形式:
[ \nabla_\theta J(\theta) = \mathbb{E}[\nabla_\theta\log\pi_\theta(a|s)A(s,a)] ]
23.7 PPO
通俗解释:PPO 是一种稳定的 policy optimization 方法,通过限制新旧策略变化幅度来避免训练崩掉。
核心直觉:不要让 policy 一步更新太远。
在 RLHF 中的作用:经典 RLHF pipeline 使用 PPO 优化 reward model 给出的奖励,同时加入 KL penalty。
23.8 KL-constrained RL
通俗解释:希望模型输出更符合偏好,但不要偏离原模型太远,否则可能语言质量下降或 reward hacking。
数学形式:
[ \max_\pi \mathbb{E}{y\sim\pi(\cdot|x)}[r(x,y)] - \beta D{KL}(\pi(\cdot|x)|\pi_{ref}(\cdot|x)) ]
24. 偏好学习与 DPO
24.1 Preference Data:偏好数据
通俗解释:偏好数据不是告诉模型标准答案是什么,而是告诉模型两个回答中哪个更好。
形式:
prompt: x
chosen response: y_w
rejected response: y_l
24.2 Bradley–Terry Model
通俗解释:Bradley–Terry 模型用两个候选对象的分数差来表示其中一个被偏好的概率。
数学形式:
[ P(y_w \succ y_l)=\sigma(r(x,y_w)-r(x,y_l)) ]
其中 (\sigma) 是 sigmoid 函数。
24.3 Reward Model
通俗解释:reward model 学习给一个 prompt-response 对打分。
训练目标:让被人类偏好的回答分数高于不被偏好的回答。
24.4 DPO:Direct Preference Optimization
通俗解释:DPO 不显式训练 reward model,也不用 PPO,而是直接用偏好数据更新语言模型。
核心 loss:
[ \mathcal{L}{DPO} = -\log \sigma \left( \beta \left[ \log\frac{\pi\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)} \right] \right) ]
直觉解释:
- 如果 chosen response 相对 reference model 的概率提升更多;
- rejected response 相对 reference model 的概率提升更少;
- 那么 loss 会下降。
关键点:DPO 不是简单地让 chosen 概率变大,还通过 reference model 控制偏离幅度。
24.5 RLAIF
通俗解释:RLAIF 用 AI feedback 替代或辅助 human feedback,降低标注成本。
风险:AI feedback 可能继承 judge model 的偏见和盲点。
24.6 Reward Hacking
通俗解释:模型找到提高 reward 的捷径,但这些行为并不真正符合人类目标。
例子:模型输出看似礼貌、很长、很自信的答案,从 reward model 获得高分,但事实错误。
Part IX:统计学习、评测与泛化
25. 为什么评测统计很重要
LLM 评测经常受到随机性、样本量、prompt 格式、judge 偏差、数据污染、任务选择等影响。研究中不能只报告一个分数,还需要说明不确定性。
26. 核心概念解释:评测统计
26.1 Benchmark
通俗解释:benchmark 是用于比较模型能力的数据集或任务集合。
注意:benchmark 分数不等于真实能力。一个模型可能在某个 benchmark 上高分,但在真实用户场景中表现一般。
26.2 Win-rate
通俗解释:win-rate 表示模型 A 在成对比较中胜过模型 B 的比例。
数学形式:
[ \mathrm{win\ rate}=\frac{#\mathrm{wins}}{#\mathrm{comparisons}} ]
26.3 Confidence Interval:置信区间
通俗解释:置信区间表示估计值的不确定范围。
例子:模型 A 的 win-rate 是 54%,95% 置信区间是 [51%, 57%],说明真实 win-rate 很可能在这个范围附近。
26.4 Bootstrap
通俗解释:bootstrap 通过对样本重复有放回抽样来估计统计量的不确定性。
在模型评测中的作用:给 accuracy、win-rate、BLEU、ROUGE、reward score 等指标加置信区间。
26.5 P-value
通俗解释:p-value 衡量在零假设成立时,观察到当前或更极端结果的概率。
注意:p-value 不是“模型 A 比模型 B 更好的概率”。
26.6 Multiple Comparison:多重比较
通俗解释:如果同时比较很多模型或很多指标,偶然显著的概率会升高,需要校正。
在 LLM 评测中的作用:leaderboard 中大量模型比较时尤其重要。
26.7 Calibration:校准
通俗解释:如果模型说自己 80% 确信,那么类似情况下它应该大约 80% 正确。
在 LLM 中的作用:事实性回答、不确定性表达、风险控制。
26.8 OOD:Out-of-Distribution
通俗解释:OOD 指测试数据和训练数据分布不同。
在 LLM 中的作用:真实用户问题往往和训练 benchmark 不完全同分布。
27. 核心概念解释:泛化理论
27.1 Bias-Variance Tradeoff
通俗解释:bias 是模型太简单导致系统性错误,variance 是模型太敏感导致不稳定。
在深度学习中的特点:大模型的泛化行为并不完全符合传统小模型直觉,但 bias-variance 仍是重要基础。
27.2 Overfitting
通俗解释:模型在训练集上表现很好,但在新数据上表现差。
在 LLM 中的表现:
- benchmark contamination;
- memorization;
- prompt 格式过拟合;
- reward model overfitting。
27.3 Rademacher Complexity
通俗解释:衡量函数类拟合随机噪声的能力,能力越强,过拟合风险越高。
在大模型研究中的作用:作为理论分析工具,帮助理解模型容量和泛化。
27.4 VC Dimension
通俗解释:VC 维衡量模型能够打散多少样本,是传统统计学习理论中的容量度量。
注意:VC 维对现代大模型的实际泛化解释有限,但它仍是理解学习理论的重要基础。
27.5 PAC-Bayes
通俗解释:PAC-Bayes 用概率分布描述模型参数,并给出泛化界。
在大模型中的作用:常用于理解随机化模型、posterior、flat minima、压缩与泛化之间的关系。
Part X:学习路线与实践项目
28. 六个月学习路线
阶段 1:数学基础快速重建,4–6 周
目标:能看懂深度学习论文中的大部分公式。
重点:
- 线性代数:向量空间、矩阵分解、特征值/SVD、范数、投影、低秩近似、张量乘法。
- 概率统计:条件概率、Bayes、MLE/MAP、KL、cross-entropy、Monte Carlo、Gaussian 分布族。
- 矩阵微积分:Jacobian、Hessian、trace trick、softmax 梯度、cross-entropy 梯度、LayerNorm/RMSNorm 梯度。
- 优化:SGD、Momentum、AdamW、learning rate schedule、weight decay、gradient clipping、非凸优化直觉。
实践:
- 手写矩阵乘法、softmax、cross-entropy;
- 手推 softmax + cross-entropy 梯度;
- 用 NumPy 实现两层 MLP;
- 比较不同学习率下的 loss curve。
阶段 2:深度学习数学,4–6 周
目标:理解 MLP、normalization、residual、regularization、optimization 的机制。
重点:
- computational graph;
- backpropagation;
- initialization;
- activation function;
- normalization;
- residual connection;
- dropout / weight decay;
- loss landscape;
- generalization。
实践:
- 从零写一个小 autodiff 引擎;
- 实现 LayerNorm 与 RMSNorm;
- 手写 AdamW;
- 对同一模型比较 SGD、Momentum、Adam、AdamW。
阶段 3:LLM 数学,6–8 周
目标:能独立推导和实现一个小型 decoder-only Transformer。
重点:
- tokenization;
- embedding matrix;
- positional encoding / RoPE;
- scaled dot-product attention;
- causal mask;
- multi-head attention;
- MLP/SwiGLU;
- normalization;
- residual stream;
- next-token objective;
- perplexity;
- temperature/top-p sampling;
- scaling laws;
- LoRA / adapter / prefix tuning。
实践:
- 实现一个 nanoGPT 级别模型;
- 训练一个小语料 next-token LM;
- 写 LoRA 低秩更新;
- 实现 SFT loss;
- 做一次 mini scaling law 实验。
阶段 4:AIGC 生成模型数学,6–8 周
目标:从概率建模角度统一理解 VAE、GAN、Diffusion、Flow Matching。
重点顺序:
- VAE:ELBO、KL、reparameterization;
- GAN:minimax、divergence、Wasserstein distance;
- DDPM:Gaussian noising、Markov chain、denoising objective;
- Score-based model:score matching、reverse SDE;
- Latent Diffusion:latent space、autoencoder、cross-attention、conditional generation;
- Flow Matching:ODE、vector field、probability path、optimal transport。
实践:
手推 DDPM 中 (q(x_t x_0)) 的 closed form; - 实现一个 MNIST/CIFAR 小型 DDPM;
- 比较 (\epsilon)-prediction、(x_0)-prediction、(v)-prediction;
- 实现 classifier-free guidance;
- 写一个 2D toy flow matching demo。
阶段 5:Alignment、Agent、评测统计,4–6 周
目标:能研究 LLM 后训练、偏好学习、agent 评估。
重点:
- preference data modeling;
- Bradley–Terry model;
- pairwise ranking loss;
- KL-constrained policy optimization;
- PPO 基础;
- DPO / IPO / KTO / ORPO 类方法;
- reward hacking;
- off-policy correction;
- benchmark 统计显著性;
- bootstrap confidence interval;
- multiple comparison;
- human eval 设计。
实践:
- 用公开 preference dataset 训练一个 DPO 小模型;
- 对两个模型输出做 pairwise win-rate 评估;
- 用 bootstrap 给 win-rate 加置信区间;
- 做一次 reward model overfitting 分析。
29. 公式能力检查清单
学完后应该能独立完成以下推导或解释:
29.1 Softmax + Cross-Entropy 梯度
[ \frac{\partial L}{\partial z_i}=p_i-y_i ]
要求:能说明为什么 softmax 和 cross-entropy 组合后梯度如此简洁。
29.2 Attention 的 shape 与复杂度
[ QK^\top: [B,H,T,d]\times[B,H,d,T]\to[B,H,T,T] ]
时间复杂度:
[ O(BHT^2d) ]
要求:能解释为什么长上下文 attention 成本随 (T^2) 增长。
29.3 VAE ELBO
[ \log p_\theta(x) \ge \mathbb{E}{q\phi(z|x)}[\log p_\theta(x|z)] - D_{KL}(q_\phi(z|x)|p(z)) ]
要求:能解释 reconstruction term 和 KL term 的作用。
29.4 DDPM 前向过程闭式形式
[ q(x_t|x_0)=\mathcal{N}(\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I) ]
要求:能从递推加噪推到闭式采样。
29.5 Score
[ s_\theta(x,t)\approx \nabla_x\log p_t(x) ]
要求:能解释为什么 score 指向更高概率密度方向。
29.6 Policy Gradient
[ \nabla_\theta J(\theta)= \mathbb{E}[\nabla_\theta\log\pi_\theta(a|s)A(s,a)] ]
要求:能解释 advantage 如何影响 action probability。
29.7 DPO Loss
[ \mathcal{L}{DPO} = -\log \sigma \left( \beta \left[ \log\frac{\pi\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)} \right] \right) ]
要求:能解释 chosen、rejected、reference model、policy ratio 的作用。
29.8 LoRA 低秩参数化
[ \Delta W=BA,\quad \mathrm{rank}(\Delta W)\le r ]
要求:能解释为什么低秩分解可以节省参数。
29.9 AdamW 与 Adam + L2 的区别
要求:能说明 decoupled weight decay 为什么不同于把 L2 项直接加到 Adam 的梯度里。
29.10 Benchmark 置信区间
要求:给定模型 A/B 的比较结果,能用 bootstrap 计算 win-rate 的置信区间。
Part XI:按研究方向选择进阶数学
30. 如果偏 LLM Pretraining / Scaling
优先补:
- high-dimensional probability;
- random matrix theory;
- optimization dynamics;
- scaling law fitting;
- data distribution modeling;
- information theory;
- numerical linear algebra。
典型问题:
- 参数量、数据量、compute 如何分配?
- loss 是否符合 power-law?
- 数据质量如何影响 scaling?
- optimizer 和 learning rate schedule 如何影响大规模训练稳定性?
31. 如果偏 LLM Alignment / RLHF / Agent
优先补:
- reinforcement learning;
- preference learning;
- causal inference;
- decision theory;
- game theory;
- off-policy evaluation;
- statistical evaluation。
典型问题:
- 什么样的偏好数据能稳定提升模型?
- reward model 为什么会被 hack?
- DPO、PPO、KTO、ORPO 等方法的目标函数差异是什么?
- agent 任务如何设计可靠评测?
32. 如果偏 Image / Video / Audio Generation
优先补:
- stochastic process;
- SDE/ODE;
- optimal transport;
- signal processing;
- Fourier/wavelet;
- variational inference;
- score matching;
- geometric deep learning。
典型问题:
- diffusion 和 flow matching 如何统一?
- guidance scale 如何影响生成质量?
- 视频生成如何处理时间一致性?
- latent space 中的信息瓶颈如何影响细节?
33. 如果偏 Mechanistic Interpretability
优先补:
- linear algebra;
- sparse coding;
- information geometry;
- causal interventions;
- graph theory;
- representation similarity;
- spectral analysis。
典型问题:
- Transformer 中某个 head 在做什么?
- residual stream 中如何存储特征?
- feature superposition 如何发生?
- 如何用 causal intervention 验证机制假设?
34. 如果偏 Efficient LLM / Systems-aware ML
优先补:
- numerical analysis;
- quantization math;
- low-rank approximation;
- randomized linear algebra;
- matrix multiplication complexity;
- memory/computation tradeoff;
- approximation theory。
典型问题:
- INT4 量化为什么会损失精度?
- KV cache 为什么成为推理瓶颈?
- FlashAttention 为什么能加速?
- LoRA、QLoRA、adapter 的参数效率如何比较?
Part XII:推荐论文与资源
35. 核心教材
Deep Learning,Ian Goodfellow、Yoshua Bengio、Aaron Courville
适合补深度学习数学、优化、生成模型基础。
https://www.deeplearningbook.org/Convex Optimization,Stephen Boyd、Lieven Vandenberghe
适合补优化、对偶、约束优化。
https://web.stanford.edu/~boyd/cvxbook/The Matrix Cookbook
矩阵恒等式和矩阵求导速查。
https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdfUnderstanding Deep Learning,Simon J. D. Prince
适合从现代深度学习视角串联理论和实践。
https://udlbook.github.io/udlbook/
36. LLM 方向论文
Attention Is All You Need
Transformer 基础论文。
https://arxiv.org/abs/1706.03762Scaling Laws for Neural Language Models
语言模型 scaling laws 经典论文。
https://arxiv.org/abs/2001.08361Training language models to follow instructions with human feedback
InstructGPT / RLHF 经典路线。
https://arxiv.org/abs/2203.02155Direct Preference Optimization: Your Language Model is Secretly a Reward Model
DPO 核心论文。
https://arxiv.org/abs/2305.18290
37. AIGC 生成模型论文
Generative Adversarial Nets
GAN 原始论文。
https://arxiv.org/abs/1406.2661Denoising Diffusion Probabilistic Models
DDPM 经典论文。
https://arxiv.org/abs/2006.11239Score-Based Generative Modeling through Stochastic Differential Equations
Score-based diffusion 与 SDE 统一视角。
https://arxiv.org/abs/2011.13456High-Resolution Image Synthesis with Latent Diffusion Models
Latent Diffusion 经典论文。
https://arxiv.org/abs/2112.10752Flow Matching for Generative Modeling
Flow Matching 代表性论文。
https://arxiv.org/abs/2210.02747
38. 课程资源
Stanford CS224N: Natural Language Processing with Deep Learning
NLP 与 LLM 系统课程。
https://web.stanford.edu/class/cs224n/Stanford CS25: Transformers United
Transformer 前沿 seminar。
https://web.stanford.edu/class/cs25/
Part XIII:给 Codex 的生成指令
下面这段可以直接复制给 Codex,让它根据本文档生成完整博客教程。
请根据当前 Markdown 文档,生成一个面向 AI 算法研究员和高级工程师的中文博客教程系列。
要求:
1. 总体风格:深入浅出,不要只堆公式。每个概念都必须先讲直觉,再给数学定义,再说明它在 AIGC/LLM 中的作用。
2. 每篇文章都要包含:
- 学习目标;
- 背景动机;
- 概念解释;
- 关键公式;
- 公式逐步推导;
- 与 LLM/AIGC 的具体连接;
- 最小代码或伪代码;
- 常见误区;
- 练习题;
- 延伸阅读。
3. 不要假设读者已经熟悉高阶数学。遇到 Jacobian、KL、ELBO、SDE、DPO、PPO、RoPE、LoRA、FlashAttention 等术语时必须解释。
4. 每个公式后都要解释每个符号的含义。
5. 对 Transformer、Diffusion、DPO 三个主题要重点展开,不能只做概念列表。
6. 代码示例优先使用 Python + NumPy 或 PyTorch。
7. 所有文章使用 Markdown 输出,公式使用 LaTeX。
8. 每篇文章结尾给 5–10 道练习题,并包含至少 2 道推导题、2 道代码题、1 道思考题。
9. 最终生成一个 README.md,说明整个教程系列的学习路径。
10. 保留本文档中的论文与资源链接作为延伸阅读。
Part XIV:博客写作示例模板
下面是单个概念的推荐写法模板。
示例:什么是 KL 散度?
1. 直觉
KL 散度衡量的是:如果真实分布是 (p),但我们用 (q) 去近似它,会多付出多少信息代价。
2. 数学定义
[ D_{KL}(p|q)=\sum_i p_i\log\frac{p_i}{q_i} ]
其中:
- (p_i):真实分布给第 (i) 个事件的概率;
- (q_i):近似分布给第 (i) 个事件的概率。
3. 重要性质
- (D_{KL}(p|q)\ge 0);
- 只有当 (p=q) 时,KL 为 0;
- KL 不对称,即:
[ D_{KL}(p|q)\ne D_{KL}(q|p) ]
4. 在 LLM 中的作用
在 RLHF 中,我们希望新模型 (\pi_\theta) 获得更高 reward,但又不要偏离原始模型 (\pi_{ref}) 太远,因此会加入 KL penalty:
[ D_{KL}(\pi_\theta|\pi_{ref}) ]
5. 常见误区
- KL 不是普通距离,因为它不对称;
- KL 很大时,常常意味着一个分布认为可能的事件,另一个分布认为几乎不可能;
- KL 的方向很重要,(D_{KL}(p|q) ) 和 (D_{KL}(q|p)) 的优化行为不同。
Part XV:最终学习建议
最小闭环是:
线代 + 概率 + 优化
→ 深度学习
→ Transformer / LLM
→ Diffusion / Flow
→ RLHF / DPO
→ 评测统计
更具体地说:
- 先补线性代数、概率、矩阵微积分、优化。
- 再学 backprop、normalization、regularization、optimizer。
- 然后攻 Transformer、language modeling、scaling laws。
- 再扩展 VAE、GAN、DDPM、score SDE、latent diffusion、flow matching。
- 最后进入 RLHF、DPO、agent、evaluation、interpretability、efficient training。
判断优先级的一句话:
凡是能帮助你推导 loss、理解训练稳定性、解释生成过程、设计实验和读懂新论文的数学,优先学;纯粹形式化但短期不服务模型机制的数学,先放后面。
