AIGC 与 LLM 数学概念手册

概念索引：面向查阅与学习的系统手册

每张卡片都按同一结构组织：直觉解释、数学形式、模型中的位置、常见误区。可以用关键词检索，也可以按数学与模型模块筛选。

数学模块地图：每个工具对应一个模型位置

不要孤立记数学名词。先问：它在训练目标、采样过程、模型结构、数值稳定性还是评测中起作用？

数学模块	需要掌握到什么程度	在 AIGC/LLM 中的位置	诊断信号
线性代数	shape、矩阵乘法、范数、投影、SVD、低秩近似。	embedding、attention、LoRA、表示空间、KV cache。	shape mismatch、rank bottleneck、embedding norm drift。
自动微分	Jacobian、Hessian 直觉、VJP/JVP、链式法则。	backprop、softmax gradient、optimizer、adapter 更新。	gradient explosion、vanishing gradient、bad conditioning。
概率统计	条件概率、MLE、MAP、采样、Monte Carlo、置信区间。	next-token modeling、diffusion noising、benchmark 估计。	perplexity 与任务指标不一致、样本方差过大。
信息论	entropy、cross entropy、KL、mutual information、bits/nats。	语言模型 loss、distillation、RLHF/DPO 的 KL 约束。	KL drift、mode collapse、overconfident logits。
优化与数值	SGD/AdamW、调度、正则、浮点误差、mixed precision、量化。	预训练、SFT、LoRA、serving、FlashAttention。	loss spike、NaN、吞吐下降、低精度质量回归。
随机过程 / ODE / SDE	Markov chain、Gaussian transition、reverse SDE、ODE solver。	DDPM、score-based diffusion、Flow Matching。	NFE 太高、solver 不稳定、guidance 破坏多样性。

张量与自动微分：LLM 的计算语言

Transformer 中的核心计算并不神秘：大部分是张量投影、矩阵乘法、归一化、非线性和链式法则。

从 shape 开始读模型

给定 batch size \(B\)、序列长度 \(T\)、hidden size \(d\)、head 数 \(H\)，单层 self-attention 的典型 shape 是：

\[ X\in\mathbb{R}^{B\times T\times d},\quad Q,K,V=XW_Q,XW_K,XW_V,\quad Q,K,V\in\mathbb{R}^{B\times H\times T\times d_h}. \]

自动微分关心的问题是：最终 loss 对每个权重矩阵的变化率是多少。反向传播就是在计算图上反复使用链式法则：

\[ \frac{\partial \mathcal{L}}{\partial W_Q} = \frac{\partial \mathcal{L}}{\partial Q} \frac{\partial Q}{\partial W_Q}. \]

伪代码：从前向计算到反向传播

tokens = tokenizer(batch_text)
X = embedding(tokens) + position_encoding(tokens)
Q, K, V = project_qkv(X)
A = softmax((Q @ K.transpose(-1, -2)) / sqrt(d_head) + causal_mask)
Y = A @ V
logits = lm_head(transformer_block(Y))
loss = cross_entropy(logits[:, :-1], tokens[:, 1:])
loss.backward()
optimizer.step()

读代码时先标 shape，再标随机变量来源，最后看 loss 的期望是从哪个样本分布估计的。

可视化实验：Attention shape 与 KV 成本

改变 token 数、head 数和每头维度，观察 attention score 矩阵与 KV cache 的增长方式。

tokens \(T\)7 heads \(H\)8 head dim \(d_h\)64

调节参数后显示 attention score 与 KV cache 估计。

attention score 对每个 head 都有 \(T\times T\) 项；decode 阶段 KV cache 的字节数随 \(T\cdot H\cdot d_h\) 线性增长。

概率与信息论：语言模型首先是条件分布

next-token prediction 是条件概率建模；cross entropy、KL 和 perplexity 是同一套训练目标的不同读法。

从最大似然到 cross entropy

给定真实 token 序列 \(x_1,\ldots,x_T\)，自回归模型用链式法则定义联合概率：

\[ p_\theta(x_1,\ldots,x_T|c)=\prod_{t=1}^{T}p_\theta(x_t|x_{

训练时最大化真实下一个 token 的概率，等价于最小化平均 NLL：

\[ \mathcal{L}_{\mathrm{LM}} =-\mathbb{E}_{(x,c)\sim p_{\mathrm{data}}}\sum_{t=1}^{T}\log p_\theta(x_t|x_{

若 \(p\) 是数据分布、\(q=p_\theta\) 是模型分布，则：

\[ H(p,q)=H(p)+D_{KL}(p\Vert q). \]

由于 \(H(p)\) 不含模型参数，最小化 cross entropy 等价于最小化 forward KL。

可视化实验：Temperature、熵与 Perplexity

temperature 改变 logits 的 sharpness；top-p 截断候选集后再归一化，会改变采样分布但不更新模型。

temperature0.85 top-p0.90

entropy 与 perplexity 会随采样分布变化。

低 temperature 让分布更尖，高 temperature 增加多样性；top-p 会保留累计概率达到阈值的最小候选集合。

常见误解

perplexity 低不等于回答一定好。它衡量平均 next-token 概率，不直接衡量事实性、指令遵循或安全性。
temperature 不是训练方法。它只改变推断时的采样分布，不改变模型参数。
KL 方向不能随便换。forward KL 更惩罚漏掉真实模式；reverse KL 更惩罚模型采到真实低密度区域。

优化与数值计算：模型能不能训好、跑稳、跑快

大模型训练不是只要会求梯度。优化器、精度、归一化、矩阵乘法 IO 和硬件带宽都会改变可训练性。

AdamW 的视角

AdamW 用一阶矩估计方向、二阶矩估计尺度，并把 weight decay 从 gradient update 中解耦。

\[ m_t=\beta_1m_{t-1}+(1-\beta_1)g_t,\quad v_t=\beta_2v_{t-1}+(1-\beta_2)g_t^2. \]

数值稳定性的视角

mixed precision、loss scaling、RMSNorm、gradient clipping、softmax max-shift 都是在避免 overflow、underflow 和 bad conditioning。

\[ \operatorname{softmax}(l_i)= \frac{\exp(l_i-\max_j l_j)}{\sum_k\exp(l_k-\max_j l_j)}. \]

诊断信号

loss spike

检查 learning rate、batch construction、precision、gradient norm 和数据异常。

NaN / Inf

检查 softmax、log(0)、除零、loss scaling、BF16/FP16 混用和未裁剪梯度。

吞吐低

分开看 compute-bound、memory-bound、data loader wait 和通信等待。

量化回归

检查 calibration 数据、outlier channel、activation scale 和真实硬件 kernel。

Transformer 与 LLM：把条件概率做成可扩展系统

Transformer 是实现 \(p_\theta(x_t|x_{

Scaled dot-product attention

\[ \operatorname{Attention}(Q,K,V)=\operatorname{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}+M_{\mathrm{causal}}\right)V. \]

缩放项 \(\sqrt{d_k}\) 控制 logits 方差；causal mask 保证位置 \(t\) 不能看未来 token。

LoRA 的低秩更新

\[ W'=W+\Delta W,\quad \Delta W=BA,\quad \operatorname{rank}(\Delta W)\le r. \]

LoRA 假设微调需要的参数变化主要落在低维子空间，因此用少量可训练参数近似完整更新。

KV cache 的推断边界

\[ \text{KV bytes}\approx 2\cdot L\cdot T\cdot H\cdot d_h\cdot \text{bytes}. \]

cache 避免重复算历史 token，但长上下文下会成为显存和带宽瓶颈。

读 Transformer 论文时先问什么

问题	对应数学	工程含义
表示如何进入模型？	embedding、projection、normalization。	tokenizer、vocab、position encoding、hidden size。
上下文如何交互？	dot product、softmax、mask、matrix multiplication。	attention kernel、context length、KV cache、GQA/MQA。
参数如何更新？	cross entropy、backprop、AdamW、regularization。	batch size、LR schedule、gradient clipping、LoRA/SFT。
推断如何取样？	categorical sampling、temperature、top-k/top-p。	latency、重复、事实性、diversity、safety filter。

AIGC 生成模型：同一个分布匹配问题，多种可计算接口

VAE、GAN、Diffusion 和 Flow Matching 都在逼近数据分布；差异来自它们能计算什么、监督什么、如何采样。

VAE

用 encoder 近似后验 \(q_\phi(z|x)\)，用 decoder 建模 \(p_\theta(x|z)\)，通过 ELBO 训练。

\[\log p_\theta(x)\ge \mathbb{E}_{q_\phi(z|x)}\log p_\theta(x|z)-D_{KL}(q_\phi(z|x)\Vert p(z)).\]

GAN

判别器学习真假密度比，生成器利用判别器梯度移动样本分布。

\[\min_G\max_D \mathbb{E}_{p_{\mathrm{data}}}\log D(x)+\mathbb{E}_{z}\log(1-D(G(z))).\]

Diffusion

固定 forward noising，训练模型预测噪声或 score，采样时从噪声逐步反推数据。

\[x_t=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,\quad \mathcal{L}=\mathbb{E}\|\epsilon-\epsilon_\theta(x_t,t)\|^2.\]

Flow Matching

指定从 base distribution 到 data distribution 的 probability path，训练速度场。

\[\mathcal{L}_{FM}=\mathbb{E}_{t,x_t}\|v_\theta(x_t,t)-u_t(x_t)\|_2^2.\]

可视化实验：Diffusion steps 与 Flow path

用一维双峰 toy distribution 观察从噪声到数据的路径。这里展示的是机制示意，不是具体论文的训练结果。

steps / NFE14 guidance scale1.2

更多 NFE 通常降低离散化误差，但增加延迟；guidance 太强会牺牲多样性。

Diffusion 像反复去噪，Flow Matching 像沿速度场积分；两者都需要区分训练目标和采样过程。

RLHF、DPO 与偏好优化：把“更好”变成可训练信号

对齐不是在已有文本上继续做普通 MLE，而是用示范、偏好或 reward 移动条件分布，同时控制与 reference model 的 KL 距离。

从 Bradley-Terry 到 DPO

偏好数据通常给出同一 prompt 下的 winner \(y_w\) 和 loser \(y_l\)。Bradley-Terry 模型把 reward 差映射成偏好概率：

\[ P(y_w\succ y_l|x)=\sigma(r(x,y_w)-r(x,y_l)). \]

DPO 把 KL 正则奖励最大化的最优策略形式代入偏好似然，得到不显式训练 reward model 的目标：

\[ \mathcal{L}_{DPO} =-\log\sigma\left(\beta\left[ \log\frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)} \right]\right). \]

可视化实验：DPO margin 与 loss

调节 preference margin 和 \(\beta\)，观察 DPO loss 如何鼓励 winner 的 log-ratio 超过 loser。

\(\beta\)1.2 log-ratio margin0.7

margin 越大，winner 相对 reference 的优势越明显，loss 越低。

更大的 \(\beta\) 会放大 preference margin，也会让策略更快偏离 reference；实际训练要同时监控 reward 与 KL drift。

对齐方法的判断边界

SFT

模仿高质量示范，稳定但无法直接比较两个候选输出。

RLHF/PPO

显式训练 reward model，再用 KL 约束 policy optimization，复杂但表达力强。

DPO

把偏好概率直接转成 policy loss，训练链路短，但仍依赖偏好数据质量和 reference 选择。

GRPO / variants

利用组内相对优势或任务 reward，适合推理型任务时仍要防 reward hacking。

评测统计：不要只报告一个 benchmark 分数

模型结果是随机变量。没有置信区间、样本量、数据切分和失败模式分析，单一分数很难支撑研究判断。

均值与置信区间

对 \(n\) 个独立样本的平均指标 \(\bar{x}\)，常见近似置信区间是：

\[\bar{x}\pm 1.96\frac{s}{\sqrt{n}}.\]

当样本相关、分布偏斜或评测器有偏时，这个近似需要更谨慎。

评测要看分布

LLM 与 AIGC 评测常同时受 prompt 分布、sampling seed、judge bias、长度偏置和数据污染影响。

报告 sample size、temperature、seed、judge model 与 prompt source。
对比 win rate 时给 bootstrap interval 或 paired test。
把平均分拆成任务类型、难度、长度和失败模式。

从训练指标到产品指标

指标	它说明什么	它不说明什么
perplexity / NLL	真实 token 在模型分布下的平均概率。	事实性、偏好质量、工具调用可靠性。
FID / CLIPScore	图像分布或图文对齐的粗粒度代理。	细节正确性、文字渲染、编辑可控性。
win rate	相对偏好表现。	绝对质量、成本、延迟、失败模式覆盖。
latency / throughput	服务效率和成本。	输出质量、鲁棒性、长尾 prompt 风险。

每篇教程的写作模板

每个主题都以同一套结构展开，保证读者能从直觉走到公式和实践。

1. 这个主题解决什么问题？先给模型中的具体场景，例如 attention 需要衡量 token 相关性。

2. 为什么 AIGC/LLM 需要它？说明它连接到训练、推断、压缩、对齐或评测。

3. 通俗解释用最小直觉解释，不先堆符号。

4. 数学定义定义变量、shape、概率来源和期望采样源。

5. 关键公式推导写出每步使用的数学工具，例如链式法则或变量替换。

6. 在模型中的位置定位到 Transformer block、diffusion sampler、reward model 等。

7. 最小代码或伪代码让读者能把公式映射成实际计算。

8. 常见误区区分训练目标与采样过程、post-training 与 post-processing。

9. 练习题让读者检查推导、shape、边界条件和失败模式。

10. 延伸阅读指向教材、论文、官方代码或可复现实验。

查阅方式：按问题反查概念

这页的使用方式不是从第一章一路读到最后，而是在遇到论文公式、代码变量、训练故障或评测指标时，快速定位相关概念。

看到公式看不懂

先搜公式里的对象：例如 \(D_{KL}\)、ELBO、score、policy gradient。读“数学形式”确认变量和期望来源，再看“模型中的位置”。

代码 shape 对不上

先搜 Tensor、Shape、Matrix Multiplication、Attention、KV Cache。重点看每个概念对应的轴含义和常见误区。

训练不稳定

先搜 Gradient、AdamW、Learning Rate Schedule、Gradient Clipping、Mixed Precision、Conditioning、Normalization。

生成质量不对

先搜 Sampling、Temperature、Top-p、Diffusion、Guidance、Mode Collapse、Latent Space、Denoising Objective。

对齐指标漂移

先搜 Preference Data、Reward Model、KL-constrained RL、DPO、Reward Hacking、Win-rate。

评测是否可信

先搜 Benchmark、Confidence Interval、Bootstrap、P-value、Multiple Comparison、Calibration、OOD。

每个概念的阅读顺序

先看直觉解释：确认这个概念解决什么具体问题。
再看数学形式：找出变量、shape、采样源、目标函数或约束。
接到模型位置：判断它出现在训练、推断、采样、压缩、对齐还是评测中。
最后看误区：避免把训练 loss 当采样过程、把指标当真实质量、把 decoding 当 post-training。

延伸阅读

先用教材补基础，再用论文和官方实现校正直觉；不要只看二手总结。

数学与深度学习基础

Deep Learning, Goodfellow/Bengio/Courville：概率、优化、表示学习的基础框架。
Mathematics for Machine Learning：线性代数、微积分、概率与优化的机器学习入口。
CS231n / CS224n：从计算图、反向传播、attention 到 NLP 建模。

LLM 与 Transformer

Attention Is All You Need：Transformer 的基本结构。
GPT-style language modeling papers：next-token prediction、scaling 与预训练实践。
LoRA、Adapter、MoE 与 KV cache 相关论文：理解高效微调与推断系统。

生成模型

Auto-Encoding Variational Bayes：VAE 与 reparameterization。
Generative Adversarial Nets：GAN 的分布匹配博弈。
DDPM、Score-based SDE、Latent Diffusion、Flow Matching：现代视觉生成主线。

对齐与评测

RLHF / PPO、InstructGPT：reward model 与 KL-constrained optimization。
Direct Preference Optimization：从 preference pair 直接训练 policy。
现代 benchmark 与 human evaluation 论文：关注 paired comparison、置信区间和 judge bias。

先读这个：AIGC 的数学不是按课本顺序出现的