Searchable concept handbook
AIGC 与 LLM 数学概念手册
系统整理 AIGC 与 LLM 相关的数学与模型概念:每个概念先讲直觉,再给数学形式,接到模型中的具体位置,最后指出常见误区和诊断线索。
先读这个:AIGC 的数学不是按课本顺序出现的
真实模型不会先问你“是否学完线性代数”,它会直接把 token 变成 \(X\in\mathbb{R}^{B\times T\times d}\),把 attention 写成 \(\operatorname{softmax}(QK^\top/\sqrt{d_k})V\),再用 cross entropy、KL、score matching、policy gradient 或 DPO loss 更新参数。 因此,这里不把内容写成“学习计划”,而是把概念整理成可查阅手册:看到一个术语,可以马上知道它的直觉、数学形式、模型位置和常见误解。
概念索引:面向查阅与学习的系统手册
每张卡片都按同一结构组织:直觉解释、数学形式、模型中的位置、常见误区。可以用关键词检索,也可以按数学与模型模块筛选。
数学模块地图:每个工具对应一个模型位置
不要孤立记数学名词。先问:它在训练目标、采样过程、模型结构、数值稳定性还是评测中起作用?
| 数学模块 | 需要掌握到什么程度 | 在 AIGC/LLM 中的位置 | 诊断信号 |
|---|---|---|---|
| 线性代数 | shape、矩阵乘法、范数、投影、SVD、低秩近似。 | embedding、attention、LoRA、表示空间、KV cache。 | shape mismatch、rank bottleneck、embedding norm drift。 |
| 自动微分 | Jacobian、Hessian 直觉、VJP/JVP、链式法则。 | backprop、softmax gradient、optimizer、adapter 更新。 | gradient explosion、vanishing gradient、bad conditioning。 |
| 概率统计 | 条件概率、MLE、MAP、采样、Monte Carlo、置信区间。 | next-token modeling、diffusion noising、benchmark 估计。 | perplexity 与任务指标不一致、样本方差过大。 |
| 信息论 | entropy、cross entropy、KL、mutual information、bits/nats。 | 语言模型 loss、distillation、RLHF/DPO 的 KL 约束。 | KL drift、mode collapse、overconfident logits。 |
| 优化与数值 | SGD/AdamW、调度、正则、浮点误差、mixed precision、量化。 | 预训练、SFT、LoRA、serving、FlashAttention。 | loss spike、NaN、吞吐下降、低精度质量回归。 |
| 随机过程 / ODE / SDE | Markov chain、Gaussian transition、reverse SDE、ODE solver。 | DDPM、score-based diffusion、Flow Matching。 | NFE 太高、solver 不稳定、guidance 破坏多样性。 |
张量与自动微分:LLM 的计算语言
Transformer 中的核心计算并不神秘:大部分是张量投影、矩阵乘法、归一化、非线性和链式法则。
从 shape 开始读模型
给定 batch size \(B\)、序列长度 \(T\)、hidden size \(d\)、head 数 \(H\),单层 self-attention 的典型 shape 是:
自动微分关心的问题是:最终 loss 对每个权重矩阵的变化率是多少。反向传播就是在计算图上反复使用链式法则:
伪代码:从前向计算到反向传播
tokens = tokenizer(batch_text)
X = embedding(tokens) + position_encoding(tokens)
Q, K, V = project_qkv(X)
A = softmax((Q @ K.transpose(-1, -2)) / sqrt(d_head) + causal_mask)
Y = A @ V
logits = lm_head(transformer_block(Y))
loss = cross_entropy(logits[:, :-1], tokens[:, 1:])
loss.backward()
optimizer.step()
读代码时先标 shape,再标随机变量来源,最后看 loss 的期望是从哪个样本分布估计的。
可视化实验:Attention shape 与 KV 成本
改变 token 数、head 数和每头维度,观察 attention score 矩阵与 KV cache 的增长方式。
调节参数后显示 attention score 与 KV cache 估计。
attention score 对每个 head 都有 \(T\times T\) 项;decode 阶段 KV cache 的字节数随 \(T\cdot H\cdot d_h\) 线性增长。
概率与信息论:语言模型首先是条件分布
next-token prediction 是条件概率建模;cross entropy、KL 和 perplexity 是同一套训练目标的不同读法。
从最大似然到 cross entropy
给定真实 token 序列 \(x_1,\ldots,x_T\),自回归模型用链式法则定义联合概率:
训练时最大化真实下一个 token 的概率,等价于最小化平均 NLL:
若 \(p\) 是数据分布、\(q=p_\theta\) 是模型分布,则:
由于 \(H(p)\) 不含模型参数,最小化 cross entropy 等价于最小化 forward KL。
可视化实验:Temperature、熵与 Perplexity
temperature 改变 logits 的 sharpness;top-p 截断候选集后再归一化,会改变采样分布但不更新模型。
entropy 与 perplexity 会随采样分布变化。
低 temperature 让分布更尖,高 temperature 增加多样性;top-p 会保留累计概率达到阈值的最小候选集合。
常见误解
- perplexity 低不等于回答一定好。它衡量平均 next-token 概率,不直接衡量事实性、指令遵循或安全性。
- temperature 不是训练方法。它只改变推断时的采样分布,不改变模型参数。
- KL 方向不能随便换。forward KL 更惩罚漏掉真实模式;reverse KL 更惩罚模型采到真实低密度区域。
优化与数值计算:模型能不能训好、跑稳、跑快
大模型训练不是只要会求梯度。优化器、精度、归一化、矩阵乘法 IO 和硬件带宽都会改变可训练性。
AdamW 的视角
AdamW 用一阶矩估计方向、二阶矩估计尺度,并把 weight decay 从 gradient update 中解耦。
数值稳定性的视角
mixed precision、loss scaling、RMSNorm、gradient clipping、softmax max-shift 都是在避免 overflow、underflow 和 bad conditioning。
诊断信号
检查 learning rate、batch construction、precision、gradient norm 和数据异常。
检查 softmax、log(0)、除零、loss scaling、BF16/FP16 混用和未裁剪梯度。
分开看 compute-bound、memory-bound、data loader wait 和通信等待。
检查 calibration 数据、outlier channel、activation scale 和真实硬件 kernel。
Transformer 与 LLM:把条件概率做成可扩展系统
Transformer 是实现 \(p_\theta(x_t|x_{
Scaled dot-product attention
缩放项 \(\sqrt{d_k}\) 控制 logits 方差;causal mask 保证位置 \(t\) 不能看未来 token。
LoRA 的低秩更新
LoRA 假设微调需要的参数变化主要落在低维子空间,因此用少量可训练参数近似完整更新。
KV cache 的推断边界
cache 避免重复算历史 token,但长上下文下会成为显存和带宽瓶颈。
读 Transformer 论文时先问什么
| 问题 | 对应数学 | 工程含义 |
|---|---|---|
| 表示如何进入模型? | embedding、projection、normalization。 | tokenizer、vocab、position encoding、hidden size。 |
| 上下文如何交互? | dot product、softmax、mask、matrix multiplication。 | attention kernel、context length、KV cache、GQA/MQA。 |
| 参数如何更新? | cross entropy、backprop、AdamW、regularization。 | batch size、LR schedule、gradient clipping、LoRA/SFT。 |
| 推断如何取样? | categorical sampling、temperature、top-k/top-p。 | latency、重复、事实性、diversity、safety filter。 |
AIGC 生成模型:同一个分布匹配问题,多种可计算接口
VAE、GAN、Diffusion 和 Flow Matching 都在逼近数据分布;差异来自它们能计算什么、监督什么、如何采样。
VAE
用 encoder 近似后验 \(q_\phi(z|x)\),用 decoder 建模 \(p_\theta(x|z)\),通过 ELBO 训练。
GAN
判别器学习真假密度比,生成器利用判别器梯度移动样本分布。
Diffusion
固定 forward noising,训练模型预测噪声或 score,采样时从噪声逐步反推数据。
Flow Matching
指定从 base distribution 到 data distribution 的 probability path,训练速度场。
可视化实验:Diffusion steps 与 Flow path
用一维双峰 toy distribution 观察从噪声到数据的路径。这里展示的是机制示意,不是具体论文的训练结果。
更多 NFE 通常降低离散化误差,但增加延迟;guidance 太强会牺牲多样性。
Diffusion 像反复去噪,Flow Matching 像沿速度场积分;两者都需要区分训练目标和采样过程。
RLHF、DPO 与偏好优化:把“更好”变成可训练信号
对齐不是在已有文本上继续做普通 MLE,而是用示范、偏好或 reward 移动条件分布,同时控制与 reference model 的 KL 距离。
从 Bradley-Terry 到 DPO
偏好数据通常给出同一 prompt 下的 winner \(y_w\) 和 loser \(y_l\)。Bradley-Terry 模型把 reward 差映射成偏好概率:
DPO 把 KL 正则奖励最大化的最优策略形式代入偏好似然,得到不显式训练 reward model 的目标:
可视化实验:DPO margin 与 loss
调节 preference margin 和 \(\beta\),观察 DPO loss 如何鼓励 winner 的 log-ratio 超过 loser。
margin 越大,winner 相对 reference 的优势越明显,loss 越低。
更大的 \(\beta\) 会放大 preference margin,也会让策略更快偏离 reference;实际训练要同时监控 reward 与 KL drift。
对齐方法的判断边界
模仿高质量示范,稳定但无法直接比较两个候选输出。
显式训练 reward model,再用 KL 约束 policy optimization,复杂但表达力强。
把偏好概率直接转成 policy loss,训练链路短,但仍依赖偏好数据质量和 reference 选择。
利用组内相对优势或任务 reward,适合推理型任务时仍要防 reward hacking。
评测统计:不要只报告一个 benchmark 分数
模型结果是随机变量。没有置信区间、样本量、数据切分和失败模式分析,单一分数很难支撑研究判断。
均值与置信区间
对 \(n\) 个独立样本的平均指标 \(\bar{x}\),常见近似置信区间是:
当样本相关、分布偏斜或评测器有偏时,这个近似需要更谨慎。
评测要看分布
LLM 与 AIGC 评测常同时受 prompt 分布、sampling seed、judge bias、长度偏置和数据污染影响。
- 报告 sample size、temperature、seed、judge model 与 prompt source。
- 对比 win rate 时给 bootstrap interval 或 paired test。
- 把平均分拆成任务类型、难度、长度和失败模式。
从训练指标到产品指标
| 指标 | 它说明什么 | 它不说明什么 |
|---|---|---|
| perplexity / NLL | 真实 token 在模型分布下的平均概率。 | 事实性、偏好质量、工具调用可靠性。 |
| FID / CLIPScore | 图像分布或图文对齐的粗粒度代理。 | 细节正确性、文字渲染、编辑可控性。 |
| win rate | 相对偏好表现。 | 绝对质量、成本、延迟、失败模式覆盖。 |
| latency / throughput | 服务效率和成本。 | 输出质量、鲁棒性、长尾 prompt 风险。 |
每篇教程的写作模板
每个主题都以同一套结构展开,保证读者能从直觉走到公式和实践。
查阅方式:按问题反查概念
这页的使用方式不是从第一章一路读到最后,而是在遇到论文公式、代码变量、训练故障或评测指标时,快速定位相关概念。
先搜公式里的对象:例如 \(D_{KL}\)、ELBO、score、policy gradient。读“数学形式”确认变量和期望来源,再看“模型中的位置”。
先搜 Tensor、Shape、Matrix Multiplication、Attention、KV Cache。重点看每个概念对应的轴含义和常见误区。
先搜 Gradient、AdamW、Learning Rate Schedule、Gradient Clipping、Mixed Precision、Conditioning、Normalization。
先搜 Sampling、Temperature、Top-p、Diffusion、Guidance、Mode Collapse、Latent Space、Denoising Objective。
先搜 Preference Data、Reward Model、KL-constrained RL、DPO、Reward Hacking、Win-rate。
先搜 Benchmark、Confidence Interval、Bootstrap、P-value、Multiple Comparison、Calibration、OOD。
每个概念的阅读顺序
- 先看直觉解释:确认这个概念解决什么具体问题。
- 再看数学形式:找出变量、shape、采样源、目标函数或约束。
- 接到模型位置:判断它出现在训练、推断、采样、压缩、对齐还是评测中。
- 最后看误区:避免把训练 loss 当采样过程、把指标当真实质量、把 decoding 当 post-training。
延伸阅读
先用教材补基础,再用论文和官方实现校正直觉;不要只看二手总结。
数学与深度学习基础
- Deep Learning, Goodfellow/Bengio/Courville:概率、优化、表示学习的基础框架。
- Mathematics for Machine Learning:线性代数、微积分、概率与优化的机器学习入口。
- CS231n / CS224n:从计算图、反向传播、attention 到 NLP 建模。
LLM 与 Transformer
- Attention Is All You Need:Transformer 的基本结构。
- GPT-style language modeling papers:next-token prediction、scaling 与预训练实践。
- LoRA、Adapter、MoE 与 KV cache 相关论文:理解高效微调与推断系统。
生成模型
- Auto-Encoding Variational Bayes:VAE 与 reparameterization。
- Generative Adversarial Nets:GAN 的分布匹配博弈。
- DDPM、Score-based SDE、Latent Diffusion、Flow Matching:现代视觉生成主线。
对齐与评测
- RLHF / PPO、InstructGPT:reward model 与 KL-constrained optimization。
- Direct Preference Optimization:从 preference pair 直接训练 policy。
- 现代 benchmark 与 human evaluation 论文:关注 paired comparison、置信区间和 judge bias。