Blogs

Jul 05 2026
GaussianEmoTalker 深读：用 3D Gaussian 做实时情绪说话头像
Jul 05 2026
AvatarForcing 精读：一步流式 diffusion 如何稳住分钟级 talking avatar
Jun 25 2026
Wan-Streamer 深读：端到端实时音视频全双工模型到底解决了什么
Wan-Streamer 深读：端到端实时音视频全双工模型到底解决了什么
Jun 23 2026
生图 / 生视频 RL 后训练：从 DPO、GRPO 到 Diffusion / Flow Alignment
生图 / 生视频 RL 后训练：从 DPO、GRPO 到 Diffusion / Flow Alignment
Jun 23 2026
SeFi-Image 深读：Semantic-First Diffusion 如何把语义先行带进文生图基础模型
SeFi-Image 深读：Semantic-First Diffusion 如何把语义先行带进文生图基础模型
Jun 23 2026
DreamX-World 1.0 深读：交互式世界模型不是视频生成，而是全栈系统工程
DreamX-World 1.0 深读：交互式世界模型不是视频生成，而是全栈系统工程
Jun 23 2026
CVPR 2026 Report 深读：视觉研究正在从模型能力转向系统边界
CVPR 2026 Report 深读：视觉研究正在从模型能力转向系统边界
Jun 22 2026
FLUX.2 表征比较：VAE latent 不是预处理，而是生成模型的接口
FLUX.2 表征比较：VAE latent 不是预处理，而是生成模型的接口
Jun 21 2026
D4RT：把动态 4D 重建改写成时空点查询
D4RT：把动态 4D 重建改写成时空点查询
Jun 15 2026
StyleTalk：从参考视频里抽取 speaking style 的 one-shot talking head
StyleTalk：从参考视频里抽取 speaking style 的 one-shot talking head
Jun 15 2026
PC-Talk：用隐式关键点做可精细控制的 talking face
PC-Talk：用隐式关键点做可精细控制的 talking face
Jun 09 2026
PiD：把 latent decoder 改成 Pixel Diffusion
PiD：把 latent decoder 改成 Pixel Diffusion
May 28 2026
RAEv2：Representation Autoencoder 的三个关键改进
RAEv2：Representation Autoencoder 的三个关键改进
May 25 2026
ELF：把扩散语言模型留在连续 embedding 空间里
ELF：把扩散语言模型留在连续 embedding 空间里
May 25 2026
Dual Diffusion：用扩散模型同时做图像生成和视觉理解
Dual Diffusion：用扩散模型同时做图像生成和视觉理解
May 24 2026
Seedance 2.0：视频生成从单次出片走向多模态创作引擎
Seedance 2.0：视频生成从单次出片走向多模态创作引擎
May 24 2026
MeanFlow：一步生成不是蒸馏，而是学习平均速度场
MeanFlow：一步生成不是蒸馏，而是学习平均速度场
May 24 2026
Mean Mode Screaming：为什么 1000 层 Diffusion Transformer 会被 token 均值拖垮
Mean Mode Screaming：为什么 1000 层 Diffusion Transformer 会被 token 均值拖垮
May 24 2026
Flow-OPD：把多任务奖励对齐改写成 Flow Matching 的 on-policy 蒸馏
Flow-OPD：把多任务奖励对齐改写成 Flow Matching 的 on-policy 蒸馏
May 24 2026
Edit2Restore：把图像复原改写成少样本图像编辑
Edit2Restore：把图像复原改写成少样本图像编辑
May 24 2026
Code as Agent Harness：把代码看成 Agent 的运行底座
Code as Agent Harness：把代码看成 Agent 的运行底座
May 24 2026
AsymFlow：把 latent flow 拉回 pixel space 的低秩速度参数化
AsymFlow：把 latent flow 拉回 pixel space 的低秩速度参数化
May 23 2026
SHARP：单张照片在一秒内变成可实时渲染的 3D Gaussian 场
SHARP：单张照片在一秒内变成可实时渲染的 3D Gaussian 场
May 23 2026
Follow the Mean：把参考样本变成 Flow Matching 的控制信号
Follow the Mean：把参考样本变成 Flow Matching 的控制信号
Apr 13 2026
LPM 1.0：从 talking head 到实时对话角色 Performance Model
LPM 1.0：从 talking head 到实时对话角色 Performance Model
Mar 05 2026
Self-Flow：把表征学习塞回 Flow Matching 训练目标里
Self-Flow：把表征学习塞回 Flow Matching 训练目标里
Feb 03 2026
为什么 RoPE 对外推友好
RoPE 外推友好性完整解析
Jan 08 2026
Self-Forcing 到 Self-Forcing++：让自回归视频扩散按推理方式训练
Self-Forcing 到 Self-Forcing++：让自回归视频扩散按推理方式训练
Dec 25 2025
noao-vlm-2 数据集与评估系统分析
数据集与评估系统分析
Dec 25 2025
noao-vlm-1 架构详细分析
nanoVLM 模型架构与数据流转分析
Dec 25 2025
noao-vlm-0 train.py 详细分析
train.py 详细分析
Dec 25 2025
noao-chat-7-nonochat 多卡训练指南
LLM 多卡训练完全指南
Dec 25 2025
noao-chat-6-训练评估指南
LLM 模型评估验证完全指南
Dec 25 2025
noao-chat-5-训练四阶段数据报告
nanochat 项目四阶段训练数据完全报告
Dec 25 2025
noao-chat-4-rl阶段训练
LLM RL 训练完整解析
Dec 25 2025
noao-chat-3-sft阶段训练
LLM SFT 训练完整解析
Dec 25 2025
noao-chat-2-mid阶段训练
nonochat - LLM Mid 训练完整解析
Dec 25 2025
noao-chat-1-base阶段训练
nonochat - LLM Base 训练完整解析
Dec 25 2025
noao-chat-0-项目总体介绍
nanochat 项目深度分析
Dec 15 2025
Efficient Rectified Flow for Image Fusion
[Paper Reading] Efficient Rectified Flow for Image Fusion（RFfusion）论文解读
Dec 10 2025
3Blue1Brown 线性代数笔记
3Blue1Brown 线性代数笔记（几何直觉）
Dec 10 2025
线性代数的常见概念集合
一、向量与向量空间相关（定义 + 几何直觉）
Dec 08 2025
DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution
[Paper Reading] 基于 Diffusion Transformer 的真实世界超分辨率方法 DiT4SR
Dec 05 2025
Dual Prompting Image Restoration with Diffusion Transformers
[Paper Reading] 基于扩散 Transformer 的双重提示图像复原 (DPIR)
Dec 04 2025
FLOAT 深读：为什么 talking portrait 应该先生成 motion latent
FLOAT 论文精读：把 audio-driven talking portrait 的生成目标从 pixel video 换到 motion latent trajectory，再用 Flow Matching 快速采样。
Dec 03 2025
Stable Video-Driven Portraits
[Paper Reading]：Stable Video-Driven Portraits — 基于 DiT 的高保真视频驱动人像生成
Jul 26 2022
moco 论文摘要
MoCo: Momentum Contrast for Unsupervised Visual Representation Learning
May 28 2022
小于1000的正整数立方和pair
找出所有满足 \(a^3+b^3=c^3+d^3\)的小于1000的正整数组合
May 26 2021
什么是deep learning
前言