Blogs

  1. Wan-Streamer 深读:端到端实时音视频全双工模型到底解决了什么

    Wan-Streamer 深读:端到端实时音视频全双工模型到底解决了什么

  2. 生图 / 生视频 RL 后训练:从 DPO、GRPO 到 Diffusion / Flow Alignment

    生图 / 生视频 RL 后训练:从 DPO、GRPO 到 Diffusion / Flow Alignment

  3. SeFi-Image 深读:Semantic-First Diffusion 如何把语义先行带进文生图基础模型

    SeFi-Image 深读:Semantic-First Diffusion 如何把语义先行带进文生图基础模型

  4. DreamX-World 1.0 深读:交互式世界模型不是视频生成,而是全栈系统工程

    DreamX-World 1.0 深读:交互式世界模型不是视频生成,而是全栈系统工程

  5. CVPR 2026 Report 深读:视觉研究正在从模型能力转向系统边界

    CVPR 2026 Report 深读:视觉研究正在从模型能力转向系统边界

  6. FLUX.2 表征比较:VAE latent 不是预处理,而是生成模型的接口

    FLUX.2 表征比较:VAE latent 不是预处理,而是生成模型的接口

  7. D4RT:把动态 4D 重建改写成时空点查询

    D4RT:把动态 4D 重建改写成时空点查询

  8. StyleTalk:从参考视频里抽取 speaking style 的 one-shot talking head

    StyleTalk:从参考视频里抽取 speaking style 的 one-shot talking head

  9. PC-Talk:用隐式关键点做可精细控制的 talking face

    PC-Talk:用隐式关键点做可精细控制的 talking face

  10. PiD:把 latent decoder 改成 Pixel Diffusion

    PiD:把 latent decoder 改成 Pixel Diffusion

  11. RAEv2:Representation Autoencoder 的三个关键改进

    RAEv2:Representation Autoencoder 的三个关键改进

  12. ELF:把扩散语言模型留在连续 embedding 空间里

    ELF:把扩散语言模型留在连续 embedding 空间里

  13. Dual Diffusion:用扩散模型同时做图像生成和视觉理解

    Dual Diffusion:用扩散模型同时做图像生成和视觉理解

  14. Seedance 2.0:视频生成从单次出片走向多模态创作引擎

    Seedance 2.0:视频生成从单次出片走向多模态创作引擎

  15. MeanFlow:一步生成不是蒸馏,而是学习平均速度场

    MeanFlow:一步生成不是蒸馏,而是学习平均速度场

  16. Mean Mode Screaming:为什么 1000 层 Diffusion Transformer 会被 token 均值拖垮

    Mean Mode Screaming:为什么 1000 层 Diffusion Transformer 会被 token 均值拖垮

  17. Flow-OPD:把多任务奖励对齐改写成 Flow Matching 的 on-policy 蒸馏

    Flow-OPD:把多任务奖励对齐改写成 Flow Matching 的 on-policy 蒸馏

  18. Edit2Restore:把图像复原改写成少样本图像编辑

    Edit2Restore:把图像复原改写成少样本图像编辑

  19. Code as Agent Harness:把代码看成 Agent 的运行底座

    Code as Agent Harness:把代码看成 Agent 的运行底座

  20. AsymFlow:把 latent flow 拉回 pixel space 的低秩速度参数化

    AsymFlow:把 latent flow 拉回 pixel space 的低秩速度参数化

  21. SHARP:单张照片在一秒内变成可实时渲染的 3D Gaussian 场

    SHARP:单张照片在一秒内变成可实时渲染的 3D Gaussian 场

  22. Follow the Mean:把参考样本变成 Flow Matching 的控制信号

    Follow the Mean:把参考样本变成 Flow Matching 的控制信号

  23. LPM 1.0:从 talking head 到实时对话角色 Performance Model

    LPM 1.0:从 talking head 到实时对话角色 Performance Model

  24. Self-Flow:把表征学习塞回 Flow Matching 训练目标里

    Self-Flow:把表征学习塞回 Flow Matching 训练目标里

  25. 为什么 RoPE 对外推友好

    RoPE 外推友好性完整解析

  26. Self-Forcing 到 Self-Forcing++:让自回归视频扩散按推理方式训练

    Self-Forcing 到 Self-Forcing++:让自回归视频扩散按推理方式训练

  27. noao-vlm-2 数据集与评估系统分析

    数据集与评估系统分析

  28. noao-vlm-1 架构详细分析

    nanoVLM 模型架构与数据流转分析

  29. noao-vlm-0 train.py 详细分析

    train.py 详细分析

  30. noao-chat-7-nonochat 多卡训练指南

    LLM 多卡训练完全指南

  31. noao-chat-6-训练评估指南

    LLM 模型评估验证完全指南

  32. noao-chat-5-训练四阶段数据报告

    nanochat 项目四阶段训练数据完全报告

  33. noao-chat-4-rl阶段训练

    LLM RL 训练完整解析

  34. noao-chat-3-sft阶段训练

    LLM SFT 训练完整解析

  35. noao-chat-2-mid阶段训练

    nonochat - LLM Mid 训练完整解析

  36. noao-chat-1-base阶段训练

    nonochat - LLM Base 训练完整解析

  37. noao-chat-0-项目总体介绍

    nanochat 项目深度分析

  38. Efficient Rectified Flow for Image Fusion

    [Paper Reading] Efficient Rectified Flow for Image Fusion(RFfusion)论文解读

  39. 3Blue1Brown 线性代数笔记

    3Blue1Brown 线性代数笔记(几何直觉)

  40. 线性代数的常见概念集合

    一、向量与向量空间相关(定义 + 几何直觉)

  41. DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution

    [Paper Reading] 基于 Diffusion Transformer 的真实世界超分辨率方法 DiT4SR

  42. Dual Prompting Image Restoration with Diffusion Transformers

    [Paper Reading] 基于扩散 Transformer 的双重提示图像复原 (DPIR)

  43. FLOAT:在 motion latent 里用 Flow Matching 生成可控 talking portrait

    FLOAT:在 motion latent 里用 Flow Matching 生成可控 talking portrait

  44. Stable Video-Driven Portraits

    [Paper Reading]:Stable Video-Driven Portraits — 基于 DiT 的高保真视频驱动人像生成

  45. moco 论文摘要

    MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

  46. 小于1000的正整数立方和pair

    找出所有满足 \(a^3+b^3=c^3+d^3\)的小于1000的正整数组合

  47. 什么是deep learning

    前言