Blogs

  1. GaussianEmoTalker 深读:用 3D Gaussian 做实时情绪说话头像

  2. Wan-Streamer 深读:端到端实时音视频全双工模型到底解决了什么

    Wan-Streamer 深读:端到端实时音视频全双工模型到底解决了什么

  3. 生图 / 生视频 RL 后训练:从 DPO、GRPO 到 Diffusion / Flow Alignment

    生图 / 生视频 RL 后训练:从 DPO、GRPO 到 Diffusion / Flow Alignment

  4. SeFi-Image 深读:Semantic-First Diffusion 如何把语义先行带进文生图基础模型

    SeFi-Image 深读:Semantic-First Diffusion 如何把语义先行带进文生图基础模型

  5. DreamX-World 1.0 深读:交互式世界模型不是视频生成,而是全栈系统工程

    DreamX-World 1.0 深读:交互式世界模型不是视频生成,而是全栈系统工程

  6. CVPR 2026 Report 深读:视觉研究正在从模型能力转向系统边界

    CVPR 2026 Report 深读:视觉研究正在从模型能力转向系统边界

  7. FLUX.2 表征比较:VAE latent 不是预处理,而是生成模型的接口

    FLUX.2 表征比较:VAE latent 不是预处理,而是生成模型的接口

  8. D4RT:把动态 4D 重建改写成时空点查询

    D4RT:把动态 4D 重建改写成时空点查询

  9. StyleTalk:从参考视频里抽取 speaking style 的 one-shot talking head

    StyleTalk:从参考视频里抽取 speaking style 的 one-shot talking head

  10. PC-Talk:用隐式关键点做可精细控制的 talking face

    PC-Talk:用隐式关键点做可精细控制的 talking face

  11. PiD:把 latent decoder 改成 Pixel Diffusion

    PiD:把 latent decoder 改成 Pixel Diffusion

  12. RAEv2:Representation Autoencoder 的三个关键改进

    RAEv2:Representation Autoencoder 的三个关键改进

  13. ELF:把扩散语言模型留在连续 embedding 空间里

    ELF:把扩散语言模型留在连续 embedding 空间里

  14. Dual Diffusion:用扩散模型同时做图像生成和视觉理解

    Dual Diffusion:用扩散模型同时做图像生成和视觉理解

  15. Seedance 2.0:视频生成从单次出片走向多模态创作引擎

    Seedance 2.0:视频生成从单次出片走向多模态创作引擎

  16. MeanFlow:一步生成不是蒸馏,而是学习平均速度场

    MeanFlow:一步生成不是蒸馏,而是学习平均速度场

  17. Mean Mode Screaming:为什么 1000 层 Diffusion Transformer 会被 token 均值拖垮

    Mean Mode Screaming:为什么 1000 层 Diffusion Transformer 会被 token 均值拖垮

  18. Flow-OPD:把多任务奖励对齐改写成 Flow Matching 的 on-policy 蒸馏

    Flow-OPD:把多任务奖励对齐改写成 Flow Matching 的 on-policy 蒸馏

  19. Edit2Restore:把图像复原改写成少样本图像编辑

    Edit2Restore:把图像复原改写成少样本图像编辑

  20. Code as Agent Harness:把代码看成 Agent 的运行底座

    Code as Agent Harness:把代码看成 Agent 的运行底座

  21. AsymFlow:把 latent flow 拉回 pixel space 的低秩速度参数化

    AsymFlow:把 latent flow 拉回 pixel space 的低秩速度参数化

  22. SHARP:单张照片在一秒内变成可实时渲染的 3D Gaussian 场

    SHARP:单张照片在一秒内变成可实时渲染的 3D Gaussian 场

  23. Follow the Mean:把参考样本变成 Flow Matching 的控制信号

    Follow the Mean:把参考样本变成 Flow Matching 的控制信号

  24. LPM 1.0:从 talking head 到实时对话角色 Performance Model

    LPM 1.0:从 talking head 到实时对话角色 Performance Model

  25. Self-Flow:把表征学习塞回 Flow Matching 训练目标里

    Self-Flow:把表征学习塞回 Flow Matching 训练目标里

  26. 为什么 RoPE 对外推友好

    RoPE 外推友好性完整解析

  27. Self-Forcing 到 Self-Forcing++:让自回归视频扩散按推理方式训练

    Self-Forcing 到 Self-Forcing++:让自回归视频扩散按推理方式训练

  28. noao-vlm-2 数据集与评估系统分析

    数据集与评估系统分析

  29. noao-vlm-1 架构详细分析

    nanoVLM 模型架构与数据流转分析

  30. noao-vlm-0 train.py 详细分析

    train.py 详细分析

  31. noao-chat-7-nonochat 多卡训练指南

    LLM 多卡训练完全指南

  32. noao-chat-6-训练评估指南

    LLM 模型评估验证完全指南

  33. noao-chat-5-训练四阶段数据报告

    nanochat 项目四阶段训练数据完全报告

  34. noao-chat-4-rl阶段训练

    LLM RL 训练完整解析

  35. noao-chat-3-sft阶段训练

    LLM SFT 训练完整解析

  36. noao-chat-2-mid阶段训练

    nonochat - LLM Mid 训练完整解析

  37. noao-chat-1-base阶段训练

    nonochat - LLM Base 训练完整解析

  38. noao-chat-0-项目总体介绍

    nanochat 项目深度分析

  39. Efficient Rectified Flow for Image Fusion

    [Paper Reading] Efficient Rectified Flow for Image Fusion(RFfusion)论文解读

  40. 3Blue1Brown 线性代数笔记

    3Blue1Brown 线性代数笔记(几何直觉)

  41. 线性代数的常见概念集合

    一、向量与向量空间相关(定义 + 几何直觉)

  42. DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution

    [Paper Reading] 基于 Diffusion Transformer 的真实世界超分辨率方法 DiT4SR

  43. Dual Prompting Image Restoration with Diffusion Transformers

    [Paper Reading] 基于扩散 Transformer 的双重提示图像复原 (DPIR)

  44. FLOAT 深读:为什么 talking portrait 应该先生成 motion latent

    FLOAT 论文精读:把 audio-driven talking portrait 的生成目标从 pixel video 换到 motion latent trajectory,再用 Flow Matching 快速采样。

  45. Stable Video-Driven Portraits

    [Paper Reading]:Stable Video-Driven Portraits — 基于 DiT 的高保真视频驱动人像生成

  46. moco 论文摘要

    MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

  47. 小于1000的正整数立方和pair

    找出所有满足 \(a^3+b^3=c^3+d^3\)的小于1000的正整数组合

  48. 什么是deep learning

    前言