Efficient Rectified Flow for Image Fusion

3 分钟阅读时长

发布时间:

[Paper Reading] Efficient Rectified Flow for Image Fusion(RFfusion)论文解读

文章整体框架图如下:

1. 论文要解决什么问题(Problem)与出发点(Motivation)

图像融合(Image Fusion)典型场景包括红外-可见光(IR-VIS)融合、多曝光融合(MEF)、多焦点融合(MFF)。该任务的核心矛盾在于:融合结果并不存在唯一“正确答案”,因此数据集通常只提供输入对(例如 \(I_{ir}\) 与 \(I_{vis}\)),而不提供严格意义上的融合 GT \(I_{f}^{gt}\)。传统方法多依赖手工先验(如 TV、梯度/显著性约束)或轻量网络监督,而近年扩散模型能提供更强的生成先验,但推理成本高、采样步数多,难以部署。

本文的出发点是:能否利用一个强大的“通用生成先验”,在推理阶段通过一个明确的融合先验(fusion prior)进行校正,从而做到极少步(甚至一步)采样的高质量融合?

作者给出的答案是:用 Rectified Flow(RF)作为通用生成先验框架,并引入可插拔融合先验,使融合在推理阶段发生。


2. 核心贡献点(Contributions)

从论文表述与代码实现综合来看,本文的贡献可以分成“论文层面”和“实现层面”两条主线:

1) 论文层面:将 Rectified Flow 引入融合任务,并主张“无需额外训练即可一步采样融合”。
直觉是:RF 的路径更“直”(线性插值式),使得少步 Euler 近似更有效。

2) 系统层面:将融合任务拆成三部分协作:

  • 预训练 RF 生成模型:提供自然图像分布先验(不在融合数据上训练)。
  • 可插拔融合先验:在推理中强制输出满足 IR-VIS 一致性。
  • VAE(尤其 decoder):负责把被校正后的表示解码成视觉可用的融合结果。

3) 代码层面(非常关键):融合先验并非以 \(\nabla \log p(I_{ir}, I_{vis} \mid x)\) 的显式梯度形式注入速度场,而是以“对 \(x_0\) 的一次显式优化修正(EM/TV 先验)”注入采样链路。这使其更接近“\(x_0\) 级 Plug-and-Play prior + posterior 更新”的实现范式。


3. 相关工作与局限性:本文优化点在哪里

1) 扩散融合方法(如 DDFM/CCF 系列)的局限:

  • 强质量但采样步数多,推理耗时大;
  • 少步采样会显著劣化融合质量;
  • 部署成本高。

2) 蒸馏/一致性类 one-step 的局限:

  • 往往需要额外训练或蒸馏;
  • 训练代价大且不够通用;
  • 对任务迁移不稳定。

3) 传统手工先验融合(TV、梯度、显著性)局限:

  • 结果可能不够“自然”、存在伪影;
  • 对复杂场景鲁棒性不足;
  • 难以获得高层语义一致性。

本文的优化点在于:

  • 使用 RF 作为通用生成先验,保证输出接近自然图像流形;
  • 用可解释的融合先验对结果进行约束,保证融合一致性;
  • 通过 VAE 将推理成本压到 latent / 图像空间可控范围,并稳定融合输出。

4. 方法整体结构(Overall Framework):论文图与代码的统一解释

整体 pipeline 可以理解为:

  • RF 模型(预训练、冻结)提供一个“接近自然图像”的预测结果;
  • 融合先验模块对预测结果进行一次校正,使其同时符合 \(I_{ir}\) 与 \(I_{vis}\);
  • VAE decoder 输出最终融合图。

其中最关键的是:融合先验并不需要融合 GT,而是通过与输入对的一致性(以及结构先验)来约束。


5. Rectified Flow:论文中的核心原理

Rectified Flow 将从 \(x_0\) 到噪声 \(\epsilon\) 的路径“直线化”,常见形式是:

  • 前向:\(x_t=(1-t)x_0 + t\epsilon\)
  • 网络学习一个速度场 \(v_\theta(x_t,t)\),用于从噪声端向数据端回推(ODE 视角)。

论文叙述的关键点是:路径更直意味着数值积分可用更少步逼近,从而支撑“极少步(甚至一步)”采样。

但在具体仓库实现中,采样并非纯粹的“只用 ODE 速度场一步走完”,而是叠加了融合先验对 \(x_0\) 预测的显式修正(见第 7 节)。


6. “没有训练”的 RF 模型从哪来:配置文件反推

仓库配置清楚表明 RF 模型并非在融合数据上训练:

  • model.name = ncsnpp:这是经典 score-based 生成模型 backbone;
  • training.sde = rectified_flow:表示其训练目标为 RF;
  • sigma_max、sigma_min、num_scales 等参数更符合通用自然图像生成设定;
  • model.path 指向 checkpoint_12.pth:推理阶段直接加载预训练权重并冻结。

因此,RF 在本文系统中扮演的是“通用生成先验”,而不是“融合网络”。


7. 代码级关键:fusion prior / guidance 是如何加进来的

这是本文最容易被误解、但也最关键的工程事实:融合先验在仓库中通过一个显式优化算子注入采样链路,核心特征如下。

7.1 先验注入的位置:加在 \(x_0\) 预测上,而非速度场上

采样代码中,模型输出被直接当作 \(x_0\) 的预测值(或等价的“干净图像估计”),随后对其进行融合先验修正。也就是说,先验修改的是 \(\hat{x}_0\),而不是显式修改 \(v_\theta\) 或 score。

这种接口与 Plug-and-Play diffusion / posterior sampling 的经典套路一致:

  • 先验先修正 \(\hat{x}_0\);
  • 再由扩散解析关系反推 \(\epsilon\);
  • 再执行一次 posterior 更新得到新的 sample。

7.2 只在亮度通道做融合:\(Y\) 通道 prior

代码中将预测图转换到 YCbCr,仅对 \(Y\) 通道(亮度)施加融合先验:

  • IR-VIS 融合中,IR 主要提供强度/结构;
  • VIS 提供颜色信息(CbCr);
  • 因此在 \(Y\) 上做融合是合理且常见的工程选择。

7.3 EM_onestep:融合先验的本体(非学习、显式优化)

EM_onestep 的核心做法是把融合写成一个显式优化问题,包含:

  • 鲁棒数据项:通过像素级权重自适应地决定哪里更需要注入 IR 信息;
  • TV 结构先验:通过近端算子(prox)抑制噪声、保边缘;
  • FFT 求解:将差分/卷积转到频域实现快速闭式更新。

其中的关键重参数化是以可见光为基准做残差建模:

  • 当前预测残差:\(X=\hat{f}-V\)
  • IR 相对 VIS 的残差:\(Y=I-V\) 目标是更新 \(X\) 使其逼近 \(Y\),最终回到新的融合亮度图 \(F\)。

从直觉上,这一步做的是:

  • 让融合结果同时符合 IR 与 VIS 的一致性;
  • 用 TV 保持结构与边缘;
  • 用鲁棒权重抑制异常像素导致的过度注入。

因此这里的 “guidance” 更像是一个“可插拔的 MAP / EM 先验修正器”,而不是神经网络式的 learned guidance。


8. VAE:为什么需要、训练什么、训练过程如何(不写公式版本)

虽然论文在叙述上强调 RF 的一步采样,但从系统角度看,VAE 的角色非常关键:它让表示空间稳定、降低成本,并在输出层面决定“融合图长什么样”。

8.1 为什么需要 VAE

  • 降低高分辨率图像直接在生成模型上推理的成本;
  • 使采样/校正过程在更稳定的表示空间进行;
  • decoder 决定了最终输出的可视质量与一致性。

8.2 两阶段训练:Stage I 与 Stage II 的逻辑

Stage I:结构/频域感知预训练

  • 输入是单幅图像(IR 或 VIS 都可视为普通训练样本),目标是让 VAE 的编码-解码过程对结构与频率分布更敏感;
  • 强调“结构保真”的表示能力,而非融合。

Stage II:融合导向的 decoder 微调(proxy supervision)

  • 训练信号不来自融合 GT(数据集本身通常没有),而来自由 IR/VIS 构造的规则性约束(强度、梯度、结构相似、颜色保持、显著性权重等);
  • 训练目标是:当表示中包含来自不同模态的信息时,decoder 能以合理方式解码出融合结果;
  • 通常 encoder 冻结、decoder 可学习,以保持表示空间稳定、把融合“呈现能力”集中到解码端。

8.3 “有无 fusion GT”的严谨结论

  • 严格意义的融合 GT \(I_f^{gt}\):通常不存在;
  • Stage II 使用的是 proxy target / rule-based supervision,即从 \(I_{ir}\)、\(I_{vis}\) 自动构造监督信号;
  • 因此方法在监督范式上更接近“弱监督/自监督/规则监督”,而不是全监督。

9. 推理(Inference):一步采样为何能跑起来

推理阶段的关键点是“把通用生成先验与融合先验在一步内协同”:

1) RF backbone 给出一个接近自然图像流形的预测; 2) fusion prior 在 \(\hat{x}_0\) 层面对亮度进行一次 EM/TV 修正,使其解释 IR 与 VIS; 3) 通过 posterior update 得到最终 sample; 4) decoder 解码输出融合图。

当配置中 sample_N=1 时,意味着外层采样循环只跑一次(one-step)。此时系统性能高度依赖:

  • RF 预测的初值是否足够接近目标解;
  • EM_onestep 的修正是否足够强且不引入过度平滑;
  • VAE decoder 是否能稳定输出自然且满足融合规律的结果。

10. 实验与消融:如何理解其有效性(以机制解释为主)

从机制上,本文的优势通常来源于三类因素叠加:

1) 生成先验优势:RF backbone 降低了“融合结果不自然/伪影”的概率; 2) 先验约束优势:EM/TV 将融合任务中最关键的结构一致性硬编码到推理中; 3) 表示与解码优势:VAE 的训练(尤其 Stage II)让最终输出更符合融合评价准则(结构、梯度、显著性、颜色)。

消融实验若要“真正说服人”,核心应验证:

  • 去掉 EM prior 是否会显著退化融合一致性;
  • 仅用 EM prior 不用 RF 是否会显著损伤自然性;
  • 不做 Stage II 是否导致解码输出在融合准则上不稳定;
  • one-step 是否依赖 RF 初值质量而导致对不同数据域敏感。

11. 局限性(Limitations):论文与代码共同暴露的点

1) RF 不是融合专用
RF backbone 是通用生成模型,未针对融合任务训练,其融合能力并非 learned,而依赖后处理先验与解码器。

2) 融合先验是手工优化器
EM_onestep/TV 是可解释先验,但也意味着:

  • 超参数(如 \(\lambda\)、\(\rho\))敏感;
  • 可能产生过平滑;
  • 对不同场景(低照度、强噪声、运动模糊、跨域成像)需要重新调参。

3) “Rectified Flow guidance”与实现存在表述差距
论文更容易让读者以为先验以 \(\nabla \log p(\cdot)\) 形式加到速度场,而代码中是 \(\hat{x}_0\) 级 PnP 修正。两者思想相通,但实现范式不同,写作上容易引起理解偏差。


12. 对相关领域的建议与未来方向(Future Work)

1) 将融合先验 learnable 化
用可学习模块替代或增强 EM/TV 先验,使其从数据中学习“何处该信 IR / 何处该信 VIS”,并保持可控性与稳定性。

2) 更严格的 RF 条件化/任务适配
当前 RF 仅作为通用先验。一个自然方向是让 RF 具备对融合输入的条件能力,例如显式条件 \(I_{ir}\)、\(I_{vis}\),或在 latent 层做轻量适配(LoRA/adapter)以提升一步质量。

3) 从 \(x_0\) 级 PnP 到速度场级 guidance 的统一
当前实现走的是 \(\hat{x}_0\) 修正路径。未来可以探索将可微 prior 显式注入 \(v_\theta\)(或等价的 score/velocity),获得更一致的理论表达与可控的优化行为。

4) 面向真实工程的鲁棒性与可解释评估
融合缺乏唯一 GT,因此需要更可靠的无参考评价体系、与下游任务一致性(检测/分割/跟踪)指标结合,避免单纯追逐传统融合指标。


13. 全文总结(Takeaways)

Efficient Rectified Flow for Image Fusion 的核心价值并不只是“用 RF 一步采样”,更在于提出并实现了一种系统化融合范式:

  • 预训练通用生成模型作为自然性先验;
  • 可插拔融合先验在推理阶段施加一致性约束;
  • VAE(尤其 decoder)承接并稳定输出融合结果;
  • 在 one-step 配置下仍可获得可用融合质量。

从代码还原角度,本文更准确的技术定位是:

  • \(\hat{x}_0\) 级 Plug-and-Play prior(EM/TV) + posterior 更新,
  • RF backbone 提供强初始化/流形约束,
  • 共同实现高效融合推理。

这套范式对多模态复原/融合、PnP 生成式逆问题、以及“生成模型用于真实任务落地”都具有直接参考意义。