顶刊TIP 2026!LTOFusion:为多模态图像融合展现新视角!
来源:重庆大学循影智知
论文题目:LTOFusion: A Learning-To-Optimize Framework with Flow Matching for Unsupervised Image Fusion
发表期刊:IEEE Transactions on Image Processing
研究单位:重庆邮电大学、重庆师范大学、广安理工学院
作者信息:贺丹,杨利建(共同一作),王国芬,黄渝萍,舒禹程*,李伟生*
代码地址:https://github.com/HeDan11/LTOFusion
论文DOI:10.1109/TIP.2026.3671658
一
论文概述
面向多模态图像理解和下游视觉应用需求,图像融合旨在综合不同模态图像中的互补信息,生成兼具结构、纹理和显著目标表达的融合结果。现有深度学习方法通常利用深度神经网络直接构建高维图像到图像的映射关系,无监督优化空间复杂,领域偏差容易隐式压缩模型的有效解空间,难以实现局部细节与显著结构的协同表征。针对上述问题,本文突破传统直接映射范式,提出一种 Learning-To-Optimize(LTO)的融合框架,将复杂融合映射重新表述为多阶段状态转换过程,引导网络学习由初始融合状态逐步逼近目标融合状态的优化轨迹,显著降低网络学习难度。具体贡献如下:
提出一种学习-优化融合范式。通过引导网络学习如何优化三元组融合状态,实现渐进式演化与显示建模的融合轨迹。设计像素变化流(PVF)作为潜在图像算子,通过限制决策空间并构建连续转换函数,实现平滑连贯的融合轨迹。引入带回放记忆的训练策略,缓存中间融合状态并将其复用为额外训练样本,增强模型鲁棒性,同时避免递归形式网络的梯度爆炸、消失问题。实验结果表明,所提方法在医学数据上训练后无需微调即可泛化至其他任务,在边缘保真度与结构完整性等关键指标上显著提升,并能促进多模态语义分割下游任务。
综上,本文将融合范式从“直接映射生成”转向“可学习的逐步优化”,为无监督图像融合提供了新的研究视角。
二
关键理论
1. 可学习优化融合范式
从元学习的角度来看,“学习如何学习”比“学习如何映射”更有效,特别是对于像素级高维回归问题。因此,更理想的一种图像融合训练范式是引导模型学习如何从当前状态产生更好的结果,这在形式上类似于传统优化问题。
基于三元组的 LTO。 受此启发,本文将融合问题分解为多个阶段,强制模型学习局部优化,从而逐步优化和细化当前融合结果。为了减少模型预测空间的规模,进一步引入潜在变量来描述在时间对融合图像执行的操作,从而推导出可控链模型:
其中, 为源图像对和中间融合结果, 表示融合轨迹。
流匹配启发的受限状态转移。 为了进一步降低状态更新的学习难度,本文设计流匹配启发的受限状态转移函数,模型预测一个从当前融合状态指向目标更新方向的图像流场,可视为像素变化流(Pixel Varying Flow, PVF)。
设时刻的融合状态为 ,PVF 作为优化当前融合状态的动作记为 。时间步长可作为超参数并入网络。整个融合轨迹可通过以下状态转移构建:
其中,神经网络通过可学习参数估计当前状态约束下的 。
概念验证。 在二维图像域设计两个合成融合实验,“目标融合流形”由明确已知的融合图像实例化,随后应用不同退化算子合成两个互补的伪模态。所有方法仅在融合映射组织方式上存在差异:单步直接回归、扩散式迭代演化,或基于 LTO 的动态优化。该设置可隔离融合范式本身的影响,直接比较其有效映射能力和轨迹行为。
图1基于已知目标流形的人工合成图像融合
概念验证
如图1所示,两个模拟实验表明,直接映射基线难以还原峰值的正确数量与形态,扩散式模型收敛缓慢且残留大量伪影。而 LTOFusion 沿迭代轴展现出清晰的粗到细演化过程,早期状态捕捉主要峰值的近似位置,后期状态则逐步锐化局部模式并与目标图像紧密对齐。
2. 实施细节
根据上述状态转移,通过递归方式逐步优化融合结果,形成动态融合过程。给定整个融合轨迹的长度为 ,其数学表达式为:
工作流程如图2所示。为避免多层递归网络训练中的梯度不稳定性,将每次迭代的中间融合结果缓存至内存池,并随机采样新训练批次。该策略可视为稳定长时域状态转换的记忆重放机制。此外,采用类 U-Net 架构估算每步所需调整的像素流,在递归框架中实现上述图像到流的映射。
图2LTOFusion 的整体框架
三
局限性分析与未来展望
1. 局限性讨论
终止策略初步探索。 文中简单讨论了一种基于阈值的自适应终止策略,为不同难度的图像对动态选择迭代步数,避免了固定步长对简单样本的冗余计算。然而,在无监督融合中,单一指标难以全面刻画感知或任务层面的收敛性,而且图像对的融合难度量化本身也较为困难。未来的研究可以进一步探索多指标联合与任务自适应的终止准则,以构建更具理论依据和泛化能力的迭代优化停止机制。
训练策略的局限性。 所提训练策略的核心是构建一个“小步长、多迭代”的通用优化器。但是其本质上是步数无关的,面对复杂图像对时,难以实现初期较大增幅并快速达到性能增益收敛。如图3所示,在部分复杂图像对的前两步中,模型学习到的 PVF 偏“平均”,这也导致需要更多次迭代后性能增益才接近收敛。这表明在有限步长内,模型获得的部分融合结果仍是次优的。因此,未来的工作可以探索将时间步显式嵌入网络,以在有限步数内实现更快收敛。
图3不同图像对的每步增益
2. 未来展望
所提出的 LTOFusion 框架为图像融合提供了一种新的视角,但仍存在较大优化空间。未来工作将集中在三个方面:
设计步数相关的网络架构和训练策略,以缓解当前“步数无关”策略的次优性问题,并在有限步数内实现更快收敛。进一步量化分布差异,并探索“多指标联合”的自适应终止准则,以克服定义复杂任务时的单一性。将框架拓展到更具挑战性的场景,例如探索将迭代融合机制与几何形变建模相结合的统一框架,以解决模态间的空间错位问题。内容编辑:贺 丹排版审核:李飞燕
本文系学术转载,如有侵权,请联系CVer小助手删文
本文参与腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2026-07-01,如有侵权请联系[email protected] 删除-
07.03
三国群英传策定九州新手教程 三国群英传策定九州操作技巧
-
07.03
极限竞速地平线6公开挑战介绍-公开挑战玩法详解
-
07.03
《这城有良田》大唐密档前三章答案分享-活动玩法详解
-
07.03
三国群英传策定九州曹操评价 三国群英传策定九州曹操解析
-
07.03
《超能继承者2》 2026礼包领取指南-最新福利兑换码分享
-
07.03
三国群英传策定九州兵种推荐 三国群英传策定九州兵种哪个更强
-
-
下载
- 《神剑伏魔录》(神剑风云)游戏音乐合集
- 其他游戏|7.73 MB
- 一款非常好玩的武侠闯关游戏
-
-
下载
- 《行尸走肉第一章》免安装中文汉化硬盘版下载
- 单机|436 MB
- 一款以动作冒险为主题的游戏
-
-
下载
- 《街头霸王X铁拳》免安装中文汉化硬盘版下载
- 单机|111MB
- 一款非常好玩的格斗游戏
-
-
下载
- 《生化危机:浣熊市行动》免安装中文硬盘版下载
- 单机|6310 MB
- 一款以动作射击为主题的游戏
-
-
下载
- 《暗黑破坏神3》免安装繁体中文正式版下载
- 单机|7630 MB
- 一款以角色扮演为主题的游戏
-
-
下载
- 《马克思佩恩3》免安装硬盘版下载
- 单机|27033 MB
- 一款以第三人称射击为主题的游戏