1. 引言
高光谱图像(HSI)在空间–光谱域中表现出显著的全局相关性,这一内在结构特征可由其低秩性来描述。低秩性意味着相关图像数据分布于低维子空间中,依据低秩性的不同表现形式,现有方法主要分为基于矩阵和基于张量的两大类别。基于矩阵的方法将受损图像在光谱模式下展开为矩阵形式,并通过矩阵因子分解[1] [2]或秩最小化[3] [4]技术来强化其低秩特性。然而,该展开过程往往会导致波段内空间结构的破坏,尤其在图像严重退化的情况下,这将影响恢复效果,使其难以达到最优。为解决这一问题,基于张量的方法采用低秩张量近似来表示原始清晰图像,从而更精确地描述HSI的空间–光谱相关性。然而,与矩阵情况不同,张量的低秩表示尚未得到明确解决,原因在于高阶张量的秩定义并不唯一。典型的张量秩包括Tucker秩[5] [6] (由展开矩阵的秩定义)和CANDECOMP/PARAFAC (CP)秩[7] [8] (定义为最小秩一张量分解的数量)。研究指出,解决低Tucker/CP秩问题能够有效地获得数据的紧凑且有意义的表示。同时,低Tucker/CP秩模型已被证明能提升现代深度学习算法的效率,并显示出其广泛的应用潜力。鉴于不同类型的张量秩编码了特定的相关数据结构,近期研究尝试整合不同低秩张量格式所提供的见解,例如加权低秩张量恢复(WLRTR) [9]、基于Kronecker基表示(KBR)的张量低秩性度量[10]以及基于自相似性和矩阵分解的NGmeet [11]。
高光谱图像(HSI)的另一个关键结构特性在于其在空间和光谱维度上所展现的局部规律性,这些规律性包括均匀性、平滑性、自相似性以及其他复杂特征。在这些特性中,平滑性是多维数据表示中频繁考虑的正则化形式,众多研究文献将平滑性与低秩表示的概念相结合[12] [13]。在这些混合模型中,Y.B. Zheng等人[14]提出了一种用于HSI混合噪声去除的双因素正则化LRTF模型,Y. S. Luo等人[15]提出一个非线性多层神经网络,通过以自监督的方式仅使用观察到的张量来学习非线性变换。此外,平滑正则化的形式主要分为显式和隐式两大类。显式平滑正则化主要基于总变差(TV)及其变体,如J. Peng等人[16]提出根据沿HSI所有波段的梯度图计算子空间的稀疏性的E3DTV。而隐式平滑正则化则由基函数参数化的非负矩阵因子分解来参数化模型。通过采用低Tucker秩正则化,这一概念在更高阶张量模型中得到了进一步的推广。最近,通过应用傅里叶级数,CP分解被优雅地扩展到多变量函数[17]。这些隐式平滑表示的主要目的是利用基函数(如N. Kargas等人[17]使用截断的多维傅里叶级数系数的张量来近似一个紧凑支持的多元函数)来表示低秩矩阵/张量,从而在矩阵/张量的相邻元素之间隐式地引入平滑性。近年来,深度学习技术在图像表征领域取得了显著进展。通过大量训练的受损–清晰图像对,深度学习旨在学习数据驱动的图像先验,直接将受损图像映射到其恢复版本。学习到的映射函数由具有特定架构的深度神经网络描述,例如H. C. Burger等人[18]使用多层感知器将有噪声的图像映射到无噪声的图像以及K. Zhang等人[19]使用一种快速灵活的去噪卷积神经网络(CNN)进行去噪。由于深度学习方法对复杂图像特征具有强大的非线性拟合能力,它们已被成功应用于HSI恢复,并展现出卓越的性能。
另一方面,嵌入于高光谱成像(HSI)技术中的噪声,同样展现出了多样化的统计特征,诸如多模态分布特性、波段间存在的显著差异以及波段间的相关性等。这些特征通常通过为数据噪声设定适当的先验分布来进行表征,该先验分布对应于受损图像与清晰图像对之间的特定保真度度量。作为两种常见的噪声先验模型,X. Liu等人[20]使用高斯分布(即L2保真度)适用于描述广泛范围内的均匀扰动情况;而拉普拉斯分布[2] (即L1保真度)则对于脉冲噪声(例如离群值、条纹以及截止线等)具有较强的鲁棒性。然而,鉴于这些单峰分布在表示能力上的局限性,它们难以充分捕捉现实世界中噪声的复杂多样性,因为实际噪声往往源自多个不同源头,并遵循多模态分布规律。通过结合高斯与拉普拉斯近似器[3] (即L1 + L2保真度),我们自然而然地克服了这一限制,该方法将噪声分解为密集成分与稀疏成分的总和。一种更为精细化的方法则是将噪声建模为高斯混合模型(MoG)分布[1] (即加权–L2保真度),因为从理论上讲,该模型能够逼近任何连续分布。或者,我们也可以利用对现实噪声的丰富先验知识进行建模。具体而言,那些能够代表全局相关性、局部规律性以及噪声特性的先验,在HSI恢复中展现出了巨大的应用潜力;然而,遗憾的是,大多数现有研究并未充分且全面地挖掘这些强大工具的潜力。从直观上看,由于这三种类型的先验分别从不同的角度描述了HSI的特征,因此,我们期望能够以一种统一的方式对它们加以利用,使它们能够相互协作,从而进一步提升HSI的恢复性能。
随着图像表征和噪声建模的进步,涌现出了许多复杂的HSI恢复方法。根据前面的讨论,尽管这些工作取得了有希望的结果,但更多或更少地忽略了关于遥感图像和现实噪声的丰富先验知识。更准确地说,代表全局相关性、局部规律性和噪声特性的先验在遥感图像恢复中显示出了很大的有效性;然而,大多数现有的工作并没有充分和全面地利用这些强大工具的潜力。
受到上述研究的启发,我们设计了一个基于最大后验(MAP)原则的概率模型,将所提出的图像内在结构和噪声先验融合到一个统一的框架中。这个框架将张量函数表示、深度学习和噪声建模进行有效的和实用的整合。具体来说,HSI的全局相关性是由张量函数的低秩张量函数分解来捕获;HSI的局部相关性由张量函数中MLP的特定结构进行隐式地编码表示;噪声特性由非独立同分布的高斯混合模型来建模。为了求解所提出的模型,我们将期望最大化(EM)和交替方向乘子法(ADMM)结合起来,将原始问题分解成几个简单的子问题,每个子问题都可以通过闭式公式来解决。结果表明,我们的方法可以有效地恢复潜在的清晰图像,并与其他模型的比较中显示出优越的性能。
2. 相关工作
2.1. 图像去噪模型
真实的HSI噪声通常在空间和光谱上的分布为非独立同分布,即在不同的空间位置和不同的波段上有所不同。一种有效的去噪方法是对不同的HSI像素施加权重,图像的去噪的数学模型可以表示为:
(1)
其中
分别表示观察到的有噪声和恢复的HSI,
表示研究的HSI的空间、宽度和光谱波段数。F表示Frobenius范数,而表示元素逐个的Hadamard乘积,R(X)是对恢复图像X的某种约束或惩罚项,常见的正则化函数包括:平滑性正则化、稀疏性正则化、图像结构保持。通过加权误差项,希望减少图像的恢复误差,同时考虑到噪声的分布,重点处理噪声较少的区域。通过正则化项R(X),我们希望恢复图像X保持某种平滑性、稀疏性或其他结构特性,避免过拟合噪声。
2.2. 高斯混合模型
高斯混合模型(Gaussian Mixture Model, GMM)是一种基于概率统计的聚类模型,用于表示具有多个高斯分布的复杂数据集。它是由若干个高斯分布的线性组合构成的。
给定数据集
,假设数据可以用K个高斯分布的加权和表示,那么GMM的概率密度函数为:
(2)
其中
表示第k个高斯分布的混合系数(权重),满足
且
;
表示第k个高斯分布的概率密度函数,其概率密度函数的表达式为:
(3)
通过最大化数据的似然函数
来估计参数
。似然函数
为:
。由于直接求解
的最大值很困难,通常采用EM算法进行迭代优化。
2.3. 低秩张量函数表示
基于多维数据的连续表示,考虑张量函数
,设
为有界实函数,其中
是三维中的定义域。也就是说如果
给出任意坐标,那么
就可以将三维坐标映射到相应的值,隐式地表示三阶张量数据。特别的,当
是一些常数的离散集时,
的输出形式就会变为离散情况,也就是张量形式。
基于张量函数
,首先定义以下的采样张量集,该集合涵盖了可以从张量函数中使用不同采样坐标进行采样的所有张量。
定义:对于一个张量函数
,我们将采样的张量集
定义为
(4)
其中
表示坐标向量变量,
是决定采样张量T大小的正整数变量。
张量函数是进行多维数据处理的一种有前途且有潜力的工具。考虑将
的函数秩(F-秩)定义为
中张量秩的上确界。因此,从
中采样的任何张量都是低秩张量。
定义:给定一个张量函数
,用
(
的函数秩)表示其复杂度的度量,并将其作为采样张量集
中Tucker秩的上值:
(5)
将
(对于
均有
)的张量函数
称为低秩张量函数,因为
中任何T的Tucker秩都被限制为
。当
定义在某些离散集上时,
退化为离散情况,即经典的Tucker秩。因此,
是从离散张量到张量函数的一种扩展,用于连续表示。
类似于经典的张量表示,可以给出张量分解策略来编码张量函数
的低秩性。
定理:设
是一个有界的张量函数,其中,那么:
(i) 如果,则存在一个核张量
和三个有界因子函数
,以及,使得对于任意,有
。
(ii) 另一方面,设
是任意张量,且
,以及
是定义在
上的任意有界函数。那么,对于由
定义的函数
,我们有
。
上式是Tucker因式分解从离散网格到连续域的扩展,它继承了Tucker分解的良好性质,即低阶张量函数
可以分解成一些更简单的因子函数。基于低秩张量函数分解,可以将多维数据使用低秩张量函数近似表示,即:
(6)
其中,将多维数据由核张量C和因子系数
、
和
参数化。该表示通过低秩函数分解隐式地编码了张量函数的低秩性质,即从张量函数表示中采样的任何张量必须是低秩张量。
3. 方法
3.1. 概率建模
3.1.1. 图像先验
考虑干净的HSI的先验,我们对X施加以下先验,同时描述HSI的全局相关性和局部相关性:
(7)
其中FTNN是低阶张量函数分解,
是正则化参数,c是一个归一化常数。
基于低秩张量函数分解,我们可以用低秩张量函数紧凑地表示多维数据,即:
(8)
3.1.2. 噪声先验
我们对
强加以下非独立同分布的MoG先验,假设不同波段的噪声遵循不同且相关的独立同分布的MoG分布,即:
(9)
其中,L是高斯分量的数量,
是第k个波段的混合比例,其中
且
,而
包含了高斯分量的标准差。为了更好地理解噪声先验,我们引入一个潜变量
,并将(4)重写为以下的两级形式:
(10)
其中每个
配备了一个指示器
满足
,服从由
控制的多项式分布,即
。这表明每个噪声元素
是从L个高斯分量中的一个抽取的,抽取的概率为第l个分量的
。
3.1.3. 最大后验概率
基于MAP原理,我们可以将HSI恢复表述为一个概率模型,通过将图像先验(1)和噪声先验(4)结合起来。我们的目标是最大化以下后验分布
:
(11)
将(6)取负对数,我们得到以下等价的最小化问题:
(12)
3.2. EM框架下的求解算法
对于直接最小化(7)在计算上是不可行的,我们采用EM算法来近似求解所提出的模型。根据EM框架,我们将解释以下E步和M步的细节:
E步:给定
,由第s步EM迭代得到。根据贝叶斯规则,后验分布
采用以下形式:
(13)
那么后验概率可以通过以下方式计算得到:
(14)
其中
是多元高斯分布的概率密度函数。
M步:从给定E步得到的
,我们通过最大化期望来更新
:
解决这个问题的一种自然方法是交替地最大化目标函数关于MOG参数和图像X的部分。具体而言,假设X固定为
,我们有以下
和
的封闭解:
(15)
(16)
那么,更新
相当于解决以下优化问题:
(17)
其中,
充当空间变化的正则化参数,包含噪声水平的逐元素估计,及
(18)
下面将详细介绍通过ADMM求解(11)的细节,ADMM是一种广泛用于解决具有可分离变量的优化问题的算法。
通过ADMM更新X:为了ADMM的使用,我们引入辅助变量
,并将(11)重写为以下约束形式:
(19)
通过将变量分解为X和P,我们的模型符合ADMM框架,那么(12)的增广Lagrange函数如下所示:
(20)
其中,
是Lagrange乘子,而
是线性约束的惩罚参数,记t为(内部)的迭代索引,则ADMM迭代如下进行:
(21)
其中,
是一个常数,控制
的增长速率。
X-子问题有以下闭式解:
(22)
其中,里面的乘法和除法都是逐元素应用的。
P子问题可以重写为以下低秩张量表示:
(23)
其中,
、
和
是三个MLP因子,
是核心张量,
表示恢复的结果,
是权衡参数。记
为
,
。即将
替换为
。我们考虑利用交替最小化算法来处理去噪模型。具体来说,我们在第t次迭代中去解决以下两个子问题:
(24)
在交替最小化的每次迭代中,对于这两个子问题我们首先使用Adam算法来解决
子问题。
算法1 解决提出的模型的EM算法 |
输入:观测到的HSI Y,索引集{Ωknown,Ωmissing},参数{r,ρ,smax,tmax,hmax,
(
)} 初始化:设定s := 0,初始化{
,
,
,
} |
EM循环:当s ≤ smax时执行以下步骤: 1.E步:通过(14)更新期望
2.M步对{
,
}:通过(15)和(16)更新MoG参数{
,
} 3.M步对X:通过ADMM更新
初始化:设定t := 0,初始化{
,
,
} ADMM循环:当t ≤ tmax时执行以下步骤: a.通过(21)更新
b.通过张量函数分解更新
初始化:设置h :=0,分别随机初始化权重矩阵
,
,
张量函数循环: h ≤ hmax i.通过公式(24)使用ADMM算法更新
ii.设置 h := h+1 结束时输出
d. 通过(25)更新{
,
} e.设定t := t + 1 结束循环并输出
4. 更新高斯分量的数量
5. 设定s := s + 1 |
结束循环并输出
|
4. 实验
在实验中,我们对所有引入的任务进行了比较实验和分析。首先介绍了一些重要的实验设置。然后,介绍了任务的基线、数据集和结果。
我们的方法是在PyTorch 1.7.0上实现的,使用了i9-13900HX CPU和RTX 4060 GPU (12 GB GPU内存)。评估指标方面,对于去噪我们使用峰值信噪比(PSNR)、结构相似性(SSIM)进行评估。在对比实验方面,我们选取与基于低秩矩阵/张量的方法LRMR、LRTDTV和E3DTV进行比较。测试数据包括CAVE数据集中的MSI。我们考虑了几种不同的噪声情况。Case 1包含标准差为0.2的高斯噪声。Case 2包含标准差为0.4的高斯噪声。Case 3包含标准差为0.2的高斯噪声加上40%的光谱波段的条纹噪声。Case 4 包含标准差为0.2的高斯噪声加上50%的光谱波段的截止噪声和加上40%的光谱波段的条纹噪声。Case 5包含标准差为0.2的高斯噪声加上50%的光谱波段的截止噪声和加上40%的光谱波段的条纹噪声加上0.3的散斑噪声。
表1和图1、图2展示了本文提出的MSI去噪方法的实验结果。根据表1的数据,在不同噪声条件下,本文方法表现出较高的稳定性,相较于其他去噪算法优势明显。特别是,与精心设计的基于TV的去噪方法(如LRTDTV和E3DTV)相比,我们的方法在各种噪声环境下均取得了更优的性能,这充分说明了我们结合全局与局部平滑正则化并考虑高斯混合模型策略的优越性。从图2可以直观地看到,本文方法能够有效去除复杂噪声,而其他方法在处理混合噪声时偶尔会出现残留现象。与之相比,其他去噪方法有时无法完全去除混合噪声。此外,图中还显示,其他基于模型的算法(如LRTDTV和E3DTV)可能导致过度平滑,损失图像细节。相比之下,本文方法不仅在去噪过程中更好地保留了图像的细节信息,还展现出更高的鲁棒性。换句话说,本文提出的模型方法通过隐式编码多种先验信息,对不同类型的噪声均能提供更一致的去噪性能。
Table 1. Comparison of denoising effects of different algorithms on CAVE datasets under different noise conditions
表1. 不同算法在不同噪声情况下对CAVE数据集去噪效果对比
情况 |
评价指标 |
LRMR |
LRTDTV |
E3DTV |
Ours |
1 |
PSNR |
22.7549 |
25.6296 |
32.8922 |
35.2593 |
SSIM |
0.2585 |
0.3752 |
0.9504 |
0.9546 |
2 |
PSNR |
16.0152 |
18.5976 |
28.5196 |
32.2397 |
SSIM |
0.0750 |
0.1124 |
0.8767 |
0.9102 |
3 |
PSNR |
22.4374 |
27.8890 |
31.9054 |
35.2340 |
SSIM |
0.2316 |
0.4863 |
0.9252 |
0.9526 |
4 |
PSNR |
22.1386 |
27.4867 |
31.7281 |
35.0576 |
SSIM |
0.2341 |
0.4717 |
0.9295 |
0.9526 |
5 |
PSNR |
21.9967 |
27.1666 |
30.5457 |
35.1417 |
SSIM |
0.2362 |
0.4757 |
0.9303 |
0.9531 |
Observed LRMR LRTDTV E3DTV Ours Original
Figure 1. Denoised images of the CAVE dataset under Case 1 using different denoising methods
图1. CAVE数据集在Case 1下的不同去噪方法下的去噪图像
Observed LRMR LRTDTV E3DTV Ours Original
Figure 2. Denoised images of the CAVE dataset under Case 5 using different denoising methods
图2. CAVE数据集在Case 5下的不同去噪方法下的去噪图像
5. 结论
本文提出了一种新颖的高光谱图像恢复方法,充分结合了图像的内在结构和噪声特性,构建了基于低秩张量函数的统一模型框架。通过利用张量函数分解捕获全局相关性、利用MLP结构隐式编码局部相关性,以及基于非独立同分布的高斯混合模型建模复杂噪声分布,该方法能够在复杂退化场景下有效恢复清晰图像。采用期望最大化(EM)和交替方向乘子法(ADMM)的优化策略进一步提升了模型的求解效率和性能。大量模拟和真实场景下的实验验证了所提方法的有效性,其在恢复质量和稳健性方面均优于现有先进方法,展现出广阔的实际应用前景。未来工作可以进一步探索更复杂噪声环境下的鲁棒性提升以及模型在大规模数据处理中的效率优化。