基于ALM的非精确加速算法

期刊菜单

基于ALM的非精确加速算法
Inexact Acceleration Algorithm Based on ALM

DOI: 10.12677/aam.2025.144137, PDF, HTML, XML,
作者: 黄芳：浙江师范大学数学科学学院，浙江金华
关键词: 增广拉格朗日乘子法；Nesterov加速；对偶理论；ALM； Nesterov Acceleration； Duality Theory

摘要: 增广拉格朗日乘子法为经典有效的解决线性等式约束凸优化问题的一阶优化方法，算法通过原变量与对偶变量的交替迭代更新收敛至最优点。然而，子问题中原变量的更新在实际应用中往往无法精确求解。本文基于增广拉格朗日乘子法、对偶优化以及Nesterov加速技巧，提出一种非精确求解的增广拉格朗日乘子法，利用KKT条件从对偶残差的角度分析并从理论上证明该算法的收敛速率可达到

O (1 / k^{2})

。

Abstract: The Augmented Lagrangian Method is a classical and effective first-order optimization technique for solving convex optimization problems with linear equality constraints. The algorithm converges to the optimal solution through alternating iterative updates between the primal and dual variables. However, in practical applications, the update of the primal variables in the subproblem is often not solved exactly. In this paper, based on the Augmented Lagrangian Method, dual optimization, and Nesterov’s acceleration technique, we propose an inexact solution version of the Augmented Lagrangian Method. By leveraging the Karush-Kuhn-Tucker (KKT) conditions, we analyze and prove that the convergence rate of the proposed algorithm can achieve a rate of

O (1 / k^{2})

文章引用：黄芳. 基于ALM的非精确加速算法[J]. 应用数学进展, 2025, 14(4): 33-43. https://doi.org/10.12677/aam.2025.144137

1. 引言

现实世界中大量问题可转化为优化问题，特别地，具有特殊结构的凸优化问题是现代优化和计算数学领域的基石之一。原因在于以下两点：其一，凸优化问题具有良好的性质，如：局部最优解必然是全局最优解，并且具有丰富的理论背景，如最优性条件、对偶理论、拉格朗日乘数法等，这些理论为问题的分析、算法的设计及其性质提供了深入的理解；其二，现代科学和工程上的大量问题本质为求解凸优化问题，如信号处理与图像处理[1]-[4]、网络优化、控制理论、经济学与金融、机器学习与数据科学[5] [6]。为此，对于凸优化问题的研究显得尤为重要，特别是模型的求解以及加速算法成为了科学研究的重点与难点。

对于无约束光滑凸优化问题

$\min_{x \in X} f (x),$

20世纪80年代，Nesterov在其开创性论文[7]中首次提出了仅使用一阶梯度信息且收敛速率可达到 $O (1 / k^{2})$ 的加速算法，其迭代格式如下：

${\begin{cases} x_{k} = y_{k} - s \nabla f (y_{k}), \\ t_{k + 1} = \frac{1 + \sqrt{1 + 4 t_{k}^{2}}}{2}, \\ y_{k + 1} = x_{k} + \frac{t_{k} - 1}{t_{k + 1}} (x_{k} - x_{k - 1}) . \end{cases}$

相较于基于当前位置的梯度来更新下一步位置的传统的梯度下降算法，Nesterov加速梯度方法的特殊之处在于，它先外推到一个预测位置，然后基于该预测位置的梯度信息进行调整，为此该加速技术也被称为Nesterov外推法。Nesterov加速算法提出时并没有受到太大的关注，原因在于当时的优化问题规模并不是很大，二阶优化方法可以非常有效地处理实际问题。随着越来越多领域优化问题规模的上升，Beck和Teboulle于2008年给出了Nesterov在1983年提出的针对两个函数的复合优化问题

$\min_{x \in ℝ^{n}} ψ (x) = f (x) + g (x),$

的加速算法版本——FISTA [8]，一阶加速梯度算法开始广泛应用。FISTA迭代格式如下：

${\begin{cases} x_{k} = {Prox}_{t_{k} g} (y_{k} - t_{k} \nabla f (y_{k})), \\ t_{k + 1} = \frac{1 + \sqrt{1 + 4 t_{k}^{2}}}{2}, \\ y_{k + 1} = x_{k} + \frac{t_{k} - 1}{t_{k + 1}} (x_{k} - x_{k - 1}), \end{cases}$

其中， $f (x), g (x)$ 为凸函数，且其中至少有一个是光滑的。FISTA核心思想为，第一步沿着前两步的计算方向计算一个新点，第二步在该新点处做一步近似点梯度迭代。此后，基于Nesterov加速技巧与FISTA思想受到了大量的关注与研究应用。

对于线性等式约束优化问题

$\begin{array}{l} \min_{x} f (x), \\ s .t . A x = b, \end{array}$

其中 $f (x)$ 为凸集 $X$ 上的凸函数， $A \in ℝ^{m \times n}, b \in ℝ^{m}$ ，经典而有效的求解方法为增广拉格朗日法(ALM, Augmented Lagrangian Method)，其迭代格式如下：

${\begin{cases} x^{k + 1} = \arg \min_{x} {L_{β} (x, λ^{k}), x \in X}, \\ λ^{k + 1} = λ^{k} - β (A x^{k + 1} - b), \end{cases}$

其中，增广拉格朗日函数

$L_{β} (x, λ) = f (x) - 〈 λ, A x - b 〉 + \frac{β}{2} {‖ A x - b ‖}^{2}, λ \in ℝ^{m} .$

ALM最初由Hestenes [9]和Powell [10]提出的(它最初被称为[9] [10]中的乘子法；见[11]-[13])。相较于二次罚函数法(Quadratic Penalty Method)，ALM通过引入对偶乘子，克服了原罚函数法中存在的病态问题。ALM不仅在理论上有完整的收敛保证，并且在实际应用中具有高效的性能，为此ALM成为科研与工程应用的基础且成熟的有效算法。关于ALM算法的研究有大量文献，这里仅列取部分，见[8] [9] [11]。

随着优化问题规模的上升，如何基于ALM设计加速算法受到了大量科研人员的关注。当 $f (x)$ 可微时，He [14]结合Nesterov加速技巧[7]，提出收敛速度为 $O (1 / k^{2})$ 的加速ALM，迭代格式如下：

${\begin{cases} x^{k + 1} = \arg \min_{x \in X} {f (x) - 〈 λ^{k}, A x - b 〉 + \frac{1}{2} {‖ A x - b ‖}_{H_{k}}^{2}}, \\ {\tilde{λ}}^{k} = λ^{k} - H_{k} (A x^{k + 1} - b), t_{k + 1} = \frac{1 + \sqrt{1 + 4 t_{k}^{2}}}{2}, \\ λ^{k + 1} = {\tilde{λ}}^{k} + \frac{t_{k} - 1}{t_{k + 1}} ({\tilde{λ}}^{k} - {\tilde{λ}}^{k - 1}) + \frac{t_{k}}{t_{k + 1}} ({\tilde{λ}}^{k} - λ^{k}), \end{cases}$

其中 $k \geq 0$ ，H是任意的非单调递增对称正定矩阵。在此基础上，[15]给出 $f (x)$ 仅为凸函数时，收敛速率为 $O (1 / k^{2})$ 的加速ALM。

在实际应用中，ALM中的子问题 $x^{k + 1}$ 精确求解往往较为复杂，为此，是否可以在子问题非精确求解情况下设计算法使其仍可达到 $O (1 / k^{2})$ 的收敛速率？本文基于ALM与Nesterov加速技巧提出一种非精确的加速ALM，并且从理论上给出收敛速率可达到 $O (1 / k^{2})$ 的证明。

2. 预备知识

为了方便算法的收敛性说明，本章对符号进行统一的说明并给出预备知识。

对任意常数 $p \in [0, \infty)$ 和向量 $x = {(x_{1}, x_{2}, \dots, x_{n})}^{T} \in ℝ^{n}$ ，向量x的 $l^{p}$ -范数定义为 ${‖ x ‖}_{p} : = {(\sum_{i = 1}^{n} | x_{i}^{p} |)}^{1 / p}$ 。本文所述 $‖ \cdot ‖$ 均表示 $l^{2}$ -范数。对任意向量 $x, y \in ℝ^{n}$ ，我们用 $x^{T} y : = \sum_{i = 1}^{n} x_{i} y_{i}$ 表示 $ℝ^{n}$ 空间中的标准内积。

定义2.1. 设函数f为适当函数，如果 $d o m f$ 是凸集，且

$f (θ x + (1 - θ) y) \leq θ f (x) + (1 - θ) f (y),$

对所有 $x, y \in d o m f, 0 \leq θ \leq 1$ 都成立，则称f是凸函数。

定义2.2. 凸函数 $f : ℝ^{n} \to ℝ$ ，其次微分为

$\partial f (x) = {s : f (y) - f (x) \geq s^{T} (y - x), \forall y \in ℝ^{n}} .$

定义2.3. 函数f的共轭函数 $f^{*} : ℝ^{n} \to ℝ$ 定义如下

$f^{*} (x) = \max_{p \in ℝ^{n}} {x^{T} p - f (p)} .$

性质1. 共轭函数 $f^{*}$ 的次微分性质

$y \in \partial f (x) \Leftrightarrow x \in \partial f^{*} (y) .$

定义2.4. 函数f是一个参数为 $σ_{f}$ 的强凸函数，当且仅当存在一个常数 $σ_{f} > 0$ ，使得函数

$f (x) - \frac{σ_{f}}{2} {‖ x ‖}^{2}$ 是凸函数，且对每一个x和y满足以下不等式：

$〈 p - q, x - y 〉 \geq σ_{f} {‖ x - y ‖}^{2}, p \in \partial f (x), q \in \partial f (y) .$

引理2.1 若f是凸性参数为 $σ_{f}$ 的强凸函数，则共轭函数 $f^{*}$ 可微且 $\nabla f^{*}$ 是利普希茨连续函数，其利普

西茨常数 $L (\nabla f^{*}) = \frac{1}{σ_{f}}$ ，即满足下列不等式：

$\nabla f^{*} (x) - \nabla f^{*} (y) \leq \frac{1}{σ_{f}} ‖ x - y ‖ .$

3. 非精确加速ALM

对于线性等式约束优化问题

$\begin{array}{l} \min_{x} f (x), \\ s .t . A x = b, \end{array}$ (1)

其中 $f (x)$ 为凸集 $X$ 上的凸函数， $A \in ℝ^{m \times n}, b \in ℝ^{m}$ 。本章具体展示以上优化问题的非精确加速ALM，在此之前，先给出以下假设：

假设1. 优化问题(1)中的函数 $f (x)$ 是 $σ_{f}$ -强凸函数。

基于以上假设，下面给出优化问题(1)的非精确加速ALM，具体迭代格式如下：给定初值 ${\hat{λ}}_{1} = λ_{0}$ ，并作如下更新，

$(I-AALM) {\begin{cases} x_{k} \approx \underset{x}{\arg \min} {f (x) - {({\hat{λ}}_{k})}^{T} (A x - b) + \frac{β}{2} {‖ A x - b ‖}^{2}}, \\ λ_{k} = {\hat{λ}}_{k} - β (A x_{k} - b), \\ {\hat{λ}}_{k + 1} = λ_{k} + (1 - θ_{k - 1}) \frac{θ_{k}}{θ_{k - 1}} (λ_{k} - λ_{k - 1}), \end{cases}$ (2)

其中 $θ_{k} = \frac{2}{k + 2}, k \geq 0$ 。

由算法I-AALM中子问题 $x_{k}$ 最优性条件可知

$0 \in \partial f (x_{k}) - A^{T} {\hat{λ}}_{k} + β A^{T} (A x_{k} - b),$

结合算法I-AALM中 $λ_{k}$ 的更新方式，可得

$A^{T} λ_{k} \in \partial f (x_{k}) .$

记误差向量 $δ_{k} = f^{'} (x_{k}) - A^{T} λ_{k}$ ，其中 $f^{'} (x_{k}) \in \partial f (x_{k})$ ，所以

${\begin{cases} δ_{k} = 0, x_{k} 是精确解, \\ δ_{k} \neq 0, x_{k} 是非精确解 . \end{cases}$

由 $δ_{k}$ 的记法和性质1可得

$A^{T} λ_{k} + δ_{k} \in \partial f (x_{k}) \Rightarrow x_{k} \in \nabla f^{*} (A^{T} λ_{k} + δ_{k}) \Rightarrow A x_{k} \in A \nabla f^{*} (A^{T} λ_{k} + δ_{k}) .$

记误差向量 $η_{k} = A \nabla f^{*} (A^{T} λ_{k}) - A \nabla f^{*} (A^{T} λ_{k} + δ_{k})$ 。若f是凸性参数为 $σ_{f}$ 的强凸函数，易知 $\nabla f^{*}$ 利普西茨连续，所以误差向量的上界易得

$‖ η_{k} ‖ = ‖ A \nabla f^{*} (A^{T} λ_{k}) - A \nabla f^{*} (A^{T} λ_{k} + δ_{k}) ‖ \leq \frac{1}{σ_{f}} \sqrt{ρ (A^{T} A)} ‖ δ_{k} ‖ .$

为此，子问题 $x_{k}$ 求解的停止条件为：

$δ_{k} = f^{'} (x_{k}) - A^{T} λ_{k}, ‖ δ_{k} ‖ \leq \frac{σ_{f} θ_{k - 1}}{\sqrt{ρ (A^{T} A)}} ϵ_{k},$ (3)

其中 $ϵ_{k} \geq 0$ 且满足 $\sum_{k = 1}^{\infty} ϵ_{k} < \infty, ϵ_{k + 1} \leq ϵ_{k}$ 。

4. 收敛性分析

本章给出非精确加速ALM的收敛分析并说明其收敛速率为 $O (1 / k^{2})$ 。问题(1)的对偶函数为

$\begin{matrix} D (λ) = \min_{x} {f (x) - λ^{T} (A x - b)} \\ = - \max_{x} {λ^{T} A x - f (x)} + λ^{T} b, \\ = - f^{*} (A^{T} λ) + λ^{T} b . \end{matrix}$

不难得到问题(1)的对偶问题

$\max_{λ} D (λ) = \max_{λ} {- f^{*} (A^{T} λ) + λ^{T} b} .$ (4)

因此，对原问题(1)的研究可转换为对对偶问题(4)的研究，本章以下内容将围绕问题(4)及假设1进行讨论。在此之前，我们先给出以下引理，这对本文算法的收敛性分析有着至关重要的作用。

引理4.1. 算法I-AALM 中参数 $θ_{k}$ 满足 $\frac{1 - θ_{k + 1}}{θ_{k + 1}^{2}} \leq \frac{1}{θ_{k}^{2}}, \forall k \geq 0$ 。

证明. 数学归纳法易证。

引理4.2. 记 $s_{k} = \frac{1}{θ_{k - 1}} λ_{k} - (\frac{1}{θ_{k - 1}} - 1) λ_{k - 1} - λ^{*}$ ，则 $s_{k + 1} = s_{k} + \frac{1}{θ_{k}} (λ_{k + 1} - {\hat{λ}}_{k + 1})$ .

证明. 由 $s_{k}$ 的记法，有

$\begin{matrix} s_{k + 1} = \frac{1}{θ_{k}} λ_{k + 1} - (\frac{1}{θ_{k}} - 1) λ_{k} - λ^{*} \\ = s_{k} + \frac{1}{θ_{k}} λ_{k + 1} - \frac{1}{θ_{k}} λ_{k} + (1 - \frac{1}{θ_{k - 1}}) (λ_{k} - λ_{k - 1}) \\ = s_{k} + \frac{1}{θ_{k}} (λ_{k + 1} - λ_{k} + (1 - \frac{1}{θ_{k - 1}}) θ_{k} (λ_{k} - λ_{k - 1})) \\ = s_{k} + \frac{1}{θ_{k}} (λ_{k + 1} - {\hat{λ}}_{k + 1}) . \end{matrix}$

引理4.3. 设 ${λ_{k + 1}, {\hat{λ}}_{k + 1}}$ 为I-AALM生成的点列，对任何的 $λ \in R^{m}, k \geq 0$ ，有

$D (λ_{k + 1}) - D (λ) \geq \frac{1}{β} {(λ - {\hat{λ}}_{k + 1})}^{T} ({\hat{λ}}_{k + 1} - λ_{k + 1}) + \frac{1}{2 β} {‖ λ_{k + 1} - {\hat{λ}}_{k + 1} ‖}^{2} + {(λ - λ_{k + 1})}^{T} η_{k + 1},$ (5)

其中 $η_{k + 1} = A \nabla f^{*} (A^{T} λ_{k + 1}) - A \nabla f^{*} (A^{T} λ_{k + 1} + δ_{k + 1})$ 。

证明. 因为 $f (x)$ 是 $σ_{f}$ -强凸函数，所以其共轭函数 $f^{*}$ 是凸函数，于是

$f^{*} (A^{T} λ) - f^{*} (A^{T} λ_{k + 1}) \geq {(A^{T} (λ - λ_{k + 1}))}^{T} \nabla f^{*} (A^{T} λ_{k + 1}) = {(λ - λ_{k + 1})}^{T} A \nabla f^{*} (A^{T} λ_{k + 1}),$

进一步根据引理4.3.中 $η_{k + 1}$ 的记法可得

$\begin{array}{l} D (λ_{k + 1}) - D (λ) \\ = f^{*} (A^{T} λ) - f^{*} (A^{T} λ_{k + 1}) + {(λ_{k + 1} - λ)}^{T} b \\ \geq {(λ - λ_{k + 1})}^{T} A \nabla f^{*} (A^{T} λ_{k + 1}) + {(λ_{k + 1} - λ)}^{T} b \\ = {(λ - λ_{k + 1})}^{T} η_{k + 1} + {(λ - λ_{k + 1})}^{T} (- b) + {(λ - λ_{k + 1})}^{T} A \nabla f^{*} (A^{T} λ_{k + 1} + δ_{k + 1}) \\ = {(λ - λ_{k + 1})}^{T} η_{k + 1} + {(λ - λ_{k + 1})}^{T} (A x_{k + 1} - b) \\ = \frac{1}{β} {(λ - λ_{k + 1})}^{T} ({\hat{λ}}_{k + 1} - λ_{k + 1}) + {(λ - λ_{k + 1})}^{T} η_{k + 1} \\ = \frac{1}{β} {(λ - {\hat{λ}}_{k + 1})}^{T} ({\hat{λ}}_{k + 1} - λ_{k + 1}) + \frac{1}{β} {‖ {\hat{λ}}_{k + 1} - λ_{k + 1} ‖}^{2} + {(λ - λ_{k + 1})}^{T} η_{k + 1} \\ \geq \frac{1}{β} {(λ - {\hat{λ}}_{k + 1})}^{T} ({\hat{λ}}_{k + 1} - λ_{k + 1}) + \frac{1}{2 β} {‖ {\hat{λ}}_{k + 1} - λ_{k + 1} ‖}^{2} + {(λ - λ_{k + 1})}^{T} η_{k + 1}, \end{array}$

其中倒数第二个等号成立是根据 ${λ_{k}}$ 的更新方式。

引理4.4. 设 ${λ_{k}}$ 为I-AALM生成的点列，记 ${h^{'}}_{k} = D (λ^{*}) - D (λ_{k})$ ，那么

$\frac{1}{θ_{k - 1}^{2}} {h^{'}}_{k} - \frac{1}{θ_{k}^{2}} {h^{'}}_{k + 1} \geq \frac{{‖ s_{k + 1} ‖}^{2}}{2 β} - \frac{{‖ s_{k} ‖}^{2}}{2 β} - \frac{1}{θ_{k}} {(s_{k + 1})}^{T} η_{k + 1} .$ (6)

证明. 由 ${h^{'}}_{k} = D (λ^{*}) - D (λ_{k})$ ，易得到 ${h^{'}}_{k} \geq 0$ ，引理4.3.中对不等式(5)分别令 $λ = λ_{k}, λ = λ^{*}$ 可得

${h^{'}}_{k} - {h^{'}}_{k + 1} \geq \frac{1}{2 β} {‖ {\hat{λ}}_{k + 1} - λ_{k + 1} ‖}^{2} + \frac{1}{β} {(λ_{k} - {\hat{λ}}_{k + 1})}^{T} ({\hat{λ}}_{k + 1} - λ_{k + 1}) + {(λ_{k} - λ_{k + 1})}^{T} η_{k + 1},$ (7)

$- {h^{'}}_{k + 1} \geq \frac{1}{2 β} {‖ {\hat{λ}}_{k + 1} - λ_{k + 1} ‖}^{2} + \frac{1}{β} {(λ^{*} - {\hat{λ}}_{k + 1})}^{T} ({\hat{λ}}_{k + 1} - λ_{k + 1}) + {(λ^{*} - λ_{k + 1})}^{T} η_{k + 1} .$ (8)

对以上两个不等式作如下处理：(7)式乘以 $(\frac{1}{θ_{k}} - 1)$ 加到(8)式，那么

$\begin{matrix} (\frac{1}{θ_{k}} - 1) {h^{'}}_{k} - \frac{1}{θ_{k}} {h^{'}}_{k + 1} \geq \frac{1}{2 β θ_{k}} {‖ {\hat{λ}}_{k + 1} - λ_{k + 1} ‖}^{2} + \frac{1}{β} {((\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} {\hat{λ}}_{k + 1} + λ^{*})}^{T} ({\hat{λ}}_{k + 1} - λ_{k + 1}) \\ + {((\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} {\hat{λ}}_{k + 1} + λ^{*})}^{T} η_{k + 1} \end{matrix}$

上述不等式两端同时与 $\frac{1}{θ_{k}}$ 相乘得

$\begin{matrix} \frac{1 - θ_{k}}{θ_{k}^{2}} {h^{'}}_{k} - \frac{1}{θ_{k}^{2}} {h^{'}}_{k + 1} \geq \frac{1}{2 β} {‖ \frac{1}{θ_{k}} ({\hat{λ}}_{k + 1} - λ_{k + 1}) ‖}^{2} + \frac{1}{β θ_{k}} {({\hat{λ}}_{k + 1} - λ_{k + 1})}^{T} ((\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} {\hat{λ}}_{k + 1} + λ^{*}) \\ + \frac{1}{θ_{k}} {((\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} λ_{k + 1} + λ^{*})}^{T} η_{k + 1} . \end{matrix}$

由 $\frac{1 - θ_{k + 1}}{θ_{k + 1}^{2}} \leq \frac{1}{θ_{k}^{2}}, \forall k \geq 0$ ，上式进一步可化为

$\begin{matrix} \frac{1}{θ_{k - 1}^{2}} {h^{'}}_{k} - \frac{1}{θ_{k}^{2}} {h^{'}}_{k + 1} \geq \frac{1}{2 β} {‖ \frac{1}{θ_{k}} ({\hat{λ}}_{k + 1} - λ_{k + 1}) ‖}^{2} + \frac{1}{β θ_{k}} {({\hat{λ}}_{k + 1} - λ_{k + 1})}^{T} ((\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} {\hat{λ}}_{k + 1} + λ^{*}) \\ + \frac{1}{θ_{k}} {((\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} λ_{k + 1} + λ^{*})}^{T} η_{k + 1} . \end{matrix}$

取 $a = \frac{1}{θ_{k}} ({\hat{λ}}_{k + 1} - λ_{k + 1}), b = (\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} {\hat{λ}}_{k + 1} + λ^{*}$ ，并利用等式关系

$‖ a ‖ + 2 a^{T} b = {‖ a + b ‖}^{2} - {‖ b ‖}^{2},$

以上不等式可进一步转化为

$\begin{array}{l} \frac{1}{θ_{k - 1}^{2}} {h^{'}}_{k} - \frac{1}{θ_{k}^{2}} {h^{'}}_{k + 1} \\ \geq \frac{1}{2 β} {‖ \frac{1}{θ_{k}} ({\hat{λ}}_{k + 1} - λ_{k + 1}) + (\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} {\hat{λ}}_{k + 1} + λ^{*} ‖}^{2} - \frac{1}{2 β} {‖ (\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} {\hat{λ}}_{k + 1} + λ^{*} ‖}^{2} \\ + \frac{1}{θ_{k}} {((\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} λ_{k + 1} + λ^{*})}^{T} η_{k + 1} \\ = \frac{1}{2 β} {‖ - \frac{1}{θ_{k}} λ_{k + 1} + (\frac{1}{θ_{k}} - 1) λ_{k} + λ^{*} ‖}^{2} - \frac{1}{2 β} {‖ (\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} {\hat{λ}}_{k + 1} + λ^{*} ‖}^{2} \\ + \frac{1}{θ_{k}} {((\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} λ_{k + 1} + λ^{*})}^{T} η_{k + 1} \end{array}$

由引理4.2中 $s_{k}$ 的记法，上式转化为

$\frac{1}{θ_{k - 1}^{2}} {h^{'}}_{k} - \frac{1}{θ_{k}^{2}} {h^{'}}_{k + 1} \geq \frac{1}{2 β} {‖ s_{k + 1} ‖}^{2} - \frac{1}{2 β} {‖ (\frac{1}{θ_{k}} - 1) λ_{k} - \frac{1}{θ_{k}} {\hat{λ}}_{k + 1} + λ^{*} ‖}^{2} - \frac{1}{θ_{k}} {(s_{k + 1})}^{T} η_{k + 1} .$ (9)

为满足(6)的形式，仅需将不等式(9)右端做如下处理

$(1 - \frac{1}{θ_{k}}) λ_{k} + \frac{1}{θ_{k}} {\hat{λ}}_{k + 1} - λ^{*} = \frac{1}{θ_{k - 1}} λ_{k} - (\frac{1}{θ_{k - 1}} - 1) λ_{k - 1} - λ^{*},$

化简整理后有

${\hat{λ}}_{k + 1} = λ_{k} + (1 - θ_{k - 1}) \frac{θ_{k}}{θ_{k - 1}} (λ_{k} - λ_{k - 1}),$

所以 $\frac{1}{θ_{k - 1}^{2}} {h^{'}}_{k} - \frac{1}{θ_{k}^{2}} {h^{'}}_{k + 1} \geq \frac{{‖ s_{k + 1} ‖}^{2}}{2 β} - \frac{{‖ s_{k} ‖}^{2}}{2 β} - \frac{1}{θ_{k}} {(s_{k + 1})}^{T} η_{k + 1}$ 得证。

下面展示我们的主要收敛性定理，定理直观地解释了算法的收敛速度可达到 $O (1 / k^{2})$ 。

定理4.1. 设 ${λ_{k + 1}, {\hat{λ}}_{k + 1}}$ 为I-AALM生成的点列，那么

${h^{'}}_{k} \leq \frac{4}{{(k + 1)}^{2}} ({(\sqrt{2 β} {\bar{ϵ}}_{k} + \frac{1}{\sqrt{2 β}} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2})}^{2} + 2 {\tilde{ϵ}}_{k})$

其中 ${h^{'}}_{k} = D (λ^{*}) - D (λ_{k}), {\bar{ϵ}}_{k} = \sum_{j = 1}^{k} ϵ_{j}, {\tilde{ϵ}}_{k} = 2 β \sum_{j = 1}^{k} {(ϵ_{j})}^{2}$ 。

证明. 为了方便证明，我们设置以下记号：

$h_{k} = \frac{1}{θ_{k - 1}^{2}} {h^{'}}_{k}, p_{k} = \frac{{‖ s_{k} ‖}^{2}}{2 β},$ (10)

由引理4.4中 ${h^{'}}_{k}$ 的记法可知 ${h^{'}}_{k} \geq 0$ 。引理4.3.中，令 $λ = λ^{*}, k = 0$ 得

$\begin{matrix} - h_{1} = - {h^{'}}_{1} \geq \frac{1}{β} {(λ^{*} - {\hat{λ}}_{1})}^{T} ({\hat{λ}}_{1} - λ_{1}) + \frac{1}{2 β} {‖ λ_{1} - {\hat{λ}}_{1} ‖}^{2} + {(λ^{*} - λ_{1})}^{T} η_{1} \\ = \frac{1}{2 β} {‖ λ_{1} - λ^{*} ‖}^{2} - \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2} + {(λ^{*} - λ_{1})}^{T} η_{1} \\ = p_{1} - \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2} - {(s_{1})}^{T} η_{1} . \end{matrix}$

其中第二个等号成立是因为等式关系

$‖ a ‖ + 2 a^{T} b = {‖ a + b ‖}^{2} - {‖ b ‖}^{2},$

并且根据 $x_{k}$ 的停止条件以及(10)中 $p_{k}$ 的记法易知

${(s_{k})}^{T} η_{k} \leq ‖ s_{k} ‖ \cdot ‖ η_{k} ‖ \leq ‖ s_{k} ‖ (\frac{1}{σ_{f}} \sqrt{ρ (A^{T} A)} ‖ δ_{k} ‖) \leq ‖ s_{k} ‖ θ_{k - 1} ϵ_{k} = \sqrt{2 β p_{k}} θ_{k - 1} ϵ_{k},$

所以可以得到

$\begin{matrix} p_{1} + h_{1} \leq \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2} + {(s_{1})}^{T} η_{1} \leq \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2} + \sqrt{2 β p_{1}} θ_{0} ϵ_{1} \\ = \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2} + \sqrt{2 β p_{1}} ϵ_{1} . \end{matrix}$ (11)

由引理4.4知

$h_{k} - h_{k + 1} \geq p_{k + 1} - p_{k} - \frac{1}{θ_{k}} {(s_{k + 1})}^{T} η_{k + 1}$

即 $h_{k} - h_{k + 1} \geq p_{k + 1} - p_{k} - \frac{1}{θ_{k}} \sqrt{2 β p_{k + 1}} θ_{k} ϵ_{k + 1}$ 。

两边求和，我们有

$h_{1} - h_{k} \geq p_{k} - p_{1} - \sum_{j = 1}^{k - 1} \sqrt{2 β p_{j + 1}} ϵ_{j + 1} .$

所以(11)经过变形可得

$\frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2} \geq p_{1} + h_{1} - \sqrt{2 β p_{1}} ϵ_{1} \geq h_{k} + p_{k} - q_{k},$ (12)

其中 $q_{k} : = \sum_{j = 1}^{k} \sqrt{2 β p_{j}} ϵ_{j} \geq 0$ ，由 $ϵ_{k}$ 及 $p_{k}$ 的记法，见(3)和(10)，可知 $q_{k} \leq q_{k + 1}$ ，所以

$q_{k} = q_{k - 1} + ϵ_{k} \sqrt{2 β p_{k}} \leq q_{k - 1} + ϵ_{k} \sqrt{2 β} \sqrt{q_{k} + \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2}} .$ (13)

上式等价于

$(q_{k} + \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2}) - ϵ_{k} \sqrt{2 β} \sqrt{q_{k} + \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2}} - (q_{k - 1} + \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2}) \leq 0,$

解得

$\begin{matrix} \sqrt{q_{k} + \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2}} \leq \frac{1}{2} (ϵ_{k} \sqrt{2 β} + \sqrt{2 β ϵ_{k}^{2} + 4 (q_{k - 1} + \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2})}) \\ \leq \frac{1}{2} (ϵ_{k} \sqrt{2 β} + ϵ_{k} \sqrt{2 β} + 2 \sqrt{q_{k - 1} + \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2}}) \\ = ϵ_{k} \sqrt{2 β} + \sqrt{q_{k - 1} + \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2}} \\ \leq ϵ_{k} \sqrt{2 β} + \sqrt{q_{k - 1}} + \frac{1}{\sqrt{2 β}} ‖ λ^{*} - {\hat{λ}}_{1} ‖ \end{matrix}$

其中第二个和最后一个不等号成立均因为 $\sqrt{a^{2} + b^{2}} \leq a + b, (a \geq 0, b \geq 0)$ ，所以由(13)知

$\begin{matrix} q_{k} \leq q_{k - 1} + ϵ_{k} \sqrt{2 β} (ϵ_{k} \sqrt{2 β} + \sqrt{q_{k - 1}} + \frac{1}{\sqrt{2 β}} ‖ λ^{*} - {\hat{λ}}_{1} ‖) \\ = q_{k - 1} + ϵ_{k}^{2} 2 β + ϵ_{k} ‖ λ^{*} - {\hat{λ}}_{1} ‖ + ϵ_{k} \sqrt{2 β} \sqrt{q_{k - 1}} . \end{matrix}$

对上式两边求和，有

$q_{k} \leq q_{1} + 2 β \sum_{j = 2}^{k} ϵ_{j}^{2} + ‖ λ^{*} - {\hat{λ}}_{1} ‖ \sum_{j = 2}^{k} ϵ_{j} + \sqrt{2 β} \sum_{j = 2}^{k} ϵ_{j} \sqrt{q_{j - 1}} .$ (14)

又由(11)及 $h_{1} \geq 0$ 知

$p_{1} - ϵ_{1} \sqrt{2 β} \sqrt{p_{1}} - \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2} \leq 0,$

同理可解得

$\begin{array}{l} \sqrt{p_{1}} \leq \frac{1}{2} (2 ϵ_{1} \sqrt{2 β} + \sqrt{ϵ_{1}^{2} 2 β + 4 (\frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2})}) \\ \leq \frac{1}{2} (ϵ_{1} \sqrt{2 β} + ϵ_{1} \sqrt{2 β} + 2 \frac{1}{\sqrt{2 β}} ‖ λ^{*} - {\hat{λ}}_{1} ‖) \\ = ϵ_{1} \sqrt{2 β} + \frac{1}{\sqrt{2 β}} ‖ λ^{*} - {\hat{λ}}_{1} ‖ \end{array}$

其中第一个不等号成立是因为 $\sqrt{a^{2} + b^{2}} \leq a + b, (a \geq 0, b \geq 0)$ 所以

$q_{1} = ϵ_{1} \sqrt{2 β} \sqrt{p_{1}} \leq ϵ_{1} \sqrt{2 β} (ϵ_{1} \sqrt{2 β} + \frac{1}{\sqrt{2 β}} ‖ λ^{*} - {\hat{λ}}_{1} ‖) = 2 β ϵ_{1}^{2} + ϵ_{1} ‖ λ^{*} - {\hat{λ}}_{1} ‖ .$

把上述不等式代入(14)，得到

$\begin{matrix} q_{k} \leq 2 β ϵ_{1}^{2} + ϵ_{1} ‖ λ^{*} - {\hat{λ}}_{1} ‖ + 2 β \sum_{j = 2}^{k} ϵ_{j}^{2} + ‖ λ^{*} - {\hat{λ}}_{1} ‖ \sum_{j = 2}^{k} ϵ_{j} + \sqrt{2 β} \sum_{j = 2}^{k} ϵ_{j} \sqrt{q_{j - 1}} \\ \leq 2 β \sum_{j = 1}^{k} ϵ_{j}^{2} + ‖ λ^{*} - {\hat{λ}}_{1} ‖ \sum_{j = 1}^{k} ϵ_{j} + \sqrt{2 β q_{k}} \sum_{j = 1}^{k} ϵ_{j} \\ = {\tilde{ϵ}}_{k} + ‖ λ^{*} - {\hat{λ}}_{1} ‖ {\bar{ϵ}}_{k} + \sqrt{2 β q_{k}} {\bar{ϵ}}_{k}, \end{matrix}$

其中最后一个不等号成立是因为 $q_{k} \leq q_{k + 1}$ 。所以上式转化为

$q_{k} - \sqrt{2 β q_{k}} {\bar{ϵ}}_{k} - (‖ λ^{*} - {\hat{λ}}_{1} ‖ {\bar{ϵ}}_{k} + {\tilde{ϵ}}_{k}) \leq 0,$

同理可解得

$\begin{matrix} \sqrt{q_{k}} \leq \frac{1}{2} (\sqrt{2 β} {\bar{ϵ}}_{k} + \sqrt{2 β {\bar{ϵ}}_{k}^{2} + 4 (‖ λ^{*} - {\hat{λ}}_{1} ‖ {\bar{ϵ}}_{k} + {\tilde{ϵ}}_{k})}) \\ \leq \sqrt{\frac{1}{2} (2 β {\bar{ϵ}}_{k}^{2} + 2 β {\bar{ϵ}}_{k}^{2} + 4 (‖ λ^{*} - {\hat{λ}}_{1} ‖ {\bar{ϵ}}_{k} + {\tilde{ϵ}}_{k}))} \\ = \sqrt{2 β {\bar{ϵ}}_{k}^{2} + 2 (‖ λ^{*} - {\hat{λ}}_{1} ‖ {\bar{ϵ}}_{k} + {\tilde{ϵ}}_{k})}, \end{matrix}$

其中最后一个不等式成立是因为基本不等式 $\frac{a + b}{2} \leq \sqrt{\frac{a^{2} + b^{2}}{2}}$ 。结合上述不等式以及(12)和 $p_{k} \geq 0$ ，

$\begin{array}{l} h_{k} \leq \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2} + q_{k} \leq \frac{1}{2 β} {‖ λ^{*} - {\hat{λ}}_{1} ‖}^{2} + 2 β {\bar{ϵ}}_{k}^{2} + 2 (‖ λ^{*} - {\hat{λ}}_{1} ‖ {\bar{ϵ}}_{k} + {\tilde{ϵ}}_{k}) \\ = {(\frac{1}{\sqrt{2 β}} ‖ λ^{*} - {\hat{λ}}_{1} ‖ + \sqrt{2 β} {\bar{ϵ}}_{k})}^{2} + 2 {\tilde{ϵ}}_{k} . \end{array}$

5. 小结

ALM是一类解决线性等式约束凸优化问题的有效方法，不仅在理论上有完整的收敛保证，并且在实际应用中具有高效的性能。然而经典的ALM中子问题通常情况下无法精确求解，且收敛速率为 $O (1 / k)$ 。为此，本文基于原优化模型的对偶问题，结合子问题的非精确解对应的停止条件与Nesterov加速技巧设计非精确加速ALM框架，并利用KKT条件从对偶残差的角度证明该算法收敛且收敛速率为 $O (1 / k^{2})$ 。

参考文献

[1]	Figueiredo, M.A.T. and Bioucas-Dias, J.M. (2010) Restoration of Poissonian Images Using Alternating Direction Optimization. IEEE Transactions on Image Processing, 19, 3133-3145. https://doi.org/10.1109/tip.2010.2053941
[2]	Yang, J. and Zhang, Y. (2011) Alternating Direction Algorithms for ℓ₁-Problems in Compressive Sensing. SIAM Journal on Scientific Computing, 33, 250-278. https://doi.org/10.1137/090777761
[3]	Yang, J., Zhang, Y. and Yin, W. (2010) A Fast Alternating Direction Method for TVL1-L2 Signal Reconstruction from Partial Fourier Data. IEEE Journal of Selected Topics in Signal Processing, 4, 288-297. https://doi.org/10.1109/jstsp.2010.2042333
[4]	Rudin, L.I., Osher, S. and Fatemi, E. (1992) Nonlinear Total Variation Based Noise Removal Algorithms. Physica D: Nonlinear Phenomena, 60, 259-268. https://doi.org/10.1016/0167-2789(92)90242-f
[5]	Liu, Z., Li, J., Li, G., Bai, J. and Liu, X. (2017) A New Model for Sparse and Low-Rank Matrix Decomposition. Journal of Applied Analysis & Computation, 7, 600-616. https://doi.org/10.11948/2017037
[6]	Bai, J., Hager, W.W. and Zhang, H. (2022) An Inexact Accelerated Stochastic ADMM for Separable Convex Optimization. Computational Optimization and Applications, 81, 479-518. https://doi.org/10.1007/s10589-021-00338-8
[7]	Nesterov, Y. (1983) A Method for Unconstrained Convex Minimization Problem with the Rate of Convergence O(1/k²). Doklady Akademii Nauk, 269, 543.
[8]	Beck, A. and Teboulle, M. (2009) A Fast Iterative Shrinkage-Thresholding Algorithm for Linear Inverse Problems. SIAM Journal on Imaging Sciences, 2, 183-202. https://doi.org/10.1137/080716542
[9]	Hestenes, M.R. (1969) Multiplier and Gradient Methods. Journal of Optimization Theory and Applications, 4, 303-320. https://doi.org/10.1007/bf00927673
[10]	Powell, M.J.D. (1969) A Method for Nonlinear Constraints in Minimization Problems. In: Fletcher, R., Ed., Optimization, Academic Press, 283-298.
[11]	Bertsekas, D.P. (2014) Constrained Optimization and Lagrange Multiplier Methods. Academic Press.
[12]	Bertsekas, D.P. (1997) Nonlinear Programming. Journal of the Operational Research Society, 48, 334-334. https://doi.org/10.1057/palgrave.jors.2600425
[13]	Nocedal, J. and Wright, S.J. (1999) Numerical Optimization. Springer.
[14]	He, B. and Yuan, X. (2010) On the Acceleration of Augmented Lagrangian Method for Linearly Constrained Optimization. Optimization Online.
[15]	Ke, Y. and Ma, C. (2017) An Accelerated Augmented Lagrangian Method for Linearly Constrained Convex Programming with the Rate of Convergence O(1/k²). Applied Mathematics—A Journal of Chinese Universities, 32, 117-126. https://doi.org/10.1007/s11766-017-3381-z

为你推荐

友情链接