線性代數 Cheat Sheet 7-3:條件優化
工程中常常需要尋找一些特定集合內的 $\boldsymbol x$ 值,使得二次型 $Q(\boldsymbol x)$ 取得最大值或最小值。具有代表性的是,這類問題可化為 $\boldsymbol x$ 在一組單位向量中的變數的優化問題。
$\mathbb{R}^n$ 中的一個單位向量 $\boldsymbol x$ 可用以下幾種等價形式來描述:
\begin{equation}
\lVert \boldsymbol x \rVert = 1, \; \lVert \boldsymbol x \rVert^2 = 1, \; \boldsymbol x^\mathsf{T} \boldsymbol x = 1
\end{equation}
和
\begin{equation}
x_1^2 + x_2^2 + \cdots + x_n^2 = 1 \tag{1}
\end{equation}
在應用中經常使用 $\boldsymbol x^\mathsf{T} \boldsymbol x = 1$ 的展開式 $(1)$。
當一個二次型沒有交叉項乘積時,可以很容易得到在 $\boldsymbol x^\mathsf{T} \boldsymbol x = 1$ 下的最大值和最小值。
可以證明,對任何對稱矩陣 $A$,在 $\lVert \boldsymbol x \rVert = 1$ 條件下,$\boldsymbol x^\mathsf{T} A \boldsymbol x$ 所有可能值的集合是閉區間。分別用 $m$ 和 $M$ 表示區間的左端點和右端點,即取
\begin{equation}
m = \min\{\boldsymbol x^\mathsf{T} A \boldsymbol x: \lVert \boldsymbol x \rVert = 1\}, \;
M = \max\{\boldsymbol x^\mathsf{T} A \boldsymbol x: \lVert \boldsymbol x \rVert = 1\} \tag{2}
\end{equation}
如果 $\lambda$ 是一個特徵值,那麼 $m \leq \lambda \leq M$,$m$ 和 $M$ 本身也是特徵值。
定理 6設 $A$ 是對稱矩陣,且 $m$ 和 $M$ 的定義如 $(2)$ 式所示,那麼 $M$ 是 $A$ 的最大特徵值 $\lambda_1$,$m$ 是 $A$ 的最小特徵值。如果 $\boldsymbol x$ 是對應於 $M$ 的單位特徵向量 $\boldsymbol u_1$,那麼 $\boldsymbol x^\mathsf{T} A \boldsymbol x$ 的值等於 $M$。如果 $\boldsymbol x$ 是對應於 $m$ 的單位特徵向量,那麼 $\boldsymbol x^\mathsf{T} A \boldsymbol x$ 的值等於 $m$。
定理 7設 $A, \lambda_1, \boldsymbol u_1$ 的定義如定理 6 所示。在如下限制條件下:
\begin{equation}
\boldsymbol x^\mathsf{T} \boldsymbol x = 1, \; \boldsymbol x^\mathsf{T} \boldsymbol u_1 = 0
\end{equation}
$\boldsymbol x^\mathsf{T} A \boldsymbol x$ 的最大值是第二大特徵值 $\lambda_2$,且這個最大值可以在 $\boldsymbol x$ 是對應於 $\lambda_2$ 的特徵向量 $\boldsymbol u_2$ 處達到。
限制條件 $\boldsymbol x^\mathsf{T} \boldsymbol u_1 = 0$ 意味取到最大值的解 $\boldsymbol x$ 要與最大特徵值對應的特徵向量 $\boldsymbol u_1$ 正交。假設 $\boldsymbol u_1 = (1, 0, 0)$,則為了滿足此限制條件, $\boldsymbol x$ 的第一個元素要為 $0$,即 $x_1 = 0$。
定理 8設 $A$ 是一個 $n \times n$ 的對稱矩陣,其正交對角化為 $A = PDP^{-1}$,將對角矩陣 $D$ 上的元素重新排列,使得 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n$,且 $P$ 的列是其對應的單位特徵向量 $\boldsymbol u_1, \cdots, \boldsymbol u_n$,那麼對 $k = 2, \cdots, n$,在以下限制條件下:
\begin{equation}
\boldsymbol x^\mathsf{T} \boldsymbol x = 1, \; \boldsymbol x^\mathsf{T} \boldsymbol u_1 = 0, \; \cdots, \; \boldsymbol x^\mathsf{T} \boldsymbol u_{k-1} = 0
\end{equation}
$\boldsymbol x^\mathsf{T} A \boldsymbol x$ 的最大值是特徵值 $\lambda_k$,且這個最大值在 $\boldsymbol x = \boldsymbol u_k$ 處可以達到。