1. 程式人生 > >【高等代數】05 - 線性變換

【高等代數】05 - 線性變換

  線性變換是線性代數的核心概念,包含的內容和結論十分豐富。之前的討論其實已經比較完備了,但這裡我還是想把它的主要脈絡再梳理一遍,然後再補充一些重要的問題和結論。

1. 線性變換和不變子空間

1.1 線性變換

  線性變換\(\mathscr{A}\alpha\)(或線性對映)的概念自無需多說,它是線性空間\(V\)之間的一種對映關係。而對映最重要的概念就是象和原象,尤其是變換的象\(\mathscr{A}V\)與核\(\text{Ker}\mathscr{A}\),通過關係式(1)搭建起了變換\(\mathscr{A}\)的基本機構。它直觀地描述了線性變換在維度上的意義,你可以輕鬆說出\(V,\,\text{Ker}\mathscr{A},\,\mathscr{A}V\)三者之間的關係。更甚地,可以把\(V\)表示成某個直交和\(\text{Ker}\mathscr{A}\oplus U\),而這裡\(U\)必定與\(\mathscr{A}V\)同構。這個簡單的關係很容易被忽略,但它在複合變換的論證中起到了核心的作用,比如關於複合變換的秩(象的維數)的估算,再比如後面關於冪零變換的歸納法證明。

\[V/\text{Ker}\mathscr{A}\cong\mathscr{A}V\tag{1}\]

  式(1)說明,變換使得\(V\)的維數減少了\(\text{dim}(\text{Ker}\mathscr{A})\),這個角度非常便於討論複合變換的秩。對於複合變換\(\mathscr{AB}\),它的秩顯然有上界\(\max\{\text{rank}\mathscr{A},\text{rank}\mathscr{B}\}\)。從維度減少的角度,不難有式(2)的上界式,從而輕鬆得到複合變換秩的下界式(3)。使用這個角度,你可以嘗試一下下面的兩個問題。

\[\text{dim}(\text{Ker}\mathscr{AB})\leqslant\text{dim}(\text{Ker}\mathscr{A})+\text{dim}(\text{Ker}\mathscr{B})\tag{2}\]

\[\text{rank}(\mathscr{AB})\geqslant\text{rank}{\mathscr{A}}+\text{rank}{\mathscr{B}}-\text{dim}(V)\tag{3}\]

  • 如果\(\text{rank}(\mathscr{AB})=\text{rank}(\mathscr{B})\),則對任意變換\(\mathscr{C}\)都有\(\text{rank}(\mathscr{ABC})=\text{rank}(\mathscr{BC})\)。

  • Frobenius不等式:\(\text{rank}(\mathscr{ABC})\geqslant\text{rank}(\mathscr{AB})+\text{rank}(\mathscr{BC})-\text{rank}(\mathscr{B})\)。

  我們知道,任何一個線性變換\(\mathscr{A}\in\text{Hom}(V,V)\),都可以由某組基\(\{\alpha_i\}\)以及它們的象完全確定,並由此得到了這組基下的變換矩陣\(A\)。為了讓矩陣運算和變換運算的格式保持一致,把\(a_{ij}\)定義成\(\mathscr{A}\alpha_j\)在\(\alpha_i\)上的座標。如果再把所有向量\(\alpha\)對映成座標列向量\(a\),\(\mathscr{A}\alpha\)的象就是\(Aa\),而變換\(\mathscr{AB}\)的矩陣也正好是\(AB\),這樣使用起來就方便多了(後面將不加區分地寫成\(A\))。值得提醒的是,變換矩陣是線性變換的一種表示形式,可以更方便地討論變換的性質;但其並不能完全替代後者,有時反而會讓敘述變得繁瑣(比如矩陣秩的討論)。

1.2 不變子空間和最小多項式

  線性變換沒有線性對映那樣簡單的標準式(基於式(1)),因為它的原象和象糾纏在一起(在一個空間)。我們能做的就是找到合適的基,讓它們的象和原象劃分到儘量多的子空間中,這就是不變子空間的概念(簡稱\(A\)-子空間)。為了能將\(V\)劃分成多個不變子空間,需要用到兩個關鍵的結論。第一個是如果有\(AB=BA\),那麼\(BV,\text{Ker}\,B\)都是\(A\)-子空間。特別地,任何多項式\(f(A)\in F[A]\)都與\(A\)可交換,因此\(\text{Ker}\,f(A)\)都是\(A\)-子空間。如果有式(4)左的互質分解,根據多項式的歐幾里得定理,不難有式(4)右的分割。

\[f(x)=g(x)h(x),\,(g,h)=1\;\Rightarrow\;\text{Ker}\,f(A)=\text{Ker}\,g(A)\oplus\text{Ker}\,h(A)\tag{4}\]

  第二個是Hamilton-Caylay定理,\(A\)的特徵多項式\(\varphi(\lambda)\)滿足\(\varphi(A)=0\),即它是一個零化多項式。零化多項式的存在,使得式(4)右的分割可以從整個線性空間\(V\)開始。也就是說,如果零化多項式有互質分解\(\prod g_i(x)\),那麼\(V\)可以拆分為線性無關的子空間和\(\oplus\text{Ker}\,g_i(A)\)。為了讓問題更簡單,我們一般用次數最小的首1零化多項式,即最小多項式\(m(x)\)。根據多項式理論不難證明,\(m(x)\)能整除所有零化多項式。

  另外,零化(最小)多項式的概念也可以定義在單個向量、向量集或子空間上,而且顯然\(V\)的零化多項式一定是它(們)的零化多項式。特別地,特徵值\(\lambda_i\)的特徵子空間\(V_i\)以\((\lambda-\lambda_i)\)為其最小多項式\(m_i(x)\),而\(m(x)\)是\(V_i\)的零化多項式,故而\(m_i(x)|m(x)\),這說明\(m(x)\)含有(複數域上)所有特徵項\((\lambda-\lambda_i)\)因子。得到零化多項式最直接的方法,當然是求解以多項式係數為未知數的線性方程組。這個方法沒有多大實際意義,但卻可以間接說明,一定存在\(V\)的域\(F\)上的解(如果有複數解),從而擴張域\(F\)並不會帶來新的最小多項式。

  假設\(m(x)\)有式(5)左的互質分解,則線性空間可以有右式的直和分解,\(V\)的任何向量\(\alpha\)都可以分解為其在\(\text{Ker}\,p_i(x)\)中的投影\(P_i(\alpha)\)的直和。但要注意對一個子空間\(U\)而言,卻不能說可以分解為\(P_i(U)\)的直和,直和包含但往往大於\(U\)。當\(U\)是\(A\)-子空間時,利用多項式的互質化1性質,不難構造出\(P_i\)是\(A\)的一個多項式。這時\(U\)也是\(P_i\)的不變子空間,\(P_i(U)\)的直和又包含於\(U\),故而兩者是相等的。另外不難看出\(P_i(U)\)就是\(U\cap W_i\),故而不變子空間都有式(6)的直和分解,這就得到結論:\(W_i\)不變子空間的直和構成了全部\(A\)-子空間。

  特別地,如果最小多項式\(m(x)=\prod(\lambda-\lambda_i)\)都是一階一次的,由核分解法(5)知\(V\)可以被分解為特徵空間之和,從而\(A\)可對角化。反之亦成立,故有\(A\)可對角化等價於\(m(x)\)由一次一階因式組成,這是個極其有效的判斷可對角化工具。另外,結合式(6)的結論可知:可對角化變換\(A\)的任意特徵向量的直和,構成了全部\(A\)-子空間。

\[m(x)=p_1(x)\cdots p_r(x)\;\Rightarrow \;V=\text{Ker}\,p_1(x)\oplus\cdots\oplus \text{Ker}\,p_r(x)\tag{5}\]

\[U=(U\cap W_1)\oplus\cdots\oplus(U\cap W_r),\;\;W_i=\text{Ker}\,p_i(x)\tag{6}\]

  在得到更深入的結論之前,我們先來開個腦洞。假設變換\(A\)的最小多項式\(p(\lambda)\)是\(r\)階不可約的,根據多項式的理論,\(F[A]\)是一個以\(p(A)\)為0元的域。而回顧線性空間的定義,它可以建立在任何域上(不限定是數域),如果把\(f(A)\alpha\)視為域\(F(A)\)上的純量乘法,則\(V\)也可以看成域\(F(A)\)上的線性空間!只是要注意,\(F[A]\)在原始域上的維度是\(r\),所以\(V\)在域\(F[A]\)上是\(\dfrac{n}{r}\)維的。這個神奇的角度可以讓變換\(f(A)\)如純量一樣自由使用,帶來許多意想不到的效果,以下先舉一例,本篇的最後會再次用到。

  任何子空間都有補空間,但任何\(A\)-子空間卻不一定有\(A\)-補空間。比如冪次為\(r>1\)的冪零變換\(A\),它有非平凡的\(A\)-子空間\(U=\text{Ker}(A^{r-1})\),任何子空間的象都是探索到\(U\)裡。所以\(U\)的\(A\)-補空間\(W\ne 0\)必須滿足\(AW=0\),故\(W\subseteq U\),導致矛盾。這個結論能擴充套件到更一般都情況,對於滿足\(g^r(A)=0,(r>1)\)的變換,非平凡\(A\)-子空間\(g(A)V\)沒有\(A\)-補空間。如果要求所有\(A\)-子空間都有\(A\)-不空間(稱為半單變換),則最小多項式所有項的冪次必須為1(否則可以構造出如上的\(g(\lambda)\))。

  反之,對於\(m(\lambda)=\prod p_i(\lambda)\)的變換(\(p_i(\lambda)\)互質不可約),先將\(V\)分解為\(W_i=\text{Ker}\,p_i(A)\)的直和,並記\(A_i=A\mid W_i\)。根據式(6)有任意\(A\)-子空間\(U\)都由\(U_i=U\cap W_i\)直交而成,為了找到\(U_i\)在\(W_i\)上的\(A\)-補空間,把\(W_i\)看成域\(F[A_i]\)上的線性空間。由於\(W_i,U\)都是\(f(A)\in F[A]\)的不變子空間,故\(U_i\)也是\(W_i\)在域\(F[A_i]\)上的子空間,取它的補空間\(G_i\),它顯然是個\(A\)-子空間。所以在原始域上,\(U_i\)總有\(A\)-補空間\(G_i\),這時\(G=\oplus G_i\)就是\(U\)的\(A\)-補空間。總結便有:半單變換的充要條件是最小多項式的不可約項都是1次的。

2. 線性空間的分解

2.1 複數域上的分解

  複數域上的特徵多項式都可以分解為一階多項式冪\((\lambda-\lambda_i)^{l_i}\)的乘積(\(l_i\)叫\(\lambda_i\)的代數重數), 從而\(V\)可以先被分解為若干\(A\)-子空間\(W_i=\text{Ker}\,(A-\lambda_iI)^{l_i}\)的直和。為了方便深入討論(分解)這樣的\(A\)-子空間,記\(A-\lambda_iI\)在\(W_i\)上的變換為\(A_0\)。顯然\(A_0\)-子空間也是\(A\)-子空間,而且\(A_0\)是冪零變換(\(A_0^s=0,s\leqslant l_i\))(取最小的\(s\)叫做\(\lambda_i\)的幾何重數)),下面只需集中討論\(W_i\)在\(A_0\)上的分解。

  對於任何\(\alpha\in W_i\),都存在\(A_0^t\alpha=0,(t\leqslant s)\),由此生成強迴圈子空間\(\langle\alpha,\cdots,A_0^{t-1}\alpha\rangle\)。顯然,它的特徵多項式和最小多項式都是\(\lambda^t\),而且不能再分割為兩個不變子空間。冪零變換下的不可再分割的不變子空間,想必都是這樣的強迴圈子空間,而\(W_i\)應當可以被分解為若干強迴圈子空間。但簡單嘗試後發現,從區域性開始分割出這些鏈條是不太可能的(無法解決鏈條纏繞問題)。另外注意到,每個鏈條的最後一環\(A_0^{t-1}\alpha\)都是\(0\)特徵向量,它們組成了核空間\(K_0=\text{Ker}\,A_0\)。接下來可以在\(K_0\)上使用式(1)降維處理,並通過遞迴論證找到分解的方法,以下具體討論。

  考察\(A_0\)在\(W_i/K_0\)上的誘導變換\(A_1\),它也是一個冪等變換\(A_1^{s-1}=0\),但冪次少1,且\(\text{Ker}\,A_1\)(的代表元)都是強迴圈鏈條的倒數第二環。以此類推,構造出不同維度的變換\(A_0,\cdots,A_{s-1}=0\),以及它們的核空間\(K_0,\cdots,K_{s-1}\)。這時,強迴圈鏈條的每一環(從\(A_0^{t-1}\alpha\)到\(\alpha\)),依次是\(W_i/K_0,\cdots\)的代表元。另外根據誘導變換的結論,這些核空間的代表元(都是\(W_i\)的子空間)是互不相關的,且它們的正交和就是\(W_i\)。

  現在根據這個結構,分解出獨立的鏈條。先從\(K_{s-1}\)的代表元中選出一組基\(\{\alpha_j\}\),它們都能生成最長的強迴圈鏈條。由於\(\{\alpha_j\}\)與\(K_{s-2}\)的代表元不相關,通過反證法可以有\(\{A\alpha_j\in K_{s-2}\}\)也不相關,遞迴可知這些鏈條的所有元素都是不相關的。接下來再在\(\{\alpha_j\}\)於\(K_{s-2}\)上的補集就行類似的討論,最終遞迴構造出互相獨立的鏈條,而鏈條的所有元素便是\(W_i\)的一組基。需要注意的是,不管基如何選取,不同長度鏈條(不同維度的強迴圈子空間)的個數都是確定的。

  回顧整個構造過程,並結合式(1)可知,\(A_{i+1}\)的原象與\(A_i\)的象同構,遞推得到\(A_i\)的象同構於\(A_0^{i+1}\),即有\(\text{rank}(A_i)=\text{rank}(A_0^{i+1})\)。重新記\(A_0\)的原象\(W_i\)的維度為\(n\),它就是所有鏈條的長度和,而\(A_i\)原象的維度則是所有鏈條截斷後\(i\)節後的長度和。首先不難看出鏈條的個數就是\(K_0\)的維數\(n-\text{rank}(A_0)\),然後記長度為\(r\)的鏈條的個數是\(n_r\),不難有關係式(7),解此方程組便能得到每個鏈條的長度。從變換矩陣的角度看,\(A_0\)以鏈條為基的變換矩陣是一個分塊對角矩陣\(D\)。每一個分塊對應一個鏈條,是一個次對角矩陣,且分塊的個數和大小也跟鏈條一致。

\[1\cdot n_{k+1}+2\cdot n_{k+2}\cdots+(s-k)\cdot n_s=\text{rank}(A_0^k),\;(k=0,1,\cdots,s-1)\tag{7}\]

  現在回到\(W_i\)上的變換\(A=A_0+\lambda_iI\),它還是可以按上述鏈條分割為若干不變子空間,以鏈條為基的變換矩陣是\(D+\lambda_iI\)。最終不難推導,空間\(V\)上的變換\(A\)也能這樣分割,以及有對應的變換矩陣。形如式(8)的矩陣稱為Jordan塊,由若干Jordan塊組成的變換矩陣稱為Jordan標準型。以上論證則說明了:任何特徵多項式可以分解為一階因式的線性變換\(A\)(不一定是複數域),都有唯一的Jordan標準型。反過來,也可以用Jordan標準型直觀地理解鏈條分解的論述。

\[J_n(\lambda)=\begin{bmatrix}\lambda&1&&\\&\ddots&\ddots&\\&&\ddots&1\\&&&\lambda\end{bmatrix}_{n\times n}\tag{8}\]

  Jordan標準型將線性變換“正交分解”,使得問題的討論可以分化到更小更簡單的不變子空間(鏈條)上,是極其有效的分析工具。比如通過式(9)可知,有Jordan標準型的變換,與其轉置變換相似。如果要具體構造標準型,首先從特徵多項式得到特徵值和重數,然後把式(7)稍作修改,得到每個特徵值下的Jordan塊。後一步要基於這樣的事實:從標準型可以看出,\(A-\lambda_iI\)在其它特徵值的鏈條下都是滿秩的。

\[CJ_n(\lambda)C=\begin{bmatrix}\lambda&&&\\1&\ddots&&\\&\ddots&\ddots&\\&&1&\lambda\end{bmatrix};\;C=\begin{bmatrix}&&1\\&{\mathinner{\mkern2mu\raise1pt\hbox{.}\mkern2mu\raise4pt\hbox{.}\mkern2mu\raise7pt\hbox{.}\mkern1mu}}&\\1&&&\end{bmatrix},\;C^2=I\tag{9}\]

2.2 一般域上的分解

  複數域上遞迴分解的方法可以套用到一般數域,基本思想還是降維遞迴、提取不相關的迴圈鏈條,下面就照著再說一遍。假定\(A\)是\(n\)維線性空間\(V\)上的線性變換,它有最小多項式\(\prod p_i^{s_i}(\lambda)\),其中\(p_i^{s_i}(\lambda)\)是互不相同的不可約因式。先將\(A\)分解為若干\(A\)-子空間\(W_i=\text{Ker}\,p_i^{s_i}(A)\)的直和,然後在每個子空間上繼續分解。不失一般性,記這個空間為\(W\),維度為\(n\),\(A\)在其上的變換為\(A_0\),最小多項式\(p^s(\lambda)\)的次數為\(r\)。下面對\(s\)使用第二歸納法遞迴論證。

  當\(s=1\)時,對所有元素都有\(p(A_0)\alpha=0\)。先構造出迴圈子空間\(U=\langle\alpha,\cdots,A_0^{r-1}\alpha\rangle\),然後對\(A_0\)在\(W/U\)上的誘導變換進行歸納遞迴的構造。最終便能得到\(W\)的一組基,它由\(n/r\)個迴圈鏈條組成,這就是我們要的最終分解。注意這裡的一個鏈條只相當於複數域場景的一個元素,這就是一般域上的不同之處,也是造成複雜的主要原因。

  當\(s>1\)時,類似地構造出\(K_0=\text{Ker}\,(p(A_0))\),以及\(A_0\)在\(W/K_0\)上的誘導變換\(A_1\)。\(A_1\)的最小多項式是\(p^{s-1}(\lambda)\),按歸納法它可以分解為若干無關的鏈條,取其一\(\langle\alpha+K_0,\cdots,A_0^{t-1}\alpha+K_0\rangle\)。記\(\alpha+K_0\)的最小多項式為\(q(\lambda)=p^e(\lambda)\),則有\(\beta=q(A_0)\alpha\in K_0\),取其迴圈鏈條\(\langle\beta,\cdots,A_0^{r-1}\beta\rangle\)。不難證明\(\beta\)鏈條與\(\alpha+K_0\)鏈條的代表元互不相關,且合併後等價於\(\alpha\)鏈條\(\langle\alpha,\cdots,A_0^{sr-1}\alpha\rangle\),每個這樣的\(\alpha+K_0\)鏈條都能找到對應的\(\beta\)鏈條,並擴充套件為更長的\(\alpha\)鏈條。

  根據所有\(\alpha\)鏈條的不相關性,用反證法可知它們的\(\beta\)鏈條也是不相關的。這相當於所有的\(\beta\)鏈條將\(K_0\)進行了區域性分割,而剩下的部分也不難分割為若干長度為\(r\)的\(\alpha\)鏈條。所有\(\alpha\)的元素互不相關,正好構成了\(W\)的一組基,這就是我們要找的最終分解。每個鏈條下的變換矩陣有形式(10),它稱為Frobinus矩陣,也叫有理塊,而有理塊組成的變換矩陣叫有理標準型。每個有理塊的特徵多項式和最小多項式都是\(p^e(\lambda)\),其中\(er=t\),\(a_i\)是\(p^e(\lambda)\)中\(\lambda^i\)的係數。另外如果構造過程中不展開鏈條,每個分塊將是式(11)右的形式(\(H_r\)只有右上角為1),它也被稱為廣義Jordan塊,對應也有廣義Jordan標準型。

\[C(p(\lambda))=\begin{bmatrix}0&0&\cdots&-a_0\\1&0&\cdots&-a_1\\\vdots&\vdots&\ddots&\vdots\\0&\cdots&1&-a_{t-1}\end{bmatrix}_{t\times t}\tag{10}\]

\[C(p^r(\lambda))\;\sim\;\begin{bmatrix}C(p(\lambda))&&&\\H_r&\ddots&&\\&\ddots&\ddots&\\&&H_r&C(p(\lambda))\end{bmatrix}\tag{11}\]

  最後根據構造鏈條的過程易知,鏈條的個數為\(\dfrac{1}{r}\text{dim}\,K_0=\dfrac{1}{r}(n-\text{rank}[p(A_0)])\)。若記長度為\(ir\)的鏈條的個數為\(n_i\),還有式(12)方程組,求解便得到每種鏈條的個數,從而得到有理標準型。放到一般的變換\(A\)和空間\(V\)中,由於\(p(\lambda)\)與其它\(p_j(\lambda)\)互質,利用多項式化一理論可知,\(p^k(A)\)在其它\(W_j\)上是滿秩的,故而\(\text{rank}[p^k(A_0)]=\text{rank}[p^k(A)]\)。也就是說,可以直接用\(\text{rank}[p_i^k(A)]\)計算\(W_i\)上每種鏈條的數量。

\[1\cdot n_{k+1}+2\cdot n_{k+2}\cdots+(s-k)\cdot n_s=\dfrac{1}{r}\text{rank}[p^k(A_0)],\;(k=0,1,\cdots,s-1)\tag{12}\]

2.3 \(\lambda\)矩陣

  標準型是特殊的相似矩陣,它保留了線性變換的核心元素(全系不變數),並以更簡單的形式方便了理論推導。但從討論中看出,具體計算、構造這些全系不變數並不輕鬆,我們需要一個更好的獲取它們的方法。但鑑於這個方法和矩陣相似的跨度實在太大,我一直苦於尋找到一個過渡更順滑的講法,但不知從何說起。勉強來說,是要從相似矩陣\(A\sim B\)的特徵矩陣矩陣\(\lambda I-A,\lambda I-B\)中尋找共同點,一是因為特徵矩陣原生地保留了變換的所有資訊,二是這種表達在HC定理中有一個不容忽視的性質。

  首先把元素為\(\lambda\)多項式的矩陣稱為\(\lambda\)矩陣,如果允許使用矩陣的數乘運算,每個\(\lambda\)矩陣可以表示為式(13)。式(13)把\(\lambda\)矩陣看成了矩陣係數的\(\lambda\)多項式,而這裡的\(\lambda\)僅限定在空間的域上。剛才提到的重要性質是指,如果\(F(\lambda)\)能表示成式(14)左,那麼把\(\lambda\)換成矩陣\(A\)時仍然成立。這個性質依賴一個很簡單的道理:要想這種替換成立,只需\(\lambda,A\)可交換,故而取\(\lambda=A\)一定成立。當然,\(\lambda\)可以替換為任何與\(A\)可交換的矩陣。

\[F(\lambda)=\lambda^sA_s+\cdots+\lambda A_1+A_0\tag{13}\]

\[F(\lambda)=(\lambda I-A)(\lambda^{s-1}B_{s-1}+\cdots+B_0)\;\Rightarrow\;F(A)=0\tag{14}\]

  然後在\(\lambda\)矩陣上擴充套件初等變換和相抵的概念,但要限定初等變換也是\(\lambda\)矩陣且可逆,故必須是格式\(P(i,j),P(i,j(f(\lambda))),P(i(k))\)之一。在這樣的定義下,顯然\(\lambda I-A,\lambda I-B\)是相抵的,反之如果有\(P(\lambda)(\lambda I-A)=(\lambda I-B)Q(\lambda)\),由式(14)也能得到\(A\sim B\)。這就是說矩陣相似與特徵矩陣相抵是等價的,而相抵的每一步初等變換都可逆,故可以探索特徵矩陣的相抵矩陣而不懼丟失資訊。

  初等變換開始出現於行列式當中,那麼來考慮\(A(\lambda)\)的所有\(k\)階子式的行列式,它們是一個多項式集合。初等變換對它們施加的無非是交換、倍數差、純量乘,由多項式的理論,這些並不改變多項式集的首1最大公因式\(D_k(\lambda)\)。它也被稱為\(A(\lambda)\)的\(k\)階行列式因子,它們是相抵意義下的不變數。為了更快地解析出行列式因子,可以先找到\(d_1(\lambda)=D_1(\lambda)\)放在1行1列,並將1行1列其它元素零化,然後遞推得到相抵對角矩陣(15)。其中\(d_i(\lambda)=D_i(\lambda)/D_{i-1}(\lambda)\),這保證了\(d_i(\lambda)\)的唯一性,它稱為\(M(\lambda)\)的不變因子,這樣的相抵\(\lambda\)矩陣也叫\(M(\lambda)\)的Smith標準型。

\[F(\lambda)=P(\lambda)\begin{bmatrix}d_1(\lambda)&&\\&\ddots&\\&&d_n(\lambda)\end{bmatrix}Q(\lambda),\;\;d_i(\lambda)=\dfrac{D_i(\lambda)}{D_{i-1}(\lambda)}\tag{15}\]

  \(\lambda\)矩陣相抵只涉及到多項式的運算,不管在計算還是理論推導上,都有其獨有的優勢。比如解析過程中發現,Smith標準型並不受數域的影響,所以\(\lambda\)矩陣的相抵關係不因數域而改變,進而證明矩陣相似也不因數域而改變。再比如轉置特徵矩陣的行列式因子不變,再次證明總有\(A\sim A'\)。另外由於遞迴中\(d_i(\lambda)\)總是選的公因式,因此還有性質\(d_i(\lambda)\mid d_{i+1}(\lambda)\)(最後幾個可能為0)。

  \(d_i(\lambda)\)的不可分解因式\(m^r(\lambda)\)被稱為\(\lambda\)矩陣的初等因子,它和不變因子都是\(\lambda\)矩陣的不變數。如果給定非平凡的初等因子或不變因子,以及矩陣的秩(必需),便能很容易地恢復出它的Smith標準型。有趣的是,只要能找到一個對角型的相抵矩陣,對角元的所有不可分解因式便是所有的初等因子,只需簡單調整位置便得到了Smith標準型。原因在於,如果只改變(交換)某個因式的位置,行列式因子不變,從而改變後仍與原矩陣相抵。這就說明,分塊對角矩陣的初等因子,就是所有分塊的初等因子之合。

  現在回到特徵矩陣\(\lambda I-A\),它的不變因子(行列式因子、初等因子)也被稱為\(A\)的不變因子(行列式因子、初等因子)。由於特徵矩陣總是滿秩的,加上相抵和相似的等價性,則有不變因子和初等因子都是矩陣相似的全系不變數。容易驗證有理塊\(C(p^r(\lambda))\)的初等因子只有\(p^r(\lambda)\),從而有理標準型的有理塊和初等因子一一對應,這就能更方便地得到有理標準型。特別地,Jordan塊\(J_{n}(\lambda_0)\)也與初等因子\((\lambda-\lambda_0)^n\)一一對應,而且在Jordan標準型中容易看出,不變因子\(d_n(\lambda)\)其實就是最小多項式,故而再次證明:最小多項式不因數域而變化。

3. 可交換矩陣

  最後,我們藉助一個課題綜合運用本章的知識點。記域\(F\)上\(n\)維線性空間\(V\)的線性變換\(A\),現在考慮所有與\(A\)可交換的變換組成的集合\(C[A]=\{X|XA=AX\}\),我們希望能得知\(C[A]\)更多的資訊。首先我們知道,\(A\)的多項式\(f(A)\)都與\(A\)可交換,從而多項式域\(F[A]\)是\(C[A]\)的一個下界。假設\(A\)的最小多項式\(m(\lambda)\)是\(s\)階的,易知\(I,A,\cdots,A^{s-1}\)線性無關且是\(F[A]\)的一組基,即\(F[A]\)是\(s\)維線性空間。

  • 記\(P_i\)為分解\(V=\oplus U_i\)下在\(U_i\)上的投影,證明\(P_i\in C[A]\)的充要條件是:\(P_i\)為\(A\)-不變子空間。

  以上一直在討論線性變換的不變子空間分割,這可以將問題分化到維度更小的獨立子空間中分析。在可交換問題上,不變子空間分割表現為(分塊)對角矩陣,直接利用矩陣乘法的性質能方便問題的討論。為簡單起見,設\(A\)可對角化為\(\begin{bmatrix}A_1&\\&A_2\end{bmatrix}\),同時也將\(X\)按對應子空間分割為\(\begin{bmatrix}X_{11}&X_{12}\\X_{21}&X_{22}\end{bmatrix}\),由\(AX=XA\)得到式(16)。這個等式的對角線就是在不變子空間的討論,而非對角線又引出了新問題\(A_iX=XA_j\)。

\[\begin{bmatrix}A_1X_{11}&A_1X_{12}\\A_2X_{21}&A_2X_{22}\end{bmatrix}=\begin{bmatrix}X_{11}A_1&X_{12}A_2\\X_{21}A_1&X_{22}A_2\end{bmatrix}\tag{16}\]

  對於特殊的變換,繼續推導下去比較容易。比如假設\(A\)可對角化為\(\text{diag}\{\lambda_1I_{n_1},\cdots,\lambda_sI_{n_s}\}\),對比式(16)可知:\(X\)的對角分塊為任意矩陣,而其它分塊皆為\(0\)。也就是說\(C[A]\)的維度是\(\Sigma n_s^2\),它一般大於\(F[A]\)。更特殊地,如果\(A\)的特徵值互不相同,則\(n_i=1\),這時\(C[A]=F[A]\)。

  對於一般的情況,我們先把注意力放在\(A_iX=XA_j\)上,其中\(A_i,A_j\)分別是\(n_i,n_j\)維方陣,\(X\)是\(n_i,n_j\)的矩陣。設\(X\)的秩為\(r\),則它可以表示為\(P\begin{bmatrix}I_r&\\&0\end{bmatrix}Q\)。帶入等式並整理對比後可知,\(P^{-1}A_iP\)和\(QA_jQ^{-1}\)左上角\(r\)階子矩陣相同,從而\(A_i,A_j\)在複數域有\(r\)個(算重數)相同的特徵值。反之如果\(A_i,A_j\)有\(r\)個(算重數)相同的特徵值,分別取對應\(r\)個線性無關的特徵值組成列矩陣\(R_i\)和行矩陣\(R_j'\),驗證\(X=R_iR_j'\)可知,它是方程\(A_iX=XA_j\)秩為\(r\)的一個解。綜合以上便有結論:方程\(A_iX=XA_j\)有秩為\(r\)的解的充要條件是,\(A_i,A_j\)在複數域有\(r\)個(算重數)相同的特徵值。

  以上結論能推推演至\(r\)成立的最大值,特別地,當\(r=0\)時方程只有零解,這時\(A_i,A_j\)在複數域沒有相同的特徵值。由多項式的結論知,\(A_i,A_j\)的特徵多項式互質(在任何數域)。這時既有,\(A_iX=XA_j\)只有零解的充要條件是,\(A_i,A_j\)的特徵多項式互質。所以如果按式(5)分割不變子空間,方程總是隻有零解,可交換問題就只需在不變子空間\(W_i\)中討論。但要注意\(W_i\)中可能有多個有理塊或Jordan塊,此時\(C[A_i]\)還沒有一般性的結論,我們只能討論一些特殊情況。簡單起見,以下還是記\(W_i\)為\(V\),記\(A|W_i\)為\(A\)。

  首先假定\(W_i\)中只有一個有理塊(或Jordan塊),也就是說標準型的每個有理塊是互素的,這時就能單獨討論有理塊了。記有理塊的基是\(\xi,A\xi,\cdots,A^{r-1}\xi\),並設\(B\in C[W_i]\)滿足\(B\xi=\sum a_iA^i\xi\)。對任意向量\(\alpha\),將其展開並根據\(A,B\)的可交換性,容易證得\(B\alpha=\sum a_iA^i\alpha\)。從而有\(B=\sum a_iA^i\in F[A]\),再次得到\(C[A]=F[A]\)。

  再看\(W_i\)的最小多項式是\(p(\lambda)\)是\(r\)階一次的情形。我們把\(V\)看成是域\(F(A)\)上的線性空間,並定義這個空間上的線性變換集\(H[A]=\text{Hom}_{F[A]}(V,V)\),這個神奇的角度可以讓\(f(A)\)如純量一樣自由穿梭,從而帶來所需的“交換”效果。比如對任何\(B\in H[A]\),總有\(B(A\alpha)=A(B\alpha)\),從而\(B\in C[A]\)或\(H[A]\subseteq C[A]\)。反之對任何\(B\in C[A]\),總有\(B(f(A)\alpha)=f(A)(B\alpha)\),所以\(B\)可以看成域\(F[A]\)上線性變換,即有\(B\in H[A]\)或\(C[A]\subseteq H[A]\)。綜合便得到\(C[A]=H[A]\),進一步還可以計算\(H[A]\)的維度:\(H[A]\)在域\(F[A]\)上是\(\dfrac{n^2}{r^2}\)維、在原始域上是\(\dfrac{n^2}{r}\)維的。

  更一般的\(W_i\)就不太好分析\(C[W_i]\)了,但還有一個漂亮的性質值得介紹一下。這裡先定義符號\(C^2[A]=C[C[A]]\),它表示與\(C[A]\)所有元素都可交換的變換集,首先因為\(A\in C[A]\),故有\(C^2[A]\subseteq C[A]\)。如果\(C[A]\)沒有達到下限\(F[A]\),更多的元素其實會對\(C^2[A]\)造成較大的限制,很有可能會有\(C^2[A]=F[A]\)。即對任意\(B=\in C^2[A]\),我們希望構造出\(B=g(A)\in F[A]\)。為此先將\(V\)分解成有理塊(或Jordan塊)\(\oplus U_i\),記迴圈子空間\(U_i\)的生成元為\(\xi_i\),以及最小多項式為\(p_i(\lambda)=p^{s_i}(\lambda)\),其中\(s_i\leqslant s\)。

  因為\(BA=AB\),所以\(U_i\)也是\(B\)-子空間,這裡記變換\(B_i=B|U_i\),前面已經證明了存在\(B_i=g_i(A_i)\)。那麼希望構造的\(g(A)\)必須滿足\(g(A_i)-g_i(A_i)=0\),即\(m_i(\lambda)\mid g(\lambda)-g_i(\lambda)\)。不難看出,如果方程有特解,必然是階數最高的\(g_i(\lambda)\),記對應的生成元為\(\xi\)。再記\(\alpha=p^{s-s_i}(A)\xi\),要使等式對每個\(i\)成立,等價於要求\(g(A)\alpha=g_i(A)\alpha\)。為了出現\(g_i(A)\),只需把\(\alpha\)看成\(\xi_i\)在某個變換下的象,而這個變換要與\(B\)可交換。對任意\(q(A)\xi_i\),構造變換\(H_i(q(A)\xi_i)=q(A)\alpha\),而在\(U_j\ne U_i\)上是單位對映。易證這個對映是良性定義的(如果\(q_1(A)\xi_i=q_2(A)\xi_i\)則象也相同),且有\(H_i\in C[A]\),則它滿足剛才的條件。構造成功後,逆推整個過程便有式(17)成立。

\[C^2[A]=C[C[A]]=F[A]\tag{17}\]

  最後來看可交換變換的一個性質。假設複數域上有\(AB=BA\),先取\(A\)的一個特徵子空間\(V(\lambda)\),那麼它也是\(B\)的不變子空間。現在在\(V(\lambda)\)中取\(B\)的特徵向量\(\alpha_1\),它是\(A,B\)的共同特徵向量。易知\(A,B\)在\(\alpha_1\)生成空間下的誘導變換仍然可交換,繼續這樣的討論,便能得到一組基\(\{\alpha_i\}\),其中\(A\alpha_i,B\alpha_i\)都可由\(\alpha_1,\cdots,\alpha_{i-1}\)表示。從變換矩陣的角度,就是存在\(P\)使得\(P^{-1}AP\)和\(P^{-1}BP\)都是上三角矩陣,且對角線都是特徵值。這個結論能擴充套件到任意多可交換變換。特別地,如果\(\{A_i\}\)都可以對角化、且互相可交換。先選擇基將\(A_1\)對角化。從本段開始的討論可知,這時其它變換的矩陣都是對角分塊矩陣,利用可對角化的條件(最小多項式),可遞推地將所有矩陣都對角化。也就是說,存在\(P\)使得\(P^{-1}A_iP\)都是對角矩陣,而剛才的結論就是該結論的擴