Linear Algebra
Linear Algebra
本篇线性代数内容主要讲解一下关键的地方,以及一些重要的二级结论推导。全文没有严格的上下文关系。
催更|辅导|私塾兼职|联系偷偷:LifeGoesOn_Rio
1. 哈密尔顿-凯莱定理(Cayley-Hamilton Theorem)
哈密尔顿-凯莱定理是线性代数中的一个重要定理,它描述了每个方阵都满足自己的特征多项式。
定理内容: 设 $A$ 是一个 $n \times n$ 的方阵,其特征多项式为
$$
p_A(\lambda) = \det(\lambda I - A) = c_n \lambda^n + c_{n-1} \lambda^{n-1} + \dots + c_1 \lambda + c_0
$$
其中 $I$ 是 $n$ 阶单位矩阵,$c_i$ 是多项式的系数。
那么,将矩阵 $A$ 代入它的特征多项式,会得到:
$$
p_A(A) = c_n A^n + c_{n-1} A^{n-1} + \dots + c_1 A + c_0 I = 0
$$
即 矩阵 $A$ 代入自己的特征多项式后,结果是零矩阵。
证明思路(大致想法) 哈密尔顿-凯莱定理的证明通常有几种方法,最常见的方法基于矩阵的最小多项式:
最小多项式法:
- 设矩阵 $A$ 的最小多项式是 $m_A(\lambda)$,即 $m_A(A) = 0$ 且 $m_A(\lambda)$ 是 $A$ 所满足的次数最低的首一多项式。
- 由于特征多项式 $p_A(\lambda)$ 是 $A$ 的一个多项式,并且所有矩阵的特征多项式都能被它的最小多项式整除(即 $p_A(\lambda) = m_A(\lambda) q(\lambda)$),因此 $p_A(A) = 0$ 也成立。
利用行列式展开:
- 设 $A$ 的特征多项式 $p_A(\lambda) = \det(\lambda I - A)$。
- 将 $A$ 代入 $p_A(\lambda)$ 后,利用矩阵的特征向量与特征值的性质,可以证明 $p_A(A) = 0$。
外代数法(或幂零矩阵分解):
- 通过矩阵的分块结构,把 $A$ 表示为若尔当标准形的形式,再分别验证哈密尔顿-凯莱定理成立。
示例计算 假设我们有矩阵:
$$
A = \begin{bmatrix} 2 & 1 \\
0 & 3 \end{bmatrix}
$$
计算特征多项式:
$$
p_A(\lambda) = \det(\lambda I - A) = \begin{vmatrix} \lambda - 2 & -1 \\ 0 & \lambda - 3 \end{vmatrix}
$$计算行列式:
$$
(\lambda - 2)(\lambda - 3)
$$所以特征多项式为:
$$
p_A(\lambda) = \lambda^2 - 5\lambda + 6
$$代入 $A$ 计算:
$$
A^2 - 5A + 6I = \begin{bmatrix} 2 & 1 \\ 0 & 3 \end{bmatrix}^2 - 5 \begin{bmatrix} 2 & 1 \\ 0 & 3 \end{bmatrix} + 6 \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}
$$计算 $A^2$:
$$
A^2 = \begin{bmatrix} 4 & 5 \\ 0 & 9 \end{bmatrix}
$$计算:
$$
A^2 - 5A + 6I = \begin{bmatrix} 4 & 5 \\ 0 & 9 \end{bmatrix} - \begin{bmatrix} 10 & 5 \\ 0 & 15 \end{bmatrix} + \begin{bmatrix} 6 & 0 \\ 0 & 6 \end{bmatrix}
$$
$$
= \begin{bmatrix} 0 & 0 \\ 0 & 0 \end{bmatrix}
$$所以确实满足 $p_A(A) = 0$。
应用
计算矩阵的幂:
由于 $p_A(A) = 0$,可以将 $A^n$ 表示为 $A$ 的低次幂的线性组合,从而避免直接计算高次矩阵幂。求矩阵的逆:
若 $A$ 可逆,利用哈密尔顿-凯莱定理,可以通过特征多项式表示 $A^{-1}$:
$$
A^{-1} = \frac{1}{c_0}(-c_1 I - c_2 A - \dots - c_{n-1} A^{n-1})
$$
这样可以避免高维矩阵的直接求逆运算。微分方程的求解:
在常微分方程中,矩阵指数 $e^{At}$ 可以用哈密尔顿-凯莱定理来化简计算。量子力学与物理学:
在量子力学和经典力学的哈密顿系统中,哈密尔顿-凯莱定理常用于求解动力学系统的演化方程。
总结
- 核心思想:每个矩阵都满足自己的特征多项式。
- 证明方法:常用最小多项式法、行列式展开法、若尔当标准形法等。
- 应用:计算矩阵的幂、求逆矩阵、求解微分方程、应用于物理等。
2. 行列式的 Rank(秩)的几何意义
2.1. 线性相关性
矩阵的秩表示其行(或列)向量组的线性无关个数。如果一个矩阵的秩为 $r$,则意味着其中最多 $r$ 个行(或列)向量是线性无关的,而其余的行(或列)可以由这 $r$ 个向量线性表示。
- 如果秩等于矩阵的行数(或列数),那么所有的行(或列)向量都是线性无关的,矩阵是满秩的。
- 如果秩小于行(或列)数,则矩阵的行(或列)向量是线性相关的,意味着其中的某些行(或列)可以用其他行(或列)表示。
2.2. 维度与子空间
矩阵 $A$ 的秩可以理解为由 $A$ 的列向量张成的列空间(Column Space)的维度,也可以理解为由 $A$ 的行向量张成的行空间(Row Space)的维度。
- 列秩(Column Rank):列向量张成的向量空间的维度,表示矩阵映射的目标空间的维度。
- 行秩(Row Rank):行向量张成的向量空间的维度,表示矩阵映射的定义域的维度。
根据基本定理,列秩和行秩总是相等,因此可以用矩阵的秩(Rank)来统一表示。
2.3. 线性变换的几何意义
在几何上,矩阵可以看作是一个线性变换,其秩表示该变换所能映射到的空间的维度。
- 满秩矩阵(Full Rank):如果一个 $m \times n$ 矩阵 $A$ 的秩等于 $\min(m, n)$,则它表示的线性变换是最大维度的,即它能够映射到尽可能大的空间。
- 降秩矩阵(Rank Deficient):如果 $\operatorname{rank}(A) < \min(m, n)$,说明 $A$ 作为一个线性变换时,会把某些维度“压缩”到更低维的空间,可能导致信息丢失或映射不可逆。
2.4. 线性方程组解的情况
矩阵秩决定了线性方程组 $Ax = b$ 的解的情况:
- 如果 $\operatorname{rank}(A) = \operatorname{rank}([A | b])$,则系统有解。
- 如果 $\operatorname{rank}(A) < \operatorname{rank}([A | b])$,则系统无解(矛盾方程)。
- 如果 $\operatorname{rank}(A) = \operatorname{rank}([A | b]) = n$($A$ 是方阵且满秩),则系统有唯一解。
- 如果 $\operatorname{rank}(A) < n$,则系统有无穷多解(自由变量存在)。
2.5. 低秩矩阵的几何解释
- 秩 1 矩阵:所有列向量(或行向量)都在同一个方向上,矩阵仅表示一个单一方向的缩放。
- 秩 2 矩阵:表示一个平面(二维空间)上的变换,例如剪切或旋转。
- 秩 3 及以上:随着秩的增加,变换的自由度增加,表示更高维空间的映射。
2.6. 总结
- 秩表示矩阵的行或列向量的线性无关个数。
- 秩等于矩阵列空间(或行空间)的维度,决定了矩阵的线性变换能映射到的维度。
- 在几何上,矩阵的秩决定了它如何变换空间,例如投影、压缩、旋转等。
- 在线性方程组中,秩决定了方程组是否有解,以及解的个数。
- 低秩矩阵通常表示低维空间的结构,比如秩 1 矩阵对应单一方向的变换,秩 2 矩阵对应二维平面上的变换。
3. 范德蒙行列式(Vandermonde Determinant)
范德蒙行列式是线性代数中一个重要的行列式,在多项式插值、数值分析、群论和组合数学等领域都有广泛应用。
3.1. 定义
范德蒙行列式是一个特殊形式的行列式,其元素由一组数的幂次构成:
$$
V(x_1, x_2, \dots, x_n) =
\begin{vmatrix}
1 & x_1 & x_1^2 & \cdots & x_1^{n-1} \\
1 & x_2 & x_2^2 & \cdots & x_2^{n-1} \\
1 & x_3 & x_3^2 & \cdots & x_3^{n-1} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
1 & x_n & x_n^2 & \cdots & x_n^{n-1}
\end{vmatrix}
$$
该行列式的值称为范德蒙行列式(Vandermonde Determinant)。
3.2. 计算范德蒙行列式
范德蒙行列式的值有一个标准的封闭表达式:
$$
V(x_1, x_2, \dots, x_n) = \prod_{1 \leq i < j \leq n} (x_j - x_i)
$$
即,范德蒙行列式等于所有数 $x_1, x_2, \dots, x_n$ 之间两两之差的乘积。
示例:计算 $n=3$ 的范德蒙行列式
$$
V(x_1, x_2, x_3) =
\begin{vmatrix}
1 & x_1 & x_1^2 \\
1 & x_2 & x_2^2 \\
1 & x_3 & x_3^2
\end{vmatrix}
$$
按照行列式的展开计算:
$$
V(x_1, x_2, x_3) = (x_2 - x_1)(x_3 - x_1)(x_3 - x_2)
$$
与一般公式一致!
3.3. 范德蒙行列式的性质
(1) 反对称性
范德蒙行列式的值对任意两行(或两列)交换后变号:
$$
V(\dots, x_i, x_j, \dots) = -V(\dots, x_j, x_i, \dots)
$$
因此,如果有两个相同的 $x_i = x_j$,则 $(x_j - x_i) = 0$,导致整个行列式为零。这说明范德蒙行列式在变量相等时退化为零。
(2) 递归性质
$$
V(x_1, x_2, \dots, x_n) =
V(x_1, x_2, \dots, x_{n-1}) \prod_{j=1}^{n-1} (x_n - x_j)
$$
即,可以通过 $n-1$ 阶范德蒙行列式逐步计算出 $n$ 阶的结果。
3.4. 应用
(1) 多项式插值
在拉格朗日插值法中,范德蒙矩阵用于构造一组线性方程来求解插值系数。如果 $x_1, x_2, \dots, x_n$ 互不相同,则范德蒙矩阵是满秩的,因此该线性系统有唯一解。
(2) 线性无关性
范德蒙矩阵的行(或列)是线性无关的,当且仅当 $x_i$ 互不相同。这一性质用于多项式插值和数值分析中判断点集是否能构成唯一的插值多项式。
(3) 代数和组合数学
范德蒙行列式与牛顿插值公式、伽罗瓦理论、排列和置换的计数问题密切相关。
3.5. 总结
- 定义:范德蒙行列式是一个特殊的行列式,其元素由一组变量的幂构成。
- 计算公式:
$$
V(x_1, x_2, \dots, x_n) = \prod_{1 \leq i < j \leq n} (x_j - x_i)
$$ - 性质:
- 反对称性:交换两行(或两列)后变号。
- 若存在 $x_i = x_j$,则范德蒙行列式为 0。
- 可以递归计算。
- 应用:
- 多项式插值(如拉格朗日插值)
- 线性无关性判断
- 代数与组合数学中的应用
4. 行列式的运算规律
设 $A$、$B$ 是 $n \times n$ 的方阵,$|A|$ 表示矩阵 $A$ 的行列式。以下是常见的运算规律:
4.1 行列式的基本性质
单位矩阵的行列式为 1:
$$
|I_n| = 1
$$行列式的转置不变:
$$
|A^\mathrm{T}| = |A|
$$
4.2 初等行变换对行列式的影响
对矩阵 $A$ 进行以下初等行变换时,行列式发生如下变化:
初等行变换 | 对行列式的影响 |
---|---|
两行交换 | 行列式变号(乘以 $-1$) |
某行乘以一个数 $k$ | 行列式乘以 $k$ |
某行加上另一行的若干倍 | 行列式不变 |
✅ 结论:可以通过行变换将矩阵化为上三角矩阵,然后通过对角线元素相乘计算行列式,记得调整符号!
4.3 行列式的乘积法则
$$
|AB| = |A||B|
$$
- 提示:前提是 $A, B$ 都是 $n \times n$ 的方阵。
- 常见用法:推导可逆条件时使用。比如若 $|A| \ne 0$,则 $A$ 可逆,且:
$$
|A^{-1}| = \frac{1}{|A|}
$$
4.4 行列式与数乘
如果矩阵 $A$ 是 $n \times n$ 的方阵,$k$ 是数,则:
$$
|kA| = k^n |A|
$$
直观理解:每一行都乘以 $k$,相当于 $n$ 个 $k$ 相乘。
4.5 行列式与逆矩阵、幂运算
逆矩阵:
$$
|A^{-1}| = \frac{1}{|A|} \quad \text{前提:}|A| \ne 0
$$幂运算(整数次幂):
$$
|A^m| = |A|^m
$$
4.6 常见错误认识(⚠️务必注意)
行列式不能线性拆分:
$$
|A + B| \ne |A| + |B| \quad \text{一般不成立!}
$$不是所有矩阵都有行列式:
- 只有方阵才有行列式。
- 非方阵无法定义行列式。
4.7 特殊矩阵的行列式
上三角/下三角矩阵(或对角矩阵):
$$
|\text{三角矩阵}| = \text{主对角线元素的乘积}
$$伴随矩阵(Adjoint Matrix)相关:
若 $A$ 是可逆方阵:
$$
A^{-1} = \frac{1}{|A|} \cdot \text{adj}(A)
$$
4.8 行列式的列的加法性(线性性)
设 $A$ 是一个 $n \times n$ 的矩阵,如果第 $j$ 列是两个向量 $\mathbf{v}, \mathbf{w}$ 的和:
$$
\text{col}_j = \mathbf{v} + \mathbf{w}
$$
那么行列式满足加法性:
$$
\det A = \det A(\text{col}_j = \mathbf{v}) + \det A(\text{col}_j = \mathbf{w})
$$
同样地,如果该列乘以一个标量 $\lambda$,则有数乘性:
$$
\det A(\text{col}_j = \lambda \mathbf{v}) = \lambda \cdot \det A(\text{col}_j = \mathbf{v})
$$
这说明行列式关于任意一列是线性的函数,即具备“列的可拆性”。
4.3 证明(排列展开法)
根据行列式定义:
$$
\det A = \sum_{\sigma \in S_n} \operatorname{sgn}(\sigma) \cdot a_{1\sigma(1)} a_{2\sigma(2)} \cdots a_{n\sigma(n)}
$$
设第 $j$ 列为 $\mathbf{v} + \mathbf{w}$,则 $a_{ij} = v_i + w_i$。
将其代入行列式展开中,借助乘法对加法的分配律,可以将涉及第 $j$ 列的所有项拆成两部分,从而得到:
$$
\det A = \det A(\text{col}_j = \mathbf{v}) + \det A(\text{col}_j = \mathbf{w})
$$
4.4 示例($2 \times 2$ 矩阵)
设矩阵 $A$ 为:
$$
A =
\begin{bmatrix}
1 & a + c \\
2 & b + d
\end{bmatrix}
$$
计算其行列式:
$$
\det A = 1 \cdot (b + d) - 2 \cdot (a + c)
= (b - 2a) + (d - 2c)
$$
$$
\det A_1 =
\begin{vmatrix}
1 & a \\
2 & b
\end{vmatrix}
= 1 \cdot b - 2 \cdot a = b - 2a
$$
$$
\det A_2 =
\begin{vmatrix}
1 & c \\
2 & d
\end{vmatrix}
= 1 \cdot d - 2 \cdot c = d - 2c
$$
因此:
$$
\det A = \det A_1 + \det A_2 = (b - 2a) + (d - 2c)
$$
验证了列的加法性成立。
4.5 总结
行列式对每一列是线性函数;
包括两条性质:
- 加法性:若某列是 $\mathbf{v} + \mathbf{w}$,则 $\det A = \det(\text{col}_j = \mathbf{v}) + \det(\text{col}_j = \mathbf{w})$;
- 数乘性:若某列为 $\lambda \mathbf{v}$,则 $\det A = \lambda \cdot \det(\text{col}_j = \mathbf{v})$;
此性质称为多线性性的一部分,是证明许多行列式性质(如秩判断、线性无关性等)的基础。
5. 行列式转置的规律
5.1. 行列式转置不变性
对于任意 $n \times n$ 的矩阵 $A$,其转置矩阵为 $A^T$,有以下恒等式:
$$
\det(A^T) = \det(A)
$$
解释:行列式是关于行(或列)的交错多线性函数,转置只是行列互换,不影响行列式的值。
5.2. 对易性与乘法规则
对于两个 $n \times n$ 的矩阵 $A$ 和 $B$:
$$
(AB)^T = B^T A^T
$$
进而有:
$$
\det((AB)^T) = \det(B^T A^T) = \det(B^T) \cdot \det(A^T)
$$
又因为转置不改变行列式值,所以有:
$$
\det(AB) = \det(A) \cdot \det(B)
$$
5.3. 单位矩阵的转置
单位矩阵 $I_n$ 的转置仍为其本身,且行列式为 1:
$$
I_n^T = I_n, \quad \det(I_n) = 1
$$
5.4. 可逆矩阵的转置
若 $A$ 可逆,则 $A^T$ 也可逆,且:
$$
(A^T)^{-1} = (A^{-1})^T
$$
进一步有:
$$
\det((A^T)^{-1}) = \det((A^{-1})^T) = \det(A^{-1}) = \frac{1}{\det(A)}
$$
5.5. 特殊矩阵的转置与行列式
- 对称矩阵:$A^T = A$,故 $\det(A^T) = \det(A)$ 成立自然;
- 反对称矩阵:$A^T = -A$,当 $n$ 为奇数时,有:
$$
\det(A^T) = \det(-A) = (-1)^n \det(A) = -\det(A)
$$
所以 $\det(A) = -\det(A) \Rightarrow \det(A) = 0$
6. 行列式为非零(正则)的条件总结
在线性代数中,一个矩阵是正则矩阵(Regular Matrix),也称非奇异矩阵(Non-singular Matrix),当且仅当它的行列式不为零:
$$
\det(A) \ne 0 \quad \Leftrightarrow \quad A \text{ 是正则矩阵}
$$
正则矩阵具有以下等价条件:
(1) 存在逆矩阵
$$
\det(A) \ne 0 \quad \Leftrightarrow \quad \exists A^{-1},\ A A^{-1} = I
$$
(2) 满秩矩阵
$$
\det(A) \ne 0 \quad \Leftrightarrow \quad \text{秩}(!A) = n
$$
也就是说,$n \times n$ 的矩阵 $A$ 满秩时其行列式非零。
(3) 齐次线性方程组 $A\mathbf{x} = \mathbf{0}$ 仅有零解
$$
\det(A) \ne 0 \quad \Leftrightarrow \quad A\mathbf{x} = \mathbf{0} \text{ 仅有解 } \mathbf{x} = \mathbf{0}
$$
(4) 矩阵列(或行)线性无关
$$
\det(A) \ne 0 \quad \Leftrightarrow \quad \text{矩阵的行向量或列向量线性无关}
$$
(5) 可用初等行变换化为单位矩阵
$$
\det(A) \ne 0 \quad \Rightarrow \quad A \sim I_n
$$
即矩阵 $A$ 可以通过有限次初等行变换(不改变行列式为零与否)变成单位矩阵。
(6) 特征值均不为零(针对方阵)
若 $A$ 是 $n \times n$ 方阵,且其所有特征值为 $\lambda_1, \lambda_2, \dots, \lambda_n$,则:
$$
\det(A) = \prod_{i=1}^n \lambda_i
$$
因此:
$$
\det(A) \ne 0 \quad \Leftrightarrow \quad \lambda_i \ne 0,\ \forall i
$$
小结
一个 $n \times n$ 矩阵正则 ⇔ 行列式非零 ⇔ 满秩 ⇔ 可逆 ⇔ 行/列线性无关 ⇔ 齐次方程只有零解。
7. 线性相关和线性无关
在线性代数中,理解向量的线性相关性和无关性是判断一个向量组是否冗余、是否能构成基底(basis)或张成空间的关键。
定义
设有 $n$ 维向量空间中的向量组:
$$
{\mathbf{v}_1, \mathbf{v}_2, \dots, \mathbf{v}_k}
$$
我们考虑其是否满足以下关系:
$$
c_1 \mathbf{v}_1 + c_2 \mathbf{v}_2 + \cdots + c_k \mathbf{v}_k = \mathbf{0}
$$
其中 $c_1, c_2, \dots, c_k \in \mathbb{R}$(或 $\mathbb{C}$,取决于所在的向量空间)
7.1 线性相关(Linearly Dependent)
如果存在一组不全为零的系数 $c_1, c_2, \dots, c_k$,使上述等式成立,即:
$$
\exists, c_i \ne 0,\ \text{使得} \ \sum_{i=1}^k c_i \mathbf{v}_i = \mathbf{0}
$$
则称向量组线性相关。
➡️ 直观理解:至少有一个向量可以用其他向量线性表示。
7.2 线性无关(Linearly Independent)
如果只有当所有系数都为零时上述等式才能成立:
$$
c_1 = c_2 = \cdots = c_k = 0
$$
则称该向量组线性无关。
➡️ 直观理解:没有一个向量可以用其他向量线性组合得到。
线性相关例子:
$$
\mathbf{v}_1 = \begin{bmatrix}1\\2\\3\end{bmatrix},\quad
\mathbf{v}_2 = \begin{bmatrix}2\\4\\6\end{bmatrix}
$$
我们有:
$$
\mathbf{v}_2 = 2\mathbf{v}_1
$$
所以它们线性相关,因为存在非零系数使得:
$$
-2\mathbf{v}_1 + \mathbf{v}_2 = \mathbf{0}
$$
线性无关例子:
$$
\mathbf{v}_1 = \begin{bmatrix}1\\0\\0\end{bmatrix},\quad
\mathbf{v}_2 = \begin{bmatrix}0\\1\\0\end{bmatrix},\quad
\mathbf{v}_3 = \begin{bmatrix}0\\0\\1\end{bmatrix}
$$
标准正交基,它们线性无关,因为:
$$
c_1\mathbf{v}_1 + c_2\mathbf{v}_2 + c_3\mathbf{v}_3 = \mathbf{0} \Rightarrow c_1 = c_2 = c_3 = 0
$$
7.3 等价条件总结
一个向量组线性无关 ⇔ 下列任一条件成立:
向量组组成的矩阵 $A$ 满秩(即 $\text{rank}(A) = k$)
行列式非零(若是方阵):
$$
\det(A) \ne 0 \Rightarrow \text{列向量线性无关}
$$对应齐次线性方程组只有零解:
$$
A\mathbf{x} = \mathbf{0} \Rightarrow \mathbf{x} = \mathbf{0}
$$
8. Cramer 法则(Cramer’s Rule)
Cramer 法则 是一种求解线性方程组(特别是 $n$ 元 $n$ 次方程组)的方法,适用于系数矩阵可逆(即行列式非零)的情况。
✅ 适用前提
设有一个 $n$ 阶线性方程组:
$$
A\mathbf{x} = \mathbf{b}
$$
其中:
- $A$ 是一个 $n \times n$ 的系数矩阵
- $\mathbf{x} = [x_1, x_2, \dots, x_n]^T$ 是未知向量
- $\mathbf{b}$ 是常数向量
如果:
$$
\det(A) \ne 0
$$
则该线性方程组有唯一解,且可以通过 Cramer 法则表示。
📌 公式表达
设 $A_i$ 表示用向量 $\mathbf{b}$ 代替 $A$ 的第 $i$ 列后得到的矩阵。
则未知量 $x_i$ 可表示为:
$$
x_i = \frac{\det(A_i)}{\det(A)} \quad \text{for } i = 1, 2, \dots, n
$$
🧠 例子
解方程组:
$$
\begin{cases}
2x + 3y = 8 \\
5x - y = 9
\end{cases}
$$
- 构造系数矩阵 $A$:
$$
A = \begin{bmatrix}
2 & 3 \
5 & -1
\end{bmatrix},\quad
\mathbf{b} = \begin{bmatrix}
8 \
9
\end{bmatrix}
$$
- 求 $\det(A)$:
$$
\det(A) = 2 \cdot (-1) - 5 \cdot 3 = -2 - 15 = -17
$$
- 构造 $A_1$(用 $\mathbf{b}$ 替换第1列):
$$
A_1 = \begin{bmatrix}
8 & 3 \
9 & -1
\end{bmatrix},\quad
\det(A_1) = 8 \cdot (-1) - 9 \cdot 3 = -8 - 27 = -35
$$
- 构造 $A_2$(用 $\mathbf{b}$ 替换第2列):
$$
A_2 = \begin{bmatrix}
2 & 8 \\
5 & 9
\end{bmatrix},\quad
\det(A_2) = 2 \cdot 9 - 5 \cdot 8 = 18 - 40 = -22
$$
- 求解:
$$
x = \frac{\det(A_1)}{\det(A)} = \frac{-35}{-17} = \frac{35}{17},\quad
y = \frac{\det(A_2)}{\det(A)} = \frac{-22}{-17} = \frac{22}{17}
$$
🧾 总结
- Cramer 法则只能用于 系数矩阵 $A$ 是方阵且 $\det(A) \ne 0$ 的情形。
- 如果 $\det(A) = 0$,该方法不适用,需使用高斯消元法等其他方法。
- 对于高维度的大型方程组,Cramer 法则计算效率低,适合手算/小规模问题。
9. 正交矩阵(Orthogonal Matrix)的性质总结
✅ 定义
一个 $n \times n$ 的实矩阵 $Q$ 被称为正交矩阵,当且仅当:
$$
Q^T Q = QQ^T = I_n
$$
这等价于:
$$
Q^{-1} = Q^T
$$
📌 几何意义
正交矩阵代表一种保持内积、长度、角度不变的线性变换,几何上对应:
- 旋转(rotation)
- 反射(reflection)
⭐ 常见性质
9.1. 转置等于逆:
$$
Q^{-1} = Q^T
$$
这意味着求逆变得非常简单。
9.2. 保持向量长度(范数)不变:
对任意列向量 $\mathbf{x}$:
$$
| Q\mathbf{x} | = | \mathbf{x} |
$$
9.3. 保持内积不变:
对任意两个列向量 $\mathbf{x}, \mathbf{y}$:
$$
\langle Q\mathbf{x}, Q\mathbf{y} \rangle = \langle \mathbf{x}, \mathbf{y} \rangle
$$
即保持角度不变。
9.4. 列向量/行向量正交归一:
矩阵 $Q$ 的列向量是标准正交组:
$$
\mathbf{q}_i^T \mathbf{q}_j = \begin{cases}
1 & i = j \
0 & i \ne j
\end{cases}
$$
9.5. 行列式为 ±1:
$$
\det(Q) = \pm 1
$$
- $\det(Q) = 1$ 表示纯旋转
- $\det(Q) = -1$ 表示反射变换(如镜像)
9.6. 正交矩阵的乘积仍为正交矩阵:
若 $Q_1, Q_2$ 均为正交矩阵,则:
$$
Q = Q_1 Q_2 \quad \Rightarrow \quad Q \text{ 也是正交矩阵}
$$
9.7. 特征值性质:
正交矩阵的特征值满足:
- 模长为 1(即 $|\lambda| = 1$)
- 可能是复数(例如二维旋转矩阵的特征值为 $e^{\pm i\theta}$)
9.8. 正交矩阵是酉矩阵的实数特例:
酉矩阵(Unitary Matrix)满足 $U^* U = I$($U^*$ 是共轭转置),正交矩阵是所有元素为实数时的特例。
10. Schmidt 正交化(Gram-Schmidt Orthogonalization)
Gram-Schmidt 正交化是一种将一组线性无关的向量,构造为一组 正交 或 标准正交(单位正交) 向量的方法,常用于:
- 求正交(单位正交)基底
- 正交投影
- QR 分解
✅ 输入条件
设有一组线性无关的向量组:
$$
{\mathbf{v}_1, \mathbf{v}_2, \dots, \mathbf{v}_n}
$$
目标是构造出一组正交向量组:
$$
{\mathbf{u}_1, \mathbf{u}_2, \dots, \mathbf{u}_n}
$$
使得:
$$
\text{span}(\mathbf{v}_1, \dots, \mathbf{v}_k) = \text{span}(\mathbf{u}_1, \dots, \mathbf{u}_k),\quad \text{且 } \langle \mathbf{u}_i, \mathbf{u}_j \rangle = 0\ (i \ne j)
$$
🧠 正交化步骤(原始版)
- 第一个向量直接取:
$$
\mathbf{u}_1 = \mathbf{v}_1
$$
- 之后每一步都从当前向量中减去它在前面所有正交向量上的投影:
向量在 $\mathbf{u}_j$ 上的投影定义为:
$$
\mathrm{proj}_{\mathbf{u}_j}(\mathbf{v}_k) = \frac{\langle \mathbf{v}_k, \mathbf{u}_j \rangle}{\langle \mathbf{u}_j, \mathbf{u}_j \rangle} \mathbf{u}_j
$$
✨ 若要单位正交(正交归一化)
定义:
$$
\mathbf{e}_k = \frac{\mathbf{u}_k}{|\mathbf{u}_k|}
$$
📌 二维实例
设:
$$
\mathbf{v}_1 = \begin{bmatrix} 1 \\ 1 \end{bmatrix},\quad
\mathbf{v}_2 = \begin{bmatrix} 1 \\ 0 \end{bmatrix}
$$
步骤如下:
- 第一步:
$$
\mathbf{u}_1 = \mathbf{v}_1 = \begin{bmatrix}1\\1\end{bmatrix}
$$
若归一化:
$$
\mathbf{e}_1 = \frac{1}{\sqrt{2}} \begin{bmatrix}1\\1\end{bmatrix},\quad
\mathbf{e}_2 = \frac{1}{\sqrt{2}} \begin{bmatrix}1\\-1\end{bmatrix}
$$
10.1 🎯 示例:三个向量的 Gram-Schmidt 正交化
设向量组:
$$
\mathbf{v}_1 = \begin{bmatrix}1\\1\\0\end{bmatrix},\quad
\mathbf{v}_2 = \begin{bmatrix}1\\0\\1\end{bmatrix},\quad
\mathbf{v}_3 = \begin{bmatrix}0\\1\\1\end{bmatrix}
$$
我们的目标是构造出一组正交向量 ${\mathbf{u}_1, \mathbf{u}_2, \mathbf{u}_3}$。
✅ Step 1: 第一个向量直接取
$$
\mathbf{u}_1 = \mathbf{v}_1 = \begin{bmatrix}1\\1\\0\end{bmatrix}
$$
✅ Step 2: 计算 $\mathbf{u}_2$
首先计算投影:
$$
\mathrm{proj}_{\mathbf{u}_1}(\mathbf{v}_2)
= \frac{\langle \mathbf{v}_2, \mathbf{u}_1 \rangle}{\langle \mathbf{u}_1, \mathbf{u}_1 \rangle} \mathbf{u}_1
$$
内积:
$$
\langle \mathbf{v}_2, \mathbf{u}_1 \rangle = 1 \cdot 1 + 0 \cdot 1 + 1 \cdot 0 = 1 \\
\langle \mathbf{u}_1, \mathbf{u}_1 \rangle = 1^2 + 1^2 + 0^2 = 2
$$
所以:
$$
\mathrm{proj}_{\mathbf{u}_1}(\mathbf{v}_2) = \frac{1}{2} \begin{bmatrix}1\\1\\0\end{bmatrix} = \begin{bmatrix}0.5\\0.5\\0\end{bmatrix}
$$
✅ Step 3: 计算 $\mathbf{u}_3$
先计算 $\mathrm{proj}_{\mathbf{u}_1}(\mathbf{v}_3)$:
$$
\langle \mathbf{v}_3, \mathbf{u}_1 \rangle = 0 \cdot 1 + 1 \cdot 1 + 1 \cdot 0 = 1 \\
\langle \mathbf{u}_1, \mathbf{u}_1 \rangle = 2
$$
$$
\mathrm{proj}_{\mathbf{u}_1}(\mathbf{v}_3) = \frac{1}{2} \begin{bmatrix}1\\1\\0\end{bmatrix} = \begin{bmatrix}0.5\\0.5\\0\end{bmatrix}
$$
再计算 $\mathrm{proj}_{\mathbf{u}_2}(\mathbf{v}_3)$:
$$
\langle \mathbf{v}_3, \mathbf{u}_2 \rangle = 0.5 \cdot 0 + (-0.5) \cdot 1 + 1 \cdot 1 = -0.5 + 1 = 0.5 \\
\langle \mathbf{u}_2, \mathbf{u}_2 \rangle = 0.5^2 + (-0.5)^2 + 1^2 = 0.25 + 0.25 + 1 = 1.5
$$
$$
\mathrm{proj}_{\mathbf{u}_2}(\mathbf{v}_3) = \frac{0.5}{1.5} \begin{bmatrix}0.5\\-0.5\\1\end{bmatrix} = \frac{1}{3} \begin{bmatrix}0.5\\-0.5\\1\end{bmatrix} = \begin{bmatrix}\frac{1}{6}\\-\frac{1}{6}\\\frac{1}{3}\end{bmatrix}
$$
✅ 最终正交向量组
$$
\mathbf{u}_1 = \begin{bmatrix}1\\1\\0\end{bmatrix},\quad
\mathbf{u}_2 = \begin{bmatrix}0.5\\-0.5\\1\end{bmatrix},\quad
\mathbf{u}_3 = \begin{bmatrix}-\frac{2}{3}\\\frac{2}{3}\\\frac{2}{3}\end{bmatrix}
$$
也可以将它们归一化(单位化)得到标准正交基。
11. QR 分解(QR Decomposition)
QR 分解是将一个实矩阵 $A$ 分解成两个矩阵的乘积:
$$
A = QR
$$
其中:
- $Q$ 是一个 正交矩阵(列向量正交且单位长度,$Q^T Q = I$)
- $R$ 是一个 上三角矩阵
✅ 适用范围
- $A$ 是任意的 $m \times n$($m \ge n$)的列满秩矩阵
- 通常用于求解线性方程组、最小二乘拟合、特征值计算
🧠 QR 分解的意义
QR 分解将矩阵分解为:
- $Q$:正交(或单位正交)基底,保持角度与长度;
- $R$:记录了从标准基变换到原始列向量的投影系数。
几何上,QR 分解提供了一种将向量分解为正交基的线性组合的方式。
🧪 举例
设矩阵:
$$
A = \begin{bmatrix}
1 & 1 \\
1 & 0 \\
0 & 1
\end{bmatrix}
$$
我们使用 Gram-Schmidt 正交化 对 $A$ 的列向量进行处理。
✅ Step 1: 拆分列向量
记 $A = [\mathbf{a}_1\ \mathbf{a}_2]$:
$$
\mathbf{a}_1 = \begin{bmatrix}1\\1\\0\end{bmatrix},\quad
\mathbf{a}_2 = \begin{bmatrix}1\\0\\1\end{bmatrix}
$$
✅ Step 2: Gram-Schmidt 正交化
$\mathbf{u}_1 = \mathbf{a}_1$
单位化得 $\mathbf{q}_1$:
$$
|\mathbf{u}_1| = \sqrt{1^2 + 1^2 + 0^2} = \sqrt{2},\quad
\mathbf{q}_1 = \frac{1}{\sqrt{2}} \begin{bmatrix}1\\1\\0\end{bmatrix}
$$
投影:
$$
\mathrm{proj}_{\mathbf{q}_1}(\mathbf{a}_2) = \langle \mathbf{a}_2, \mathbf{q}_1 \rangle \cdot \mathbf{q}_1
= \left( \frac{1 \cdot 1 + 0 \cdot 1 + 1 \cdot 0}{\sqrt{2}} \right) \cdot \mathbf{q}_1
= \frac{1}{\sqrt{2}} \cdot \mathbf{q}_1
$$
$$
\mathbf{u}_2 = \begin{bmatrix}1\\0\\1\end{bmatrix} - \frac{1}{\sqrt{2}} \cdot \frac{1}{\sqrt{2}} \begin{bmatrix}1\\1\\0\end{bmatrix}
= \begin{bmatrix}1\\0\\1\end{bmatrix} - \frac{1}{2} \begin{bmatrix}1\\1\\0\end{bmatrix}
= \begin{bmatrix}0.5\\-0.5\\1\end{bmatrix}
$$
单位化 $\mathbf{u}_2$ 得 $\mathbf{q}_2$:
$$
|\mathbf{u}_2| = \sqrt{0.5^2 + (-0.5)^2 + 1^2} = \sqrt{1.5}
$$
$$
\mathbf{q}_2 = \frac{1}{\sqrt{1.5}} \begin{bmatrix}0.5\\-0.5\\1\end{bmatrix}
$$
✅ Step 3: 得到 $Q$ 与 $R$
$Q = [\mathbf{q}_1\ \mathbf{q}_2]$
$R$ 是:
$$
R = \begin{bmatrix}
\langle \mathbf{a}_1, \mathbf{q}_1 \rangle & \langle \mathbf{a}_2, \mathbf{q}_1 \rangle \\
0 & \langle \mathbf{a}_2, \mathbf{q}_2 \rangle
\end{bmatrix}
$$
你可以验证:
$$
A = QR
$$
🧾 QR 分解的应用
应用场景 | 说明 |
---|---|
解线性方程组 | 特别是在最小二乘问题中 $Ax \approx b$ |
特征值迭代算法 | QR 算法是一种迭代计算特征值的数值方法 |
稳定的矩阵分解 | 相较于直接求逆,QR 更稳定、适合数值计算 |
12. 平面三角形的中点公式 / 重心公式
一、中点公式(Midpoint Formula)
对于二维平面上的两个点 $A(x_1, y_1)$ 和 $B(x_2, y_2)$,线段 $AB$ 的中点 $M$ 的坐标是:
$$
M = \left( \frac{x_1 + x_2}{2},\ \frac{y_1 + y_2}{2} \right)
$$
这个公式的意思是:中点的坐标就是两个端点坐标的平均值。
二、重心公式(Centroid of a Triangle)
对于一个三角形,设三个顶点为:
- $A(x_1, y_1)$
- $B(x_2, y_2)$
- $C(x_3, y_3)$
这个三角形的重心(也叫质心、形心)$G$ 的坐标是:
$$
G = \left( \frac{x_1 + x_2 + x_3}{3},\ \frac{y_1 + y_2 + y_3}{3} \right)
$$
也就是三角形三个顶点坐标的平均值。
🚩 重心的性质:
- 重心是三角形三条中线的交点。
- 重心将每条中线分成2:1 的比例(靠近顶点的部分是较长的那段)。
- 重心是三角形“力的平衡点”,如果把每个顶点当作相同质量的点,重心是其平衡中心。
🧠 举个例子
设有三角形 $ABC$:
- $A(1, 2)$
- $B(4, 5)$
- $C(7, 1)$
那么重心 $G$ 的坐标为:
$$
G = \left( \frac{1+4+7}{3},\ \frac{2+5+1}{3} \right) = \left( \frac{12}{3},\ \frac{8}{3} \right) = (4,\ \frac{8}{3})
$$
13. 外积(叉积)
外积(叉积,Cross Product)是指三维空间中两个向量相乘得到一个垂直于这两个向量的向量。
设 $\vec{a}$ 和 $\vec{b}$ 是两个三维向量,它们的外积记作:
$$
\vec{a} \times \vec{b}
$$运算结果是一个向量,其方向由右手定则决定,大小为:
$$
|\vec{a} \times \vec{b}| = |\vec{a}| \cdot |\vec{b}| \cdot \sin \theta
$$其中 $\theta$ 是两个向量之间的夹角。
13.1 三维空间两向量的外积公式
设:
$$
\vec{a} = (a_1, a_2, a_3),\quad \vec{b} = (b_1, b_2, b_3)
$$
则它们的外积为:
$$
\vec{a} \times \vec{b} =
\begin{vmatrix}
\mathbf{i} & \mathbf{j} & \mathbf{k} \\
a_1 & a_2 & a_3 \\
b_1 & b_2 & b_3
\end{vmatrix}
= \left( a_2 b_3 - a_3 b_2,\ a_3 b_1 - a_1 b_3,\ a_1 b_2 - a_2 b_1 \right)
$$
13.2 外积的演算性质
📌 1. 反交换性(反对称性)
$$
\vec{a} \times \vec{b} = -(\vec{b} \times \vec{a})
$$
📌 2. 与自身的外积为零
$$
\vec{a} \times \vec{a} = \vec{0}
$$
📌 3. 分配律
$$
\vec{a} \times (\vec{b} + \vec{c}) = \vec{a} \times \vec{b} + \vec{a} \times \vec{c}
$$
📌 4. 数乘结合性
$$
(k\vec{a}) \times \vec{b} = k(\vec{a} \times \vec{b}) = \vec{a} \times (k\vec{b})
$$
📌 5. 外积垂直于两个原向量
$$
\vec{a} \cdot (\vec{a} \times \vec{b}) = 0,\quad \vec{b} \cdot (\vec{a} \times \vec{b}) = 0
$$
✅ 1. 向量 $\vec{a} \times \vec{b}$ 的方向:
由右手定则决定:用右手四指从 $\vec{a}$ 指向 $\vec{b}$,大拇指所指方向就是 $\vec{a} \times \vec{b}$ 的方向。
✅ 2. 向量 $\vec{a} \times \vec{b}$ 的大小:
等于由 $\vec{a}$ 和 $\vec{b}$ 构成的平行四边形的面积:
$$
|\vec{a} \times \vec{b}| = |\vec{a}| |\vec{b}| \sin\theta
$$
✅ 五、例题演示
设:
$$
\vec{a} = (1, 2, 3),\quad \vec{b} = (4, 5, 6)
$$
那么:
$$
\vec{a} \times \vec{b} =
\left|
\begin{array}{ccc}
\mathbf{i} & \mathbf{j} & \mathbf{k} \\
1 & 2 & 3 \\
4 & 5 & 6
\end{array}
\right|
= \left( 2\cdot6 - 3\cdot5,\ 3\cdot4 - 1\cdot6,\ 1\cdot5 - 2\cdot4 \right)
= (-3, 6, -3)
$$
14. 特征值(Eigenvalues)
设 $A$ 是一个 $n \times n$ 的方阵,如果存在一个非零向量 $\vec{x} \ne \vec{0}$ 和一个数 $\lambda$,使得:
$$
A \vec{x} = \lambda \vec{x}
$$
那么我们称:
- $\lambda$ 是矩阵 $A$ 的特征值(Eigenvalue)
- $\vec{x}$ 是对应的特征向量(Eigenvector)
📌 二、求特征值的方法
将 $A \vec{x} = \lambda \vec{x}$ 改写为:
$$
(A - \lambda I)\vec{x} = 0
$$
要使其有非零解,需要:
$$
\det(A - \lambda I) = 0
$$
这个方程叫做 特征方程,解出$\lambda$ 就是特征值。
📌 三、特征值的性质
设 $A$ 是 $n \times n$ 的矩阵,$\lambda_1, \dots, \lambda_n$ 是其特征值,则有以下重要性质:
✅ 1. 特征值之和 = $\operatorname{tr}(A)$(矩阵的迹)
$$
\lambda_1 + \lambda_2 + \dots + \lambda_n = \operatorname{tr}(A)
$$
迹(trace)定义为矩阵主对角线元素之和:
$$
\operatorname{tr}(A) = a_{11} + a_{22} + \dots + a_{nn}
$$
✅ 2. 特征值之积 = $\det(A)$(矩阵的行列式)
$$
\lambda_1 \cdot \lambda_2 \cdots \lambda_n = \det(A)
$$
✅ 3. 相似矩阵有相同特征值
如果 $A \sim B$($A$ 与 $B$ 相似),那么它们的特征值完全相同(包括重数):
$$
A \sim B \Rightarrow \text{Spec}(A) = \text{Spec}(B)
$$
15. 矩阵相似(Matrix Similarity)
两个 $n \times n$ 矩阵 $A$ 和 $B$,若存在一个可逆矩阵 $P$,使得:
$$
B = P^{-1} A P
$$
则称 $A$ 和 $B$ 相似,记作:
$$
A \sim B
$$
📌 15.1 相似矩阵的性质
✅ 1. 相似矩阵具有相同的:
- 特征值
- 行列式($\det A = \det B$)
- 迹($\operatorname{tr}(A) = \operatorname{tr}(B)$)
- 特征多项式
✅ 2. 相似矩阵可以视为是同一个线性变换在不同基下的矩阵表示。
✅ 举个例子
设:
$$
A = \begin{bmatrix} 2 & 1 \\ 0 & 3 \end{bmatrix}
$$
我们求其特征值:
$$
\det(A - \lambda I) = \begin{vmatrix} 2 - \lambda & 1 \\ 0 & 3 - \lambda \end{vmatrix} = (2 - \lambda)(3 - \lambda)
$$
得到特征值:$\lambda = 2,\ 3$
验证性质:
$\operatorname{tr}(A) = 2 + 3 = 5 = \lambda_1 + \lambda_2$
$\det(A) = 2 \cdot 3 = 6 = \lambda_1 \cdot \lambda_2$
16. 相似对角化(Matrix Diagonalization)
设 $A$ 是一个 $n \times n$ 的方阵,如果存在一个可逆矩阵 $P$ 和一个对角矩阵 $D$,使得:
$$
A = P D P^{-1}
$$
或者写作:
$$
P^{-1} A P = D
$$
则称 $A$ 可对角化(diagonalizable),$D$ 是 $A$ 的对角矩阵形式,$P$ 是构造它的特征向量矩阵。
这就是一个相似变换,所以称为相似对角化。
📌 对角化的意义
对角矩阵 $D$ 形式非常简单,只在主对角线上有数,其余为 0,比如:
$$
D = \begin{bmatrix}
\lambda_1 & 0 & \cdots & 0 \\
0 & \lambda_2 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \lambda_n
\end{bmatrix}
$$
如果 $A = PDP^{-1}$,那么:
- $A^k = P D^k P^{-1}$(非常容易计算 $A$ 的高次幂)
- 可以简化矩阵函数,如 $e^A = P e^D P^{-1}$(线性微分方程中常见)
📌 对角化的充分必要条件
一个 $n \times n$ 的矩阵 $A$ 可以对角化,当且仅当:
$A$ 有 $n$ 个线性无关的特征向量
这相当于说,矩阵 $A$ 是相似于某个对角矩阵的充要条件。
📌 对角化的步骤
设矩阵 $A$ 是 $n \times n$:
✅ 步骤1:求特征值 $\lambda$
解特征方程:
$$
\det(A - \lambda I) = 0
$$
✅ 步骤2:求每个特征值对应的特征向量
对于每个 $\lambda$,解:
$$
(A - \lambda I)\vec{x} = 0
$$
得到线性无关的特征向量。
✅ 步骤3:构造矩阵 $P$ 和 $D$
- $P$ 的列向量就是所有线性无关的特征向量
- $D$ 是对角矩阵,其对角元素是对应的特征值(顺序和 $P$ 一致)
📌 例题:对角化一个矩阵
设:
$$
A = \begin{bmatrix}
4 & 1 \\
0 & 2
\end{bmatrix}
$$
Step 1: 求特征值
$$
\det(A - \lambda I) = (4 - \lambda)(2 - \lambda)
$$
得特征值:$\lambda_1 = 4,\ \lambda_2 = 2$
Step 2: 求特征向量
对 $\lambda = 4$:
$$
(A - 4I)\vec{x} = \begin{bmatrix} 0 & 1 \\ 0 & -2 \end{bmatrix} \vec{x} = 0
$$
得特征向量 $\vec{v}_1 = \begin{bmatrix} 1 \ 0 \end{bmatrix}$
对 $\lambda = 2$:
$$
(A - 2I)\vec{x} = \begin{bmatrix} 2 & 1 \\ 0 & 0 \end{bmatrix} \vec{x} = 0
$$
得特征向量 $\vec{v}_2 = \begin{bmatrix} -1 \ 2 \end{bmatrix}$
Step 3: 构造 $P$ 和 $D$
$$
P = \begin{bmatrix}
1 & -1 \\
0 & 2
\end{bmatrix},\quad
D = \begin{bmatrix}
4 & 0 \\
0 & 2
\end{bmatrix}
$$
验证:
$$
P^{-1}AP = D
$$
📌 一些补充说明
❗ 不可对角化的情况:
有些矩阵没有 $n$ 个线性无关特征向量,例如:
$$
A = \begin{bmatrix}
1 & 1 \\
0 & 1
\end{bmatrix}
$$
它只有一个特征值 $\lambda = 1$,但只有一个特征向量 —— 无法对角化(只能上三角化或用Jordan标准形)。
✅ 可对角化充要条件回顾:
- 有 $n$ 个线性无关的特征向量
- 特征值代数重数 = 几何重数(每个特征值的重数 = 特征空间维数)
17. Jordan标准型(Jordan Canonical Form)
一个 $n \times n$ 的复矩阵 $A$ 总可以相似于一个分块上三角矩阵,该矩阵叫做 Jordan标准型,记作 $J$:
$$
A \sim J = P^{-1}AP
$$
其中 $P$ 是可逆矩阵,$J$ 的形式如下:
$$
J = \begin{bmatrix}
J_1 & & \\
& \ddots & \\
& & J_k
\end{bmatrix}
$$
每个 $J_i$ 是一个Jordan块(Jordan block),它的形式如下:
$$
J_i(\lambda) = \begin{bmatrix}
\lambda & 1 & 0 & \cdots & 0 \\
0 & \lambda & 1 & \cdots & 0 \\
\vdots & \ddots & \ddots & \ddots & \vdots \\
0 & \cdots & 0 & \lambda & 1 \\
0 & \cdots & \cdots & 0 & \lambda
\end{bmatrix}
$$
其中对角线上全是 $\lambda$,超对角线是 $1$,其他是 $0$。
每一个 Jordan块 对应一个 特征值 $\lambda$,如果矩阵不能对角化,说明该特征值的代数重数 > 几何重数。
- 代数重数(algebraic multiplicity):特征值 $\lambda$ 在特征多项式中的重数
- 几何重数(geometric multiplicity):特征空间的维度,也就是 $\dim(\ker(A - \lambda I))$
当代数重数 $>$ 几何重数时,$A$ 不可对角化,但可表示成Jordan标准型。
✅ 构造Jordan标准型的步骤
- 求特征值 $\lambda_1, \lambda_2, \dots$
- 对每个 $\lambda$ 求代数重数、几何重数
- 构造广义特征向量(generalized eigenvectors)
- 形成Jordan块
- 排列组合,形成Jordan矩阵
17.1 例子1️⃣
设
$$
A = \begin{bmatrix}
5 & 4 & 2 \\
0 & 5 & 1 \\
0 & 0 & 5
\end{bmatrix}
$$
- 特征值$\lambda = 5$
- 特征多项式 $(5 - \lambda)^3$,代数重数是 3
- $\ker(A - 5I)$ 只有一个自由变量,所以几何重数是 1
→ 无法对角化,但可以写成:
$$
J = \begin{bmatrix}
5 & 1 & 0 \\
0 & 5 & 1 \\
0 & 0 & 5
\end{bmatrix}
$$
17.2 例子2️⃣
设:
$$
A = \begin{bmatrix}
5 & 4 & 2 & 0 & 0 \\
0 & 5 & 1 & 0 & 0 \\
0 & 0 & 5 & 0 & 0 \\
0 & 0 & 0 & 3 & 1 \\
0 & 0 & 0 & 0 & 3
\end{bmatrix}
$$
✅ Step 1. 求特征值(eigenvalues)
这是一个上三角矩阵,特征值为主对角线上的数:
$$
\lambda_1 = 5 \quad(重数 3),\quad
\lambda_2 = 3 \quad(重数 2)
$$
✅ Step 2. 对每个特征值求几何重数(特征空间维数)
我们对 $\lambda = 5$ 和 $\lambda = 3$ 分别求 $\ker(A - \lambda I)$。
对 $\lambda = 5$:
$$
A - 5I = \begin{bmatrix}
0 & 4 & 2 & 0 & 0 \\
0 & 0 & 1 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & -2 & 1 \\
0 & 0 & 0 & 0 & -2
\end{bmatrix}
$$
只看 $A_1 = A[0:3,0:3]$ 的子块(即对应 $\lambda=5$ 的前3行3列):
$$
A_1 - 5I = \begin{bmatrix}
0 & 4 & 2 \\
0 & 0 & 1 \\
0 & 0 & 0
\end{bmatrix}
$$
求解 $\ker(A_1 - 5I)$:
该矩阵的秩为 $2$(两个主元),所以零空间维数是 $3 - 2 = 1$
→ 几何重数为 1,代数重数为 3 → 说明 $\lambda = 5$ 对应 一个大小为3的Jordan块
对 $\lambda = 3$:
取右下角 $2 \times 2$ 块:
$$
A_2 = \begin{bmatrix}
3 & 1 \\
0 & 3
\end{bmatrix}
\Rightarrow A_2 - 3I = \begin{bmatrix}
0 & 1 \\
0 & 0
\end{bmatrix}
$$
这是阶数为 1 的矩阵,秩为 1,零空间维数是 $2 - 1 = 1$
→ 代数重数为 2,几何重数为 1 → 所以 $\lambda = 3$ 对应 一个大小为2的Jordan块
✅ Step 3. 确定 Jordan 标准型结构
我们现在知道:
- 特征值 $5$ 有一个大小为 $3$ 的Jordan块
- 特征值 $3$ 有一个大小为 $2$ 的Jordan块
✅ Step 4. 写出Jordan标准型
Jordan标准型是对角块状矩阵:
$$
J = \begin{bmatrix}
J_1(5) & & \\
& J_2(3) &
\end{bmatrix}
$$
其中:
- $J_1(5)$ 是大小为 $3$ 的 Jordan 块:
$$
\begin{bmatrix}
5 & 1 & 0 \\
0 & 5 & 1 \\
0 & 0 & 5
\end{bmatrix}
$$
- $J_2(3)$ 是大小为 $2$ 的 Jordan 块:
$$
\begin{bmatrix}
3 & 1 \\
0 & 3
\end{bmatrix}
$$
最终的 Jordan 标准型为:
$$
J = \begin{bmatrix}
5 & 1 & 0 & 0 & 0 \\
0 & 5 & 1 & 0 & 0 \\
0 & 0 & 5 & 0 & 0 \\
0 & 0 & 0 & 3 & 1 \\
0 & 0 & 0 & 0 & 3
\end{bmatrix}
$$
18. 实对称矩阵(Real Symmetric Matrix)
一个实矩阵 $A \in \mathbb{R}^{n \times n}$ 称为实对称矩阵,如果它等于它的转置:
$$
A^\top = A
$$
也就是说,$A$ 满足:
$$
a_{ij} = a_{ji},\quad \forall i, j
$$
实对称矩阵最重要的定理是:
实对称矩阵总可以正交对角化。
更形式化地说:
若 $A$ 是 $n \times n$ 的实对称矩阵,则存在一个 正交矩阵 $Q$(即 $Q^\top Q = I$),使得:
$$
Q^\top A Q = \Lambda
$$
其中 $\Lambda$ 是一个对角矩阵,其对角线上的元素为 $A$ 的实特征值。
这称为 谱定理(Spectral Theorem)。
设:
$$
A = \begin{bmatrix}
2 & -1 \\
-1 & 2
\end{bmatrix}
$$
这是一个实对称矩阵。我们来对角化它:
解 $\det(A - \lambda I) = 0$:
$$
\begin{vmatrix}
2 - \lambda & -1 \\
-1 & 2 - \lambda
\end{vmatrix}
= (2 - \lambda)^2 - 1 = \lambda^2 - 4\lambda + 3 = 0
$$
解得:
$$
\lambda_1 = 1,\quad \lambda_2 = 3
$$
- 对 $\lambda = 1$:
$$
A - I = \begin{bmatrix}
1 & -1 \\
-1 & 1
\end{bmatrix} \Rightarrow x_1 = x_2
$$
特征向量:$\boldsymbol{v}_1 = \begin{bmatrix} 1 \ 1 \end{bmatrix}$
单位化得:$\boldsymbol{u}_1 = \dfrac{1}{\sqrt{2}} \begin{bmatrix} 1 \ 1 \end{bmatrix}$
- 对 $\lambda = 3$:
$$
A - 3I = \begin{bmatrix}
-1 & -1 \\
-1 & -1
\end{bmatrix} \Rightarrow x_1 = -x_2
$$
特征向量:$\boldsymbol{v}_2 = \begin{bmatrix} 1 \ -1 \end{bmatrix}$
单位化得:$\boldsymbol{u}_2 = \dfrac{1}{\sqrt{2}} \begin{bmatrix} 1 \ -1 \end{bmatrix}$
$$
Q = \begin{bmatrix}
\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \
\frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}}
\end{bmatrix},\quad
\Lambda = \begin{bmatrix}
1 & 0 \
0 & 3
\end{bmatrix}
$$
验证:
$$
Q^\top A Q = \Lambda
$$
19. 正定矩阵(Positive Definite Matrix)
一个 $n \times n$ 的实对称矩阵 $A$ 称为正定矩阵(positive definite),如果对任意非零列向量 $\boldsymbol{x} \in \mathbb{R}^n$,都有:
$$
\boldsymbol{x}^\top A \boldsymbol{x} > 0
$$
设:
$$
A = \begin{bmatrix}
2 & 0 \\
0 & 3
\end{bmatrix}
$$
则对任意非零向量 $\boldsymbol{x} = \begin{bmatrix} x_1 \ x_2 \end{bmatrix}$,有:
$$
\boldsymbol{x}^\top A \boldsymbol{x} = 2x_1^2 + 3x_2^2 > 0
$$
→ 所以 $A$ 是正定矩阵。
判断下列矩阵是否正定:
$$
A = \begin{bmatrix}
2 & -1 \\
-1 & 2
\end{bmatrix}
$$
方法一:特征值法
求特征值:
$$
\det\begin{bmatrix}
2 - \lambda & -1 \\
-1 & 2 - \lambda
\end{bmatrix}
= \lambda^2 - 4\lambda + 3 = 0 \Rightarrow \lambda = 1, 3
$$
两个特征值都 > 0 → 正定 ✅
方法二:主子式法
- 一级主子式:$2 > 0$
- 二级主子式:$\det(A) = 2 \cdot 2 - (-1)^2 = 3 > 0$
→ 所有主子式 > 0 → 正定 ✅
20. Rayleigh 商(Rayleigh quotient)
设 $A$ 是一个 实对称矩阵(或者复 Hermitian 矩阵),$x \in \mathbb{R}^n \setminus {0}$,则:
$$
R_A(x) = \frac{x^\top A x}{x^\top x}
$$
这个值称为向量 $x$ 关于矩阵 $A$ 的 Rayleigh 商(Rayleigh quotient)。
如果 $x$ 是 $A$ 的单位特征向量,则 $R_A(x)$ 就等于对应的特征值:
$$
A x = \lambda x \Rightarrow R_A(x) = \lambda
$$Rayleigh 商是一个关于 $x$ 的函数,其值在某种意义上“逼近”矩阵 $A$ 的特征值。
20.1 🔷 Rayleigh 商与特征值的不等式(极值性质)
设 $A$ 是 $n \times n$ 的实对称矩阵,其特征值满足:
$$
\lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_n
$$
则对任意非零向量 $x$,Rayleigh 商满足如下不等式:
$$
\lambda_1 \leq R_A(x) \leq \lambda_n
$$
也就是说,Rayleigh 商的取值总在 $A$ 的最小与最大特征值之间。
20.2 🌟 Rayleigh 商的极小极大值定理(Courant-Fischer 定理)
设 $A$ 是实对称矩阵,其特征值记为 $\lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_n$,则:
$$
\lambda_k = \min_{\dim(V)=k} \max_{x \in V,, x \neq 0} R_A(x)
$$
也就是说,$A$ 的第 $k$ 小特征值是所有 $k$ 维子空间中 Rayleigh 商最大值的最小值。
✅ 举个简单例子
设:
$$
A = \begin{bmatrix}
2 & 1 \\
1 & 3
\end{bmatrix},\quad x = \begin{bmatrix} 1 \\ 1 \end{bmatrix}
$$
$$
R_A(x) = \frac{7}{2} = 3.5
$$
而 $A$ 的特征值是 $\lambda_1 = \frac{5 - \sqrt{5}}{2} \approx 1.38$,$\lambda_2 = \frac{5 + \sqrt{5}}{2} \approx 3.62$,所以 Rayleigh 商确实落在特征值之间。
21. SVD 分解(Singular Value Decomposition)
对任意一个实矩阵 $A\in\mathbb{R}^{m\times n}$,存在三矩阵分解:
$$
A = U ,\Sigma, V^\top
$$
$U\in\mathbb{R}^{m\times m}$ 为正交矩阵,列向量称为 左奇异向量。
$V\in\mathbb{R}^{n\times n}$ 为正交矩阵,列向量称为 右奇异向量。
$\Sigma\in\mathbb{R}^{m\times n}$ 为“对角”矩阵:
$$
\Sigma = \begin{bmatrix}
\sigma_1 & & & & \\
& \sigma_2 & & & \\
& & \ddots & & \\
& & & \sigma_r & \\
& & & & \mathbf{0}
\end{bmatrix},\quad \sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_r > 0
$$其中 $r=\operatorname{rank}(A)$,${\sigma_i}$ 称为 奇异值。
21.1 SVD 存在性
对任意矩阵 $A$,总存在 SVD。
基于对称正定矩阵 $A^\top A$(或 $AA^\top$)的谱分解:
$$
A^\top A = V,\Lambda,V^\top,\quad \Lambda = \operatorname{diag}(\sigma_1^2,\dots,\sigma_n^2)
$$取 $\sigma_i=\sqrt{\lambda_i}$,再定义 $U$ 的列向量为
$$
u_i = \frac{1}{\sigma_i} A,v_i,\quad i=1,\dots,r
$$剩余列向量可任意补全正交基。
🧪 21.2 简单例题
令
$$
A = \begin{bmatrix}
3 & 1 \\
0 & 2 \\
0 & 0
\end{bmatrix}_{3\times2}
$$
- 计算 $A^\top A = \begin{bmatrix}9&3\\3&5\end{bmatrix}$,求特征值 $\lambda_1=10,\ \lambda_2=4$。
- 奇异值 $\sigma_1=\sqrt{10},\ \sigma_2=2$。
- 对应单位特征向量 $v_1,v_2$ 构造 $V$,
- 计算 $u_i=\tfrac1{\sigma_i}Av_i$ 构造 $U$。
- 最终得
$$
A = U\begin{bmatrix}\sqrt{10}&0\\0&2\\0&0\end{bmatrix}V^\top.
$$
SVD: A = U Σ Vᵀ
├── U: m×m 正交,左奇异向量
├── Σ: m×n,奇异值对角
├── V: n×n 正交,右奇异向量
├── 存在性: 基于 AᵀA 特征分解
├── 性质
│ ├── σ_i ≥ 0
│ ├── ‖A‖₂ = σ₁
│ ├── ‖A‖_F² = Σσ_i²
│ └── 最优低秩逼近
└── 应用: PCA, 压缩, 伪逆, 推荐系统…
22. 维数定理(Rank–Nullity Theorem)
设 $T: V \to W$ 是从有限维向量空间 $V$ 到 $W$ 的一个线性变换,或者说是一个 $m \times n$ 的矩阵 $A$ 表示 $T$,则有:
$$
\dim(\ker T) + \dim(\operatorname{Im} T) = \dim V
$$
也可写作矩阵形式:
$$
\text{nullity}(A) + \text{rank}(A) = n
$$
其中:
- $\ker T$ 是 $T$ 的核(null space);
- $\operatorname{Im} T$ 是 $T$ 的像空间(column space);
- $n$ 是 $A$ 的列数。
22.1 子空间维数公式(Grassmann’s Formula)
设 $U, W$ 是同一向量空间 $V$ 的两个子空间,则:
$$
\dim(U + W) = \dim U + \dim W - \dim(U \cap W)
$$
这被称为Grassmann 定理,揭示了两个子空间的并与交之间的维数关系。
✅ 推导简要:
我们从 $U$ 中选出一个 $\dim(U \cap W)$ 的基,然后补出$U$ 的基,记为 $u_1, …, u_k$;
从 $W$ 中也补出剩下的基 $w_1, …, w_l$。
那么 $U + W$ 的一组生成元为:
$$
{u_1, …, u_k, u_{k+1}, …, u_m, w_{k+1}, …, w_n}
$$
他们是线性无关的,其个数为:
$$
\dim U + \dim W - \dim(U \cap W)
$$
🧩 与矩阵运算结合的理解
若 $A$ 是 $m \times n$ 的矩阵,$Ax = b$ 可解 $\Leftrightarrow b \in \operatorname{Im}(A)$。
从维数定理得:
$$
\text{解空间的自由变量个数} = n - \text{rank}(A)
$$
23. Hermite矩阵(Hermitian Matrix)
Hermite矩阵(也称为厄米矩阵)是指等于其自身共轭转置的方阵。
数学表达为:
$$
A = A^*
$$
其中:
- $A$ 是一个复矩阵;
- $A^*$ 表示 $A$ 的共轭转置(先取复共轭,再转置)。
也就是说,对于所有 $i, j$,都有:
$$
a_{ij} = \overline{a_{ji}}
$$
一个 $2 \times 2$ 的 Hermite 矩阵:
$$
A = \begin{bmatrix}
2 & 3+i \\
3-i & 5
\end{bmatrix}
$$
验证是否是 Hermite 矩阵:
先取转置:
$$
A^T = \begin{bmatrix}
2 & 3-i \\
3+i & 5
\end{bmatrix}
$$
然后取共轭(即共轭转置):
$$
A^* = \begin{bmatrix}
2 & 3+i \\
3-i & 5
\end{bmatrix} = A
$$
所以它是 Hermite 矩阵。
23.1 Hermite矩阵的重要性质:
所有特征值都是实数
即使矩阵中含有复数,只要它是 Hermite 矩阵,其特征值一定是实数。不同特征值对应的特征向量正交
如果 $\lambda_1 \neq \lambda_2$,则对应的特征向量 $\mathbf{v}_1$ 和 $\mathbf{v}_2$ 满足:$$
\mathbf{v}_1^* \mathbf{v}_2 = 0
$$可以酉对角化(unitarily diagonalizable)
存在酉矩阵 $U$,使得:$$
A = U \Lambda U^*
$$其中 $\Lambda$ 是实对角矩阵(包含所有实特征值)。
主对角线上元素一定是实数
因为对于 $i=j$,有 $a_{ii} = \overline{a_{ii}}$,说明 $a_{ii}$ 为实数。Hermite矩阵的所有特征向量可以构成一个标准正交基底(单位酉矩阵)
实对称矩阵是 Hermite 矩阵的一种特殊情况,即:
$$
A = A^T = A^* \quad (\text{当 } A \text{ 是实矩阵时})
$$
所以实对称矩阵是 Hermite 矩阵的子集。
好的,我们来讲解线性代数中非常重要的一类矩阵:酉矩阵(Unitary Matrix)。
24. 酉矩阵(Unitary Matrix)
在复数域 $\mathbb{C}$ 中,如果一个复方阵 $U$ 满足
$$
U^\dagger U = UU^\dagger = I
$$
则称 $U$ 是一个酉矩阵,其中 $U^\dagger$ 表示 $U$ 的共轭转置矩阵(又叫埃尔米特共轭,Hermitian conjugate):
$$
U^\dagger = \overline{U}^T
$$
酉矩阵是复数域中对应于实数域中正交矩阵的推广。
- $\overline{U}$ 是 $U$ 的元素共轭矩阵,即对每个元素取复共轭。
- $U^T$ 是 $U$ 的转置。
- 所以 $U^\dagger$ 是先取共轭再转置。
🧠 24.1 几个例子
1. 单位矩阵一定是酉矩阵:
$$
U = I_n \Rightarrow U^\dagger = I_n, \quad U^\dagger U = I_n
$$
2. 复旋转矩阵:
考虑二维复旋转矩阵:
$$
U = \begin{bmatrix}
\cos\theta & \sin\theta \\
-\sin\theta & \cos\theta
\end{bmatrix}
$$
当 $\theta$ 为实数,这个是正交矩阵;若 $\cos\theta$ 和 $\sin\theta$ 是复数单位模数,这将成为酉矩阵。
3. 酉矩阵的性质
保持内积:
$$
\langle Ux, Uy \rangle = \langle x, y \rangle
$$酉变换不改变向量之间的夹角和长度(模)。
酉矩阵的逆是其共轭转置:
$$
U^{-1} = U^\dagger
$$特征值模长为 1:
若 $\lambda$ 是 $U$ 的特征值,则 $|\lambda| = 1$酉矩阵构成一个群:
酉矩阵在乘法下构成群(封闭性、单位元、逆元存在、结合性)。酉矩阵是“正交矩阵”的复数推广:
所有正交矩阵(实系数、$Q^T Q = I$)都是酉矩阵的一种特殊情况。
25. 二维旋转矩阵的定义
设有一个二维平面上的向量 $\begin{bmatrix} x \ y \end{bmatrix}$,我们希望将它绕原点旋转一个角度 $\theta$(逆时针方向为正方向),旋转后的新向量 $\begin{bmatrix} x’ \ y’ \end{bmatrix}$
这个 $2 \times 2$ 的矩阵就叫做 二维旋转矩阵,记作 $R(\theta)$:
$$
R(\theta) =
\begin{bmatrix}
\cos \theta & -\sin \theta \\
\sin \theta & \cos \theta
\end{bmatrix}
$$
正交性(orthogonality)
$$
R(\theta)^T R(\theta) = I
$$说明旋转矩阵是一个正交矩阵。
行列式为1
$$
\det(R(\theta)) = \cos^2\theta + \sin^2\theta = 1
$$可逆性
$$
R(\theta)^{-1} = R(-\theta)
$$保持向量长度
$$
| R(\theta) \mathbf{v} | = | \mathbf{v} |
$$因此旋转变换不改变向量的模长。
复数形式(便于与酉矩阵联系)
旋转矩阵可以视为复数乘法中的一个例子:$$
z = x + iy \quad\Rightarrow\quad e^{i\theta} z = \cos\theta z + i\sin\theta z
$$
将点 $(1, 0)$ 逆时针旋转 $90^\circ$(即 $\theta = \frac{\pi}{2}$)后变成了 $(0,1)$。
26. 常见的矩阵求导公式
- $x \in \mathbb{R}^{n \times 1}$:列向量
- $A \in \mathbb{R}^{n \times n}$:矩阵
- 所有求导默认为对列向量 $x$ 求导,结果为列向量或矩阵
- $\frac{\partial f}{\partial x}$ 表示 $f$ 对 $x$ 的导数
1.向量对向量的导数
$\frac{\partial (a^T x)}{\partial x} = a$
标量,$a$ 是常向量
$\frac{\partial (x^T a)}{\partial x} = a$
同上,注意 $x^T a = a^T x$
2.二次型(最常用)
$\frac{\partial (x^T A x)}{\partial x} = (A + A^T) x$
若 $A$ 对称,则简化为 $2A x$
$\frac{\partial (x^T x)}{\partial x} = 2x$
即 $A = I$ 的特例
3.向量-矩阵乘积
$\frac{\partial (A x)}{\partial x} = A$
$Ax$ 是一个向量,对 $x$ 求导为矩阵 $A$
$\frac{\partial (x^T A)}{\partial x} = A^T$
$x^T A$ 是行向量,对 $x$ 的导数是 $A^T$
4.Frobenius 范数相关
$\frac{\partial |A|_F^2}{\partial A} = 2A$
$\frac{\partial |Ax - b|_2^2}{\partial x} = 2A^T (Ax - b)$
最常用于线性回归
5.矩阵迹相关
$\frac{\partial \text{Tr}(A^T x)}{\partial x} = A$
$\frac{\partial \text{Tr}(x^T A x)}{\partial x} = (A + A^T) x$
等价于 $x^T A x$ 的求导(注意 $x$ 是列向量)
6.常见复合函数
$f(x) = \log(\sigma(x))$, $\sigma(x) = \frac{1}{1+e^{-x}}$
$\frac{df}{dx} = \sigma(x)(1 - \sigma(x))$
$f(x) = |Ax - b|_2^2 + \lambda |x|_2^2$
$\frac{df}{dx} = 2A^T (Ax - b) + 2\lambda x$
✳️ 延伸:矩阵对矩阵求导(高级)
- $\frac{\partial \text{Tr}(AB)}{\partial A} = B^T$
- $\frac{\partial \text{Tr}(A^T A)}{\partial A} = 2A$
- $\frac{\partial \text{Tr}(A X B)}{\partial X} = A^T B^T$
偷偷说
线性代数的修考侧重点主要还是各种性质的推导,因此在熟悉每一个概念的时候,对于原理的理解是非常重要的:).
PS: 调整这些公式的格式真的太考验我耐心了…