矩阵
1. 矩阵本质
1.1 矩阵的两种本质
解线性方程组

表示线性变换
矩阵是线性变换的便利表达法;矩阵的特征值和特征向量可以揭示线性变换的深层特性。
矩阵乘法的本质在联系到线性变换的时候最能体现,因为矩阵乘法和线性变换的合成有以下的联系:
![]() |
---|
![]() |
矩阵的秩是指矩阵中线性无关的行/列向量的最大个数,同时也是矩阵对应的线性变换的像空间的维度。秩-零化度定理说明矩阵的列数量等于矩阵的秩与零空间维度之和。 |
以下是一些典型的二维实平面上的线性变换对平面向量(图形)造成的效果,以及它们对应的二维矩阵。其中每个线性变换将蓝色图形映射成绿色图形;平面的原点(0, 0)用黑点表示。

1.2 线性变换(附)
设$V_n$,$U_m$ 分别是$n$维和$m$维线性空间,$T$是一个从$V_n$ 到$U_m$ 的映射,如果映射$T$满足:
- 任给$\bold{\alpha_1}, \bold{\alpha_2} \in V_n$(从而$\bold{\alpha_1} + \bold{\alpha_2} \in V_n$),有$T(\bold{\alpha_1} + \bold{\alpha_2})=T(\bold{\alpha_1}) + T(\bold{\alpha_2})$
- 任给$\bold{\alpha} \in V_n, ; \lambda \in R$(从而$\lambda \bold{\alpha} \in V_n$),有$T(\lambda \bold{\alpha}) = \lambda T(\bold{\alpha})$
那么,$T$就称为从$V_n$到$U_m$的线性映射,或称为线性变换。简言之,线性变换就是保持线性组合的对应的映射。
给定一个向量空间$V$,从$V$到$V$自身的线性变换$T$是一个保持向量加法和标量乘向量这两种运算的函数,例如旋转、反射、拉伸、压缩,或者这些变换的组合等等。
与矩阵的对应:
- 假设$V$和$U$是有限维的,并且在这些空间中有选择好的基,则从$V$到$U$的所有线性映射可以被表示为矩阵;反过来说,矩阵生成线性映射的例子。如果$A$是实数的$m \times n$矩阵,则规定$f(x)=Ax$描述一个线性映射$R^n \rightarrow R^m$ (欧氏空间)。
- 设${v_1,…,v_n}$是$V$的一个基,则在$V$中所有向量$v$都可由$c_1 v_1+⋯+c_n v_n$ 中的系数$c_1,⋯,c_n$ 唯一确定。如果$f:V→U$是线性映射,则有$f(c_1 v_1+⋯+c_n v_n )=c_1 f(v_1 )+⋯+c_n f(v_n )$,这表明这个函数$f$是完全由$f(v_1 ),⋯,f(v_n )$的值确定的。现在设${u_1,…,u_m }$是$U$的基,则每个$f(v_j )$的值可表示为$f(v_j )=a_{1j} u_1+⋯+a_{mj} u_m$,因此函数$f$是完全由$a_{i,j}$ 的值确定的。如果把这些值放置到一个$m \times n$的矩阵$A$中,则可以方便地使用它来计算$f$对$V$中任何向量的映射。
用矩阵表示线性变换的好处:
- 把线性映射写成具体而简明的二维矩阵形式后,则由线性映射的加法规则和复合规则来分别定义矩阵的加法规则和乘法规则就是很自然的想法。当空间的基变化(坐标系变换)时,线性映射的矩阵也会有规律地变化,在特定的基上研究线性映射,就转化为对矩阵的研究。利用矩阵的乘法,可以把一些线性系统的方程表达得更紧凑,也使几何意义更明显。
- 遇到$y=x+3$这样的加上了一个常量的非线性映射可以通过增加一个维度的方法,把变换映射写成$2 \times 2$的方形矩阵形式,从而在形式上把这一类特殊的非线性映射转化为线性映射。这个办法也适用于处理在高维线性变换上多加了一个常向量的情形。
给定有限维的情况,在基确定的情况下,线性映射的复合对应于矩阵乘法,线性映射的加法对应于矩阵加法,线性映射与标量的乘积对应于矩阵与标量的乘法。
一次函数$y=f(x)=x+b$仅在$b=0$时才是一种线性变换。容易验证一次函数仅在$b=0$时,线性变换的基本性质$f(0)=0$才能成立(尽管$b≠0$时其图像也是一条直线,但这里所说的线性不是指函数图像为直线)。同理,平移变换一般也不是线性变换(平移距离为零时才是线性变换)。
2. 行列式
方块矩阵$A$的行列式是一个将其映射到标量的函数,记作$det(A)$或$|A|$,反映了矩阵自身的一定特性。
一个方阵的行列式等于$0$当且仅当该方阵不可逆。系数是实数的时候,二维(三维)方阵$A$的行列式的绝对值表示单位面积(体积)的图形经过$A$对应的线性变换后得到的图形的面积(体积),而它的正负则代表了对应的线性变换是否改变空间的定向:行列式为正说明它保持空间定向,行列式为负则说明它逆转空间定向。

两个矩阵相乘,乘积的行列式等于它们的行列式的乘积:$det(AB)=det(A)\cdot det(B)$
行列式的一个自然起源是$n$维平等体的体积。行列式的定义和$n$维平行体的体积有着本质的关联:
![]() |
---|
![]() ![]() |
3. 特征值与特征向量
一个线性变换可以通过它们在向量上的作用来可视化。
对于一个给定的方阵$A$,它的特征向量$v$(非零向量)经过这个线性变换之后,得到的新向量仍然与原来的$v$保持在同一条直线上,但其长度或方向可能会发生改变,即 $$ Av = \lambda v $$ 其中$λ$为标量,即特征向量的长度在该线性变换下缩放的比例,称$λ$为其特征值(如果特征值为正,则表示经过线性变换的作用后方向也不变;如果特征值为负,说明方向会反转;如果特征值为$0$,则是表示缩回零点。但无论怎样,仍在同一条直线上)。

$Av=λv$可写作$(A−λE)v=0$,故等价于求解线性方程组的非零解,而它有非零解的充分必要条件是系数行列式 $$ det(A−λE)=|A−λE|=0 $$ 上式为以${λ}$为未知数的一元$n$次方程,称为矩阵$A$的特征方程,其左端可记作$f(λ)$,称为矩阵$A$的特征多项式。特征方程在复数范围内恒有$n$个解(重根按重数计算),因此$n$阶矩阵$A$在复数范围内恒有$n$个特征值,设其分别为$λ_1,λ_2,…,λ_n$,不难证明: $$ \lambda_1+\lambda_2+ \cdots + \lambda_n = a_{11} + a_{22} + \cdots + a_{nn} \ \lambda_1\lambda_2...\lambda_n=|A|=det(A) $$
一般来说,一个向量在经过映射之后可以变为任何可能的向量,而特征向量具有更好的性质。
在一定条件下(如对应实对称矩阵的线性变换),一个变换可以由其特征值和特征向量完全表述,也就是说:所有的特征向量组成了这向量空间的一组基底。
所有具有相同的特征值$λ$的特征向量和零向量一起,组成了一个向量空间,称为线性变换$T$的一个特征空间,一般记作$V_\lambda(T)$。这个特征空间如果是有限维的,那么它的维数叫做$λ$的几何重数。
4. 矩阵类型
对角矩阵
一种主对角线之外的元素皆为0的方阵。对象线上的元素可以为任意值。
单位矩阵
一种特殊的对角矩阵,其主对角线元素为1,其余元素为0。一个$m × n$的矩阵$A$和单位矩阵的乘积等于其本身: $$ AI_n=I_mA=A $$
对称矩阵
其转置等于自身的矩阵,即$A=A^T$ 。对称矩阵必然是方阵。
可逆矩阵
对于一个$n×n$的方块矩阵$A$,若存在另一方块矩阵$B$使得$AB=BA=I_n$,其中$I_n$ 为单位矩阵,则称$A$是可逆的。矩阵$A,B$互为逆矩阵。一个矩阵$A$的逆矩阵记作$A^{−1}$ 。
- 一个方阵$A$可逆的充要条件是$det(A)≠0$
- $可逆矩阵 \Leftrightarrow 非奇异矩阵 \Leftrightarrow 满秩矩阵$
正交矩阵
其逆矩阵等于其转置矩阵的方阵:$A^T =A^{-1}$ 。等价于$ATA=AAT=I_n$ 。
- 正交矩阵的行向量与列向量皆为正交的单位向量
- 对于正交矩阵$A$,$det(A)=±1$
- 从线性变换的角度看,正交矩阵对应正交变换,其保持距离不变,是一种保矩映射,如旋转与镜射。
相似矩阵
设$A,B$都是$n$阶矩阵,若有可逆矩阵$P$,使 $$ P^{-1}AP=B $$ 则称$A$与$B$相似,$A$和$B$互为彼此的相似矩阵。对$A$进行$P{-1}AP$称为对$A$进行相似变换,可逆矩阵$P$称为把$A$变成$B$的相似变换矩阵,可逆矩阵$P$称为把$B$变成$A$的相似变换矩阵。
若$n$阶矩阵$A$与$B$相似,则$A$与$B$的特征多项式相同,从而$A$与$B$的特征值亦相同。
两个相似的矩阵可以看做是同一个线性变换的“两面”,即在两个不同的基下的表现:
- 设线性空间$V_n$ 中取定两个基$α_1,α_2,⋯,α_n;\quad β_1,β_2,⋯,β_n$,由基$α_1,α_2,⋯,α_n$ 到基 $β_1,β_2,⋯,β_n$ 的过渡矩阵为$P$
- $V_n$ 中的线性变换$T$在这两个基下的矩阵依次为$A$和$B$,那么$B=P^{−1}AP$
正定矩阵
一种对称矩阵,在线性代数的含义里,正定矩阵的性质类似于复数中的正实数。对于一个$n×n$的对称矩阵$A$,如果对于所有非零向量$x∈\mathbb{R}^n$,都有 $$ x^TAx > 0 $$ 则称$A$为正定矩阵。类似地有:
条件 | 类型 |
---|---|
$x^TAx > 0$ | 正定矩阵 |
$x^TAx \geqslant 0$ | 半正定矩阵 |
$x^TAx < 0$ | 负定矩阵 |
$x^TAx \leqslant 0$ | 半负定矩阵 |
剩余情况 | 不定矩阵 |
Gram矩阵
向量空间中一组向量$v_1,v_2⋯,v_n$ 的Gram矩阵$G$定义为这组向量内积的对称矩阵,即 $$ G_{ij}=v_i^Tv_j $$ 应用:一组向量线性无关当且仅当其Gram矩阵的行列式不等于零,即 $$ det(G(v_1,...,v_n)) \neq 0 $$
Hessian矩阵
译作海塞矩阵、海森矩阵、黑塞矩阵等,是一个由多变量实值函数的所有二阶偏导数组成的方块矩阵。
假设有一实值函数$f(x_1,x_2,…,x_n )$,如果$f$的所有二阶偏导数都存在并在定义域内连续,那么函数$f$的海塞矩阵为$H_{ij}=\frac{\partial^2f}{\partial x_i \partial x_j}$,即: $$ \mathbf{H}=\left[\begin{array}{cccc}\frac{\partial^{2} f}{\partial x_{1}^{2}} & \frac{\partial^{2} f}{\partial x_{1} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{1} \partial x_{n}} \ \frac{\partial^{2} f}{\partial x_{2} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{2}^{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{2} \partial x_{n}} \ \vdots & \vdots & \ddots & \vdots \ \frac{\partial^{2} f}{\partial x_{n} \partial x_{1}} & \frac{\partial^{2} f}{\partial x_{n} \partial x_{2}} & \cdots & \frac{\partial^{2} f}{\partial x_{n}^{2}}\end{array}\right] $$
雅可比矩阵
雅可比矩阵(Jacobi矩阵):假设某函数$f$为从向量到向量的映射,$f:\mathbb{R}^n \rightarrow \mathbb{R}^m$,其雅可比矩阵为$m×n$的一阶偏导数矩阵$J_{ij}=\frac{\partial f_i}{\partial x_j}$,即: $$ \boldsymbol{J}=\left[\begin{array}{ccc}\frac{\partial \boldsymbol{f}}{\partial x_{1}} & \cdots & \frac{\partial \boldsymbol{f}}{\partial x_{n}}\end{array}\right]=\left[\begin{array}{ccc}\frac{\partial f_{1}}{\partial x_{1}} & \cdots & \frac{\partial f_{1}}{\partial x_{n}} \ \vdots & \ddots & \vdots \ \frac{\partial f_{m}}{\partial x_{1}} & \cdots & \frac{\partial f_{m}}{\partial x_{n}}\end{array}\right] $$
当雅可比矩阵为方阵时,其行列式称为雅可比行列式。
如果函数$f:\mathbb{R}^n \rightarrow \mathbb{R}^m$在点$x$可微,则函数在点$x$的雅可比矩阵为该函数在该点的最佳线性逼近,即雅可比矩阵实际上是单变量实数函数的微分在向量值多变量函数的推广,雅可比矩阵也被称作函数$f$在点$x$的微分或导数。