随便翻翻

# 线性方程组

  • 当一个线性方程组有解时,我们称其为相容的。

  • 若两个线性方程组的增广矩阵是行等价的,则它们具有相同的解集。

  • 每一个矩阵都行等价于唯一的简化阶梯形矩阵。

    • 注:简化阶梯形就是在阶梯形基础上让主元是所在列唯一非零元。
  • 线性方程组相容的充要条件是增广矩阵的阶梯形没有形如(0...0b)b0(0\quad...\quad0\quad b)b\neq0 的行。

    • 相容时,当没有自由变量时,唯一解,否则无穷多解。
  • v1,v2,...,vpv_1,v_2,...,v_pRnR^n 中的向量,则Span{v1,v2,...,vp}Span\{v_1,v_2,...,v_p\} 表示由这些向量线性表示的向量的集合。(也就是RnR^n 的子空间,因为零向量也是他们的线性组合)

  • 线性方程组可以用三种不同但彼此等价的观点研究:

    • 矩阵方程Ax=bAx=b
    • 向量方程x1α1+x2α2+...+xnαn=bx_1\alpha_1+x_2\alpha_2+...+x_n\alpha_n=b
    • 增广矩阵表达的线性方程组(α1α2...αnb)(\alpha_1\quad\alpha_2\quad...\quad\alpha_n\quad b)
  • 若矩阵AA 的列向量组生成的向量空间Span{v1,...,vm}Span\{v_1,...,v_m\},则Ax=bAx=b 有解的充要条件是b\in Span\

  • 矩阵 A 的各列向量线性无关,当且仅当Ax=0Ax=0 有且仅有平凡解。

  • 若向量组中的向量个数大于每个向量中元素个数,则这个向量组一定线性相关。

  • 可以用一种新的视角来看待线性方程组:

    • An×mA_{n\times m} 可以看作是RmR^mRnR^n 的映射(或函数,变换),称RmR^m 为定义域,RnR^n 为余定义域,则Ax=bAx=b 就是求 b 是否在余定义域里。
    • 此时矩阵乘法可以看作一种变换T:RmRn:Ax=T(x)T:R^m\rightarrow R^n:Ax=T(x)
    • 若变换(或映射、函数)满足以下两个条件,则称其为线性的:
      • 对于定义域中一切u,vu,v,有T(u+v)=T(u)+T(v)T(u+v)=T(u)+T(v)
      • 对定义域中一切uu 以及标量cc,有T(cu)=cT(u)T(cu)=cT(u)
    • 显然,矩阵乘法表示的变换是线性变换。同样,每个线性变换都必然能用一个矩阵表示。A=T(E)A=T(E),即把单位阵每个列向量做变换 T,即得到该变换的标准矩阵
  • T:RmRnT:R^m\rightarrow R^n 是线性变换,则 T 是一一映射的充要条件是Ax=0Ax=0 有且仅有平凡解(也可以说充要条件是 T 的标准矩阵列向量线性无关)。

# 矩阵

# 逆矩阵

  • 可逆矩阵定理,以下命题等价
    • 矩阵 A 可逆
    • 矩阵 A 等价于单位阵
    • 矩阵 A 的列向量组线性无关
    • 线性变换y=Axy=Ax 是一一对应
    • 存在 B,使得 AB=E
    • 存在 B,使得 BA=E

# 矩阵的因式分解(LU 分解)

Am×n=(1000100101)(?0?000?00000)=Lm×mUm×nA_{m\times n}=\begin{pmatrix}1&0&0&0\\*&1&0&0\\*&*&1&0\\*&*&*&1\end{pmatrix}\begin{pmatrix}?&*&*&*&*\\0&?&*&*&*\\0&0&0&?&*\\0&0&0&0&0\end{pmatrix}=L_{m\times m}U_{m\times n}

  • 其中,L 是一个 m 阶下三角矩阵,且对角线元素都是 1,U 是 A 的一个等价的阶梯形矩阵,L 是可逆的,称为单位下三角矩阵

  • 此时Ax=bAx=b 可变为Ly=bUx=yLy=b且Ux=y,而这两个方程组由于系数矩阵都是阶梯阵所以比较好解。

  • 仅通过 “把每一行的倍数加到其下面的另一行” 就可以把 A 化为阶梯阵 U,即存在一系列下三角单位阵E1,...,EpE_1,...,E_p 满足EpEp1...E1A=UE_pE_{p-1}...E_1A=U,则L=(E_pE_{p-1}...E_1)^

    • 说起来复杂,但实际很好用。就分为两步:1、把 A 用 “把每一行的倍数加到其下面的另一行” 化为阶梯阵,2、往单位阵里填元素使得同样操作后可以化为单位阵。

    • 例:A=\begin{pmatrix}2&4&-1&5&-2\\-4&-5&3&-8&1\\2&-5&-4&1&8\\-6&0&7&-3&1\end

      • 第一步:处理 L 第一列,使得和 A 的第一列成比例

        L=(1000210011031)A(24152031230934100124125)L=\begin{pmatrix}1&0&0&0\\-2&1&0&0\\1&&1&0\\-3&&&1\end{pmatrix}A\sim\begin{pmatrix}2&4&-1&5&-2\\0&3&1&2&-3\\0&-9&-3&-4&10\\0&12&4&12&-5\end{pmatrix}

  • 第二步:处理剩下列

    L=(1000210013103421)A(24152031230002100005)=UL=\begin{pmatrix}1&0&0&0\\-2&1&0&0\\1&-3&1&0\\-3&4&2&1\end{pmatrix}A\sim\begin{pmatrix}2&4&-1&5&-2\\0&3&1&2&-3\\0&0&0&2&1\\0&0&0&0&5\end{pmatrix}=U

  • LU 分解法求解结果出色在于精度和时间,大约需要2n33\frac{2n^3}{3} 次浮点运算,而求A1A^{-1} 则需要大约2n32n^3 次运算。特别地,当 A 稠密,但 L 和 U 都稀疏时,LU 分解法表现异常出色。

# 子空间

  • 空间的定义:若HRnH\in R^n,且0H0\in H,且HH 对加法,数乘封闭。

  • 矩阵 A 的列空间就是矩阵 A 的列向量线性组合的集合,记作ColACol\quad A

    矩阵 A 的零空间是齐次方程组Ax=0Ax=0 的所有解的集合,记作NulANul\quad A

  • RnR^n 中子空间 H 的一组基是 H 中一个线性无关集,它生成了 H。

  • 矩阵 A 的主元所在的列向量构成了 A 的列空间的基。

  • 子空间的维数定义为该子空间任意一个基的向量个数(每个基都有相同个数的向量)。记为dimHdimH,{0}\{0\} 的维数定义为 0.

  • 矩阵的秩(记为rankArankA)是 A 的列空间的维数。

    • 秩定理:rankA+dimNulA=nrankA+dimNulA=n
    • 基定理:HHRnR^n 的 p 维子空间,则 H 中任意 p 个线性无关的向量都构成 H 的一个基。并且 H 中任何 p 个线性无关向量,如果它们能生成 H,则它们也是 H 的一个基。
  • 以下命题等价:

    • A 可逆
    • A 的列向量构成RnR^n 的一个基
    • ColA=RnColA=R^n
    • dimColA=ndimColA=n
    • rankA=nrankA=n
    • NulA=\
    • dimNulA=0dimNulA=0

# 行列式

  • 可以用一种新的视角看待行列式:

    把方阵 A 的一列看作自变量,其他看作常量,则

    T(x)=(α1α2...x...αn)T(x)=|(\alpha_1\quad\alpha_2\quad...\quad x\quad ...\quad \alpha_n)|

    行列式也可以看作一个线性变换,满足T(u+v)=T(u)+T(v),T(cu)=cT(u)T(u+v)=T(u)+T(v),T(cu)=cT(u)

  • Cramer 法则:

    Ax=b的解为xi=Ai(b)A其中Ai(b)表示把A种第i列替换为bAx=b的解为x_i=\frac{|A_i(b)|}{|A|}\\ 其中A_i(b)表示把A种第i列替换为b

  • 由方阵 A 的列向量确定的平行四边形、平行六面体… 的面积、体积… 为A|A|

  • T:R2R2T:R^2\rightarrow R^2 是由一个 2x2 矩阵 A 确定的线性变换,若 S 是任意一个有限面积的二维图形,则

    T(S)的面积=AS的面积T(S)的面积=|A|*S的面积

# 向量空间

  • 线性代数中,RnR^n 的子空间通常由以下两种方式产生:

    • 齐次线性方程组的解集
    • 某些确定向量线性组合的集合
  • 于是可以说,m×nm\times n 矩阵 A 的列空间等于RmR^m 当且仅当Ax=bAx=bRmR^m 中任意一个 b 都有解。

  • NulANulA ColAColA
    RnR^n 的一个子空间 RmR^m 的一个子空间
    是隐式定义的,只给出NulANulA 中向量 x 需要满足Ax=0Ax=0 是显式定义的,明确如何建立空间
    NulANulA 需要左行变换求解 Ax=0 ColAColA 只需要用 A 的列向量线性表示
    与 A 的数值无明显关系 A 的列向量都在ColAColA
    给定特定向量,很容易判断是否在NulANulA 给定特定向量,需要做行变换才能知道是否在ColAColA
  • 线性变换 T 的核(或零空间)是定义域内所有满足T(u)=0T(u)=0 的 u 的集合。

    T(x)=AxT(x)=Ax 则 T 的核为NulANulA,T 的值域为ColAColA

    核是定义域的子空间。

  • 矩阵 A 的主元列构成ColAColA 的一个基

    而可以通过求解Ax=bAx=b 得到NulANulA 的一个基

  • NulANulA 的维数是Ax=0Ax=0 中自由变量的个数

    ColAColA 的维数是 A 中主元列的个数

  • 若矩阵 A 与 B 行等价,则它们的行空间相同。若 B 是阶梯矩阵,则 B 的非零行构成了 A 和 B 的行空间的一组基。

# 特征值与特征向量

  • 三角矩阵的主对角线的元素是其特征值
  • 矩阵可对角化的充要条件是有 n 个线性无关的特征向量,即有足够的特征向量形成RnR^n 的基。

# 正交性和最小二乘法

  • 若向量 z 与空间 W 中任意向量都正交,则称 z 正交与 W。这样的 z 的集合称为 W 正交补,记作WW^{\bot}WW^\botRnR^n 的一个子空间。

  • (RowA)=NulA,(ColA)=NulAT(RowA)^\bot=NulA,(ColA)^\bot=NulA^T

  • {u1,...,up}\{u_1,...,u_p\}RnR^n 中子空间WW 的正交基,则对 W 中任意向量 y,y=c1u1+...+cpupy=c_1u_1+...+c_pu_p, 其中c_i=\frac{(y,u_i)}

  • 向量 y 在向量 u 上的投影为向量y^=(y,u)(u,u)u\hat{y}=\frac{(y,u)}{(u,u)}u, 而((zy^),u)=0((z-\hat{y}),u)=0

  • 一个m×nm\times n 的矩阵有单位正交列向量的充要条件是UTU=EU^TU=E。即为正交矩阵

  • 正交矩阵性质:

    • Ux=x|Ux|=|x|
    • (Ux)(Uy)=xy(Ux)(Uy)=xy
  • 正交分解定理:W 是RnR^n 的一个子空间,那么RnR^n 中每一个向量 y 都可以唯一地表示为y=y^+zy=\hat{y}+z,其中y^W,zW\hat{y}\in W,z\in W^\boty^=(y,u1)(u1,u1)u1+...+(y,up)(up,up)up,z=yy^\hat{y}=\frac{(y,u_1)}{(u_1,u_1)}u_1+...+\frac{(y,u_p)}{(u_p,u_p)}u_p,z=y-\hat{y}。称y^\hat{y} 是 y 在 W 上的正交投影。

  • 最佳逼近定理:W 是RnR^n 的一个子空间,y 是RnR^n 中任意向量,则y^\hat{y} 是 W 中向量对 y 的最佳逼近。即对于任意 W 中向量 v,有yy^yv|y-\hat{y}|\leq|y-v|

  • 格拉姆 - 施密特方法构造任何RnR^n 非零子空间的标准正交基。

    • 取v_1=x_1,W_1=Span \{ v_1 \} =Span \
    • v2x2W1上的垂直分量,即v2=x2(x2,v1)(v1,v1)v1v_2是x_2在W_1上的垂直分量,即v_2=x_2-\frac{(x_2,v_1)}{(v_1,v_1)}v_1, 再取W_2=Span \{ v_1,v_2 \} =Span \
    • 以此类推
  • 矩阵的 QR 分解:如果矩阵 A 列向量线性无关,那么 A 可以分解为A=QRA=QR,其中 Q 的列向量形成ColAColA 的一个标准正交基,R 是一个上三角可逆矩阵且对角线元素为正数。

    • Q 可以用格拉姆 - 施密特方法构造,是一个正交矩阵
    • QTA=QT(QR)=(QTQ)R=ER=RQ^TA=Q^T(QR)=(Q^TQ)R=ER=R, 所以R=QTAR=Q^TA

# 最小二乘问题

  • 最小二乘问题就是找到 x,使得Axb|Ax-b| 最小。根据前文,取最佳逼近定理于ColAColA 空间,即先求出 b 在ColAColA 上的正交投影b^\hat{b},然后就会存在x^\hat{x} 使得Ax^=b^A\hat{x}=\hat{b},而x^\hat{x} 就是最小二乘问题的解。

    • 此时注意到,bb^b-\hat{b} 正交于ColAColA, 即bAx^b-A\hat{x} 正交于 A 的每个列向量,所以有AT(bAx^)=0A^T(b-A\hat{x})=0
    • ATAx=ATbA^TAx=A^Tb 称为Ax=bAx=b 的法方程,解为x^\hat{x}
    • 方程的最小二乘解集和其法方程非空解集一致。
  • 以下命题等价:

    • 矩阵An×mA_{n\times m}, 对于任意bRm,Ax=bb\in R^m,Ax=b 有唯一最小二乘解
    • 矩阵 A 的列向量是线性无关的
    • 矩阵ATAA^TA 可逆

    注:ATAAA^TA和A 不具有相同可逆性,因为 A 不一定是方阵,但ATAA^TA 一定是。

  • 定理:若 Q 的列形成了空间 W 的一组正交基,则QTQbQ^TQb 表达了 b 在 W 上的正交投影。

  • 最小二乘解x^=R1QTb\hat{x}=R^{-1}Q^Tb,其中 Q,R 是 A 的 QR 分解矩阵。因为A\hat{x}=QR\hat{x}=QRR^{-1}Q^Tb=QQ^Tb=\hat

# 内积空间

  • 内积是一个定义在向量空间上的运算,满足:

    • <u,v>=<v,u><u,v>=<v,u>
    • <u+v,w>=<u,w>+<v,w><u+v,w>=<u,w>+<v,w>
    • <cu,v>=c<u,v><cu,v>=c<u,v>
    • <u,u>0<u,u>\geq 0,且等号成立的充要条件是 u=0
  • 内积空间 = 向量空间 + 内积运算,此时向量表示的是一个多项式。

    • 例:

      内积运算:<u,v>=u(2)v(2)+u(1)v(1)+u(0)v(0)+u(1)v(1)+u(2)v(2)<u,v>=u(-2)v(-2)+u(-1)v(-1)+u(0)v(0)+u(1)v(1)+u(2)v(2)

      空间:V 是由p1(t)=1,p2(t)=t,p3(t)=t2p_1(t)=1,p_2(t)=t,p_3(t)=t^2 三个向量构成的向量空间。

      求 V 的一组正交基。

      显然,<p1,p3>=0<p_1,p_3>=0 已经正交,考虑p3p_3Span{p1,p2}Span\{p_1,p_2\} 上的正交投影

      p3^=<p3,p1><p1,p1>p1+<p2,p1><p1,p1>p2=105p1+05p2=2p1\hat{p_3}=\frac{<p_3,p_1>}{<p_1,p_1>}p_1+\frac{<p_2,p_1>}{<p_1,p_1>}p_2=\frac{10}{5}p_1+\frac{0}{5}p_2=2p_1

      所以所求正交基为p1(t)=1,p2(t)=t,p3(t)=p3p3^=t22p_1'(t)=1,p_2'(t)=t,p_3'(t)=p_3-\hat{p_3}=t^2-2

  • 连续函数在闭区间 [a,b] 上,可定义内积<f,g>=abf(t)g(t)dt<f,g>=\int_{a}^bf(t)g(t)dt

  • 借助内积空间,可以在特定定义域下逼近函数。譬如用只含1,x1,x 的多项式在[1,2][1,2] 去逼近f=x2f=x^2,可得到Span{1,x}=Span{1,x32}Span\{1,x\}=Span\{1,x-\frac{3}{2}\}(正交基为 1 和 x-3/2),g=<x2,1><1,1>1+<x2,x32><x32,x32>(x32)=3x136g=\frac{<x^2,1>}{<1,1>}1+\frac{<x^2,x-\frac{3}{2}>}{<x-\frac{3}{2},x-\frac{3}{2}>}(x-\frac{3}{2})=3x-\frac{13}{6} 此时fg2=<fg,fg>=12(x23x+136)2dx|f-g|^2=<f-g,f-g>=\int_1^2(x^2-3x+\frac{13}{6})^2dx 最小。“逼近 “的含义取决于对内积运算的定义。

# 对称矩阵和二次型

  • 矩阵 A 可正交对角化的充要条件是 A 是对称矩阵。

  • 对称矩阵所有特征值几何重数 = 代数重数

  • 对称矩阵A=PΛPT=PΛP1A=P\varLambda P^T=P\varLambda P^{-1},若记P=(u1u2...un)P=(u_1\quad u_2\quad ...\quad u_n), 则A=i=1nλiuiuiTA=\sum_{i=1}^n\lambda_i u_iu_i^T, 将 A 分解为由 A 的谱(特征值)确定的小块,称为 A 的谱分解。

  • m=min{xTAx,x=1},M=max{xTAx,x=1}m=min\{x^TAx,|x|=1\},M=max\{x^TAx,|x|=1\}

    则 m 是 A 的最小特征值,M 是 A 的最大特征值。其余特征值在 [m,M] 中。当 x 取最小特征值的单位特征向量时,二次型 f 取得最小值 m,当 x 取最大特征值的单位特征向量时,二次型 f 取得最大值 M。