【何意味】关于高代的一点小巧思

欢迎来到新系列【何意味】，这个系列将会更新一些我也不知道何意味的东西。

大多将会成为个人学习数学的一点小小的迷思嗯对大概是这样。

本文为作者复习高等代数（II）的时候发疯得到的产物嗯对。

那天坐在文科楼的教室里面，好像脑子突然灵光一现，我对着目录看了半天，划出了五条主线，他们是：

向量的独立性
空间的结构
映射的信息
变换的化简和分类
内积带来的几何性质

如果用“衡量对象”来整理，则全书可以分成七条主线。

主线	对应概念	真正衡量的问题
自由度	线性无关、线性表出、极大无关组、秩、基、维数、坐标	到底有多少个真正独立的方向？哪些是冗余的？
子空间关系	子空间、张成、交、和、维数公式、直和、直和补、余维数	两个空间重叠多少？合起来多大？能否无重叠拼接？
信息流	线性映射、核、像、单射、满射、同构、秩–零化度公式	映射丢掉了什么？保留下来什么？输出覆盖了多少？
坐标表达	坐标、过渡矩阵、线性映射矩阵、分块矩阵、相似	同一个对象换坐标以后如何变化？哪些性质不随坐标变？
可分解性	特征值、特征向量、特征子空间、可对角化、不变子空间、准素分解	线性变换能否拆成互不干扰的模块？
相似分类	特征多项式、Hamilton–Cayley、极小多项式、-矩阵、不变因子、初等因子、有理标准型、Jordan 标准型	两个矩阵是否本质相同？如何找到最标准的代表？
几何保持	内积、长度、角度、正交、Gram 矩阵、正交投影、最小二乘、正交变换、对称变换	在线性结构之外，长度、角度、距离是否被保持？

而表达映射本身的一个方法是矩阵。所以说矩阵只是线性变换在某组基下的坐标表达；坐标只是向量在某组基下的数值表达。

因此，高等代数的核心是寻找好基，并找出换基后仍然不变的本质。

为了方便说明，把最后一条主线拆成两部分说，所以总共是八条。

第一条主线：自由度

核心问题

这一组概念的核心问题是： 核心问题：给定一批向量，它们到底提供了多少个真正独立的方向？线性代数的第一层抽象，就是把“方向”从几何空间推广到任意线性空间。一个向量组可能看起来有很多个向量，但其中很多可能只是前面向量的线性组合。所以我们需要一套语言描述“有效方向数”。

概念翻译表

概念	定义语言	衡量语言
线性组合		用已有方向制造新向量
线性表出	可写成的线性组合	没有提供新方向
线性相关	存在不全为零的系数使组合为	至少有一个向量是冗余的
线性无关	只有全零系数才能组合成	每个向量都贡献了新方向
极大无关组	无关且能表出原向量组	去掉全部冗余后的核心方向组
秩	极大无关组中向量个数	向量组的有效自由度
基	无关且张成整个空间	空间的无冗余坐标框架
维数	基中向量个数	空间的自由度

最核心的逻辑链

线性无关的意思是：没有冗余，因此可以作为坐标方向。张成的意思是：覆盖整个空间，因此任意向量都能表达。基就是“线性无关 + 张成”：既无冗余，又能覆盖整个空间。

三个层次：向量组的秩、子空间的维数、矩阵的秩

这三个东西本质是同一个自由度概念，只是放在不同对象上。

对象	名称	衡量什么
向量组		这组向量中独立方向的个数
子空间		这个空间本身的自由度
矩阵		列空间或行空间的自由度

若

则如果矩阵以这些向量为列，则

考试中自由度类题目的统一做法

判别线性无关/相关的统一套路

要证明线性无关：

设
把这个等式翻译成坐标、函数恒等式、矩阵等式或多项式恒等式。
证明只能推出
要证明线性相关，则找一组不全为零的系数使组合等于。

求秩的统一套路

求向量组或矩阵的秩，就是求它的最大无关子组。

如果对象在中，直接行化简或列化简。
如果对象是多项式或函数，先尝试转成系数矩阵或取值矩阵。
如果对象是抽象向量，利用线性表出关系、维数上界、替换引理。
最后给出极大无关组与秩。

常见误区

“向量个数多”不等于“秩大”。秩只看独立方向个数。
“张成空间相同”不要求两个向量组长度相同，只要求它们互相线性表出。
基不是“随便一组能表示空间的向量”，还必须无冗余。
零向量不能出现在任何线性无关组中。

第二条主线：空间关系

核心问题

从向量组进入子空间后，问题变成： 核心问题：几个空间之间有多少重叠？合起来有多大？能不能无重叠拼接？这就是“交、和、直和、余维数”的统一来源。

概念翻译表

概念	形式定义	衡量语言
子空间	对加法和数乘封闭的非空子集	大空间内部仍然保持线性结构的一块区域
张成空间	包含给定向量组的最小子空间	给定向量能控制的所有方向
交	同时属于与的向量	两个空间重叠多少
和	的全体	两个空间合起来能覆盖多少
维数公式		合并时要扣掉重复计算的重叠部分
直和		两个空间没有非零重叠
直和补	中的	用恰好补齐缺少的方向
余维数		距离整个还差多少维

维数公式：空间版容斥原理

对于有限维子空间，有

这和集合公式非常相似。唯一不同是：

集合论中衡量大小用元素个数；
线性空间中衡量大小用维数。

直和：唯一表达性

直和的本质是唯一表达。

直和的本质

对两个子空间，下列说法等价：

是直和，即；
在中的表达唯一；
中每个向量的表达唯一；
若有限维，则；
若是的基，是的基，则合并后是的基。

所以

真正表示：

考试中子空间关系类题目的统一做法

证明某集合是子空间

要证明是子空间：

先证，通常证明；
任取，证明；
任取，证明。

或者一步完成：任取与，证明

证明直和

证明是直和，有四种常用入口：

直接证；
设，证明；
证明中表达唯一；
有限维时用维数公式证明。

常见误区

一般不是子空间，除非或。
总是子空间，但通常不是。
不等于；后者还要求。
不等于；它只说明无重叠，不说明覆盖整个空间。

第三条主线：线性映射的信息流

核心问题

线性映射的本质问题是： 核心问题：输入信息经过以后，哪些被压成，哪些变成有效输出？因此，核与像孤立定义，而是线性映射的两个“信息统计量”。

概念翻译表

概念	定义语言	衡量语言
线性映射		保持线性组合结构的函数
核	被映到的向量集合	映射丢失的信息
像	所有构成的集合	映射实际能产生的输出
单射		没有非零方向被压扁
满射		输出空间全部被覆盖
同构	既单又满	完全不丢信息且不缺输出
矩阵表示	在基下把写成矩阵	用坐标计算抽象映射

秩–零化度公式：信息守恒

若有限维，则

这句话可以理解为：这句话可以理解为：输入自由度 = 被消灭的自由度 + 保留下来的自由度。于是：

越大，说明丢失的信息越多；
越大，说明的输出能力越强；
表示不丢方向，即单射；
表示覆盖目标，即满射。

同构：只换名字，不改结构

两个线性空间同构，本质上表示：和作为线性空间没有本质区别，只是元素名字不同。有限维情形最重要的结论是：

所以有限维线性空间的分类非常简单：有限维线性空间的本质只由维数决定。

考试中线性映射类题目的统一做法

求核与像

给定线性映射：

求核：解方程
得到一组基与维数。
求像：看对的一组基的作用。若是的基，则
用秩–零化度公式互相检查：

证明同构

证明是同构，可以任选以下路线：

直接证明线性、单射、满射；
若，证明单射即可；
若，证明满射即可；
证明把的一组基映成的一组基。

常见误区

核是定义域的子空间，像是陪域的子空间。
是满射的意思是
同构不是相等；同构是结构相同。
有限维同构只看维数，但具体同构映射不唯一。

第四条主线：表达方式的改变

核心问题

坐标与矩阵表示的核心问题是： 核心问题：同一个几何对象，换一组基以后，数字表达如何改变？这部分最容易让人迷糊，因为同一个对象会有多个矩阵表达。关键是区分：

向量、线性映射、线性变换本身是本体；
坐标列、矩阵只是它们在某组基下的表达。

向量坐标的换基

设与是的两组基，并且

若向量在 -基和 -基下的坐标分别为，则这里的列是新基在旧基下的坐标。

线性变换矩阵的换基：相似

设。若在 -基下的矩阵是，在 -基下的矩阵是，并且

则这就是矩阵相似。

相似的本质

两个矩阵相似，不是是说：与表示同一个线性变换，只是选取的基不同。因此相似是一种“同一对象的不同坐标表达”。

相似不变量：换基后仍然不变的东西

既然相似矩阵表示同一个线性变换，那么真正本质的性质必须在相似下保持不变。常见相似不变量包括：

秩：；
行列式：；
迹：；
特征多项式：；
特征值及其代数重数；
几何重数；
极小多项式；
不变因子、初等因子；
Jordan 块结构。

判断两个矩阵不相似的常见方法

若要证明与不相似，只需找一个相似不变量不同：

；
；
特征多项式不同；
极小多项式不同；
对某个，与不同；
Jordan 块大小不同。

第五条主线：可分解性

核心问题

线性变换最理想的情况是：存在一组基，使得每个基向量都只被拉伸，而不会被转到别的方向。也就是

所以这条主线的核心问题是： 核心问题：线性变换能否分解成若干个互不干扰的一维伸缩？

特征向量：不改变方向的向量

若

则是特征向量，是特征值。

它的直观含义是：经过后方向不变，只是长度按倍缩放。特征子空间

衡量的是：特征子空间表示所有被按倍缩放的方向组成的空间。

可对角化：特征向量够不够组成基

可对角化的本质是：有一组由特征向量组成的基。等价地，若是的不同特征值，则

这说明可对角化不是“有特征值”这么简单。判断可对角化的关键是：特征子空间的维数加起来是否足够填满整个空间。

代数重数与几何重数

对特征值：

代数重数：作为特征多项式根的重数；
几何重数：。

总有总有：几何重数不超过的代数重数，并且若是特征值，则。可对角化的常用判别是：可对角化，当且仅当特征多项式分裂，并且每个特征值的几何重数都等于代数重数。

考试中对角化类题目的统一做法

判断矩阵是否可对角化

设。

求特征多项式：
看是否在上完全分裂。
对每个特征值，求
比较
是否等于。
若等于，则可对角化；否则不可对角化。

求对角化

若可对角化：

分别求每个特征子空间的一组基；
把所有特征子空间的基合并成的一组基；
以这些特征向量为列组成矩阵；
得到
其中的对角元按中特征向量的顺序排列。

常见误区

有个特征值不一定准确。若有个互异特征值，则一定可对角化；但可对角化不要求特征值互异。
特征多项式能分裂不等于可对角化，还要检查特征向量够不够。
不同特征值对应的特征向量自动线性无关；同一特征值内部仍需取基。
对角化的矩阵的列必须是特征向量。

第六条主线：相似分类

核心问题

对角化是理想情况，但不是所有矩阵都能对角化。于是更深的问题是： 核心问题：如果不能对角化，能不能找到某种最简标准形式？这就是极小多项式、-矩阵、不变因子、初等因子、有理标准型、Jordan 标准型的统一动机。

多项式作用在矩阵上：变换满足什么方程

对矩阵和多项式

定义如果就说明满足代数方程。

极小多项式的本质

极小多项式是使

成立的首一多项式中次数最低者。

它衡量的是：极小多项式衡量的是：被多项式关系约束的最小复杂度。 Hamilton–Cayley 定理告诉我们：

因此极小多项式一定整除特征多项式：

极小多项式与可对角化

在特征多项式能分裂的情形下，最重要的判别是：可对角化，当且仅当无重根。直观解释：

若中出现或更高次，说明对应方向存在“纠缠链”；
若全部是一次因子的乘积，说明每个特征值对应部分都可以完全拆开。

-矩阵：把相似问题转成相抵问题

矩阵相似问题

可以转化为 -矩阵的相抵问题。

这一步的意义是：这一步的意义是：用多项式矩阵的不变量，刻画普通矩阵的相似不变量。

不变因子与初等因子

概念	形式来源	衡量语言
行列式因子	各阶子式的最大公因式	从中逐层提取公共约束
不变因子	相邻行列式因子的商	相似分类的完整多项式数据
初等因子	不变因子分解成不可约多项式幂	更细地记录每个不可约因子对应的块大小
有理标准型	由不变因子构造的块对角矩阵	任意数域上的标准相似代表
Jordan 标准型	由一次初等因子构造的 Jordan 块	复数域上的标准相似代表

Jordan 标准型：距离对角化还差多少

一个 Jordan 块

表示：这表示：在特征值附近，存在长度为的广义特征向量链。如果所有 Jordan 块都是，则矩阵可对角化。否则，不可对角化。

Jordan 块的直观解释

特征值只告诉你“有哪些伸缩倍率”；Jordan 块大小告诉你“这些伸缩方向纠缠到什么程度”。

所以 Jordan 标准型衡量的是：所以 Jordan 标准型衡量的是：一个线性变换离完全对角化还有多远。

考试中标准型类题目的统一做法

由初等因子写 Jordan 标准型

若初等因子为

则每个初等因子对应一个 Jordan 块把这些 Jordan 块放在对角线上，即得到 Jordan 标准型。

由 Jordan 标准型读极小多项式

对每个特征值，找它对应的最大 Jordan 块大小，则

特征多项式则由所有 Jordan 块大小总和给出：其中是对应所有 Jordan 块大小之和。

常见误区

特征多项式只知道每个特征值的总重数，不知道 Jordan 块如何拆分。
极小多项式只知道每个特征值最大 Jordan 块大小，不知道有几个块。
初等因子完整决定 Jordan 块，因此比单独的特征多项式和极小多项式更精细。
有理标准型适用于任意数域；Jordan 标准型通常要求特征多项式在该数域上分裂，特别常在上使用。

第七条主线：几何结构

核心问题

前面的线性空间只关心加法和数乘，不关心长度和角度。欧氏空间额外加入内积：

于是核心问题变成： 核心问题：在线性结构之外，如何衡量长度、角度、垂直、最近点？

概念翻译表

概念	形式定义	衡量语言
内积		两个向量的几何相关性
长度		向量大小
距离		两点远近
夹角		两个方向偏离程度
正交		两个方向互不干扰
Gram 矩阵		一组基下内积结构的矩阵表达
标准正交基	两两正交且长度为的基	最方便的几何坐标系
正交补		与完全无关的方向全体
正交投影		在中的最近成分
最小二乘	误差向量垂直于列空间	无解时求最佳近似解

Cauchy–Schwarz 不等式：内积几何的基础

它保证夹角公式有意义：

等号成立当且仅当线性相关。

Gram–Schmidt 正交化：把普通基变成好基

若是欧氏空间中的一组线性无关向量，则可以构造正交组：

再单位化得到标准正交组：

Gram–Schmidt 的本质

Gram–Schmidt 是在依次去掉当前向量在旧方向上的投影，保留真正的新正交方向。

正交补与投影：最佳逼近的来源

若是有限维欧氏空间的子空间，则

因此每个都可以唯一写成其中，是在上的正交投影，是误差。

最小二乘的几何本质

当线性方程无解时，我们希望找一个最接近。这等价于把投影到的列空间上。

最优条件是误差

垂直于列空间，因此于是得到正规方程

第八条主线：变换与几何结构的关系

核心问题

在欧氏空间中，我们不只关心线性变换是否保持加法和数乘，还关心： 核心问题：它是否保持长度、角度、内积？它能否在标准正交基下变简单？

正交变换：保持几何

线性变换是正交变换，如果

矩阵语言中，在标准正交基下：正交变换保持：

内积；
长度；
夹角；
距离；
正交性。

所以正交变换的本质是：所以正交变换的本质是：只旋转或反射，不拉伸、不压缩、不改变几何形状。

正交矩阵：列向量构成标准正交基

对实矩阵，以下条件等价：

是正交矩阵；
；
；
的列向量构成的一组标准正交基；
的行向量构成的一组标准正交基。

对称变换：能被正交对角化

线性变换是对称变换，如果

矩阵语言中，在标准正交基下：对称变换最重要的定理是：对称变换最重要的定理是：实对称矩阵一定可以正交对角化。即存在正交矩阵，使得其中是实对角矩阵。

对称矩阵为什么特别好

一般矩阵可对角化，只要求存在可逆矩阵使

实对称矩阵更强：可以选为正交矩阵，使这说明实对称变换不仅能分解成特征方向，而且这些特征方向还能取成标准正交基。

考试中正交/对称类题目的统一做法

判断正交矩阵

判断是否正交：

直接算是否等于；
或检查列向量是否两两正交且长度为；
或检查。

实对称矩阵正交对角化

设。

求特征值；
对每个特征值求特征子空间；
对每个特征子空间分别取标准正交基；
合并得到的标准正交特征向量组；
以这些向量为列构成正交矩阵；
得到

常见误区

正交矩阵不等于对称矩阵。正交是，对称是。
正交相似是相似的一种特殊形式，因为。
实对称矩阵不同特征值对应的特征向量自动正交；同一特征子空间内部需要正交化。
正交变换保持长度，不代表它一定是对称变换。