LDA技术

Idea

对于一类二分类问题,还可以采取线性判别分析(Liner Discriminant Analysis);

给定训练样例集,将样本投影到一条直线上,使得同类顶点尽可能接近,一类样本投影点尽可能远离;

同类点协方差尽可能小,异类中心距离尽可能大;

对新样本分类时,将其投影到该直线上,根据投影点的位置判定类别;因此LDA可以被视作监督降维技术;

image-20250530205130544

二分类问题

对于二分类问题,假设两类样本的集合分别为 ,它们的均值向量分别为 。其协方差矩阵为;

在投影到 方向后,两类样本的均值分别为 ;投影后的协方差矩阵变为;

定义类内散度矩阵

投影后样本的类内总散度为

定义类间散度矩阵

投影后两类样本的均值差的平方为

进一步定义全局散度矩阵为;

LDA的目标是最大化类间散度同时最小化类内散度,这可以表示为最大化以下目标函数

这个目标函数就是广义瑞利商(Generalized Rayleigh Quotient)的形式。

转化为一个最优化问题,取分母为1,等价于

采用Lagrange乘子法,得到如下的广义特征值问题:

即最大化广义瑞利商的问题可以转化为求解一个广义特征值问题;

如果 是可逆的(通常情况下需要满足样本维度小于样本数量,并且各个特征之间不是完全线性相关的)

因此,最优的投影方向 对应于矩阵 的最大的非零特征值所对应的特征向量。对于二分类问题, 的秩最大为1,因此最多只有一个非零特征值。

对于不可逆的情况,考虑对作奇异值分解;

结果为

通常在计算时,为了数值稳定性,会先对数据进行白化处理。

对于不可逆的情况,考虑对作奇异值分解;

多分类问题

LDA可以自然地推广到多分类问题。假设有 个类别,类别 的样本集合为 ,均值向量为

LDA的目标是找到一个投影矩阵 ,将样本从原始 维空间投影到 维子空间中,使得投影后的样本具有最大的类间可分性和最小的类内方差。通常,投影后的维度 最大为

多分类类内散度矩阵

这里, 是第 类样本的均值向量。

多分类类间散度矩阵: 假设总样本均值为 ,其中 是总样本数。第 类样本数为

多分类LDA的目标是找到一个投影矩阵 (其列向量是投影方向),使得投影后的类间散度尽可能大,类内散度尽可能小。这通常通过最大化以下目标函数来实现:

最大化这些目标函数等价于求解以下广义特征值问题:

最优的投影矩阵闭式解 由与最大的 个非零特征值 对应的特征向量 组成,即