LDA

LDA技术

对于一类二分类问题，还可以采取线性判别分析(Liner Discriminant Analysis);

给定训练样例集，将样本投影到一条直线上，使得同类顶点尽可能接近，一类样本投影点尽可能远离；

同类点协方差尽可能小，异类中心距离尽可能大；

对新样本分类时，将其投影到该直线上，根据投影点的位置判定类别；因此LDA可以被视作监督降维技术；

对于二分类问题，假设两类样本的集合分别为和，它们的均值向量分别为和。其协方差矩阵为;

在投影到方向后，两类样本的均值分别为和 ;投影后的协方差矩阵变为和;

定义类内散度矩阵

投影后样本的类内总散度为。

定义类间散度矩阵

投影后两类样本的均值差的平方为

进一步定义全局散度矩阵为;

LDA的目标是最大化类间散度同时最小化类内散度，这可以表示为最大化以下目标函数：

这个目标函数就是广义瑞利商（Generalized Rayleigh Quotient）的形式。

转化为一个最优化问题，取分母为1，等价于

采用Lagrange乘子法，得到如下的广义特征值问题：

即最大化广义瑞利商的问题可以转化为求解一个广义特征值问题；

如果是可逆的（通常情况下需要满足样本维度小于样本数量，并且各个特征之间不是完全线性相关的）

因此，最优的投影方向对应于矩阵的最大的非零特征值所对应的特征向量。对于二分类问题，的秩最大为1，因此最多只有一个非零特征值。

对于不可逆的情况，考虑对作奇异值分解;

结果为

通常在计算时，为了数值稳定性，会先对数据进行白化处理。

对于不可逆的情况，考虑对作奇异值分解;

LDA可以自然地推广到多分类问题。假设有个类别，类别的样本集合为，均值向量为。

LDA的目标是找到一个投影矩阵，将样本从原始维空间投影到维子空间中，使得投影后的样本具有最大的类间可分性和最小的类内方差。通常，投影后的维度最大为。

多分类类内散度矩阵：

这里，是第类样本的均值向量。

多分类类间散度矩阵：假设总样本均值为，其中是总样本数。第类样本数为。

多分类LDA的目标是找到一个投影矩阵（其列向量是投影方向），使得投影后的类间散度尽可能大，类内散度尽可能小。这通常通过最大化以下目标函数来实现：

最大化这些目标函数等价于求解以下广义特征值问题：

最优的投影矩阵闭式解由与最大的个非零特征值对应的特征向量组成，即