【有监督降维】LDA

介绍

LDA(Linear Discrimination Analysis) 是一种有监督降维模型。
区别于另一种LDA（Latent Dirichlet Allocation），这是一个关于NLP的模型。

1. LDA vs PCA

相同点：

两者均可以对数据进行降维。
两者在降维时均使用了矩阵特征分解的思想。
两者都假设数据符合高斯分布。都不适合非高斯分布样本。

不同点：

LDA是有监督的降维方法，而PCA是无监督的降维方法
LDA降维最多降到类别数k-1的维数，而PCA没有这个限制。
LDA除了可以用于降维，还可以用于分类。
LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向。
LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好。 LDA可能过度拟合数据。

LDA算法既可以用来降维，又可以用来分类，但是目前来说，主要还是用于降维。在我们进行图像识别图像识别相关的数据分析时，LDA是一个有力的工具

原理

$x \to w^Tx$ 向低维空间投影时，我们希望尽量让类间的距离尽量大（类间的距离用各类的中心点的距离来定义），同时希望让类内的距离尽量小

假设共有N个类，第$i$个类有$m_i$个样本，这个类的样本集合是$X_i$，这个类样本的均值是$u_i$

定义 类间散度矩阵 $S_b=\sum\limits_{i=1}^N m_i(u_i-u)(u_i-u)^T$
定义 每个类的散度矩阵 $S_{w_i}=\sum\limits_{x\in X_i}(x-u_i)(x-u_i)^T$
定义 类内散度矩阵 $S_w=\sum\limits_{i=1}^N S_{w_i}$

我们希望 $w^T S_b w$ 尽量小，同时 $w^T S_b w$ 尽量大（这两个都是矩阵）
常见的一个目标函数$\arg\min\limits_w J(w)=\dfrac{tr(w^T S_b w)}{tr(w^T S_w w)}$

算法流程

（略）

实现

# 载入数据
import sklearn.datasets as datasets

dataset = datasets.load_iris()
X, Y = dataset.data, dataset.target

# 构造模型
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
lda = LinearDiscriminantAnalysis()
lda.fit(X, Y) # 训练
lda.transform(X) # 输出降维后的数据 X-1维
lda.fit_transform(X,Y) # fit+transform

lda.predict(X) # LDA可以用来做预测
lda.predict_proba(X) # 也能计算概率
lda.score(X,Y)

参考文献

周志华：《机器学习》
http://www.cnblogs.com/pinard/p/6244265.html

0x00_读论文 11

0x11_算法平台 16

0x12_Pandas与numpy 12

0x13_特征工程 4

0x21_有监督学习 21

0x22_上世纪神经网络 10

0x23_神经网络与TF 17

0x24_NLP 13

0x25_CV 9

0x26_torch 5

0x31_降维 10

0x32_聚类 5

0x33_图模型 9

0x41_统计模型 9

0x42_概率论 7

0x43_时间序列 10

0x44_随机过程 2

0x51_代数与分析 13

0x52_方程 2

0x53_复分析与积分变换 8

0x55_数值计算 7

0x56_最优化 11

0x59_应用数学 10

0x60_启发式算法 8

0x70_可视化 11

0x80_数据结构与算法 21

0xa0_蒙特卡洛方法 6

0xb0_Python语法 19

0xd0_设计模式 7

介绍

1. LDA vs PCA

原理

算法流程

实现

参考文献