主成分分析PCA笔记

1. 前言

PCA的目的:数据的变量之间可能存在相关性,以致增加了分析的难度,于是就考虑用不相关的变量来代替相关的变量,并要求能够保留数据中的大部分信息。由于变化之后的变量数量减少,维度降低,PCA本质上是一种降维方法,其他如NFM、t-SNE(mp -> m2)、umap。参考

image-20220728145837359

假设原数据为X,通过线性变换Y=AX,变换成新数据Y,并要求:

  1. Y每个变量(列向量)线性无关
  2. 少的维度能保留多的信息

这里需要对“信息”进行重点的说明:信息指的是原数据的方差

为什么是方差能代表信息呢?最主要的原因是方差是数据的扩散程度。方差为0,代表数据没有变化;方差小,变化小,可以被忽略。

PCA就是将原数据X进行线性变化,既需要使变换之后变量之间线性无关,又可以忽略掉变化小的变量,做到降维的目的

2. 算法推导

PCA中的原数据是规范化后的,平均值为0,方差为1.

协方差矩阵 Σ

如果X的协方差矩阵Cov(X) = Σ:

变换之后的协方差矩阵Cov(Y) = Cov(AX) = AΣAT

根据随机变量的性质:

var(yi) = γiTΣγi

cov(yi, yj) = γiTΣγj

主成分分析的线性变化,Y = AX要求

  1. γi 是单位向量,即A中向量两两正交,且γiTγi = 1
  2. yi与yj互不相关,即cov(yi, yj) = 0(i ≠ j)
  3. y1是方差最大,y2次之,以此类推。

假设y1是Y的第一个向量,期望y1保存的信息最多,也就是方差最大,如下:

image-20220728154826887

最优化问题

这个λ1是Σ的特征值,而γ1是对应特征向量

这样得到,要想y1的方差最大,λ1就应该是Σ最大的特征值,γ1(A的第一列)是对应的特征向量。

image-20220728161402961

image-20220728161550979

image-20220728161927946

λ1 是 Σ 是第二大的特征值,注意这里的λ仅是变量的命名。这样以此类推,就得到了γ2、γ3...

这样,也满足了cov(yi, yj) = γiTΣγj = 0 (i ≠ j),即Y中各向量线性无关。

结论

image-20220729162821833

整个过程:X => Σ => γ => A => Y

降维过程

Σ 的特征值,就是X的方差,也就是X的信息量。

image-20220728163241062

PCA本质上是做特征重构,通过少的维度,保留大部分的信息(方差)。

由此由X => Σ => γ => A => Y

3. 可解释性

原数据变量,如第一个变量代表身高,第二个变量代表体重,有很好的解释性。经过PCA之后的变量,就丧失了这种解释性。

这里计算一下变化之后变量Yk 与 变化之前变量Xi之间的相关系数:

image-20220729164501594

这里的α就是前边的γ

image-20220729165440328

这就像是xi经过变化散步到了yi上。

注: 这里并降维

4. 主成分回归

以下是PCA的应用吧,不作为重点

回归模型

image-20220730114006135

设 R = XTX 是 X的协方差矩阵,λ1 >= λ2 ...>= λp >=0 是它的特征值,以及γ1,γ2 ...γp是对应的特征向量。

为什么 XTX 是X的协方差矩阵?s

image-20220730073812926

image-20220730074206903

注:相当于对Z相当于对X进行PCA降维

image-20220730074515544

回归模型相当于设置αk = 0, k = r+1....p

image-20220730075446483

这些变量解释如下:

image-20220730075405620

image-20220730075727031

image-20220730080015479

image-20220730112016402

注:这里的 α 为什么等于这个等式并没有看懂,与之前的回归模型有什么关系?

X => λ、γ => Z、α

β的性质

这个模型应该就是估计α才对,以下为什么要去估计β?

image-20220730112504656

image-20220730112714262

均方误差

image-20220730113619971

MSE均方误差,当数据病态时,λr+1 以后比较小,1/λ之后就会比较大,减一个比较大的值,均方误差就比较小了。

当数据比较好,λ就比较大,PCA之后效果就没那么好了。

评论

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×