开发工具:
文件大小: 3mb
下载次数: 0
上传时间: 2019-07-16
详细说明:使用Stata做主成分分析,利用stata如何做主成分分析做了详细的解释0171215
使用 Stata做主成分分析
original data space
PCA
component space
PC 1
PC 2
PC 1
Gene 2
Gene t
图1
但是,对于更高维的数据,能想象其分布吗?就算能描述分布,如何精确地找到这些主成分的
轴?如何衡量你提取的主成分到底占了整个数据的多少信息?所以,我们就要用到主成分分析的
处理方法。
3.数据降维
为了说明什么是数据的主成分,先从数据降维说起。数据降维是怎么回事儿?假设三维空间中有
系列点,这些点分布在一个过原点的斜面上,如果你用自然坐标系xyz这三个轴来表示这组数
据的话,需要使用三个维度,而事实上,这些点的分布仅仅是在一个二维的平面上,那么,问题
出在哪里?
如果你再仔细想想,能不能把xyz坐标系旋转一下,使数据所在平面与y平面重合?这就对了
如果把旋转后的坐标系记为xy,z,那么这组数据的表示只用x和y两个维度表示即可
当然了,如果想恢复原来的表示方式,那就得把这两个坐标之间的变换矩阵存下来。这样就能把
数据维度降下来了!
但是,我们要看到这个过程的本质,如果把这些数据按行或者按列排成一个矩阵,那么这个矩阵
的秩就是2!这些数据之间是有相关性的,这些数据构成的过原点的向量的最大线性无关组包含2
个向量,这就是为什么一开始就假设平面过原点的原因!
那么如果平面不过原点呢?这就是数据中心化的缘故!将坐标原点平移到数据中心,这样原本不
相关的数据在这个新坐标系中就有相关性了!有趣的是,三点一定共面,也就是说三维空间中任
意三点中心化后都是线性相关的,一般来讲n维空间中的n个点一定能在一个n-1维子空间中分析!
上一段文字中,认为把数据降维后并没有丢弃任何东西,因为这些数据在平面以外的第三个维度
的分量都为0。现在,假设这些数据在z′轴有一个很小的抖动,那么我们仍然用上述的二维表示
https://mp.weixn.qq.com/s?biz=mza3ndg2Nzqznw==&mId=2650964232&idx1&sn=023ade27BcfEd37e7A89625d044d2879&chksm=848f168ab3f89f9...3/22
0171215
使用 Stata做主成分分析
这些数据,理由是我们可以认为这两个轴的信息是数据的主成分,而这些信息对于我们的分析已
经足够了,z′轴上的抖动很有可能是噪声,也就是说本来这组数据是有相关性的,噪声的引入,
导致了数据不完全相关,但是,这些数据在z′轴上的分布与原点构成的夹角非常小,也就是说在
z′轴上有很大的相关性,综合这些考虑,就可以认为数据在xy轴上的投影构成了数据的主
成分!
课堂上老师谈到的特征选择的问题,其实就是要剔除的特征主要是和类标签无关的特征。而这里
的特征很多是和类标签有关的,但里面存在噪声或者冗余。在这种情况下,需要一种特征降维的
方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。
PCA的思想是将n维特征映射到k维上(k(即xTu或者uTX)。
2.最小二乘法
我们使用最小二乘法来确定各个主轴(主成分)的方向。
https://mp.weixn.qq.com/s?biz=mza3ndg2Nzqznw==&mId=2650964232&idx1&sn=023ade27BcfEd37e7A89625d044d2879&chksm=848f168ab3f89f9
0171215
使用 Stata做主成分分析
对给定的一组数据(下面的闻述中,向量一般均指列向量)
15-2
其数据中心位于
=2
数据中心化(将坐标原点移到样本点的中心点)
1,x2,…,n}={1-1,2一1,…,En一}
中心化后的数据在第一主轴u1方向上分布散的最开,也就是说在u1方向上的投影的绝对值之和最
大(也可以说方差最大),计算投影的方法上面已经阐述,就是将x与u1做内积,由于只需要求u1
的方向,所以设u1也是单位向量
在这里,也就是最大化下式
w(i
2
由矩阵代数相关知识可知,可以对绝对值符号项进行平方处理,比较方便。所以进而就是最大化
下式
1、n
2
∑
两个向量做内积,可以转化成矩阵乘法
尤
u
所以目标函数可以表示为
1
括号里面就是矩阵乘法表示向量内积,由于列向量转置以后是行向量,行向量乘以列向量得到一
个数,一个数的转置还是其本身,所以又可以将目标函数化为
n之2(x2t1)(x74)
去括号:
https://mp.weixn.qq.com/s?biz=mza3ndg2Nzqznw==&mId=2650964232&idx1&sn=023ade27BcfEd37e7A89625d044d2879&chksm=848f168ab3f89f9...9/22
0171215
使用 Stata做主成分分析
1x1;l
又由于u1和无关,可以拿到求和符外面,上式化简为:
C∑x,x
学过矩阵代数的同学可能已经发现了,上式括号里面求和后的结果,就相当于一个大矩阵乘以自
身的转置,其中,这个大矩阵的形式如下:
X
飞
Ⅹ矩阵的第列就是xi
于是有
1
所以目标函数最终化为
1 I XX 1
其中的就是一个二次型,
我们假设x的某一特征值为入,对应的特征向量为,有
https://mp.weixn.qq.com/s?biz=mza3ndg2Nzqznw==&mId=2650964232&idx1&sn=023ade27BcfEd37e7A89625d044d2879&chksm=848f168ab3f89f...10/2
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.