您好,欢迎光临本网站![请登录][注册会员]  
文件名称: 使用Stata做主成分分析.pdf
  所属分类: 讲义
  开发工具:
  文件大小: 3mb
  下载次数: 0
  上传时间: 2019-07-16
  提 供 者: qingji*******
 详细说明:使用Stata做主成分分析,利用stata如何做主成分分析做了详细的解释0171215 使用 Stata做主成分分析 original data space PCA component space PC 1 PC 2 PC 1 Gene 2 Gene t 图1 但是,对于更高维的数据,能想象其分布吗?就算能描述分布,如何精确地找到这些主成分的 轴?如何衡量你提取的主成分到底占了整个数据的多少信息?所以,我们就要用到主成分分析的 处理方法。 3.数据降维 为了说明什么是数据的主成分,先从数据降维说起。数据降维是怎么回事儿?假设三维空间中有 系列点,这些点分布在一个过原点的斜面上,如果你用自然坐标系xyz这三个轴来表示这组数 据的话,需要使用三个维度,而事实上,这些点的分布仅仅是在一个二维的平面上,那么,问题 出在哪里? 如果你再仔细想想,能不能把xyz坐标系旋转一下,使数据所在平面与y平面重合?这就对了 如果把旋转后的坐标系记为xy,z,那么这组数据的表示只用x和y两个维度表示即可 当然了,如果想恢复原来的表示方式,那就得把这两个坐标之间的变换矩阵存下来。这样就能把 数据维度降下来了! 但是,我们要看到这个过程的本质,如果把这些数据按行或者按列排成一个矩阵,那么这个矩阵 的秩就是2!这些数据之间是有相关性的,这些数据构成的过原点的向量的最大线性无关组包含2 个向量,这就是为什么一开始就假设平面过原点的原因! 那么如果平面不过原点呢?这就是数据中心化的缘故!将坐标原点平移到数据中心,这样原本不 相关的数据在这个新坐标系中就有相关性了!有趣的是,三点一定共面,也就是说三维空间中任 意三点中心化后都是线性相关的,一般来讲n维空间中的n个点一定能在一个n-1维子空间中分析! 上一段文字中,认为把数据降维后并没有丢弃任何东西,因为这些数据在平面以外的第三个维度 的分量都为0。现在,假设这些数据在z′轴有一个很小的抖动,那么我们仍然用上述的二维表示 https://mp.weixn.qq.com/s?biz=mza3ndg2Nzqznw==&mId=2650964232&idx1&sn=023ade27BcfEd37e7A89625d044d2879&chksm=848f168ab3f89f9...3/22 0171215 使用 Stata做主成分分析 这些数据,理由是我们可以认为这两个轴的信息是数据的主成分,而这些信息对于我们的分析已 经足够了,z′轴上的抖动很有可能是噪声,也就是说本来这组数据是有相关性的,噪声的引入, 导致了数据不完全相关,但是,这些数据在z′轴上的分布与原点构成的夹角非常小,也就是说在 z′轴上有很大的相关性,综合这些考虑,就可以认为数据在xy轴上的投影构成了数据的主 成分! 课堂上老师谈到的特征选择的问题,其实就是要剔除的特征主要是和类标签无关的特征。而这里 的特征很多是和类标签有关的,但里面存在噪声或者冗余。在这种情况下,需要一种特征降维的 方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性。 PCA的思想是将n维特征映射到k维上(k(即xTu或者uTX)。 2.最小二乘法 我们使用最小二乘法来确定各个主轴(主成分)的方向。 https://mp.weixn.qq.com/s?biz=mza3ndg2Nzqznw==&mId=2650964232&idx1&sn=023ade27BcfEd37e7A89625d044d2879&chksm=848f168ab3f89f9 0171215 使用 Stata做主成分分析 对给定的一组数据(下面的闻述中,向量一般均指列向量) 15-2 其数据中心位于 =2 数据中心化(将坐标原点移到样本点的中心点) 1,x2,…,n}={1-1,2一1,…,En一} 中心化后的数据在第一主轴u1方向上分布散的最开,也就是说在u1方向上的投影的绝对值之和最 大(也可以说方差最大),计算投影的方法上面已经阐述,就是将x与u1做内积,由于只需要求u1 的方向,所以设u1也是单位向量 在这里,也就是最大化下式 w(i 2 由矩阵代数相关知识可知,可以对绝对值符号项进行平方处理,比较方便。所以进而就是最大化 下式 1、n 2 ∑ 两个向量做内积,可以转化成矩阵乘法 尤 u 所以目标函数可以表示为 1 括号里面就是矩阵乘法表示向量内积,由于列向量转置以后是行向量,行向量乘以列向量得到一 个数,一个数的转置还是其本身,所以又可以将目标函数化为 n之2(x2t1)(x74) 去括号: https://mp.weixn.qq.com/s?biz=mza3ndg2Nzqznw==&mId=2650964232&idx1&sn=023ade27BcfEd37e7A89625d044d2879&chksm=848f168ab3f89f9...9/22 0171215 使用 Stata做主成分分析 1x1;l 又由于u1和无关,可以拿到求和符外面,上式化简为: C∑x,x 学过矩阵代数的同学可能已经发现了,上式括号里面求和后的结果,就相当于一个大矩阵乘以自 身的转置,其中,这个大矩阵的形式如下: X 飞 Ⅹ矩阵的第列就是xi 于是有 1 所以目标函数最终化为 1 I XX 1 其中的就是一个二次型, 我们假设x的某一特征值为入,对应的特征向量为,有 https://mp.weixn.qq.com/s?biz=mza3ndg2Nzqznw==&mId=2650964232&idx1&sn=023ade27BcfEd37e7A89625d044d2879&chksm=848f168ab3f89f...10/2
(系统自动生成,下载前可以参看下载内容)

下载文件列表

相关说明

  • 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
  • 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度
  • 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
  • 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
  • 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
  • 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.
 相关搜索: stata主成分分析步骤
 输入关键字,在本站1000多万海量源码库中尽情搜索: