《表格模板-应用统计学08第8章用少数变量代表多个变量 精品.ppt》由会员分享,可在线阅读,更多相关《表格模板-应用统计学08第8章用少数变量代表多个变量 精品.ppt(48页珍藏版)》请在第一文库网上搜索。
1、* * *应用应用统计统计应应 用用 统统 计计 学学 Applied StatisticsApplied Statistics* * *l如果你要到裁缝店定做一件上衣,需要测量很多尺寸,譬如身长、袖长、胸围、腰围、肩宽、肩厚等。但服装厂要生产一批新型服装,却不可能完全按照每个人的这些尺寸来对型号进行划分,而是把各个方面进行高度概括,用少数几个指标作为分类的型号,简单明了的反映不同人群的体态特征。l日常生活中经常遇到包含很多变量的数据,比如各个地区的若干经济指标数据,上市公司财务报表公布的多项财务数据等等。l这些数据中的变量虽然很多,但往往相互之间都有着一定的关联,这使得只要找出少数几个“代表
2、”就可以对复杂的信息进行比较完整的描述了。主成分分析和因子分析便是实现这一过程的两种方法。* * *第第 8 章章 用少数变量代表多个变量用少数变量代表多个变量8.1 主成分分析主成分分析 8.2 因子分析因子分析* * *n在研究实际问题时,往往需要收集多个变量。但这在研究实际问题时,往往需要收集多个变量。但这样会使多个变量间存在较强的相关关系,即这些变样会使多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复,直接利用它们进行分析量间存在较多的信息重复,直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差。而引
3、起较大的误差。n为能够充分利用数据,通常希望用较少的新变量代为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,同时要求这些新变量尽可能替原来较多的旧变量,同时要求这些新变量尽可能反映原变量的信息。反映原变量的信息。n主成分分析和因子分子正是解决这类问题的有效方主成分分析和因子分子正是解决这类问题的有效方法。它们能够提取信息,使变量简化降维,从而使法。它们能够提取信息,使变量简化降维,从而使问题更加简单直观。问题更加简单直观。主成分分析和因子分析主成分分析和因子分析* * *8.1 主成分分析主成分分析 8.1.1 主成分分析的基本思想是什么?主成分分析的基本思想是什么? 8.1.
4、2 如何选择主成分?如何选择主成分? 8.1.3 怎样解释主成分?怎样解释主成分?第第 8 章章 用少数变量代表多个变量用少数变量代表多个变量* * *8.1.1 主成分分析的基本思想是什么?主成分分析的基本思想是什么?* * *n主成分的概念由Karl Pearson在1901年提出n考察多个变量间相关性的一种多元统计方法n研究如何通过少数几个主成分来解释多个变量间的内部结构。即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。n主成分分析的目的:数据的压缩;数据的解释l它常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。* *
5、 *【例例8.1】表8-1是北京市某高中是北京市某高中50名学生的六门课程测试成绩数据名学生的六门课程测试成绩数据 n 乍一看,很难从这六门课程的测试得分来评价这50名学生的成绩优劣,也很难分析这些学生的成绩分布特征。要解决这样的问题,自然希望能把这一数据中包含的六个变量概括成一两个综合变量。那么这一做法是否可行呢?提炼出来的少数变量能够代表原数据的多少信息?如何解释它们呢?我们首先来了解一下主成分分析的基本思想。n 对于例8.1中的数据,每一个学生的观测值都包含了六个变量,所以表示在坐标系中每一个观测值就是六维空间中的一个点,每一维就代表一个变量。把六个变量概括成一两个综合变量,实质上就是一
6、个降维的过程。* * *n对于存在线性相关的两个变量,直接进行分析可能由于多重共线性而无法得出正确结论。n如何对这两个变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理?n分别用横轴和纵轴表示两个变量,每个观测值就是二维坐标系中的一个点,所有的数据点大致散布成一个椭圆形,那么这个椭圆有一个长轴和一个短轴,我们称之为主轴,主轴之间是相互垂直的。以两个变量为例以两个变量为例n显然,短轴方向上,数据点之间的差异较小;长轴方向上,数据变化则较大。如果原坐标系中的横轴和纵轴能够分别与椭圆的长短轴平行,那么相对来说,长轴所代表的变量就描述了数据的主要变化,短轴所代表的变量则描述了数据的次要变化
7、。* * *n现在沿椭圆的长轴设定一个新的坐标系,则新产生的两个变量和原始变量之间存在明显的数学换算关系。n但这两个变量彼此不相关,且信息量的分布显然不同。长轴变量携带了大部分数据变异的信息,而短轴变量只携带了一小部分变异信息。椭圆的长轴和短轴相差越大时,说明长轴方向所代表的变量包含原始信息越多,那么用这个新变量来代替原始的两个变量(即忽略包含少数信息的短轴变量)也就越合理,从而二维数据就可以降低为一维数据。n但现实数据往往并不满足这样的条件,这就需要把原始数据构成的坐标系进行旋转,产生一个新的坐标系,使得新坐标系的横轴和纵轴与椭圆的长短轴平行,实质上也就是把原数据中的两个变量变换成两个新的变
8、量。* * *n主成分分析的基本思想就是把原始数据构成的椭圆的主轴找出来,再用代表绝大部分信息的那个轴(也就是长轴)作为代替原始变量的新变量。多维变量降维过程类似。只要把原始数据散布的高维椭球的各个主轴找出来,选择最长的几个轴作为新变量,主成分分析就基本完成了。n作为椭圆(或椭球)的主轴,它们之间是相互垂直的,在代数上,这些新变量是原始变量的线性组合,叫作主成分主成分(principal component)。n原始数据中有几个变量,它们构成的椭球就有几个主轴,也就意味着最终可以找到几个主成分。主成分分析的基本思想是什么?主成分分析的基本思想是什么?* * *n降维的目的,是选择越少的主成分来
9、代表原先的变量效果越好。n根据主成分分析的思想,选择的标准则是要求被选中的主成分所对应的主轴的长度之和能够占所有主轴长度总和的大部分。至于占到多少才足够具有代表性,并没有一个硬性的说法。l在实际中,如果数据中包含的变量之间相关性很差,降维也就很难实现,因为不相关的变量显然无法找到一个很好的共同的代表。所以具体选几个主成分,要视实际情况而定。l有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,其实,这只是一个大体的说法,具体选几个,要看实际情况而定。* * *n数学上的处理是将p个指标作线性组合,作为新的综合指标。n如果第一个线性组合,即第一个综合指标记为F1。自然希望F1中更多
10、地反映原来指标的信息。l这里的“信息”是用F1的方差Var(F1)来表示。 Var(F1)越大,表示F1包含的信息越多。n在所有的线性组合中,所选的第1个主成分应该是方差最大的。n如果第1个主成分不足以代表原来p个指标的信息,再考虑选择第2个线性组合,即第2个主成分F2。依此类推,可以选出第3个,第4个,第p个主成分。这些主成分间互不相关,且方差递减。主成分分析的数学模型主成分分析的数学模型* * *n 对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响。n 根据标准化后的数据矩阵求出协方差矩阵n 求出协方差矩阵的特征根和特征向量n 确定主成分,并对各主成分所包含的信息给予适当的解释。
11、* * *8.1.2 如何选择主成分?如何选择主成分?* * *用用SPSS实现主成分分析实现主成分分析第1步:选择【分析】下拉菜单,并选择【降维-因子分析 】选项进 入主对话框;第2步:在主对话框中将原始数据中的所有变量选入【变量】;第3步:点击【抽取】,在【输出】下选择【碎石图】,点击【继续】回到 主对话框;第4步:点击【旋转】,在【输出】下选择【载荷图】,点击【继续】回到 主对话框,点击【确定】。* * *如何选择主成分?如何选择主成分?解:解:例8.1中的数据主成分分析的SPSS输出结果如下表解释的总方差解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积
12、%13.72962.14662.1463.72962.14662.14621.20620.09682.2421.20620.09682.2423.4036.72488.9664.3255.41494.3805.2043.39597.7756.1342.225100.000提取方法:主成份分析。* * *n表中的“初始特征根”对应的就是关于主成分的信息。n“初始特征根”下面的第一列“合计”即原始数据构成的高维椭球的六个主轴的长度,数学上又称之为特征值。特征值。l特征根可以看作是主成分影响力度的指标,代表引入该主成分后可以解释平均原始变量的信息。l如果特征根小于1,说明该主成分的解释力度还不如直接
13、引入一个原始变量的平均解释力度大。因此可以用特征根大于1作为纳入标准。n第二列“方差的%”则是每个主轴长度占所有主轴长度总和(也就是所有特征值的总和,又叫总方差)的百分比。表明该主成分的方差占全部总方差的比重(也称为主成分的方差贡献率)。n第三列“方差%”分别对应的就是由大到小排列的前若干个主轴长度之和占所有主轴长度总和的累积百分比(累计贡献率)。* * *n最长的主轴(即第一主成分)长度为3.729,它占六个主轴长度总和的62.164%;第二长的主轴(即第二主成分)长度为1.206,占所有主轴长度总和的20.096%。二者的长度之和累积起来则占到了所有主轴长度总和的82.242%。n后面四个
14、主轴的长度在所有主轴长度总和中所占的比例相对较小,从而对代表原先六个变量的贡献越来越少。n因此在这里我们采用SPSS输出结果中所建议的(表中最右侧三列),对例8.1的数据选择头两个主成分。* * *nSPSS还提供了一个更为直观的图形工具来帮助选择 主 成 分 , 即 碎 石 图(Scree Plot)n从碎石图中可以直观的看到例8.1中六个主轴长度变化的趋势。实践中,通常结合具体情况,选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,在该例中选择前两个主成分即可。* * *8.1.3 怎样解释主成分?怎样解释主成分?* * *n寻找主成分的过程实质上就是寻找椭球主轴的过程,而这些
15、主轴所代表的新变量在代数上是原始变量的线性组合(坐标旋转)。SPSS同样可以自动输出关于这些组合的计算结果。下表即例8.1的主成分载荷矩阵。成份矩阵成份矩阵a成份12数学-.778.430物理-.580.682化学-.784.318语文.893.312历史.826.406英语.833.438提取方法 :主成份。a. 已提取了 2 个成份。* * *n输出结果“成分矩阵”中的每一列分别给出了所选择的每一个主成分作为原始变量线性组合的系数。n如果我们分别用 表示原始数据中的六门课程成绩,而用 表示六个主成分,那么根据表中给出的结果,我们选择的头两个主成分与原先六个变量的关系如下:* * *n主成分
16、对应原始变量的每一个系数实质上就是主成分与原先每一个变量之间的线性相关系数,称为主成分载荷(Loading)。n理论上而言,相关系数(绝对值)越大,说明主成分与该变量之间的线性相关关系越强,从而主成分对该变量的代表性也就越大。n例8.1中提取的第一主成分与原先六个变量之间的相关系数都较大(与“物理”的相关系数相对偏低),说明它可以充分的解释原先的所有变量。而第二主成分只与原始数据中的“物理”有较大的相关关系,与其他变量的相关系数均较小,这可能是由于“物理”这门课程与其他课程性质上较大的区别所导致的。* * *n对于提取两个主成分的情形,SPSS还提供了一张二维图来直观显示它们对原始变量的解释情况n图中把原先的每一个变量与提取的两个主成分之间的相关系数分别作为坐标系中两个方向的坐标值,这样每一个变量对应的主成分载荷就对应坐标系中的一个点,因此人们把这种图形称为载荷图(Loading Plot)* * *n实际中,主成分分析的一个重要应用则在于利用主成分与原始变量之间的线性关系,可以根据每一个观测对象各个变量的原始取值,计算出其所对应的各个主成分的值。n这样便可以按照少数几个主成分的数值,