《7个径赛项目上的女子纪录的主成分分析处理.docx》由会员分享,可在线阅读,更多相关《7个径赛项目上的女子纪录的主成分分析处理.docx(12页珍藏版)》请在第一文库网上搜索。
1、7个径赛项目上的女子纪录的主成分分析处理(总11页)-CA1-FENGHA1-(YICAI)-CompanyOne1-CA1-本页仅作为文档封面,使用请直接删除7个径赛项目上的女子纪录的主成分分析处理摘要本文通过主成分分析的相关方法,建立了评价55个国家和地区1984年前在7个径赛项目上的女子纪录的数学模型。针对前两个问题,通过求解样本相关矩阵,再根据主成分分析的相关方法,利用MAT1AB软件求得样本相关矩阵的特征值和相应正交单位化特征向量。针对第三个问题,由第二个的求解结果进行相关的分析,确定两个主成分的具体意义。第一主成分反应了各国家和地区的运动员的优秀程度;第二主成分反映了各国家和地区在
2、短跑和长跑项目上的相对实力。针对第四个问题,由前两个问题的求解结果,然后基于第一样本主成分的得分对各国家和地区排序,得出的结果与从原始数据中得到的直观看法基本吻合。最后本文针对两种不同方式得出结果的差异性进行了分析。关键词主成分分析;相关矩阵;贡献率;第一样本主成分一、问题重述在实际问题的研究中,往往会涉及众多有关的变量。但是变量太多不但会增加计算的复杂性,而且也给合理的分析问题和解释问题带来了困难,一般来说每个变量所提供的信息在一定程度上有所重叠,因而人们希望用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的,主成分分析便是在这种降维的思想下产
3、生的处理高维数据的方法(1)。现请分析下表有关世界上55个国家和地区1984年前在7个径赛项目上的女子纪录数据(见附录),解决如下问题:(1)求其样本相关矩阵R及它的特征值和相应正交单位化特征向量。(2)求前两个标准化样本主成分及其累计贡献率。(3)解释(2)中的两个主成分的意义。(4)基于第一样本主成分的得分对各国家和地区排序,这与你从原始数据中得到的直观看法是否基本吻合?二、问题分析分析问题可知,文中所给数据较多,首先要合理使用MAT1AB软件对数据进行处理;要求解文中问题,主要基于主成分分析法的相关方法。由文中数据可知,所给的七个变量有着不同的量纲,这会引起各变量取值的分散程度差异较大。
4、若用协方差矩阵求主成分,则优先照顾了方差大的变量,会造成很不合理的结果,为了消除由于量纲的不同可能带来的影响,故采用变量标准化的方法,即用相关矩阵求解。对于前两个问题,可直接使用MAT1AB中的相关函数进行求解。求解结果可用表格表示。对于第三个问题,需要利用第二个问题求解出的第一主成分和第二主成分的表达式进行具体分析。对于第四个问题,要先求各国家和地区的第一样本主成分的得分,然后再根据得分的高低具体分析。最后针对文中的求解过程与求解结果,讨论模型的不足之处与需要改进的方法。三、模型假设假设题中所给数据均准确有效。四、符号表示符号SRyi自hi含义样本协方差矩阵样本相关矩阵主成分(i=1,2,3
5、7)特征值(,=1237)标准化特征向量(i=1237)第i个主成分的贡献率(i=1,2,37)五、模型建立与求解本文运用主成分分析法对高维数据进行了降维处理,其间通过求解样本的协方差矩阵与相关矩阵来分析主成分,期望通过较少的变量来反映样本数据的绝大部分信息,假设当主成分的累计贡献率达到80%时,即视为满足了提取原数据中绝大部分信息的要求。模型建立与求解如下:模型建立设n,乂2门了)是元总体,从中取得样本数据:QU,再2,,再Pyx2x22x2p)1(Xm,x”2,,.,,XnP)第i个观测数据记作Xi=Gi1,Xi2,xip)r,(i=1,2,)称为样品,引进样本数据观测矩阵X”121xnX
6、=X12X22Xn2二($”XH)3X2pXnp)它是X矩阵,它的个列即是个样品项,2,,怎,它们组成来自P元总体(x,X2,XJ的样本。观测矩阵X的P个行变量分别是P个变量X,X,Xp在次试验中所取得的值。样本协方差矩阵及相关矩阵分别为1s=()=-x)(xk-x)-11=1R=SQpxp=其中x=(x1,x2,xp)f,Xj=-,y=1,2,pni=11,_Sij=-7Z(加-Xj)(XA-XJ)1j=1,2,,一Ii=I利用S和R求得的样本组成分有下述结论:设S=(SUJ。是样本协方差矩阵,其特征值为4g40,相应的正交单位化向量为自,打,这里自=(Bg2,四),则第i个样本主成分为M=
7、2irx=1x1+ei2x2+eipxp,i=1,2,p其中X=G,修,马,),为的X的任一观测值。当依次代入X的个观测值Xk=(小,/2,,“,),伏=12,)时,便得到第i个样本主成分的n个观测值”,(Z=I,2,此即为第i个主成分的得分。为消除量纲的影响,我们可以对样本进行标准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵R0由R出发所求得的样本主成分称为标准化祥本主成分。只要求出R的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分.这时标准化样本的样本总方差为P。实际应用中,将样本w(i=1,2,)代人各主成分中,可得到各样本主成分的观测值yki(k=
8、1,2,1,2,。模型求解本文通过求解样本相关矩阵,根据累计贡献率提取主成分,并对主成分的含义给出了合理解释,最后对各国家的综合成绩进行排名。求解相关矩阵由题中所给数据,利用InatIab求解,可得:协方差矩阵S为0.20470.49381.01120.03560.10920.27659.4469)0.49381.31982.62890.08950.26220.665623.85511.01122.62897.17340.26040.69681.720657.50150.03560.08950.26040.01170.03220.07732.56650.10920.26220.69680.03
9、220.11000.26518.84250.27650.66561.72060.07730.26510.682422.5899,446923.855157.50152.56658.842522.5899925.9861;相关矩阵R为1.00000.94990.83440.72740.72800.73980.686P0.94991.00000.85440.71990.68840.70130.68240.83440.85441.00000.89840.78460.77770.70550.72740.71990.89841.00000.89660.86450.77930.72800.68840.78
10、460.89661.00000.96780.87630.73980.70130.77770.86450.96781.00000.8987k0.68610.68240.70550.77930.87630.89871.0000,R的特征值及其正交单位化特征向量见表1和表2:表1特征值及其贡献率特征值贡献率/(%)累计贡献率表2特征值对应的正交单位化特征向量标准化ee2eie4e5变量x;2石WX;样本主成分分析由表1知前两个标准化样本主成分为%=-0.3688x*-0.36412-0.38213-0.38494-0.38865-0.38906-0.3674x*7y2=-0.4855x*-0.543
11、5x*2-0.245IxS+0.15944+0.3618/50.3489x%+0.36167解出两个主成分的累计贡献率为,远远满足要求。分析上述数据两个主成分的意义:第一主成分近似于各变量的等权重之和,它反应了各国家和地区的运动员的优秀程度。第一主成分各标准化变量前的系数全部带负号,说明各个国家或地区的径赛项目上的女子纪录越高,则该项纪录上相应的数值越低,第一主成分M越大。X的贡献率达乐已能大致反映出一个国家或地区的女子运动员的优秀程度。所以对某一国家或地区而言,如果由径赛项目上的女子纪录所算出的第一主成分大,则说明这个国家或地区1984年前在7个径赛项目上的女子成绩高,7个径赛项目上的女子运
12、动员十分优秀;反之,则说明这个国家或地区的女子运动员表现一般。第二主成分可用以度量各国家和地区在短跑和长跑项目上的相对实力。第二组成分前三个标准化变量前的系数带负号,后四个标准化变量前的系数带正号。这说明在100米,200米,400米项目上的成绩越差,在800米,1500米,3000米,马拉松项目上的成绩越好,第二主成分力越大。因此为反映了一个国家或地区的短跑项目与长跑项目的相对优势。所仅对某一国家或地区而言,如果由径赛项目上的女子纪录所算出的第二主成分大,则说明这个国家或地区1984年前在短跑项目上的女子成绩较差或在长跑项目上的成绩较好或是短跑项目成绩较差并且长跑项目成绩较好;反之,第二主成
13、分小,则说明这个国家或地区的女子运动员在短跑项目上的女子成绩较好或在长跑项目上的成绩较差或是短跑项目成绩较好并且长跑项目成绩较差。此外,第一主成分M和第二主成分为的累计贡献率大,己能反映出大部分信息。根据这两个量的大小,可大体判断出一个国家或地区径赛项目上的女子运动员的优秀程度和径赛上的优势与劣势。各国家地区成绩排名利用公式:可先求出七个标准化变量,再利用中求第一主成分的公式:M=-0.3688-0.3641r42-0.38213-0.38494-0.3886Z5-0.3890x*6-0.3674x*7可依次得出每一个国家所对应的值,并按M的大小从大到小排序,得下表3所示,并根据表中数据对主成
14、分进行分析:表3基于第一样本主成分的得分对各国家和地区的排序次JSn0123456789012x.1no4-no7OoIi111X11111111111亚洛德兰大斯利兰利德斯牙利时家国西西拿罗国威大尔大东兰兰克典麦本国士萄牙兰利国美原新加俄英挪澳爱意原芬荷捷克瑞丹日法瑞葡匈波比值y124 奥:地利25 墨西哥26 罗马尼亚27 以色列28 西班牙名次293031323334353637383940414243444546474849505152535455加亚北-)比大台堡达廷亚家伦西国慕国国利国鲜森斯根尼腊国哥巴韩百中泰智中朝卢斯阿肯希马兰西亚新加坡印度缅甸菲律宾印度尼西亚土耳其多米尼加危地马拉巴布亚新几内亚库克岛毛里求斯西萨摩亚值y1分析上表可知美国的M值最大,为;其次为原西德,为,与美国相比,有较大差距;最小为西萨摩亚,为。名次靠前的十几个国家,月主要集中分布在2