《多元统计分析试题.docx》由会员分享,可在线阅读,更多相关《多元统计分析试题.docx(7页珍藏版)》请在第一文库网上搜索。
1、一、填空题(30分):1、多元正态分布检验用到的三大分布为、o2、若XN(4,Z),则AX + do (服从什么分布)3、常用的聚类方法有、动态聚类、等。4、我们将变量的类型按照尺度可分为、三类。5、统计距离公式为 o6、相似系数一般有、两种测度。7、常用的多元数据图表示法有、o二、计算证明题(30分):1、设抽取5个样本,每个样本只检测一个指标,他们是13, 14, 15.5, 19, 21o试用最短距离法对5个样本进行分类并画出谱系图。71 1 12、试验证函数/(X,九2,*3)=即+6刍+-玉工2,其中0XI 1,0犬2 2,0工3 %2 5 T),%2( 1)为自由度为 T的,分布上
2、的。/2分位点。这里我们应该注意数(33)式可以表示为t2 = 丁) = X -S2YX -/)(3.4)对于多元变量而言,可以将,分布推广为下面将要介绍的Hotelling T 分布。多元正态总体均值检验:(-)协差阵E未知时均值向量的检验(): ji = % (%为已知向量)H: No假设“。成立,检验统计量为(:1): + 1尸尸(p, p)(3.7)(一 1)其中,T2 =(n- 1)LV(X-Ji()ys-1 V(x-ji()J给定检验水平a,查产分布表,使定-二二a,可5-l)p J确定出临界值尸a,再用样本值计算出72,若二-屑(-1)则否定“。,否则接受“0。2、简单描述一下欧
3、氏距离、统计距离和马氏距离的定义并比较他们的优缺点。64欧氏距离:P、4(2) = (居一为)】优缺点:要求一个向量的n个分量是不相关的并且具有相同的方差或者说各坐标对欧氏距离的同等的并且变差大小也是相同的这是使用欧氏距离才合适效果也最好,否则就可能不能反映真实情况甚至导致错误结论。明氏距离%(,) = (E明氏的缺点:(1)量纲对距离的影响。(2)指标的相关性的影响。一般,要求指标是不相关的,并且方差相同。(注:为了矫正方差,提出统计距离。)统计距离:马氏距离:设我与分是来自均值向量为,协方差为E =(0)的总体G中的0维样品,则两个样品间的马氏距离为4(A7) = (X-X.yE-,(X,
4、-X/)优缺点:既排除了各指标之间相关性的干扰而且还不受个指标量纲的影响;将原数据做一线性交换后马氏距离仍不变。1、试比较因子分析中因子载荷、变量共同度、公共因子的方差贡献的意义。答:(1) Z, =%/(载荷矩阵中第i行,第j列的元素)反映了第i个变量与第j个公共因子的相关重要性。绝对值越大,相关的密切程度越高(2)所有的公共因子和特殊因子对变量X,的贡献为1。如果非./=常靠近1,。;非常小,则因子分析的效果好,从原变量空间到公共因子空间的转化性质好因子载荷矩阵中各列元素的平方和S j 鼎J i=称为尸/= ,加)对所有的X,的方差贡献和。 衡郭的相对重耍性。(3)2、简述逐步判别法的基本
5、思想。答:采用“有进有出”的算法,逐步引入变量,每次引入一个变量进入判别式,则同时考虑在较早引入判别式的某些作用不显著的变量剔除出去3、简述主成分分析模型和基本步骤。(1)假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作P个随机变量,记为XL X2,,Xp,主成分分析就是要把这P个指标的问题,转变为讨论P个指标的线性组合的问题,而这些新的指标Fl, F2,,Fk(kWp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立(2)第一步:由X的协方差阵2x,求出其特征根,即解方程性-卜0可得特征根-0第二步:求出分别所对应的特征向量UI, U2,,Up,=(%,.,g,U.J
6、第三步:计算累积贡献率,给出恰当的主成分个数。=U;X, i = ,k(k p)第四步:写出各主成分,计算所选出的k个主成分的得分。对各主成分进行解释。4、简述几种判别分析的分类标准及其分类。判别组数:两组判别和多组判别数学模型:线性判别和非线性判别所处理变量:逐步判别和序贯判别(4)因子旋转判别准则:马氏距离准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等不同方法:距离判别法、Fisher判别法、Bayes判别法、逐步判别法等5、判别分析中为什么要进行样本间均值的检验?答:从下图可以看出,如果X来自G1,但却落入D2,被判为属G2,错判的概率为图中阴影的面
7、积,记为P(2/l),类似有P(l/2),显然P(2/l)=P(l/2),当两总体靠得很近,则无论用何种办法,错判概率都很大,只有当两总体的均值显著差异时,作判别分析才有意义6、简要分析主成分分析和因子分析的异同?答:主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量,即主成分;因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。7、简述因子分析的主要步骤。(1)选择分析的变量(2)计算所选原始变量的相关系数矩阵(3)提取公共因子(5)计算因子得分8、简述Fisher判别法的基本思想答:从两个总体中抽
8、取具有个指标的样品观测数据,借助方差分析的思想构造一个判别函数或称判别式。其中系数确定的原则是使两组间的区别最大,而使每个组内部的离差最小。对于一个新的样品,将它的P个指标值代人判别式中求出y值,然后与判别临界值(或称分界点(后面给出)进行比较,就可以判别它应属于哪一个总体。在两个总体先验概率相等的假设下,判别临界值一般取:最后,用统计量来检验判别效果,若则认为判别有效,否则判别无效。以上描述的是两总体判别,至于多总体判别方法则需要加以扩展。9、简述Bayes判别法的基本思想假定对所研究的对象有一定的认识,即假设个总体中,第个总体的先验概率为,概率密度函数为。利用bayes公式计算观测样品来自第个总体的后验概率,当时,将样本判为总体10、简述距离判别法的基本思想答:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第 类的重心距离最近,就认为它来自第 类。至于距离的测定,可以根据实际需要采用欧氏距离、马氏距离、明科夫距离等