表格模板-MBA统计学08列联表及对数线性模型精品.ppt

资源描述

《表格模板-MBA统计学08列联表及对数线性模型精品.ppt》由会员分享，可在线阅读，更多相关《表格模板-MBA统计学08列联表及对数线性模型精品.ppt（36页珍藏版）》请在第一文库网上搜索。

1、统计学从数据到结论第八章列联表、列联表、c c2检验和对数线性模型检验和对数线性模型三维列联表三维列联表（关于某项政策调查所得结果（关于某项政策调查所得结果:table7.txt）观点：赞成观点：不赞成低收入中等收入高收入低收入中等收入高收入男201055810女25157279列联表列联表l前面就是一个所谓的三维前面就是一个所谓的三维列联表列联表(contingency table).l这些变量中这些变量中每个都有两个或更多的可能取每个都有两个或更多的可能取值值。这些取值也称为。这些取值也称为水平水平；比如收入有三；比如收入有三个水平，观点有两个水平，性别有两个水个水平，观点有两个水平，性

2、别有两个水平等。平等。该表为该表为322列联表列联表l在下面在下面SPSS数据中，表就和上面的不同，数据中，表就和上面的不同，收入的收入的“低低”、“中中”、“高高”用代码用代码1、2、3代表；性别的代表；性别的“女女”、“男男”用代码用代码0、1代表；观点代表；观点“赞成赞成”和和“不赞成不赞成”用用1、0代表。有些计算机数据对于这些代码的形代表。有些计算机数据对于这些代码的形式不限（式不限（可以是数字，也可以是字符串可以是数字，也可以是字符串）。）。列联表列联表l列联表的中间各个变量不同水平的交列联表的中间各个变量不同水平的交汇处，就是这种水平组合出现的频数汇处，就是这种水平组合出现的频数

3、或或计数计数（count）。）。l二维的列联表又称为二维的列联表又称为交叉表交叉表（cross table）。）。l列联表可以有很多维。维数多的叫做列联表可以有很多维。维数多的叫做高维列联表。高维列联表。l注意前面这个列联表的变量都是定性注意前面这个列联表的变量都是定性变量变量;但列联表也会带有但列联表也会带有定量变量作为定量变量作为协变量。协变量。二维列联表的检验二维列联表的检验 l研究列联表的一个主研究列联表的一个主要目的是看这些变量要目的是看这些变量是否相关。比如是否相关。比如前面前面例子中的例子中的收入和观点收入和观点是否相关是否相关。l这需要形式上的检验这需要形式上的检验二维列联表的

4、检验二维列联表的检验 l下面表是把该例的三维表简化成下面表是把该例的三维表简化成只有收入只有收入和观点的二维表和观点的二维表( (这是这是SPSS自动转化自动转化的的: :Analyze-Descriptive Statistics-Crosstabs-.).OPINION * INCOME CrosstabulationCount71519414525128252403112301OPINIONTotal123INCOMETotal二维列联表的检验二维列联表的检验l对于上面那样的二维表。我们检验的对于上面那样的二维表。我们检验的零假设和备选假设为零假设和备选假设为lH H0 0:观点和收入这

5、两个变量不相关观点和收入这两个变量不相关;H H1 1:这这两个变量相关。两个变量相关。l这里的检验统计量在零假设下有（大这里的检验统计量在零假设下有（大样本时）样本时）近似的近似的c c2 2分布。分布。l当该统计量很大时或当该统计量很大时或p p- -值很小时，就值很小时，就可以拒绝零假设，认为两个变量相关。可以拒绝零假设，认为两个变量相关。二维列联表的检验二维列联表的检验l实际上有不止一个实际上有不止一个c c2 2检验统计量。包检验统计量。包括括Pearson c c2 2统计量统计量和和似然比似然比（likelihood ratio）c c2 2统计量统计量；它们；它们都有渐近的都有

6、渐近的c c2 2分布。分布。l对于我们的数据，根据计算可以得到对于我们的数据，根据计算可以得到（对于这两个统计量均有）（对于这两个统计量均有）p p- -值小于值小于0.0010.001。因此可以说，收入高低的确影。因此可以说，收入高低的确影响观点。响观点。 21niiiiOEQE12lnniiiiOTOEPearson c c2 2统计量统计量似然比似然比c c2 2统计量统计量二维列联表的检验二维列联表的检验l刚才说，这些刚才说，这些c c2 2统计量是近似的，统计量是近似的，那么那么有没有精确的统计量呢？有没有精确的统计量呢？l当然有。这个检验称为当然有。这个检验称为FisherFis

7、her精确精确检验检验；它不是；它不是c c2 2分布，而是分布，而是超几何超几何分布分布。l对本问题对本问题, ,计算计算FisherFisher统计量得到统计量得到的的p p- -值也小于值也小于0.0010.001。lFisherFisher精确检验的又一例子精确检验的又一例子二维列联表的检验二维列联表的检验l聪明的同学必然会问，既然有精确检聪明的同学必然会问，既然有精确检验验为什么为什么还要用近似的还要用近似的c c2 2检验呢？检验呢？l这是因为当数目很大时，超几何分布这是因为当数目很大时，超几何分布计算相当缓慢（比近似计算会差很多计算相当缓慢（比近似计算会差很多倍的时间）；而且在计

8、算机速度不快倍的时间）；而且在计算机速度不快时，根本无法计算。因此人们多用大时，根本无法计算。因此人们多用大样本近似的样本近似的c c2 2统计量。而列联表的有关统计量。而列联表的有关检验也和检验也和c c2 2检验联系起来了。检验联系起来了。具体运算：先具体运算：先加权加权，加权之后，按照次序选，加权之后，按照次序选AnalyzeDescriptive StatisticsCrosstabs。在打开的对话框中，把在打开的对话框中，把opinion和和income分别选入分别选入Row（行）和（行）和Column（列）；至于哪个放入行或（列）；至于哪个放入行或哪个放入列是没有关系的。哪个放入列

9、是没有关系的。如果要如果要Fisher精确检验则可以点精确检验则可以点Exact，另外在，另外在Statistics中选择中选择Chi-square，以得到，以得到c c2检验结果。检验结果。最后点击最后点击OK之后，就得到有关之后，就得到有关Pearson c c2统计量、统计量、似然比似然比c c2统计量以及统计量以及Fisher统计量的输出了统计量的输出了( (这里这里的的Sig就是就是p-值值) )。 Chi-Square Tests20.456a2.000.00021.1902.000.00020.713.00020.290b1.000.000.000.000123Pearson C

10、hi-SquareLikelihood RatioFishers Exact TestLinear-by-LinearAssociationN of Valid CasesValuedfAsymp. Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)PointProbability0 cells (.0%) have expected count less than 5. The minimum expected count is 10.33.a. The standardized statistic is -4.504.b. 下面就是下面就

11、是SPSSSPSS计算机对于这个问题的输出计算机对于这个问题的输出高维列联表和高维列联表和( (多项分布多项分布) )对数线性模型对数线性模型 l前面例子前面例子原始数据是个三维列联表，原始数据是个三维列联表，其检验和对两维类似。其检验和对两维类似。l但高维列联表在计算机软件的选项但高维列联表在计算机软件的选项上有所不同，而且可以构造一个所上有所不同，而且可以构造一个所谓谓( (多项分布多项分布) )对数线性模型对数线性模型(loglinear model)来进行分析。来进行分析。l利用对数线性模型的好处是不仅可利用对数线性模型的好处是不仅可以直接进行预测，而且可以增加以直接进行预测，而且可以

12、增加定定量变量作为模型自变量的一部分。量变量作为模型自变量的一部分。对数线性模型对数线性模型l现在简单直观地通过二维表介绍一下对数线性模现在简单直观地通过二维表介绍一下对数线性模型，假定不同的行代表第一个变量的不同水平，型，假定不同的行代表第一个变量的不同水平，而不同的列代表第二个变量的不同水平。用而不同的列代表第二个变量的不同水平。用mij代表二维列联表第代表二维列联表第i行，第行，第j列的频数。人们常假列的频数。人们常假定这个频数可以用下面的公式来确定：定这个频数可以用下面的公式来确定：ln()ijijijm这就是所谓的对数线性模型。这里这就是所谓的对数线性模型。这里 i i为行变量的为行

13、变量的第第i个水平对个水平对ln(mln(mijij) )的影响，而的影响，而 j j为列变量的第为列变量的第j个水平对个水平对ln(mln(mijij) )的影响，这两个影响称的影响，这两个影响称为主效应为主效应（main effect）； ijij代表随机误差。代表随机误差。 ( (多项分布多项分布) )对数线性模型对数线性模型l该模型看上去和回归模型很象，但由该模型看上去和回归模型很象，但由于分布假设不同，不能简单地用线性于分布假设不同，不能简单地用线性回归的方法来套用回归的方法来套用( (和和LogisticLogistic回归类回归类似似) )；计算过程也很不一样；计算过程也很不一样

14、( (把这个留把这个留给计算机去操心给计算机去操心) )。只要利用数据来拟。只要利用数据来拟合这个模型就可以得到对于参数合这个模型就可以得到对于参数m m的估的估计计( (没有意义没有意义) )，以及，以及 i i和和 j j的的“估计估计”。l有了估计的参数，就可以预测出任何有了估计的参数，就可以预测出任何i i，j j水平组合的频数水平组合的频数m mijij了了( (通过对数通过对数) )( (多项分布多项分布) )对数线性模型对数线性模型l注意，这里的估计之所以打引号是注意，这里的估计之所以打引号是因为一个变量的各个水平的影响是因为一个变量的各个水平的影响是相对的相对的, ,l只有事先

15、固定一个参数值只有事先固定一个参数值( (比如比如 1 1=0=0),),或者设定类似于或者设定类似于SSi i=0=0这样这样的约束，才可能估计出各个的值。的约束，才可能估计出各个的值。l没有约束，这些参数是估计不出来没有约束，这些参数是估计不出来的。的。（多项分布）对数线性模型（多项分布）对数线性模型l二维列联表的更完全的对数线性模型为二维列联表的更完全的对数线性模型为ln()()ijijijijm 这里的这里的( (ijij代表第一个变量的第代表第一个变量的第i i个水平个水平和第二个变量的第和第二个变量的第j j个水平对个水平对ln(mln(mijij) )的共同的共同影响，称为影响

16、，称为交叉效应交叉效应。即当单独作用时，。即当单独作用时，每变量的某水平对每变量的某水平对ln(mln(mijij) )的影响只有的影响只有 i i( (或或 j j) )大，但如这两个变量共同影响就不仅是大，但如这两个变量共同影响就不仅是 i i+ + j j，而且还多出一项。，而且还多出一项。这里的交叉项的诸参数的大小也是相对的，这里的交叉项的诸参数的大小也是相对的，也需要也需要约束条件约束条件来得到其来得到其“估计估计” ” 。用用table7.txttable7.txt数据拟合对数线性模型数据拟合对数线性模型l 假定（多项分布）对数线性模型为假定（多项分布）对数线性模型为这里这里 i为收入（为收入（i1,2,31,2,3代表收入的低、中、高三代表收入的低、中、高三个水平），个水平）， j为观点（为观点（j1,21,2代表不赞成和赞成两代表不赞成和赞成两个水平），个水平），g gk为性别（为性别（k1,21,2代表女性和男性两代表女性和男性两个水平）个水平）, , mijk代表三维列联表对于三个变量的第代表三维列联表对于三个变量的第ijk水平组合的出现次数，水平组合的出现次数

展开阅读全文

表格模板-MBA统计学08列联表及对数线性模型 精品.ppt

表格模板-MBA统计学08列联表及对数线性模型精品.ppt