《成对数据的统计分析 第6课时 列联表与独立性检验.docx》由会员分享,可在线阅读,更多相关《成对数据的统计分析 第6课时 列联表与独立性检验.docx(11页珍藏版)》请在第一文库网上搜索。
1、8. 3列联表与独立性检验(2课时单元教学设计)第一课时梁伟(安徽省淮南第四中学)第二课时洪敏(安徽省淮南第三中学)1教学内容和内容解析8.1 内容第1课时分类变量的概念、2X2列联表、等高条形图;第2课时两个分类变量的独立性检验.8.2 内容解析(1)引入分类变量的必要性:在当今大数据时代和“互联网的大背景下,本节课对提升学生的数据分析素养和提高学生的信息处理能力起到一个至关重要的作用.,独立性检验是在考察两个分类变量之间是否具有相关性的背景下提出的.因此,教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即利用随机抽样获得一定的样本数据,再利用随机事件发
2、生的频率稳定于概率的原理,求出相关概率进行比较,或借助更加直观的方法一等高条形图,为后续引出相对更精确的解决办法一独立性检验做铺垫.(2)分类变量:分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量,其变量值为“男”或“女”;行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造业”等.教材首先举例说明了前面两节讨论的变量都是数值变量,通过数值变量与分类变量的对比,引出分类变量.从而引出我们本节课主要讨论分类变量的关联性问题.(3) 2x2列联表:实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.教材
3、通过举例的方法介绍了什么是2x2列联表.2x2列联表给出了成对分类变量数据的交叉分类频数.(4)等高条形图:教材介绍了如何通过不同的统计软件绘制等高条形图,并让学生感受利用等高堆积条形图可以更加直观地展示分类变量的关联性.(5)独立性检验是研究随机变量独立性的一种统计方法。为了解总体中两个分类变量是否相互独立,可以从总体中抽取简单随机样本,整理成一个2x2列联表,独立性检验就是根据列联表检验两个分类变量是否相互独立。独立性检验是假设检验的一个特例,假设检验是统计推断的一种基本形式,其基本思想是根据观察或试验的结果去检验一个假设(零假设)是否成立,即通过样本的某个指标对总体的某种属性进行推断,推
4、断的结果是拒绝或接受零假设。所以独立性检验本质上是一种概率推断,是一种依据概率在“0:无实质差异”与有实质差异”这两种推断中选择其一。这是一种“概率反证法”,通过样本出现的事件是否属于小概率事件来判断总体假设的真伪。独立性检验的数学基础是条件概率与独立事件概率的乘法公式,其推断步骤可分为:第一步,提出想要验证的假设”。,称为零假设;第二步,若假设。不成立,则提出假设称为对立假设;第三步,若假设Ho成立,构造一个只有在小概率的情况下才能观察到的现象第四步,依据样本数据确认是否观察到了现象/2;第五步,若能观察到现象/的情况下,则推断假设“0是错误的,此时便可以拒绝“0,而选择假设第六步,若未能观
5、察到现象,则无法拒绝假设Ho,可选择假设独立性检验的依据是小概率原理:即小概率事件在一次试验中几乎不可能发生。在零假设成立的条件下,若一个不利于零假设的小概率事件在一次试验中发生了,则有理由拒绝零假设;若在一次试验中,此小概率事件没有发生,则没有充足的理由拒绝零假设,通常会接受零假设。所以独立性检验是检验假设而不是证明假设,所以推论会出现两类错误:第一类错误是拒绝了正确的零假设,犯了第一类错误的概率是。;第二类错误是没有拒绝错误的零假设。独立性检验在犯第一类错误的概率和犯第二类错误之间做平衡,希望犯这两种错误的概率都尽可能地小,但减少第一类错误的概率就会增大犯第二类错误的概率。因为第二类错误对
6、样本量特别敏感,所以可以通过样本量降低第二类错误的概率。独立性检验是从样本数据中发现关系,是成对样本数据统计分析的重要内容,是依据数据进行合理推理的典型方法,体现了数学的理性精神,也是提升数据分析和逻辑推理素养的重要素材。2目标和目标解析2. 1目标(1)了解分类变量与数值变量的区别.(2) 了解回归与相关的区别.(3)通过实例,理解通过比较相关比率,利用2x2列联表或等富图可以初步检验两个随机变量的独立性.(4)通过对建立回归分析模型步骤的回忆,获得分析统计案例的一般性过程;能够将研究统计案例的一般化步骤应用到新的统计案例中.(5)理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错
7、误.(6)基于2x2列联表,通过具体实例,了解独立性检验的基本思想。(7)掌握独立性检验的基本步骤,会用独立性检验解决简单的实际问题,提升数据分析能力。2.2目标解析达成上述目标的标志分别是:(1)会判断一个变量是否是分类变量、是否是数值变量.(2)面对不同的数据分析案例,知道什么时候用回归分析,什么时候用相关分析.(3)会通过比较相关比率,判断两个随机变量的独立性.(4)会对简单的数据分析案例进行初步独立性分析.(5)明白通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误,为下节课独立性检验做准备.(6)基于2x2列联表,通过具体实例,解释通过条件概率分析两个分类变量独立性的方法,以
8、及能说明用于两个分类变量独立性的统计量/构造的合理性;能说出基于小概率原则的独立性检验的基本思想,发展数据分析和逻辑推理素养。(7)能说出独立性检验的基本步骤,并能用独立性检验方法解决简单的实际问题。3教学问题诊断分析3.1 问题诊断(1)回归和相关的区别是初学者容易感到迷惑的地方.也是本章内容的重点,我们要从课前预习、课中设问、课后反思的不同学习阶段突出重点、突破难点.通过频率分析法和图形分析法,得到的结论有可能是错误的,是同学们的理解难点,这里通过合理设问突破难点.(2)学生已经学习过统计、变量回归分析等知识,在了解列联表的基础上,能用频率的稳定性直观推断两分类变量的独立性,也知道这种推断
9、有可能出现错误。在本节中,通过引导,学生能将分类变量的独立性与事件的独立性联系起来,但要将独立性检验与一个小概率事件进行关联存在困难,这不仅是学生首次遇到这样的问题,更是逻辑推理过渡到概率推理的统计思想的提升。关于小概率。的正确理解。如果从一个样本中能够观察到小概率事件发生,表明拒绝假设HO而接受假设M这个结论发生错误的概率不超过,但不表明假设司成立的概率超过1-。小概率是针对检验的样本的,并不是关于零假设的,零假设或者对或者错,永远只能是这二者之一,对于这样的结论的理解是比较困难的,这是造成学生对于独立性检验的结论认知困难的主要原因。在理解独立性检验的推断可能会犯错误,学生也可能存在接受上的
10、困难。此外,涉及的统计思想方法主要是假设检验的思想方法,也是学生可能感到困惑的。为了突破学习上的障碍,教学中创设一些生活化的问题情境引导学生学习,先定性描述再定量刻画,先直观理解再逻辑表达,强调用分类变量的样本频率分布与理论分布的误差及频率稳定于概率的原理来构造小概率事件,通过举例、讨论等形式突破难点。以具体案例为载体,帮助学生理解统计量的内涵,体会独立性检验的思想方法。3.2 教学难点(1)分析清楚回归与相关的区别.(2)卡方统计量的导出和意义,独立性检验的思想和方法.4教学支持条件分析本节课研究的是2019人教A版普通高中教科书蟠磁择性必修第三册)第八章”成对数据的统计分析“,第三节”列联
11、表与独立性检验的内容,是在前面学生学习的普通高中教科书数学(必修第二)(第九章“统计”)中IW1知识的i匕步应用,并与本册教材前面提到的事件的独立性一节关系紧密.本节课是在学生学习完回归分析之后的内容,所以可以将上一节课的统计研究方法进行总结,并应用到本节课的统计案例中来.借助GeOGebra软件中的统计功能,直观呈现/分布的密度曲线,并利用力?分布密度曲线依据小概率值确定临界值与,帮助学生理解独立性检验的思想。此外,还使用了GeogCbra软件解决计算量大的问题,使学生从烦琐的计算中解脱出来,把更多的精力放在对于独立性检验的基本思想的理解上。5课时教学设计1第一课时5.1 教学内容分类变量的
12、概念、2x2列联表、等高条形图。5.2 教学目标(1)了解分类变量与数值变量的区别.(2)了解回归与相关的区别.(3)通过实例,理解通过比较相关比率,利用2x2列联表或等高图可以初步检验两个随机变量的独立性.(4)通过对建立回归分析模型步骤的回忆,获得分析统计案例的一般性过程;能够将研究统计案例的一般化步骤应用到新的统计案例中.(5)理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误.5.3 教学重点与难点教学重点:(1)通过案例的分析研究,展现统计中数据分析的全过程.(2)让学生体会分析分类变量关联性的方法,并意识到这种分析得到的结果有可能是错误的.教学难点:分析清楚回归与相关的
13、区别.5.4 教学过程设计5.4.1创设情境,导入新课引导语:吸烟已成为全球范围内严重危害健康,缩短人类寿命的紧迫问题,为此联合国固定每年5月31日为全球戒烟日.问题:吸烟是否会增加患肺癌的风险?师生活动:这个问题中有两种现象:吸烟和患肺癌,这两种现象之间是否存在关联呢?现实生活中常要回答这种问题。又比如就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。教师指出,在讨论上述问题时,为了表述方便,经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量。比如性别(男,女),是否吸烟(
14、吸或不吸),宗教信仰(佛教,道教)等,而像体重,身高,温度,考试成绩等这些变量是数值变量,数值变量的取值一定是实数,其大小和运算都有实际含义。接着教师进一步指出,分类变量是区别不同的现象和性质的一种特殊的随机变量,但要注意(1)分类变量的取值也可以用实数表示,例如男性,女性可以用1,O表示;学生的班级可以用1,2,3来表示。(2)这些数值只做编号使用,并没有大小和运算意义。(3)分类变量是相对于数值变量来说的。本节主要讨论取值于0,1的分类变量的关联性。设计意图:理解数值变量与分类变量的区别对理解回归分析法与相关分析法的区别起着至关要的作用.5.4.2问题引入,形成概念问题:为了有针对性地提高
15、学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?师生活动:教师引导学生从比率的方面入手,得出答案:比较经常锻炼的学生在女生和男生中的比率。追问:如何求经常锻炼的学生在女生和男生中的比率。师生活动:教师引导学生回答:为了方便,二经常锻烧的女:生敌f二经常锻炼的男生数厂-女生总数-男生总数-那么,只要求出小和的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到分=告0.633,f广黑0.787.由0.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点.所以该校的女生和男生在体育锻练的经常性方面有差异,而且男生更经常锻炼.设计意图:给出本节课第一个重点,判断两个分类变量之间关联关系的方法1频率分析法.追问:除此之外,上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法.师生活动:引导学生用概率语言描述这个问题,把这个问题变成概率问题,教师梳理总结:用C表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以。为样本空间的古典概型,并定义