《统计基础 教案 (苏毅)项目九 统计数据的关联研究—相关与回归分析.docx》由会员分享,可在线阅读,更多相关《统计基础 教案 (苏毅)项目九 统计数据的关联研究—相关与回归分析.docx(8页珍藏版)》请在第一文库网上搜索。
1、项目九统计数据的关联研究一相关与回归分析教学项目与任务任务一:相关分析教学目标知识目标1熟悉相关关系的概念2 .了解相关关系的种类3 .掌握相关系数的计算能力目标1 .能够熟练计算相关系数,判断现象之间的密切程度2 .能够运用EXCE1完成相关分析素养目标1通过学习相关分析,进一步认知物质世界的普遍联系性,树立唯物注意世界观2.培养学生数据解读能力、数据分析能力,培养学生量化思维能力教学重点相关系数的种类和计算教学难点相关系数计算及应用教学方法与手段教学媒体及课件、窠例教学授课内容与过程第一步,导入新课世界万物都是普遍联系的,任何事物或现象都不能孤立地存在,它总是和周围的其他事物或现象相互影响
2、、相互制约。社会经济现象也是如此,例如,产品的销售情况会受到促销手段和广告费用等因素的影响;农作物的产量会受到种子质量、施肥量、气候条件等因素的影响;家庭的消费支出受到收入水平、消费习惯等因素的影响等等。为了更深刻地认识社会经济现象之间的这种关系,我们可以根据现象之间关系的紧密程度,将这些现象之间的关系概括为两种不同的类型,即函数关系和相关关系。第二步:授新课一、相关关系概述(一)相关关系的概念1.函数关系函数关系是指现象之间在数量上存在的一种严格的确定性关系。例如,圆的面积S与其半径,之间就是一种函数关系,其数学表达式为:S=22.相关关系相关关系是指现象之间存在的一种非确定性的数量依存关系
3、。(二)相关关系的种类1 .按影响因素的多少不同,相关关系可以分为单相关和复相关2 .按变量之间相关关系的方向不同,相关关系可以分为正相关和负相关3 .按变量之间相关关系的表现形式不同,相关关系可以分为线性相关和非线性线相关4 .按变量之间的相关程度不同,相关关系可以分为完全相关、不完全相关和不相关二、相关分析的基本方法对现象之间相关关系的研究方法有很多,既有定性方法,也有定量方法;既有传统的手工方法,也可应用最新的统计软件。我们这里主要介绍现代统计实务中最常见的相关图和相关系数。(一)相关图相关图,又叫散点图,是一种很好的展示变量之间相关关系的统计图形。它的基本绘制方法是:在直角坐标系中,用
4、横轴表示自变量,纵轴表示因变量,并将自变量与因变量的取值以坐标点的形式绘制于坐标系中,通过点的分布形状和疏密程度来形象描述变量之间的相关关系。(二)相关系数利用统计图虽然可以较为直观地看到变量之间的相关关系及其形式,但它毕竟只是一种定性分析方法,为了能够在数量上更深刻地反映变量之间的相关程度,我们还需要计算相关系数。1.相关系数的概念及计算所谓相关系数,就是用来测度变量之间线性相关程度的统计指标。在不同的场合下,它有不同的计算方法。不过应用最为广泛的还是PearSon相关系数,其计算公式为:fc-y)Jfc-)2G.-y)2Vr=1式中阳,z.(z=1,2,)表示变量X和变量Y的组观测值。在很
5、多时候,为了简化计算,经常把公式变形为下面的形式再进行计算。吃My1ZXZXr_i=i=i=TnVeTn2nx-xj-Vi=1=1/V1=1Ii=2.相关系数的应用相关系数是测度两个变量之间线性关系程度的重要指标,它在实践中的主要作用表现为:(1)判断变量之间的线性相关方向。根据相关系数的正负号就可以判断变量之间的线性相关方向。当-1vrO时,表明变量之间存在着线性负相关关系;当Ovr1时,表明变量之间存在着线性正相关关系;当=0时,表明两变量之间无线性关系;当=-1时,表明变量之间存在着完全的线性负相关关系;当厂=1时,表明变量之间存在着完全的线性正相关关系。(2)测度变量之间的线性相关程度
6、。这是相关系数最重要的作用。相关系数可以将变量之间的线性相关的密切程度进行量化,按照其取值的大小来反映相关程度的高低。一般地,按照我们的经验标准,当时归VC3时,表明变量之间的不存在线性相关关系;当O3H。-5时,表明变量之间存在着低度的线性相关关系;当MmVC,时,表明变量之间存在着显著(中度)的线性相关关系;当m=c8时,表明变量之间存在非常显著的线性相关关系。第三步:巩固新课,课堂小结本知识点主要介绍了相关关系的概念、种类和测定作业练习完成学习通随堂测本知识点主要介绍了相关关系的概念、种类和测定,重点教学总结要求学生掌握相关关系的分类以及相关系数的计算和应用。教学项目与任务任务二:构建一
7、元线性回归方程教学目标知识目标1 .了解回归分析的概念、种类2 .区分相关分析与回归分析3 .掌握一元线性回归能力目标1 .能够建立一元线性回归方程,揭示现象之间的因果关系并进行预测2 .能够熟练运用EXCE1软件,完成回归分析素养目标1 .通过回归模型的选择与评价,培养学生综合分析和管理的能力。2 .通过介绍机器学习、数据挖掘等新技术,使学生树立终身学习的理念。教学重点1 .相关分析与回归分析的区别与联系2 .一元线性回归模型的构建及应用教学难点一元线性回归模型的构建及应用教学方法与手段教学媒体及课件、案例教学授课内容与过程第一步:导入新课“回归”一词是由英国生物学家高尔顿首先提出的。高尔顿
8、在研究父母身高与子女身高的关系时发现:身材特别高的父母所生的孩子其身材并非特别高,而身材特别矮的父母所生的孩子也并非特别矮,子辈身高有向父辈平均身高逼近的趋向,他把这种现象叫做“身高数值从一极端至另一极端的回归”。以后,高尔顿的学生皮尔逊把回归的概念同数学的方法联系起来,把代表现象之间一般数量关系的统计模型叫做回归直线或回归曲线。从此诞生了统计上著名的回归理论。后来,回归这一词被用来泛指变量之间的一般数量关系。第二步:授新课一、回归分析概述(一)回归分析的概念回归分析是对具有相关关系的变量之间的数量变化关系进行测定,使之模型化,并形成具体的函数表达式来加以表现的一种统计分析方法。实际上,回归分
9、析就是将变量之间的不确定的数量关系作出一般化或规则化的描述。(二)回归分析的类型1 .根据回归模型中自变量的多少,回归分析可以分为一元回归和多元回归。一元回归是指只包含一个自变量的回归分析;而多元回归中的自变量个数则为二个或二个以上。2 .根据自变量和因变量之间相关关系的表现形式,回归分析可分为线性回归和非线性回归。线性回归是自变量和因变量之间为线性关系的回归分析,而非线性回归是自变量和因变量之间为非线性关系的回归分析。()相关分析与回归分析的区别与联系1相关分析与回归分析的区别从变量之间的地位上看,相关分析所研究的两个变量或多个变量之间是对等的关系,而回归分析所研究的变量之间却不是对等关系,
10、在回归分析中,根据我们的研究目的,变量之间地位明确,其中一个变量是因变量,其他变量为自变量。从对资料的要求上看,相关分析要求各变量都必须是随机变量,而回归分析则要求自变量是可以控制的变量,因变量是随机变量。3 .相关分析与回归分析的联系相关分析是回归分析的基础和前提。如果事先没有判断变量之间是否存在相关关系,没有对这种关系的密切程度作出定量的测度,就不能进行回归分析,此时,如果非要进行回归分析,可能没有现实意义。因为按数学方法,两组不相关的数据也可以解出相应的数学方程。回归分析是相关分析的继续和深入。相关分析只能说明变量之间是否存在相关关系及其相关程度,但这对于我们统计研究是远远不够的。只有进
11、行回归分析,建立变量之间的回归模型,并找到确切的函数表达式,才可以进行有关的推算和预测,从而对变量之间作更深入的研究,达到统计分析的目的。二、一元线性回归分析(一)一元线性回归模型的建立一元线性回归模型又称简单直线回归模型,是最基础的回归模型之一,是反映具有线性相关关系的两个变量之间变动关系的数学表达式。在建立一元线性回归模型之前,需要我们首先明确两个变量的地位,即确定哪个变量为因变量,哪个变量为自变量。如果两个变量之间的因果关系并不明确,则可以建立两个回归模型,其基本形式为:- 倚X的一元线性回归模型:=a+bxX倚Y的一元线性回归模型:=c+dX式中b、C、d为待确定的参数。和C是两条直线
12、的截距,表示当自变量X为O时,因变量的取值;匕和d是两条直线的斜率,也称作回归系数,表示自变量每变动一个单位,因变量的平均变动值。(二)一元线性回归模型的参数求解回归模型确定后,还不能够马上应用,因为模型中含有待确定的未知参数,所以,我们还要对模型参数进行估计。最常用的一元线性回归模型参数估计的方法是最小二乘法。最小二乘法的基本原理是:如果回归模型(例如9-3)确实很好地拟合了观察值的分布情况,那么根据回归模型计算出的理论值()应十分接近实际观察值(Y),则回归模型中的参数。、人应满足下列条件:(AY-Y=min亦即8X)*=min令上述平方和为Q,要使Q=E(Yi-AX)2=min,根据多元
13、函数存在极值的必要条件,两变量。、力的偏导数应该等于0,即:- =-,2(Y-a-bX)=O- =-2(Y-a-bX)X=O整理得联立方程组:Zy=a+ZXxy=ax+bx2求解上述联立两方程组,得:bnXY-XYnX2-(XYa=-=Y-bXn求出参数、人后,就可以得到回归直线模型方程。(三)一元线性回归模型的评价与检验1 .判定系数判定系数是对估计的回归方程拟合度的度量。为了理解它的含义,我们需要对变量Y的变差加以研究。因变量Y取值的波动称为变差。变差的产生来源于两个方面:一是由于自变量(X)变动而引起的;二是由于自变量(X)因素以外的因素造成的。一般地,变差的大小可以用(丫-歹)来表示,
14、如果观察值共有个,其总变差我们用它们的平方和表示,记为SST,即:SST=ZD2由于丫-7可以分解为y-夕和e-7,而且可以证明(AY/_、2(zT=卜yj+4我们称9.6式左边为总平方和,即SST,右边-歹J为回归平方和(SSR),表示由于自变量X变化所引起的变差和,Z(K-2J为残差平方和(SSE),表示除了自变量X以外,其他因素造成的变差和。如果在SST中,SSR占很大的比重,则说明自变量X对因变量Y的解释能力较强,回归模型的拟合度很好。因此,我们得出判定系数的公式:NSSRHSST(-F)2R2的取值范围在(0,1)之间,越接近于1,说明自变量对因变量的解释能力越好。在一元线性回归中,
15、W在数值上就是相关系数的平方。2 .回归标准误差回归标准误差也是用来说明回归直线方程代表性大小的统计分析指标。其计算公式为:Sy卜(力2Vn-k-式中:SV为估计标准误差;y为因变量观察值;为因变量估计值;为观察值项数。人为自变量的个数,九一A-I为自由度。按照上面的定义公式计算回归标准误差十分繁琐,实践中,在已知直线回归方程的情况下,通常用下面的简便公式计算:C12-a-bS1NKI一式中:。为回归方程的截距;b为回归系数(四)一元线性回归模型的应用(预测)三、应用相关分析与回归分析应注意的问题第一,要使回归模型取得较好的效果,在建立回归模型之前,要根据统计研究目的,明确变量的地位并绘制散点图及测算相关系数,在建立模型后,则要对模型进行必要的评价和检验。第二,在回归模型通过了检验之后,就可用于统计预测,但要注意回归模型的作用范围。回归模型只能够在一定的范围之内反