第一讲普通最小二乘法的代数.docx

上传人:lao****ou 文档编号:87096 上传时间:2023-02-20 格式:DOCX 页数:22 大小:107.16KB
下载 相关 举报
第一讲普通最小二乘法的代数.docx_第1页
第1页 / 共22页
第一讲普通最小二乘法的代数.docx_第2页
第2页 / 共22页
第一讲普通最小二乘法的代数.docx_第3页
第3页 / 共22页
第一讲普通最小二乘法的代数.docx_第4页
第4页 / 共22页
第一讲普通最小二乘法的代数.docx_第5页
第5页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第一讲普通最小二乘法的代数.docx》由会员分享,可在线阅读,更多相关《第一讲普通最小二乘法的代数.docx(22页珍藏版)》请在第一文库网上搜索。

1、第一讲普通最小二乘法的代数一、问题假定y与x具有近似的线性关系:y =片+丹工+ ,其中是随机误差项。我们对口、川这两个参数的值一无所知。我们的任务是利用样本数据去猜测其、片的取值。现在,我们手中就有一个样本容量为N的样本,其观测值是:(%,%),(% ,%2),(如,/)。问题是,如何利用该样本来猜测片、力的取值?为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴X,纵轴y)。既然y与X具有近似的线性关系,那么我们就在图中拟合一条直线:$ = Bo+BX。该直线是对y与x的真实关系的近似,而反,4分别是对片,片的猜测(估计)。问题是,如何确定6。与2,以使我们的猜测看起来是合理的呢?

2、笔记:1、为什么要假定y与x的关系是y = 4呢? 一种合理的解释是,某一经济学理论认为x与y具有线性的因果关系。该理论在讨论x与y的关系时认为影响y的其他因素是不重要的,这些因素对y的影响即为模型中的误差项。2、y = 4+/x + 被称为总体回归模型。由该模型有:E(y|x)= 4 +4X + E(x)。既然代表其他不重要因素对y的影响,因此标准假定是:E(X)= O。故进而有:E(y|x)= 4+4工, 这被称为总体回归方程(函数),而八八勺=4)+相应地被称为样本回归方程。由样本回归方程确定/X/a的 y 与 y 是有差异的,y-y 被称为残差。进而有:/XAy = &+/% + ,

3、这被称为样本回归模型。二、两种思考方法法一:(%, y2,,%)与(%, %,,9)是N维空间的两点,围与6的选择应该是这两点的距离最短。这可以归结为求解一个数学问题:NN一 x-)2=i=Bo.Bi i=由于凡 -戈.是残差片的定义,因此上述获得反与6的方法即是A与6的值应该使残差平方和最小。法二:给定玉,看起来/与1.越近越好(最近距离是0)。然而,当你选择拟合直线使得力与力是相当近的时候,x与少的距离也许变远了,因此存在一个权衡。一种简单的权衡方式是,给定%,X2,-,/,拟合直线的选择应该使y与%、%与Z、n与心的距离的平均值是最小的。距离是一个绝对值,数学处理较为麻烦,因此,我们把第

4、二种思考方法转化求解数学问题:NN犷/N = Miny-P.-曝了 / N女),61 i=iBo,B i=i由于N为常数,因此法一与法二对于求解A与6的值是无差异的。三、求解N定义q=(x-A-自七y,利用一阶条件,有:i=eo八 人m = Z2(y,一4丹为)(1)二。邓。=Z(y-/。一/闻=$=。由(1)也有:人人9=4+4元1 N1 N在这里歹丁小、高七笔记:人人这表明:1、样本回归函数勺=A+4X过点(乱歹),即穿过数据集的中心位置;2 y = y (你能证明吗?),这意味着,尽/X/X/X/X管Bo、P的串值不能保证x- = y,但Bo、P的取值能够保证y的平均值与y的平均值相等;

5、3、虽然不能保证每一个残差都为0,八/X但我们可以保证残差的平均值为0。从直觉上看,Bo、以 作为对00、4 的一个良好的猜测,它们应该满足这样的性质。二工20- BX)(-xJ = 0= (* Bo Bl七)七二0E柄=0笔记:对于简单线性回归模型:y = /3(+ /3x + s, 在 0LS 法下,由正规方程(1)可知,残差之和为零【注意:只有拟合宜线带有截距时才存在正规方程(1),由正规方程(2), 并结合正规方程(1)有:_ 见练习提示一3我七=0=2(一)七 =2(*一)(%无)=Cov(s.x) = 0无论用何种估计方法,我们都希望残差所包含的信息价值很小,如果残差还含有大量的信

6、息价值,那么该估计方法是需要改进的!对模型y = 4 +直工+利用0LS,我们能保证(1 ):残差均值为零;(2)残差与解释变量X不相关【一个变量与另一个变量相关是一个重要的信息工方程(1)与(2)被称为正规方程,把血二-囚无带入(2),有:Za96(%一元)及二。a = Z(y一刃为1 X (七元)玉上述获得60、幺的方法就是普通最小二乘法(OLS)。(1)验证:a = E(k一刃七二 E一)a无)=一 君分1 2(不一君为2(七-a (x,.-i)2= 一府?一玉2_际_N提示:定义Z.的离差为z. =Z.-Z,则离差之和yz.=o义为II I7Ii=零。利用这个简单的代数性质,不难得到:

7、Z(y 一刃亍)=Z(y刃玉Z(y 一刃一无)二Z,(七无)笔记:定义y与x的样本协方差、X的样本方差分别为:Cov(x, y) = Z(%i 一无)(乂 一刃 / NVar(x) = YJ(xi-x)2 / N nl A Covx.y)则 I =oVar(x)上述定义的样本协方差及其样本方差分别是对总体协方差5及xy其总体方差bj的有偏估计。相应的无偏估计是:*v5町二2(七一君(一歹)/0 1)sl=2i制 2/(N 1)基于前述对与Cbv(x,y)的定义,可以验证:Var(a + bx) = b2Var(x)Cova + bx, y) = bCovx, y)其中a, b是常数。值得指出的

8、是,在本讲义中,在没有引起混淆的情况下,我们有时也用 Var(x)、Cov(x, y)来表示总体方差与协方差,不过上述公式同样成立。(2)假定y =,x + ,用 OLS法拟合一个过原点的直八线:y = P X,求证在OLS法下有:并验证: 国二次+浮笔记:1、现在只有一个正规方程,该正规方程同 样表明=0 o 然而,由于模型无截距,因此在 0LS 法下我们不能保证二恒成立。所以,尽管=0成立,但现在该式并不意味着Cov(,x)二。成立。2、天截距 回归公式的一个应用:乂二4+4天+弓u n(X _ y)=4 (七一君 + (弓一)9= 4 + 4元+方定义 F. = y.-y、2 =七一无、

9、令二与 一 M,则耳=0Dj + ei o按照0LS无截距回归公式,有:.自=Efq,=工”亍)(N-天)于一 Z()2(3)圉定y = /3 + s,用OLS法拟合一水平直线,即:y = P,求证,=又笔记:证明上式有两种思路,一种思路是求解一个最优化问题,我们所获得的一个正规方程同样是二。;另外一种思路是,模型y =分+ 是模型y =万1+的特例,利用工&七=0 的结论,注意到此时玉=1,因此同样有Ze =0。(4)对模型y = /?o+4x + 进OLS估计,证明残差与,样本不相关,即Cov(J) = 0。四、拟合程度的判断(一)方差分解及其R2的定义可以证明,Var(y) = Var(

10、y) + Var(s) o证明:y = y + s Var(y) = Var(y) + Var(s) + 2Covy, 2),/ Cov(y,s) = Cov(Bo + Bx) = PCovx,)= 0/. Vary) = Var(y) + Var(s)方差表示一个变量波动的信息。方差分解亦是信息分解。建立样本回归函数$ =片+6”时,从直觉上看,我们当然希望关于勺的波动信息能够最大程度地体现关于y的波动信息、。因此,我们定义判定系数心=也02,显然,0尺21。如果R2大,则y的波动信息就越能够被亍的波动信息所体现。R2也被称为拟合优度。当尺2=1时,Var(e) = 0,而残差均值又为零,因

11、此着各残差必都为零,故样本回归直线与样本数据完全拟合。(二)总平方和、解释平方和与残差平方和定义:TSS = Z(y_y)2SS = Z)2=arss = Z-)2 = Z其中TSS、ESS、RSS分别被称为总平方和、解释平方和与残差平方和。根据方差分解,必有:TSS=ESS+RSS。因止匕,R2=ESS/TSS = 1-RSS/TSS(三)关于R2的基本结论1、IV也是y与的样本相关系数r的平方。证明:y =f + n Cov(y, y) = Var(y) + Cov(s, y) = Vary)2乐心) 2 r 3 yyVaryVary Var(y)2、对于简单线性回归模型:y =4+4工+

12、 , R2是y与X的样本相关系数的平方。证明:R2 = 。2(乂, = Coy2(y,Bo+B冈=升 Coy2(y/)Var(y)Var(y) Var(y)Var(0+x) Var(y)Var(x)=。9产 二 r2dVar(y) dVar(x) ”练习:(1)对于模型:y = /3 + s,证明在OLS法下R2=0。(2)对于模型:y = 4+尸x + e,证明在OLS法R2二天四2Var(y)警告!软件包通常是利用公式R2=i_rsS/RS,其中RSS = Z来计算R?。应该注意到,我们在得到结论-9)2 = E(X -9)2 +时利用了1=0的性质,而该性质只有在拟合直线带有截距时才成立

13、,因此,如果拟合直线无截距,则上述结论并不一定成立,因此,此时我们不能保证R2为一非负值。总而言之,在利用R2时,我们的模型一定要带有截距。当然,还有一个大前提,即我们所采用的估计方法是OLS。五、自由度与调整的R2如果在模型中增加解释变量,那么总的平方和不变,但残差平方和至少不会增加,一般是减少的。为什么呢?举一个例子。假如我们用OLS法得到的模型估计结果是:力=)+区司+区如,此时,OLS法估计等价于求解最小化问题:小讥一月。一丹凤一42%2了令最后所获得的目标函数值(也就是残差平方和)为RSS1。现在考虑对该优化问题施加约束:A=0并求解,则得到目标函数值RSS2。比较上述两种情况,相对

14、于RSS1, RSS2是局部最小。因此,RSS1小于或等于RSS2。应该注意到,原优化问题施加约束后对应于模型估计结果:八/ = %+砧,因此,如果单纯依据R2标准,我们应该增加解释变量以使模型拟合得更好。增加解释变量将增加待估计的参数,在样本容量有限的情况下,这并不一定是明智之举。这涉及到自由度问题。什么叫自由度?假设变量X可以自由地取N个值(%,工2,.,/),那么x的自由度就是N。然而,如果施加一个约束,工无=%。为常数,那么x的自由度就减少了,新的自由度就是N-1。考虑在样本回归直线色=A+8网+A%,下残差的自由度问题。对残差有多少约束?根据正规方程(1) (2),有:我=0;2我玉=0,因此存在两个约束。故残差的自由度是N-2。如果当样本回归函数是:y = P. + pxx + p2z,则残差的自由度为N-3。显然,待估计的参数越多,则残差的自由度越小。自由度过少会带来什么问题?简单来说,自由度过少会使估计精度很低。例如,我们从总体中随机抽

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服