《表格模板-北邮考研概率论与数理统计62数据表示直方图等 精品.ppt》由会员分享,可在线阅读,更多相关《表格模板-北邮考研概率论与数理统计62数据表示直方图等 精品.ppt(50页珍藏版)》请在第一文库网上搜索。
1、 一、经验分布函数一、经验分布函数 二、频数频率分布表二、频数频率分布表 三、样本数据的图形显示三、样本数据的图形显示6.2 样本数据的整理与显示6.2.1 经验分布函数设 x1, x2, , xn 是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为 x(1), x(2), , x(n),则称 x(1), x(2), , x(n) 为有序样本.用有序样本定义如下函数 (1)( )(1)( )0, ( )/ ,1,2,.,11,kknnxxFxk nxx xknxx 则Fn(x)是一非减右连续函数,且满足Fn() = 0 和 Fn() = 1可见,Fn(x)是一个分布函数,称
2、Fn(x)为经验分布函数。经验分布函数。(1)(2)( )nxxx)(1)(或xsnxFn.的随机变量的个数中不大于,表示)(21xxxxxsn Fn(x)的图形是累积频率曲线。的图形是累积频率曲线。它是跳跃上它是跳跃上升的一条阶梯曲线。若观测值不重复,跃度为升的一条阶梯曲线。若观测值不重复,跃度为1/n,若重复,按若重复,按1/n1/n的倍数跳跃上升的倍数跳跃上升。Fn(x)x当当 时,时, 依概率收敛于总体的分布函数依概率收敛于总体的分布函数n)(xFn)(xF例1 某食品厂生产听装饮料,现从生产线上 随机抽取5听饮料,称得其净重(单位:克) 351 347 355 344 351x(1)
3、= 344, x(2)= 347, x(3)= 351, x(4)= 351, x(5)= 355这是一个容量为5的样本,经排序可得有序样本:其经验分布函数为 0 , x 344 0.2, 344 x 347Fn(x) = 0.4, 347 x 351 0.8, 351 x 355 1, x 355由伯努里大数定律:只要 n 相当大,Fn(x)依概率收敛于F(x) 。更深刻的结果也是存在的,这就是格里纹科定理。定理1(格里纹科定理)格里纹科(1933)定理表明:当n 相当大时,经验分布函数是总体分布函数F(x)的一个良好的近似。经典的统计学中一切统计推断都以样本为依据,其理由就在于此。. 10
4、)()(suplim , )( 1 )( , , xFxFPxFxFnxnxnn即即一致收敛于分布函数一致收敛于分布函数以概率以概率时时当当对于任一实数对于任一实数. )( , )( )( , 使用使用来来从而在实际上可当作从而在实际上可当作只有微小的差别只有微小的差别与总体分布函数与总体分布函数数的任一个观察值数的任一个观察值经验分布函经验分布函时时充分大充分大当当对于任一实数对于任一实数xFxFxFnxn 160 196 164 148 170 175 178 166 181 162 161 168 166 162 172 156 170 157 162 154样本数据的整理是统计研究的基
5、础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。例2 为研究某厂工人生产某种产品的能力, 我们随机调查了20位工人某天生产的该种产品 的数量,数据如下(1) 对样本进行分组:作为一般性的原则,组数通 常在520个,对容量较小的样本;(2) 确定每组组距:近似公式为组距d = (最大观测值 最小观测值)/组数;(3) 确定每组组限: 各组区间端点为a0, a1=a0+d, a2=a0+2d, , ak=a0+kd, 形成如下的分组区间(a0 , a1 , (a1, a2, , (ak-1 , ak对这20个数据(样本)进行整理,具体步骤如下:(4) 统计样本数据落入每个区间的个数频数
6、, 并列出其频数频率分布表。表1 例2 的频数频率分布表 组序 分组区间 组中值 频数 频率 累计频率(%) 1 (147,157 152 4 0.20 20 2 (157,167 162 8 0.40 60 3 (167,177 172 5 0.25 85 4 (177,187 182 2 0.10 95 5 (187,197 192 1 0.05 100合计 20 1一、直方图直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。当取
7、得一组样本值后,一般先根据样本取值作频率直方图,对总体的分布情况有一个几何直观上的粗略了解,然后再进一步分析10直方图111213 例3 某工厂用自动包装机包装产品,为了考察每袋产品重量的波动情况,选取100袋产品测得其重量如下:(单位:kg),根据测得的数据作出频率直方图97.894.698.9100.999.8102.797.995.599.0101.199.6102.997.795.799.5101.299.9103.198.295.899.1101.3100.0103.898.196.099.0101.4100.198.396.399.2101.5100.2104.598.596.69
8、9.3101.4100.397.898.496.799.4101.1100.496.999.5101.0100.198.597.099.1101.2100.298.097.299.2101.6100.298.197.499.0101.6100.498.197.599.4101.8100.598.797.199.3102.1100.398.899.998.9102.0100.298.999.7100.6102.1100.498.899.6100.6102.3100.198.699.7100.7102.498.899.8102.2100.899.8100.9141516把每一个数值分为两部分,前面
9、一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。如:二、茎叶图数值 分开 茎 和 叶 112 11 | 2 11 和 2例4 某公司对应聘人员进行能力测试,测试 成绩总分为 150分。下面是50位应聘人员的测 试成绩(已经过排序):64677072747676798081828283858688919192939393959595979799100100102104106106107108108112112114116118119119122123125126128133我们用这批数据给出一个茎叶图,见下页。图3 测试成绩的茎
10、叶图6 4 77 0 2 4 6 6 98 0 1 2 2 3 5 6 8 9 1 1 2 3 3 3 5 6 6 7 7 910 0 0 2 4 6 6 7 8 811 2 2 4 6 8 9 912 2 3 5 6 813 3 茎叶图的外观很像横放的直方图,但茎叶图中叶增加了具体的数值,使我们对数据的具体取值一目了然,从而保留了数据中全部的信息。在要比较两组样本时,可画出它们的背靠背的茎叶图。见附录。甲车间 6 2 0 5 6 乙车间8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9
11、 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 0 2 3 5 8 5 3 0 0 10 7 注意:茎叶图保留数据中全部信息。当样本量较 大,数据很分散,横跨二、三个数量级时, 茎叶图并不适用。更一般地,样本p分位数mp可如下定义:(1)()(1),1(2nppnpnpxnpmxxnp若不是整数), 若是整数通常,样本均值在概括数据方面具有一定的优势。但当数据中含有极端值时,使用中位数比使用均值更好,中位数的这种抗干扰性在统计中称为具有稳健性。 设设x(1),x (n)是有序样本,则样本中位数是有序样本,则样本中位数m0.5定义
12、为定义为为偶数为奇数)(21)12()2()21(5.0nnxxxmnnn21譬如,若譬如,若n=5,则,则m0.5 =x(3) ,n=6,则,则m0.5 =(x(3) + x(4) )。)。注:次序统计量 设 x1, x2, , xn 是取自总体X的样本, x(i) 称为该样本的第i 个次序统计量,它的取值 是将样本观测值由小到大排列后得到的第 i 个 观测值。其中x(1)=minx1, x2, xn称为该样本 的最小次序统计量,称 x(n)=maxx1,x2,xn为 该样本的最大次序统计量。 样本中位数是次序统计量的函数,次序统计量的应用之一是五数概括与箱线图。在得到有序样本后,容易计算如
13、下五个值:最小观测值 xmin= x(1) , 最大观测值 xmax=x(n) ,中位数 m0.5 , 第一4分位数 Q1 = m0.25, 第三4分位数 Q3 = m0.75.五数概括是指用这五个数:xmin , Q1 , m0.5 , Q3 , xmax来大致描述一批数据的轮廓。附录:附录:1 1、背靠背茎叶图举例。、背靠背茎叶图举例。2 2、次序统计量。、次序统计量。3 3、一本关于、一本关于“统计图统计图”的好书。的好书。现代统计图形现代统计图形谢益辉谢益辉http:/yihui.name/cn/publication/http:/yihui.name/cn/publication/4
14、、箱线图举例。、箱线图举例。1、背靠背茎叶图举例。背靠背茎叶图举例。例例 下面的数据是某厂两个车间某天各下面的数据是某厂两个车间某天各40名名员工生产的产品数量,为对其进行比较,我员工生产的产品数量,为对其进行比较,我们将这些数据放到一个背靠背茎叶图上。们将这些数据放到一个背靠背茎叶图上。 甲车间甲车间 乙车间乙车间 50 52 56 61 61 62 56 66 67 67 68 68 64 65 65 65 67 67 72 72 74 75 75 75 67 68 71 72 74 74 75 76 76 76 76 78 76 76 77 77 78 82 78 79 80 81 81
15、 83 83 85 87 88 90 91 83 83 84 84 84 86 86 92 86 93 93 97 86 87 87 88 92 92 100 100 103 105 93 95 98 107 甲车间甲车间 乙车间乙车间 6 2 0 5 6 8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 2 2 3 5 8 5 3 0 0 10 7两车间产量的背靠背茎叶图两
16、车间产量的背靠背茎叶图 在上图中,茎在中间,左边表示甲车间的数在上图中,茎在中间,左边表示甲车间的数据,右边表示乙车间的数据。从茎叶图可以看出,据,右边表示乙车间的数据。从茎叶图可以看出,甲车间员工的产量偏于上方,而乙车间员工的产甲车间员工的产量偏于上方,而乙车间员工的产量大多位于中间,乙车间的平均产量要高于甲车量大多位于中间,乙车间的平均产量要高于甲车间,乙车间各员工的产量比较集中,而甲车间员间,乙车间各员工的产量比较集中,而甲车间员工的产量则比较分散。工的产量则比较分散。2)、次序统计量及其分布 设 x1, x2, , xn 是取自总体X的样本, x(i) 称为该样本的第i 个次序统计量,它的取值 是将样本观测值由小到大排列后得到的第 i 个 观测值。其中x(1)=minx1, x2, xn称为该样本 的最小次序统计量,称 x(n)=maxx1,x2,xn为 该样本的最大次序统计量。 样本中位数也是一个很常见的统计量,它也是次序统计量的函数,例 设总体X 的分布为仅取0,1,2的离散 均匀分布,分布列为xp我们知道,在一个样本中,x1, x2,xn 是独立同分布的,而次序统计量 x