您的当前位置:首页正文

统计学系列讲座第3讲 抽样误差与参数估计

来源:帮我找美食网
维普资讯 http://www.cqvip.com 2006年4月 护理学报 April,2006 Vo1.13 No.4 93 第13卷第4期 Joumal of Nursing(China) 【继续教育园地】 统计学系列讲座 第3讲抽样误差与参数估计 安胜利 (南方医科大学生物统计学系,广东广州510515) 1 均数的抽样误差 即使你确知某市健康成年男子的平均身高为174 cm,如 果你随机抽取1份50人的样本,所得样本均数一般也不会 恰好等于174 cm这个总体均数。这就是由于抽样而引起的 误差——抽样误差。在实际工作中,由于各种条件所限,一般 不可能也没有必要观察总体中的每一个个体,常常是通过抽 样来进行研究的。虽然抽样误差是不可避免的,但其大小是 可以度量的。 例1:某地区正常成年男子的红细胞计数服从正态分布 N(5.00,0.5O2),从该总体中随机抽取100份样本,每份样本含 有10个个体,结果如下。 表1 正常成年男子红细胞计数抽样实验结果 由表1可见,各个样本均数 i并不等于相应的总体均数 5.00,相互问也不完全相同。由数理统计可证明,这些样本均 数服从均数为 (本例为5.00),方差为叮;的正态分布。其中 ol-的汁算公式为 叮T=叮/、/n (1) 本例,cr=O.50, :叮/、/n=0.50/、/10=O.16。cr=O.50表示 正常成年男子红细胞计数的个体变异大小,而crx=O.16表示 n=10时各样本均数 i的变异大小,即均数的标准差。后者是 统汁学上义一个重要指标——标准误(Standard Error,SE)。 般地,统计上将统计量(如样本均数 、样本率P等)的标 准差称为标准误,它可用于说明抽样误差的大小。由式(1)可 见,当样本含量n一定时,叮越大,即个体变异越大,则样本均 数的抽样误差叮_就越大;反之,当叮固定时,n越大,则O"T就 越小。在实际工作中,由于叮通常是未知的,常用样本标准差 S来代替叮。 sT=5/、/n (2) 例2:由上例的第2份样本X=5.03,S=0.52,n=lO,计算均 数的标准误。 解:利用式(2)计算,.sT=.s/、/n=O.52/、/10--0.1644。 通过上面的抽样实验,已知从均数为 ,标准差为叮的 正态总体中反复抽取样本含量为n的样本,各样本均数冠也 服从正态分布,其均数为 ,标准差为GT=--G]、/n。事实上, 由数理统计的中心极限定理可知,无论原始总体为何种分 布,只要它具有总体均数 和标准差叮,当样本含最足够大 时(n≥60), 都近似服从均数为 ,标准差为叮_的正态分布。 这一点可是具有很高的实用价值的。因为在实际工作中,许 多医学测量结果,我们并不知道它的确切分布。有了这条性 质,就可以利用正态分布原理对其特征进行推断了。 2 t分布 大家对上次讲座的标准化变换还有印象吧。既然在例1 的抽样实验中,各个 i也服从总体均数为 ,标准差为G/、/ 的正态分布,不妨对各个 .也做一下标准化变换 x 一 U--———-——...-- :--.-.: .一 (2) G| 同样,由于在实际工作中,叮通常是未知的,我们用各个 样本标准差S 代替叮的话,则式(2)变为式(3)。 韭 (3) s | n 之所以式(3)左侧用t,是因为这时该式已经不服从标准 正态分布了,而是t分布了,它是英国统计学家Gosset于1908 年以笔名“Student”在其发表的论文中提出来的,又称Student 分布。t分布同自由度v有关,就如同正态分布同均数和标准 差有关一样。随着自由度的增大,1分布接近于标准正态分 布,当v=。。时,t分布的极限分布是标准正态分布,见图1。 O.5O 0.40 O-3O O.2O O.1O O.OO 4 —3 —2 —1 0 1 2 3 4 图1 不同自由度下的t分布 不同自由度下t分布的尾部面积大小及其所对应的t界值 在各教科书后的附表中都会给出。例如:t =t0,l ̄2.9=2.262,即 表示当自由度为9时,t分布双侧尾部面积之和为0.05的t界值 是2.262,t卸9=1.833表示当自由度为9时,t分布一侧尾部面积 为0.05的t界值是1.833。而当自由度为无穷大时,totwz =1.96。 维普资讯 http://www.cqvip.com 护理学报 2006,13(4) 大家其实可以把t界值表的最后一行看成一个简化了的M界 值表。大家看一下t界值表,会发现当自由度比较大时(例如 v>60)。t界值已经比较接近fz界值了。所以在实际工作中,如 果n比较大,而手边无t界值表可查或无软件的话,可考虑用 1.96近似代替£ 3参数估计 可信区间意味着如果做100次抽样,得到100份样本的话, 可算得100个可信区间,理论上平均有95个包括 ,只有5 个不包括。实际工作中,为估计总体均数,事实上,我们只做 次抽样,只算得一个可信区间,用以估计 的范围,理论上 CI的优劣由两个指标来衡量,即准确度和精密度。前者 。 有95%的可能是正确的(1一 )%,只有5%的可能发生错误。 由1一 的大小反映,也就是区间包括 的概率;后者由区间 的宽度反映,当然是越窄越好。但在n确定时,两者无法兼 顾,所以不能简单地认为99%的CI比95%的好。在实际工作 统计推断是统计学的主体内容,它不仅仅指我们通常所 说的假设检验(如t检验、方差分析等),还包含参数估计。 3.1参数估计方法参数估计包含点估计(point estimation) 中,95%CI更为常用。可信度确定的情况下。增加n可减小区 和区间估计(interval estimation)。前者就是直接用样本均数作 间宽度。 为总体均数的估计值,由于它没有考虑到抽样误差,我们一 例4:已知某市100名健康成年男性工人血红蛋白量资 般不用这种方法,除非n很大。后者给出一个区间(常称为可 料服从正态分布,其X=141.8 g/L,S=12.2 g/L。试计算双侧 信区间,confidence interval,CI),并同时给出该区间包含总体 95%参考值范围及95%可信区间。 均数的概率。在统计学上,参数估计一般指的就是区间估计, 解:由题意可知,用正态分布法计算双侧95 ̄/ ̄考值范围 见式(4)。 ±1.96S=141.8 ̄1.96x12.2=117.9—165.7( L) t,a2Sr<lL<X+ton (4) 95%可信区间用公式(4)计算,若无法得到准确t值,鉴 或缩写为X ̄t以 。考虑到我们的读者重在应用,这里就不给 于本研究n较大,可考虑用1.96近似代替t值。标准误St=S ̄ 出其推导过程了。 、/ =12.2/\/ :1.22.则 例3:2oo3年,在某地20岁应征男青年中随机抽取85 ±t以 141.8±1.96x1.22=139.4—144.2( ) 人。平均身高为171.2 em,标准差为5.3 cm,试估计2003年 即估计该市95%成年男性工人血红蛋白量在117.9— 当地20岁应征男青年身高总体均数的95%可信区间。 165.7 g/L之间;我们有95%的把握,他们的平均血红蛋白量 解:已知X=171.2 cm。S=5.3 em,n=85, 在139.4 ̄144.2之间。显然后者范围要窄于前者。 贝0£no5 .84 to o5 . =1.96,Sx=S/x/n=5.3/x/s5=0.57 cm。 需要说明的是。本次讲座只涉及均数方面的内容,当然 由式(4)可得171.2 ̄1.96x0,57=(170.1,172.3)。 率也有抽样误差和其相应的参数估汁方法。我们将在以后的 即2003年当地20岁应征男青年身高总体均数的95%可信 讲座中提到。 区间为170.1—172.3 cm。 【参考文献】 两个总体均数之差的区间估计也是参数估计中的重要 [1】徐勇勇.医学统计学【M】.2版.北京:高等教育出版社,2001. 内容,限于篇幅,感兴趣的读者请参考有关教科书。 【2】方积乾.卫生统计学【M】.5版.北京:人民卫生出版社,2004. 3.2可信区间的解释从总体中做随机抽样,据每份样本 【3】孙振球.医学统计学【M】.2版,北京:人民卫生出版社,2004. (而不是每个观察单位)都可算得一个可信区间,例如95%的 [本文编辑:方玉桂】 g始●※ 十鼯※母 ●鼯母※◇夺母※ 夺母鼯●※◇母鼯● 母●※夺母◇ 母 串啦◇ ※● 积 思 考题 1.均数的标准误—— C X ̄I.96岛D X ̄2.58 A是反映个体差异大小的指标 3.下面——越小,表示用该样本均数估计总体均数的可靠 B随样本例数增加而减小 性大。 C可用来估计个体值的参考值范围 A CV B s C D R D是说明均数代表性好坏的指标 4.一般用 ±M斯计算总体均数的(1一 )%可信区间。 2.当样本含量n很大时,总体均数的95%可信区间可用—— A对 B错 近似计算 5.统计推断的内容包括参数估计和假设检验。 A X ̄I.96 S B X ̄2.58 S A对 B错 温馨提醒 各位学员: 2006年第1一第10期有《继续教育园地》,每期附有练习题,大家每期学习后做好练习并妥善保存。2006年7月发放上 半年学分,11月发放全年学分或下半年学分。请已办理学分IC卡的学员在第6和第10期答卷的相应位置准确填写IC卡 卡号.到时学分会登记入您的卡中;对还没有办理学分IC卡的学员。本刊仍将以挂号倍的方式邮寄学分证。同时提醒大家 留意每期《继续教育园地》相关信息,严格按要求参与学习和答题,并按要求准时寄回答卷,以保证学习效果和继续教育项目 的顺利进行。 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top