1、第第6章章 参数估计参数估计6.1 参数估计的基本原理参数估计的基本原理 6.2 总体参数的区间估计总体参数的区间估计1Applied Statistics第第6章章 学习目标学习目标21.参数估参数估计的基本原理的基本原理2.点估点估计与区与区间估估计3.单个与两个个与两个总体参数的区体参数的区间估估计4.样本量的确定方法本量的确定方法6.1 参数估计参数估计的基本原理的基本原理6.1.1 点估计与区间估计点估计与区间估计6.1.2 点估计量的评价标准点估计量的评价标准3Applied Statistics4点估计与区间估计点估计与区间估计点估计点估计(point estimate)51.用
2、用样本本的的估估计量量的的某某个个取取值直直接接作作为总体体参参数的估数的估计值例例如如:用用样本本均均值直直接接作作为总体体均均值的的估估计;用用两个两个样本均本均值之差直接作之差直接作为总体均体均值之差的估之差的估计2.无法无法给出估出估计值接近接近总体参数程度的信息体参数程度的信息由由于于样本本是是随随机机的的,抽抽出出一一个个具具体体的的样本本得得到到的的估估计值很可能不同于很可能不同于总体真体真值一一个个点点估估计量量的的可可靠靠性性是是由由它它的的抽抽样标准准误差差来来衡衡量量的的,这表表明明一一个个具具体体的的点点估估计值无无法法给出出估估计的可靠性的度量的可靠性的度量 区间估计
3、区间估计(interval estimate)61.在在点点估估计计的的基基础础上上,给给出出总总体体参参数数估估计计的的一一个个区区间间范范围,该区间由样本统计量加减估计误差而得到围,该区间由样本统计量加减估计误差而得到2.根根据据样样本本统统计计量量的的抽抽样样分分布布能能够够对对样样本本统统计计量量与与总总体体参数的接近程度给出一个概率度量参数的接近程度给出一个概率度量比如,某班级平均分数在比如,某班级平均分数在7585之间,置信水平是之间,置信水平是95%样本统计量样本统计量(点估计点估计)置信区间置信区间置信下限置信下限置信上限置信上限7点估计的评价标准点估计的评价标准无偏性无偏性(
4、unbiasedness)8无偏性:无偏性:估计量抽样分布的数学期望等于估计量抽样分布的数学期望等于 被估计的总体参数被估计的总体参数P PP()B BA A无偏无偏无偏无偏无偏无偏有偏有偏有偏有偏有偏有偏无偏性无偏性(unbiasedness)9 定义定义 若估计量若估计量 的数学期望的数学期望存在,且对于任意存在,且对于任意 有有 ,则称,则称 是是 的无偏估的无偏估计量。其中,计量。其中,是总体是总体 的一个样本,的一个样本,是包是包含在总体含在总体 的分布中的待估参数,的分布中的待估参数,是是 的取值范围。的取值范围。被称为以被称为以 作为作为 的估计的的估计的系统误差系统误差。无偏估
5、。无偏估计的实质上就是无系统误差。计的实质上就是无系统误差。偏误偏误:有效性有效性(efficiency)10有效性:有效性:对同一总体参数的两个无偏点估计对同一总体参数的两个无偏点估计 量,有更小标准差的估计量更有效量,有更小标准差的估计量更有效 AB 的抽样分布的抽样分布 的抽样分布的抽样分布P P()有效性有效性(efficiency)11 定义定义 设设 与与 都是都是 的无偏估计量,若有的无偏估计量,若有 ,则称,则称 较较 有效。有效。最小均方误差最小均方误差12 问题问题:若估计量若估计量 和和 的情况为:的情况为:但但 ,此时何者为优?,此时何者为优?均方误差均方误差:最小均方
6、误差最小均方误差13最小均方误差最小均方误差14 例例 已知真值已知真值 ,估计量,估计量 ,如何评价这两个估计量,哪一个好一点?如何评价这两个估计量,哪一个好一点?解解:故故 较优。较优。一致性一致性(consistency)15一致性:一致性:随着样本容量的增大,估计量的随着样本容量的增大,估计量的 值越来越接近被估计的总体参数值越来越接近被估计的总体参数AB较小的样本容量较小的样本容量较大的样本容量较大的样本容量P P()一致性一致性(consistency)16 定义定义 设设 为参数为参数 的估计量,若对的估计量,若对于任意的于任意的 ,当,当 时,时,依概率收敛于依概率收敛于则称则
7、称 为为 一致估计量。一致估计量。6.2 总体参数总体参数的区间估计的区间估计6.2.1 总体均值的区间估计总体均值的区间估计6.2.2 总体比例的区间估计总体比例的区间估计6.2.3 总体方差的区间估计总体方差的区间估计6.2.4 样本容量的确定样本容量的确定17Applied Statistics18总体均值的区间估计总体均值的区间估计单个总体均值区间的一般表达式单个总体均值区间的一般表达式191.总体均值的置信区间是由样本均值加减估计误差总体均值的置信区间是由样本均值加减估计误差得到的得到的2.估计误差由两部分组成:一是点估计量的标准误估计误差由两部分组成:一是点估计量的标准误差,它取决
8、于样本统计量的抽样分布。二是估计差,它取决于样本统计量的抽样分布。二是估计时所要求的置信水平为时所要求的置信水平为1-时,统计量分布两侧时,统计量分布两侧面积各为面积各为/2的分位数值,它取决于事先所要求的分位数值,它取决于事先所要求的可靠程度的可靠程度3.总体均值总体均值 在在1-置信水平下的置信区间可一般性置信水平下的置信区间可一般性地表达为地表达为 样本均值样本均值分位数值分位数值样本均值的标准误差样本均值的标准误差两个总体均值区间的一般表达式两个总体均值区间的一般表达式201.两个总体均值的置信区间是由两个样本均值之差两个总体均值的置信区间是由两个样本均值之差加减估计误差得到的加减估计
9、误差得到的2.估计误差由两部分组成:一是点估计量的标准误估计误差由两部分组成:一是点估计量的标准误差,它取决于样本统计量的抽样分布。二是估计差,它取决于样本统计量的抽样分布。二是估计时所要求的置信水平为时所要求的置信水平为1-时,统计量分布两侧时,统计量分布两侧面积为面积为/2的分位数值,它取决于事先所要求的的分位数值,它取决于事先所要求的可靠程度可靠程度3.两个总体均值之差两个总体均值之差(1-2)在在1-置信水平下的置置信水平下的置信区间可一般性地表达为信区间可一般性地表达为(x1-x2)分位数值分位数值(x1-x2)的标准误差的标准误差21总体比例的区间估计总体比例的区间估计单个总体比例
10、的区间估计单个总体比例的区间估计(传统方法传统方法)221.假定条件假定条件总体服从二项分布总体服从二项分布可以由正态分布来近似可以由正态分布来近似np(成功次数成功次数)和和n(1-p)(失败次数失败次数)均应该大于均应该大于102.使用正态分布统计量使用正态分布统计量 z3.3.总体比例总体比例总体比例总体比例P P在在在在1-1-置信水平下置信水平下置信水平下置信水平下的置信区间为的置信区间为的置信区间为的置信区间为样本比例样本比例分位数值分位数值样本比例的标准误差样本比例的标准误差单个总体比例的区间估计单个总体比例的区间估计(传统方法传统方法)23【例例】某某城城市市想想要要估估计计下
11、下岗岗职职工工中中女女性性所所占占的的比比例例,随随机机地地抽抽取取了了100名名下下岗岗职职工工,其其中中65人人为为女女性性职职工工。试试以以95%的的置置信信水水平平估估计计该该城城市市下下岗岗职职工工中中女女性性比比例例的置信区间的置信区间解解:已已知知 n=100,p65%,1-=95%,z/2=1.96该该城城市市下下岗岗职职工工中中女女性性比比例例的的置置信信区间为区间为55.65%74.35%单个总体比例的区间估计单个总体比例的区间估计(现代方法现代方法)241.按照传统方法计算出来的置信水平为按照传统方法计算出来的置信水平为(1-)的置信的置信区间能够覆盖总体真实比例的概率小
12、于区间能够覆盖总体真实比例的概率小于(1-),既,既使是大样本也是如此,更不可能应用于小样本使是大样本也是如此,更不可能应用于小样本2.根据经验法则:传统方法要求根据经验法则:传统方法要求np(成功次数成功次数)和和n(1-p)(失败次数失败次数)均应该大于均应该大于10(也有些书上说大也有些书上说大于于5)3.对于非常大的样本,传统方法和现代方法的结果对于非常大的样本,传统方法和现代方法的结果几乎相同,但对于小样本或中等样本现代方法更几乎相同,但对于小样本或中等样本现代方法更适用适用单个总体比例的区间估计单个总体比例的区间估计(现代方法现代方法)251.通过修正试验次数通过修正试验次数n(样
13、本量样本量)和试验成功的比例和试验成功的比例p(样本比例样本比例)改进置信区间改进置信区间2.将试验次数将试验次数n加上加上4,即用,即用 代替代替n;将试;将试验成功的次数验成功的次数x加上加上2,即用,即用 代替代替p3.对于任意大小的样本都可以使用该方法计算置信对于任意大小的样本都可以使用该方法计算置信区间区间4.只是在样本较小时,偶尔会有区间下限小于只是在样本较小时,偶尔会有区间下限小于0或或区间上限大于区间上限大于1的情况发生。此时可用的情况发生。此时可用0代替小于代替小于0的下限,用的下限,用1代替大于代替大于1的上限的上限单个总体比例的区间估计单个总体比例的区间估计(现代方法现代
14、方法)261.设总体服从二项分布,即设总体服从二项分布,即XB(n,p),x为为n次独立伯次独立伯努利试验成功的次数,努利试验成功的次数,p为成功的概率为成功的概率2.定义定义 和和 3.总体比例总体比例P在在1-置信水平下置信水平下的置信区间的置信区间4.该区间也称为该区间也称为Agresti-Coull区间区间(由由Alan Agresti和和Brent Coull给出,以其姓氏命名给出,以其姓氏命名)5.如果下限小于如果下限小于0则用则用0代替;如果上限大于代替;如果上限大于1则用则用1代替代替单个总体比例的区间估计单个总体比例的区间估计(现代方法现代方法)27【例例】某某城城市市想想要
15、要估估计计下下岗岗职职工工中中女女性性所所占占的的比比例例,随随机机地地抽抽取取了了100名名下下岗岗职职工工,其其中中65人人为为女女性性职职工工。试试以以95%的的置置信信水水平平估估计计该该城城市市下下岗岗职职工工中中女女性性比比例例的置信区间的置信区间解解:该该城城市市下下岗岗职职工工中中女女性性比比例例的的置置信信区间为区间为47.72%79.12%两个总体比例的区间估计两个总体比例的区间估计(传统方法传统方法)281.假定条件假定条件两个两个总体服从二项分布总体服从二项分布可以用正态分布来近似可以用正态分布来近似两个样本是独立的两个样本是独立的n1p1和和n1(1-p1),n2p2
16、和和n2(1-p2),均应该大于,均应该大于102.两个总体比例之差两个总体比例之差P1-P2在在1-置信水平下的置信置信水平下的置信区间为区间为(p1-p2)分位数值分位数值(p1-p2)的标准误差的标准误差两个总体比例的区间估计两个总体比例的区间估计(传统方法传统方法)29【例例】在在某某个个电电视视节节目目的的收收视视率率调调查查中中,城城市市随随机机调调查查了了500人人,有有45%的的人人收收看看了了该该节节目目;农农村村随随机机调调查查了了400人人,有有32%的的人人收收看看了了该该节节目目。试试以以95%的的置置信信水水平平估估计计城城市市与与农村收视率差别的置信区间农村收视率
17、差别的置信区间 两个总体比例的区间估计两个总体比例的区间估计(传统方法传统方法)30解解:已知已知 n1=500,n2=400,p1=45%,p2=32%,1-=95%,z/2=1.96 P1 1-P 2置信度为置信度为95%的置信区间为的置信区间为城城 市市 与与 农农 村村 收收 视视 率率 差差 值值 的的 置置 信信 区区 间间 为为6.68%19.32%两个总体比例的区间估计两个总体比例的区间估计(现代方法现代方法)311.通过修正试验次数通过修正试验次数n1、n2(样本量样本量)和试验成功的和试验成功的比例比例p1、p2(样本比例样本比例)改进置信区间改进置信区间2.将试验次数将试
18、验次数n1和和n2各加上各加上2,即用,即用 代代n1,代替代替n2;将试验成功的次数;将试验成功的次数x1和和x1各加各加上上1,即用,即用 代替代替p1,用,用 代替代替p23.对于任意大小的样本都可以使用该方法计算置信对于任意大小的样本都可以使用该方法计算置信区间区间两个总体比例的区间估计两个总体比例的区间估计(现代方法现代方法)321.设设两两总总体体都都服服从从二二项项分分布布,即即X1(n1,p1),X2(n2,p2)。x1为为n1次次独独立立伯伯努努利利试试验验成成功功的的次次数数,p1为为成成功功的的概概率率,x2为为n2次独立伯努利试验成功的次数,次独立伯努利试验成功的次数,
19、p2为成功的概率为成功的概率2.定义定义 ,;,3.P1-P2在在1-置信水平下的置信水平下的置信区间置信区间4.该该区区间间也也称称为为Agresti-Caffo区区间间(由由Alan Agresti和和Brian Caffo给出,以其姓氏命名给出,以其姓氏命名)5.如果下限小于如果下限小于-1则用则用-1代替;如果上限大于代替;如果上限大于1则用则用1代替代替单个总体参数的区间估计单个总体参数的区间估计(小结小结)33总体参数总体参数总体参数总体参数均值均值比例比例方差方差大样本大样本小样本小样本大样本大样本 2 2分布分布 2 2已知已知 2 2已知已知Z Z分布分布 2 2未知未知Z
20、Z分布分布Z Z分布分布Z Z分布分布 2 2未知未知t t分布分布两个总体参数的区间估计两个总体参数的区间估计(小结小结)34总体参数总体参数总体参数总体参数均值差均值差比例差比例差方差比方差比独立大样本独立大样本独立小样本独立小样本匹配样本匹配样本独立大样本独立大样本 1 12 2、2 22 2已已 1 12 2、2 22 2未未Z Z分布分布Z Z分布分布 1 12 2、2 22 2已知已知 1 12 2、2 22 2未知未知Z Z分布分布 1 12 2=2 22 2 1 12 2 2 22 2正态总体正态总体F F分布分布Z Z分布分布t t分布分布t t分布分布t分布分布35样本容量
21、的确定样本容量的确定估计单个总体均值时样本量的确定估计单个总体均值时样本量的确定361.估计总体均值时样本量估计总体均值时样本量n为为2.样样本本量量n与与总总体体方方差差 2、允允许许估估计计误误差差 、可可靠靠性性系数系数Z或或t之间的关系为之间的关系为与总体方差成正比与总体方差成正比与允许估计误差的平方成反比与允许估计误差的平方成反比与可靠性系数成正比与可靠性系数成正比3.样样本本量量的的圆圆整整法法则则:当当计计算算出出的的样样本本量量不不是是整整数数时时,将将小小数数点点后后面面的的数数值值一一律律进进位位成成整整数数,如如24.68取取25,24.32也取也取25等等等等其中:其中
22、:其中:其中:允许估计误差允许估计误差允许估计误差允许估计误差估计单个总体均值时样本量的确定估计单个总体均值时样本量的确定37【例例】拥拥有有工工商商管管理理学学士士学学位位的的大大学学毕毕业业生生年年薪薪的的标标准准差差大大约约为为2000元元,假假定定想想要要估估计计年年薪薪95%的的置置信信区区间间,允允许许估估计计误误差差为为400元,应抽取多大的样本量?元,应抽取多大的样本量?估计单个总体均值时样本量的确定估计单个总体均值时样本量的确定38解解:已知已知 =2000,=400,1-=95%,z/2=1.96 应抽取的样本量为应抽取的样本量为即应抽取即应抽取97人作为样本人作为样本 估
23、计两个总体均值时样本量的确定估计两个总体均值时样本量的确定391.设设n1和和n2为来自两个总体的样本,并假定为来自两个总体的样本,并假定n1=n22.根据均值之差的区间估计公式可得两个样本的根据均值之差的区间估计公式可得两个样本的容量容量n为为估计两个总体均值时样本量的确定估计两个总体均值时样本量的确定40【例例】一一所所中中学学的的教教务务处处想想要要估估计计试试验验班班和和普普通通班班考考试试成成绩绩平平均均分分数数差差值值的的置置信信区区间间。要要求求置置信信水水平平为为95%,预预先先估估计计两两个个班班考考试试分分数数的的方方差差分分别别为为:试试验验班班 12=90,普普通通班班
24、 22=120。如如果果要要求求估估计计的的误误差差范范围围不不超超过过5分分,在在两两个个班班应应分分别抽取多少名学生进行调查?别抽取多少名学生进行调查?估计两个总体均值时样本量的确定估计两个总体均值时样本量的确定41解解:已已知知 12=90,22=120,=5,1-=95%,z/2=1.96即应抽取即应抽取33人作为样本人作为样本 估计单个总体比例时样本量的确定估计单个总体比例时样本量的确定421.根据比例区间估计公式可得样本量根据比例区间估计公式可得样本量n为为2.的取值一般小于的取值一般小于0.13.P未知时,可取使方差达到最大的值未知时,可取使方差达到最大的值0.5估计单个总体比例
25、时样本量的确定估计单个总体比例时样本量的确定43【例例】根根据据以以往往的的生生产产统统计计,某某种种产产品品的的合合格格率率约约为为90%,现现要要求求 估估计计 误误 差差为为5%,在在 求求 95%的的置置信信区区间间时时,应应抽抽取取多多少少个个产产品作为样本?品作为样本?解解:已已 知知p=90%,=0.05,z/2=1.96,=5%应抽取的样本量应抽取的样本量为为 应抽取应抽取139个产品作为样本个产品作为样本估计两个总体比例时样本量的确定估计两个总体比例时样本量的确定441.设设n1和和n2为来自两个总体的样本,并假定为来自两个总体的样本,并假定n1=n22.根据比例之差的区间估
26、计公式可得两个样根据比例之差的区间估计公式可得两个样本的容量本的容量n为为估计两个总体比例时样本量的确定估计两个总体比例时样本量的确定45【例例】一一家家瓶瓶装装饮饮料料制制造造商商想想要要估估计计顾顾客客对对一一种种新新型型饮饮料料认认知知的的广广告告效效果果。他他在在广广告告前前和和广广告告后后分分别别从从市市场场营营销销区区各各抽抽选选一一个个消消费费者者随随机机样样本本,并并询询问问这这些些消消费费者者是是否否听听说说过过这这种种新新型型饮饮料料。这这位位制制造造商商想想以以10%的的误误差差范范围围和和95%的的置置信信水水平平估估计计广广告告前前后后知知道道该该新新型型饮饮料料消消费费者者的的比比例例之之差差,他他抽抽取取的的两两个个样样本本分分别别应应包包括括多多少少人人?(假假定定两两个个样本量相等样本量相等)估计两个总体比例时样本量的确定估计两个总体比例时样本量的确定46解解:=10%,1-=95%,z/2=1.96,由由于于没没有有p的信息,用的信息,用0.5代替代替即应抽取即应抽取193位消费者作为样本位消费者作为样本 第第 6 章章 小结小结471.参数估参数估计的思想与原理的思想与原理 2.单个个总体参数的区体参数的区间估估计3.两个两个总体参数的区体参数的区间估估计4.样本容量的确定本容量的确定