1、第三章 统计量及其分布 总体与样本 统计量与抽样分布 统计抽样基本方式第一节 总体和样本从本质上讲,总体就是所研究的随机变量或随机变量的分布。即一个具有确定概率分布的随机变量。一、总体与个体 在数理统计中,把所研究的对象的全体称为总体。通常指研究对象的某项数量指标,一般记为X。 把总体的每一个基本单位称为个体。如全体在校生的身高X,某批灯泡的寿命Y。对不同的个体,X的取值是不同的。X是一个随机变量或随机向量。X或Y的分布也就完全描述了我们所关心的指标,即总体的分布。为方便起见,我们将X的可能取值的全体组成的集合称为总体,或直接称X为总体。X的分布也就是总体的分布。二、样本及样本分布从总体X中抽
2、出若干个个体称为样本,一般记为(X1,X2,Xn)。n称为样本容量。而对这n个个体的一次具体的观察结果(x1,x2,xn)是完全确定的一组数值,但它又随着每次抽样观察而改变。(x1,x2,xn)称为样本观察值。如果样本(X1,X2,Xn)满足(1)代表性:样本的每个分量Xi与X有相同的分布;(2)独立性: X1,X2,Xn是相互独立的随机变量,则称样本(X1,X2,Xn)为简单随机样本。设总体X的分布为F(x),则样本(X1,X2,Xn)的联合分布为当总体X是离散型时,其分布律为样本的联合分布律为当总体X是连续型时, Xf(x),则样本的联合密度为总体、样本、样本观察值的关系总体 样本 样本观
3、察值 理论分布 统计是从手中已有的资料样本观察值,去推断总体的情况总体分布。样本是联系两者的桥梁。总体分布决定了样本取值的概率规律,也就是样本取到样本观察值的规律,因而可以用样本观察值去推断总体。例1 设(X1,X2,Xn)为X的一个样本,求(X1,X2,Xn)的密度。 解 (X1,X2,Xn)为X的一个样本,故例2 设某电子产品的寿命X服从指数分布,密度函数(X1,X2,Xn)为X的一个样本,求其密度函数。解 因为(X1,X2,Xn)为X的一个样本,例3 某商场每天客流量X服从参数为的泊松分布,求其样本(X1,X2,Xn)的联合分布律。解设(X1,X2,Xn)为来自总体X的简单随机样本。常用
4、于估计总体分布的均值,或检验有关总体分布均值的假设。三、样本的数字特征2.样本方差: 用于估计总体分布的方差。式中的n1称为S2的自由度(式中含有独立变量的个数),S称为样本标准差,又称为标准误。3.样本矩:K 阶原点矩:K 阶中心矩:1.样本均值:第二节 统计量与抽样分布一、统计量定义 样本是我们进行分析和推断的起点,但实际上我们并不直接用样本进行推断,而需对样本进行“加工”和“提炼”,将分散于样本中的信息集中起来,为此引入统计量的概念。 (X1,X2,Xn)g(X1,X2,Xn)其中g(x1,x2,xn)是(x1,x2,xn)的连续函数。如果g(X1,X2,Xn)中不含有未知参数,称g(X
5、1,X2,Xn)为统计量。(不含未知参数的样本的函数)如未知,(X1,X2,Xn)为X的一个样本均为统计量不是统计量若已知,2未知, (X1,X2,X5)为X的一个样本二、几个常见的抽样分布(一) 2分布1、定义:设n个r.v. X1,X2,Xn,XiN(0,1),i=1,2,n则称为自由度为n的2分布。n个相互独立的服从标准正态分布的随机变量的平方和服从2(n)。2分布的密度函数f(y)曲线2、性质(1)(2) 2分布的可加性X1,X2 相互独立,则X1+X2 2(n1+n2)例4 (X1,X2,X3)为X的一个样本求的分布。解 因为(X1,X2,X3)为X的一个样本 XiN(0,1),i=
6、1,2,3则i=1,2,33、2分布表及有关计算(1)构成 P2(n)=p,已知n,p可查表(P299)求得;(2)有关计算p分位点1、定义 若XN(0, 1),Y2(n),X与Y独立,则t(n)称为自由度为n的t分布。(二) t分布例5 (X1,X2,X3)为X的一个样本,求的分布i=1,2,3t(n) 的概率密度为2、基本性质: (1) f(t)关于t=0(纵轴)对称;(2) f(t)的极限为N(0,1)的密度函数,即 3、t分布表及有关计算(1)构成: Pt(n)=p(2)有关计算Pt(n)=p,=tp(n)p注:(三) F分布1、定义 若X2(n1),Y2(n2) ,X,Y独立,则 称
7、为第一自由度为n1 ,第二自由度为n2的F分布,其概率密度为例6 (X1,X2,X5)为取自正态总体X(0,2)的样本,求统计量的分布解2、 F分布表及有关计算(1)构成:PF(n1,n2)=p(2)有关计算PF(n1,n2)11)。解 因为(X1,X2,X6)是XN(10,32)的一个样本,因此XiN(10,32),且Xi相互独立,i=1,2,6,所以P(Z11)第三节 统计抽样基本方式 简单随机抽样 分层抽样 整群抽样 等距抽样一、简单随机抽样 1、定义设总体中有N个单元,不加条件从中随机抽取n个单元为样本,每个单元都有同样的概率被抽中的抽样方法。 总体总量和总体均值 (1) 与 (2)
8、样本均值 (3)总体均值和总量的估计 (4) (5) 估计量的方差 (6) 而 (7)估计量的方差估计 (8) (9)2、简单随机抽样的特点 优点: (1)比较容易理解和掌握;(2)抽样框不需要其他辅助信息;(3)理论上比较成熟,有现成的方差估计公式。 缺点: (1)没有利用辅助信息;(2)样本分散,面访费用较高;(3)有可能抽到较差的样本;(4)抽选大样本比较费时二、分层抽样 1、定义在抽样之前将总体分为同质的、互不重叠的若干子总体,也称为层。然后在每一个层独立地随机抽取样本。 分层抽样示意图首先介绍分层抽样的的一些符号:用下标h表示层的编号用 分别表示总体和样本中第h层第i个单元指标值;用
9、 表示h层的层权用 表示h层的抽样比分别表示h层(总体)均值与样本均值;分别为h层的(层内)方差和样本方差下面介绍分层抽样适用的场合和优点1)在调查中不仅需要对总体进行参数估计,也需要对层的参数进行估计。2)使样本更具代表性。3)便于组织管理和数据汇总4)对不同层可以按照不同情况和条件,具体采用不同的抽样方法。5)分层抽样可以提高估计量的精度2、估计量及其性质总体均值的估计 (10)对分层随机抽样,有如下简单估计 (11)总体总和的简单估计为 (12)无偏性:如果层的估计具有无偏性,分层的总体总量和总体均值的估计具有无偏性。对分层随机抽样, 的一个无偏估计为 (13) 3、分层抽样的缺点 (1
10、)对抽样框的要求比较高,必须有分层的辅助信息;(2)收集或编制抽样框的费用比较高;(3)若调查变量与分层的变量不相关,效率可能降低;(4)估计值的计算比简单随机抽样复杂三、整群抽样 1、定义由若干个有联系的基本单元组成的集合称为群,抽样时以群为抽样单元的抽样方法就称为整群抽样。 整群抽样示意图:黄色为总体红色为群白点为基本单元2、整群抽样的优点(1)能大大减低收集数据的费用;(2)当总体单元自然形成的群时,容易取得抽样框,抽样也更容易;(3)当群内单元差异大,而不同群之间的差异小时,可以提高效率。缺点: (1)若群内个单元有趋同性,效率将会降低;(2)通常无法预先知道总样本量,因为不知道群内有
11、多少单元;(3)方差估计比简单随机抽样更为复杂可以综合利用分层和整群抽样技术,采取分层整群抽样,比如人体尺寸调查,采用分层提高样本代表性,采用整群抽样,便于数据的收集。1、定义又称系统抽样,对研究的总体按一定的顺序排列,每隔一定的间隔抽取一个单元的抽样方法。 抽选方法:设总体单元数为N,要抽n个单元为样本,先计算抽样间隔k=N/n,在1到k之间抽取一个随机起点r,则被抽中单元的顺序位置是:r,r+k,r+2k,。当N不能被n整除时,采用圆形系统抽样方法。四、等距抽样2、系统抽样的优点(1)没有抽样框时可代替简单随机抽样方法简单;(2)不需要辅助的抽样框信息;(3)样本的分布比较好;估计值容易计算。 3、系统抽样的缺点 (1)若抽样间隔与总体的某种周期性变化一致,会得一个差的样本;(2)不使用辅助信息使抽样效率不高;(3)使用概念框时,不能预先知道样本量;(4)没有一个无偏的方差估计量;(5)当N不能被n整除时会得到样本量不同的样本。 我们国家的国家统计局的调查多采用系统抽样,它便于操作。