1、生物统计生物统计生物统计介绍资料整理集中趋势和离散趋势正态分布和抽样分布统计推断相关分析和线性回归1/102生物统计介绍生物统计介绍数理统计:是数学一个分支学科。它主要研究是数理统计:是数学一个分支学科。它主要研究是怎么有效搜集、整理和分析带有随机性数据。怎么有效搜集、整理和分析带有随机性数据。生物统计就是数理统计在生物领域应用。生物统计就是数理统计在生物领域应用。生物统计:是应用于生物学科中当代统计方法生物统计:是应用于生物学科中当代统计方法2/102统计学几个基本概念o试验与事件试验是一定综合条件实现,假定这种综合条件能够任意地重复实现很屡次。事件是试验结果和现象o频率与概率频率=频数/试
2、验次数=m/n概率:是频率稳定值叫随机事件概率o总体和个体总体又称母体,是一个统计问题所研究对象全体。个体:组成总体每一个元素(单元)称为个体 3/102统计学几个基本概念o抽样与样本样本:从总体中抽取一定数量个体进行研究,这部分个体称为样本。随机抽样:是指总体中每个个体都有同等机会进入样本。o参数与统计量参数:是描述总体特征数,在推断统计中总体参数是一个固定值,通常未知。统计量:是样本已知函数。o准确度和准确度准确度也叫准确性是指在调查或试验中某一试验指标性状观察指与真值靠近程度。准确度指调查或试验中同一试验指标或性状重复观察值彼此靠近程度。4/102资料整理o统计表统计表:资料经过汇总后,
3、得到很多说明各种现象统计数字,把这些统计数字按照一定指标次序排列在适当表格内,就组成统计表。统计表种类:简单表、复合表、分组表简单表:由一组横标目和一组纵标目组成复合表:由两组以上横标目和纵标目结合起来,或一组横标目和两组或两组以上纵标目结合起来以表示他们之间关系。5/102资料整理o资料分类计量资料:是用度量衡等计量工具测量后而得到。因为每次测得结果因个体而异,它所以能够作为区分和描述个体之用。表现出变异性或变差特征数,我们称为变数。计数资料:是用计数方式得来。因而这种变数必须用整数来表示。计数资料分类数量化:公称尺度、等级尺度、间距尺度。6/102资料整理o统计图统计图作用:易于了解、易于
4、记忆、便于分析比较、富于鼓动性统计图种类:直方图:是用矩形面积来表示频数分布表中各组数据出现频数。条形图:它是以若干平行柱形长短来表示绝对数或相对数大小图形,可分为单式条图和复式条图。圆形图:对于各项之和为100%者,可用圆形图表示,圆总面积表示事物整体其值为100%。扇形面积表示整体一部分。而且用不一样色彩或线条表示部分。线图:主要用于表示一个动态数量资料。说明事物在时间上改变发展过程。7/102o集中趋势:在统计学中是指一组数据向某一中心值靠拢程度,它反应了一组数据中心点位置所在。o集中趋势指标有:算数平均数、中位数、众数、几何平均数和调和平均数。集中趋势度量集中趋势度量8/102集中趋势
5、指标集中趋势指标o算数平均数:资料中各数和除以变数个数所得到得商,简称平均数。加权平均数9/102集中趋势指标集中趋势指标o中位数:将N个变数按大小次序排列后,假如N为奇数Med=Xk+1,当N为偶数时,Med=(xk+Xk+1)/2o众数:对单峰分布来讲,发生频数最多变数值称为众数,对多峰分布而言,众数是指比较相邻值较大频数变数值,有时没有众数。o几何平均数:N个非负数x1,x2,x3,xN乘积N次方根称为几何平均数。相邻数值增加成百分比关系,可用几何平均数表示他们集中趋势10/102集中趋势指标集中趋势指标o调和平均数:设x1,x2,x3xn都为正数(或全为负数)调和平均数倒数等于这些变数
6、倒数算数平均数。11/1025种平均数关系及评价o三种平均数之间关系1、在完全对称分布情况下,算数平均数,中位数以及众数三者相等。2、在微偏态分布中,众数,中位数以及算术平均数三者关系以下:3、一组数据几何平均数较算术平均数笑,常较其调和平均数为大。12/102离散性度量o离散趋势:在统计学中反应了一组数据差异离散趋势:在统计学中反应了一组数据差异程度。程度。o离散性度量指标:范围、内百分位数、平均离散性度量指标:范围、内百分位数、平均差、方差和标准差以及变异系数。差、方差和标准差以及变异系数。13/102离散性度量指标离散性度量指标o范围:它是样本最大值与最小值差,它也是最简单离散性度量指标
7、。o范围用途:1、能够粗糙预计标准差,假如样本较大,它频数分布靠近正态分布,则样本标准差近似预计值:2、假如样本含量较小,则样本取自正太总体,则用下式预计:14/102离散性度量指标离散性度量指标o平均绝对离差o相对离散度是一个既能反应离散度,又能反应出集中趋势指标。最惯用是标准差与平均数之比,称为变异系数:15/102离散性度量指标离散性度量指标o标准差:如一样本有n个观察指x1,x2,xn,设其算数平均数为 ,则该样本标准差为:o方差就是标准差平方16/102正态分布o分布分布分布函数分布函数F(x)总体中,个体值小于总体中,个体值小于x所占百分比。所占百分比。分布密度分布密度函数函数f(
8、x),它性质是:它性质是:即落在区间(即落在区间(a,b)内个体百分比等于)内个体百分比等于f(x)在(在(a,b)上积)上积分,他对一切分,他对一切a=b均成立。均成立。o随机变量分为离散性随机变量和连续性随机变量随机变量分为离散性随机变量和连续性随机变量17/102随机变量分类随机变量分类 如如“取到次品个数取到次品个数”;“110天天收到呼叫次天天收到呼叫次 数数”等等.随随机机变变量量离散型随机变量离散型随机变量全部取值能够逐一全部取值能够逐一一一列举一一列举比如,比如,“电视机寿命电视机寿命”;实际中常碰到实际中常碰到“测量误差测量误差”等等.全部可能取值不但全部可能取值不但无穷多,
9、而且还不能无穷多,而且还不能一一列举,而是充满一一列举,而是充满一个区间一个区间.非离散型随机变量非离散型随机变量 其中一个主要类型为其中一个主要类型为连连续型随机变量续型随机变量.18/102正太分布o正态分布:若随机变量X分布密度函数是:记作:XN(,)o正态分布性质:1、只有一个峰,峰值在x=处,总体平均数、中位数、众数三者重合在 处。2、图形关于直线x=处对称3、正态曲线分布在x轴上方,而且横轴为正太曲线左右延伸渐近线。19/102正态分布o正态分布性质:4、参数 决定图形形状,越大,图形显得矮和宽,它越小,图形显得高与窄。5、变量做线性变换 若XN(,),如对X做线性变换:则ZN(0
10、,1)。则Z服从均数为0,方 差为1正太分布,我们将这么正态分布称为标准正态分布。6、正太曲线在 或对标准正态分布 各有一个拐点。20/102抽样和抽样分布概念o为何要抽样?n数理统计中总体演化;n总体分布未知,不过又需要了解总体分布;o什么是抽样分布?n总体和样本关系:样本含有和总体相同分布;n样本能够结构统计量21/102三种常见分布三种常见分布分布定义 为独立同分布于标准总体总体N(0,1)随机变量列,则称随机变量:所服从分布为自由度是n 分布,记为22/102 分布三个关键点独立同分布随机变量序列独立同分布随机变量序列随机变量服从标准正态分布随机变量服从标准正态分布新结构随机变量为原随
11、机变量平方和新结构随机变量为原随机变量平方和新随机变量服从新随机变量服从新随机变量服从新随机变量服从自由度为自由度为自由度为自由度为n n卡方卡方卡方卡方分布分布分布分布23/102(2)t-(2)t-分布分布24/102t分布三个关键点分子是标准正态随机变量分子是标准正态随机变量分母是自由度为分母是自由度为n卡方随机变量卡方随机变量分子分母相互独立,且满足结构公式分子分母相互独立,且满足结构公式新随机变量服从新随机变量服从新随机变量服从新随机变量服从自由度为自由度为自由度为自由度为n nt t分布分布分布分布25/102t分布图像基本性质基本性质:(1)f(t)(1)f(t)关于t=0t=0
12、(纵轴)对称。(2)f(t)(2)f(t)极限为XN(0,1)密度函数26/102 (3 3)F F分布分布27/102F分布三个关键点:分子是自由度为分子是自由度为n1卡方随机变量卡方随机变量分母是自由度为分母是自由度为n2卡方随机变量卡方随机变量分子分母相互独立,且满足结构公式分子分母相互独立,且满足结构公式新随机变量服从新随机变量服从新随机变量服从新随机变量服从第一自由度为第一自由度为第一自由度为第一自由度为n n1 1第二自由度为第二自由度为第二自由度为第二自由度为n n2 2F F分布分布分布分布28/102统统计计推推断断通通过过样样本本推推断断总总体体,是是计计算算生生物物学学一
13、一个个惯惯用用方方法法,普普通通有有两两种种方方法法。一一是是首首先先对对所所预预计计总总体体提提出出一一个个假假设设(hypothesis),比比如如假假设设这这个个总总体体平平均均数数等等于于某某个个值值0(0),然然后后,经经过过样样本本数数据据去去推推断断这这个个假假设设是是否否能能够够接接收收。假假如如能能够够接接收收,样样本本很很可可能能抽抽自自这这个个总总体体;不不然然,很很可可能能不不是是抽抽自自这这个个总总体体。二二是是经经过过样样本本统统计计量量预预计计总总体体参参量量。前前一一个个路路径径称称为为统统计计假假设设检检验验(statistical test ofhypoth
14、esis),后后一一个个成成 为为 总总 体体 参参 量量 预预 计计 (estimation ofpopulationparameter)。这这两两种种不不一一样样统统计推断方法,在实践应用中可相互参考使用。计推断方法,在实践应用中可相互参考使用。29/102一、单个样本统计假设检验一、单个样本统计假设检验假设假设总总体体平平均均数数是是未未知知,为为了了得得到到对对总总体体平平均均数数推推断断,能能够够假假设设总总体体平平均均数数等于某一给定值等于某一给定值 H0:0备择假设记为备择假设记为HAHA:0、HA:0及及HA:0。30/102备备择择假假设设提提出出需需视视情情况况而而定定。若
15、若已已知知不不可可能能大大于于0,则则HA:0。若若已已知知不不可可能能小小于于0,则则HA:0。若若考考查查目目标标只只是是判判断断是是否否等等于于0,并并不不关关心心终终究究是是0还还是是0,或或者者并并不不知知道道不不可可能能大大于于0或是或是不可能小于不可能小于0,这时,这时HA:0。31/1022.小概率原理小概率原理小小概概率率事事件件,在在一一次次试试验验中中,几几乎乎是是不不会会发发生生。若若依依据据一一定定假假设设条条件件计计算算出出来来该该事事件件发发生生概概率率很很小小,而而在在一一次次试试验验中中,它它竟竟然然发发生生了了,则则能能够够认认为为假假设设条条件件不不正正确
16、确。所所以以,否否定定假设。假设。32/102标准化样本平均数标准化样本平均数服服从从标标准准正正态态分分布布N(0,1),即即P(Uu)或或P(Uu)或或P(|U|u)值值。或或者者说说,能能够够得得到到 抽抽自自平平均均数数为为0 总总体体概概率率。假假如如得得到到概概率率值值很很小小,则则抽抽自自平平均均数数为为0 总总体体事事件件是是一一个个小小概概率率事事件件。依依据据小小概概率率原原理理,它它在在一一次次试试验验中中几几乎乎是是不不会会发发生生,但但实实际际上上它它发发生生了了,说说明明假假设设条条件件不不正正确确,即即并并不不等等于于0,拒拒绝绝零零假假设设而而接收备择假设。接收
17、备择假设。33/102依依据据上上述述原原理理所所建建立立起起来来检检验验方方法法称称为为显显著著性性检检验验(significancetest)。终终究究概概率率小小到到什什么么程程度度算算是是小小概概率率,要要依依据据实实际际情情况况或或试试验验要要求求而而定定。计计算算生生物物工工作作中中,通通常常要要求求0.05或或0.01以以下下为为小小概概率率0.05或或0.01或或其其它它值值)称称为为显显著著性性水水平平(significance level),记记为为“a a”。34/1023单单侧侧检检验验(one-sidedtest)与与双双侧侧检检验验(two-sidedtest)选择
18、做单侧检验或双侧检验,应依据问题要求选择做单侧检验或双侧检验,应依据问题要求而定。假若问题只要求判断而定。假若问题只要求判断是否等于是否等于0,而不是大,而不是大于于0或小于或小于0时,应做时,应做双侧检验双侧检验。假如事先能够判。假如事先能够判断断不可能大于不可能大于0,或,或不可能小于不可能小于0时,则可做时,则可做单侧检验单侧检验。因单侧检验区分力更强些,所以在可能情。因单侧检验区分力更强些,所以在可能情况下尽可能做单侧检验。况下尽可能做单侧检验。35/1024两种类型错误两种类型错误在在H0是是真真实实情情况况下下,因因为为随随机机性性依依然然有有可可能能落落在在拒拒绝绝域域内内,依依
19、据据小小概概率率原原理理,这这时时将将拒拒绝绝H0。这这么么拒拒绝绝是是错错误误。假假如如假假设设是是正正确确,却却错错误误地地拒拒绝绝了了它它,称称为为犯犯型型错错误误(typeerror)。犯犯型型错错误误概概率率不会超出不会超出a a。a aP(型错误)型错误)P(接收(接收H0|H0是正确,是正确,0)。)。36/102如在单侧检验时所得到结论是拒绝如在单侧检验时所得到结论是拒绝H0:0。得到这么结论是要冒一定风险,因为在。得到这么结论是要冒一定风险,因为在a a0.05水水平上,拒绝平上,拒绝H0。所以平均。所以平均100次次H0会有会有5次是错误。次是错误。或者说,每次拒绝都要冒或
20、者说,每次拒绝都要冒5%错误推断风险。假如在错误推断风险。假如在a a0.01水平上拒绝水平上拒绝H0。所冒风险要小一些,即平。所冒风险要小一些,即平均每拒绝均每拒绝100次次H0,会有,会有1次是错误。或者说,每次次是错误。或者说,每次拒绝都要冒拒绝都要冒1%推断错误风险。推断错误风险。37/102o 其次,接收H0也不能说H0一定是正确。当事实上不等于0而等于另外值1 时,也有落入接收域可能。当0 但错误地接收了0 假设时所犯错误称为型错误(type error)。犯型错误概率记为b,可以表示为:o b1 P(型错误)P(接收H0|H0是错误,1)。38/102关于两种类型错误,还有以下几
21、点需要说明。关于两种类型错误,还有以下几点需要说明。(1)当)当1愈靠近愈靠近0时犯时犯型错误概率愈大;当型错误概率愈大;当1愈远离愈远离0时犯时犯型错误概率愈小。因为犯型错误概率愈小。因为犯型错误型错误概率与概率与1相关,所以相关,所以b b应添加下标应添加下标1,记为,记为b b1 。b b1 表示,当实际上表示,当实际上1而错误地接收而错误地接收0概概率。(率。(2)在)在n 和和固定时,为了降低犯固定时,为了降低犯型错误概型错误概率率a a,结果必定增加犯,结果必定增加犯型错误概率型错误概率b b。反之,降低。反之,降低b b必定增加必定增加a a。(3)为了同时降低为了同时降低b b
22、和和a a就需增加样本就需增加样本含量。含量。39/102(二)单个样本显著性检验程序二)单个样本显著性检验程序总总而而言言之之,单单个个样样本本显显著著性性检检验验基基本本程程序序归归纳纳以下:以下:1.假假设设:零零假假设设是是假假设设检检验验基基础础。它它可可能能有有以以下下几几个个起起源源(1)依依据据以以往往经经验验或或者者依依据据一一些些试试验验结结果果,(2)依依据据某某种种理理论论或或某某种种模模型型,(3)依依据据预预先先所所做某种要求而提出。做某种要求而提出。与与零零假假设设对对立立是是备备择择假假设设。备备择择假假设设是是总总体体参参量量中中除除去去零零假假设设以以外外某
23、某个个值值或或一一些些值值。它它可可能能有有以以下下几几个个起起源源(1)除除零零假假设设以以外外可可能能值值,(2)担担心心会会出出现现值值,(3)希希望望出出现现值值,(4)有有主主要要经经济济意意义义和其它意义值。和其它意义值。40/1022.显显著著性性水水平平:依依据据问问题题要要求求,要要求求显显著著性性水水平平。对对于于试试验验条条件件不不易易控控制制或或轻轻易易产产生生较较大大误误差差试试验验,如如一一些些生生化化试试验验,能能够够将将a a定定得得宽宽一一些些,如如a a0.10。对对于于轻轻易易产产生生严严重重后后果果一一些些试试验验,如如药药品品毒毒性性试试验验,a a能
24、能够定得严一些,如够定得严一些,如a a0.01。3.两两种种类类型型错错误误:前前面面已已经经讲讲过过,在在样样本本含含量量相相同同情情况况下下,降降低低型型错错误误必必定定会会增增加加型型错错误误。所所以以,在在要要求求显显著著性性水水平平时时,就就应应该该考考虑虑这这两两种种错错误误中中哪哪一一个个对对试试验验结结果果有有严严重重影影响响。普普通通来来说说,a a 不不宜宜定定太太严严,a a 定定得得太太严严必必定定增增加加b b。在在条条件件许许可可情情况况下下,尽尽可可能能增加样本含量增加样本含量n。41/1024.确确定定应应该该使使用用检检验验方方法法:对对平平均均数数做做检检
25、验验,分分为为两两种种情情况况,s s2 2已已知知时时做做u检检验验,s s2 2未未知知时时用用t 检检验验,标标准差用准差用c c2检验。检验。5.建立在建立在a a 水平上水平上H0拒绝域拒绝域:若统计量值;落在拒绝:若统计量值;落在拒绝域内,则拒绝域内,则拒绝H0而接收而接收HA。在做单侧检验时,拒绝。在做单侧检验时,拒绝域只在零假设一侧有一个区间。做双侧检验时,拒绝域只在零假设一侧有一个区间。做双侧检验时,拒绝域在零假设两侧各有一个区间。域在零假设两侧各有一个区间。42/1026.对对推推断断解解释释:若若统统计计量量值值落落在在接接收收域域内内,决决不不是是说说总总体体参参量量值
26、值一一定定等等于于零零假假设设值值。对对于于接接收收q qq q0 0这这一一零假设能够有以下几个解释:零假设能够有以下几个解释:(1)零零假假设设值值是是真真实实,并并产产生生一一个个正正如如我我们们所所见到样本。见到样本。(2)q q 非常靠近非常靠近q q0 0。(3)抽抽样样结结果果符符合合零零假假设设值值q q0 0,样样本本统统计计量量值值与与q q0 0之间不符合是因为偶然原因造成。之间不符合是因为偶然原因造成。43/102若若统统计计量量值值落落在在拒拒绝绝域域内内,则则拒拒绝绝q qq q0 0假假设设。对于这种情况,有以下几个解释:对于这种情况,有以下几个解释:(1)q q
27、 不可能很靠近不可能很靠近q q0 0。(2)若若零零假假设设是是真真实实,产产生生一一个个如如我我们们所所见见到到样样本本可能性很小。可能性很小。(3)抽抽样样结结果果不不符符合合零零假假设设值值q q0 0,样样本本统统计计量量值值与与q q0 0之间不符合(在水平上),不能用偶然原因解释。之间不符合(在水平上),不能用偶然原因解释。44/102(三三)在在s s 已已知知情情况况下下,单单个个平平均均数数显显著著性性检检验验u 检验(检验(u-test)1.假设从假设从s s 已知正态总体,或近似正态总体已知正态总体,或近似正态总体中,随机抽取含量为中,随机抽取含量为n 样本。样本。45
28、/1022.零假设零假设H0:m mm m0。备择假设可有以下三种情况:备择假设可有以下三种情况:(1)HA:0,若已知,若已知不可能小于不可能小于0。(2)HA:0,若已知,若已知不可能大于不可能大于0。(3)HA:0,包含,包含0和和03.在在a a0.05水水平平上上,拒拒绝绝H0称称为为“差差异异显显著著”。在在a a0.01水平上,拒绝水平上,拒绝H0称为称为“差异极其显著差异极其显著”。4.检验统计量:检验统计量:46/1025.对应于对应于2中个备择假设中个备择假设H0拒绝域分别为:拒绝域分别为:(1)uua a (2)uua a (3)uua/2 a/2,或表示为,或表示为uu
29、a a(双侧)(双侧)正态分布分位数,能够从附表中查出。正态分布分位数,能够从附表中查出。6.依据以上所做分析,得出结论,并给予生物学解释。依据以上所做分析,得出结论,并给予生物学解释。47/102例例1.4已已知知豌豌豆豆籽籽粒粒重重量量(克克100)服服从从正正态态分分布布N(37.72,0.332)。在在改改进进栽栽培培条条件件后后,随随机机抽抽取取9粒粒,其其重重量量平平均均数数x37.92,若若标标准准差差仍仍为为0.33,问改进条栽培件是否显著提升了豌豆籽粒重量?,问改进条栽培件是否显著提升了豌豆籽粒重量?解解依据检验基本程序:依据检验基本程序:1已知豌豆重量是服从正态分布随机变量
30、,已知豌豆重量是服从正态分布随机变量,s s已知。已知。2假设:假设:H0:037.72HA:037.72关关于于备备择择假假设设说说明明:因因为为改改进进栽栽培培条条件件,只只会会使使籽籽粒粒重重量量提提升升,不不会会使使籽籽粒粒重重量量降降低低,所所以以备备择择假假设设HA为为0。48/1023显显著著性性水水平平:依依据据试试验验要要求求(籽籽粒粒重重量量是是否否有有“显显著著”提升)要求提升)要求0.05。4统计量值统计量值:因为:因为s 已知可使用已知可使用u检验,检验,u(x0)()(sn)代入数值,得:)代入数值,得:u1.825建建立立H0拒拒绝绝域域:因因HA:0,故故为为单
31、单侧侧检检验验,当当uu0.05时拒绝时拒绝H0。0.05时时u0.051.645。6结论结论:因为:因为uu0.05,所以结论是拒绝,所以结论是拒绝H0,接收,接收HA。上述样本很可能不是抽自上述样本很可能不是抽自N(37.72,0.332)总体,)总体,抽出样本那个总体平均数是大于抽出样本那个总体平均数是大于37.72某个值,即栽培某个值,即栽培条件改进显著地提升了豌豆籽粒重量。条件改进显著地提升了豌豆籽粒重量。49/102(四四)s s 未未知知时时平平均均数数显显著著性性检检验验t检检验验(t test)生生物物学学中中碰碰到到绝绝大大多多数数问问题题,总总体体标标准准差差都都是是未未
32、知知。在在s s 未未知知时时,平平均均数数显显著著性性检检验验有有两两种种处处理理方方法法。一一个个是是依依据据经经验验或或从从类类似似工工作作中中预预计计出出一一个个s s 值值,用用这这个个s s 做做u 检检验验。使使用用预预计计s s 做做检检验验并并不不是是很很可可靠靠。因因为为在在实实际际工工作作中中,普普通通不不用用这这种种方方法法而而广广泛泛使使用用t检验。检验。50/102对对于于一一个个正正态态总总体体,若若s s未未知知,则则x 服服从从n1自自由由度度t分分布布。所所以以,在在s s未未知知时时可可用用 t检检验验做做平平均均数数显显著著性性检检验验。t检检验验程程序
33、序与与 u检检验验一一样样,只只要要用用t 分分布布分分位位数数ta a代代替替标标准准正正态态分分布布分分位位数数ua a 就就能能够够了了。t检检验验程程序序这这里里不不再再赘赘述述。下下面面只只指指出出这这两两种种检检验验不不一一样样点点。t 检验统计假设是:检验统计假设是:零假设零假设H0:0。备择假设有以下三种情况:备择假设有以下三种情况:(1)HA:0,若已知,若已知不可能小于不可能小于0。(2)HA:0,若已知,若已知不可能大于不可能大于0。(3)HA:0,包含,包含0和和0。51/102检验统计量:检验统计量:具具n1自自由由度度。不不一一样样自自由由度度下下t 分分布布分分位
34、位数数见附表。三种备择假设拒绝域为:见附表。三种备择假设拒绝域为:(1)t t a a。(2)t t a a。(3)tt a a(双侧)(双侧)。52/102例例1.5已已知知玉玉米米单单交交种种群群单单105平平均均穗穗重重m m0 0300(克克)。喷喷药药后后,随随机机抽抽取取9果果穗穗,其其穗穗重重为为:308、305、311、298、315、300、321、294、320克克。问喷药后与喷药前果穗重,差异是否显著?问喷药后与喷药前果穗重,差异是否显著?解解依据检验基本程序:依据检验基本程序:1已知玉米穗重是服从正态分布随机变量,已知玉米穗重是服从正态分布随机变量,s s未知。未知。2
35、假设假设H0:0300HA:030053/102关关于于备备择择假假设设说说明明:因因为为问问题题要要求求检检验验是是“穗穗重重差差异异是是否否显显著著”,并并没没有有明明确确穗穗重重一一定定增增加加或或一一定定降低,所以备择假设为降低,所以备择假设为HA:0。3显显著著性性水水平平:依依据据试试验验要要求求(差差异异是是否否“显显著著”)要要求求a a0.05。4统计量值:因为统计量值:因为s s未知需使用未知需使用t检验。检验。54/102其中:其中:5 建立建立H0拒绝域:因拒绝域:因HA:0,所以是双侧检验。,所以是双侧检验。当当tt0.05(双侧)(双侧)时拒绝时拒绝H0,a a0.
36、05双侧分位数能够从双侧分位数能够从附表中查出,附表中查出,t 8,0.05(双侧)(双侧)2.306。6 结论:因结论:因tt 8,0.05(双侧)(双侧),所以结论是拒绝,所以结论是拒绝H0,接收接收HA。喷药前后果穗重差异是显著。喷药前后果穗重差异是显著。于是于是55/102(五)方差显著性检验(五)方差显著性检验c c2 2 检验(检验(c c2 2-test)即即使使在在实实际际工工作作中中,经经常常碰碰到到是是对对假假设设总总体体平平均均数数做做检检验验,不不过过对对假假设设总总体体标标准准差差做做检检验验情情况况也也很很多多。对对单单个个标标准准差差做做检检验验使使用用c c2
37、2检检验验,c c2 2 检检验验是是建建立立在在c c2 2 分分布布基基础础上上。设设 c c服服从从正正态态分分布布N N(m m,s s2 2)随随机机变变量量,并并从从中中取取得得含含量量为为n随随机机样样本本,计计算算出出样样本本方方差差S2,则(则(n1)S2s s2 2 服从服从n1自由度自由度 c c 2 2分布。分布。c c2 2 分布上侧分位数值能够从附表中查出。分布上侧分位数值能够从附表中查出。56/102 c c2 2 检检验验原原理理与与 u 检检验验基基本本相相同同,求求出出含含量量为为n样样本本标标准准差差S,依依据据S 判判断断出出该该样样本本总总体体标标准准
38、差差s s 是是否否等于某一给定值等于某一给定值s s0 0。检验基本程序概述以下:。检验基本程序概述以下:1假假定定从从正正态态总总体体N(m m,s s2 2)中中随随机机地地抽抽取取含含量量为为 n样本,并计算出样本方差样本,并计算出样本方差S 2。2零假设零假设 H0:s s s s 0 0。备择假设可有以下三种情况:备择假设可有以下三种情况:(1)HA:s s s s 0 0,若已知,若已知s s 不可能小于不可能小于s s 0 0。(2)HA:s s s s 0 0,若已知,若已知s s 不可能大于不可能大于s s 0 0。(3)HA:s s s s 0 0,包含,包含s s s
39、s 0 0和和s s s s 0 0。57/1023显显著著性性水水平平:与与u 检检验验一一样样,经经惯惯用用a a0.05和和a a0.01两个水平。两个水平。4检验统计量:检验统计量:c c2 2 (n1)S2s s2 20 0 ,含含有有n1自自由由度。度。5对应于对应于2中各备择假设中各备择假设H0拒绝域为:拒绝域为:(1)c c2 2 c c2 2a a。(2)c c2 2 c c2 21 1a a。(3)c c2 2 c c2 21 1a a2或或c c2 2 c c2 2a a2。6做出结论并给予生物学解释。做出结论并给予生物学解释。58/102例例1.6一一个个混混杂杂小小麦
40、麦品品种种,株株高高标标准准差差s s0 014(cm),经经提提纯纯后后随随机机抽抽出出10株株,它它们们株株高高为为:90、105、101、95、100、100、101、105、93、97cm,考查提纯后群体是否比原群体整齐?,考查提纯后群体是否比原群体整齐?解解依据检验基本程序:依据检验基本程序:1小麦株高是服从正态分布随机变量。小麦株高是服从正态分布随机变量。2假设:假设:H0:s s s s 0 014(cm)HA:s s s s 0 014(cm)59/102关关于于备备择择假假设设说说明明:小小麦麦经经过过提提纯纯后后株株高高只只能能变变得得更更整整齐齐,绝绝不不会会变变得得更更
41、离离散散。即即s s只只能能小小于于s s0 0,s s 绝绝不会大于不会大于s s 0 0。所以。所以HA:s s s s 0 0。3显著性水平:要求显著性水平:要求a a0.01。4统计量值:统计量值:5 建建立立H0拒拒绝绝域域:因因HA:s s s s 0 0,故故为为单单侧侧检检验验。当当c c2 2 c c2 21 1a a 时拒绝时拒绝H0,从附表中查出,从附表中查出c c2 29 9,0.992.09。6 结论:因结论:因c c2 2 c c2 29 9,0。99,所以拒绝,所以拒绝H0,接收,接收HA。上。上述样本是抽自述样本是抽自s s 14(厘米)总体,即提纯后株高比(厘
42、米)总体,即提纯后株高比原株高高度整齐。原株高高度整齐。60/102二、二、两个样本差异显著性检验两个样本差异显著性检验前前面面讲讲述述了了单单个个样样本本显显著著性性检检验验,即即在在样样本本统统计计量量与与零零假假设设所所提提出出总总体体参参量量之之间间做做比比较较。这这种种检检验验需需要要我我们们事事先先能能够够提提出出合合理理参参量量假假设设值值和和对对参参量量有有某某种种意意义义备备择择值值。然然而而,在在实实际际工工作作中中,极极难难提提出出这这么么假假设设值值及及备备择择值值。所所以以,限制了这种方法在实际工作中应用。限制了这种方法在实际工作中应用。61/102为为了了防防止止上
43、上述述问问题题出出现现,在在实实际际应应用用时时,常常选选择择两两个个样样本本,一一个个作作为为处处理理(treatment),一一个个作作为为对对照照(contrast),在在这这两两个个样样本本之之间间做做比比较较。如如比比较较两两种种分分析析方方法法、两两种种处处理理间间差差异异、两两种种不不一一样样物物质质、两两种种试试验验方方法法、两两条条公公式式、两两种种药药品品或或两两种种不不一一样样过过程程等等。判判断断它它们们之之间间是是否否存存在在足足够够显显著著差差异异,或或者者说说,判判断断它它们们之之间间差差异异是是否否可可用用偶偶然然性性解解释释。当当它它们们之之间间差差异异不不能
44、能用用偶偶然然性性解解释释时时,则则认认为为它它们们之之间间存存在在足足够够显显著著差异,这两个样原来自两个不一样总体。差异,这两个样原来自两个不一样总体。62/102(一)两个方差检验(一)两个方差检验F检验检验(F-test)在在比比较较任任意意两两个个数数时时,能能够够求求它它们们差差,也也能能够够求求它它们们比比。如如在在比比较较S12和和S22时时使使用用二二者者比比,就就是是F。我我们们知知道道,方方差差是是反反应应事事物物变变异异度度,当当我我们们要要比比较较两两个个事事物物变变异异大大小小时时,如如比比较较杂杂种种F2代代变变异异大大小小或或比比较较两两种种处处理理整整齐齐程程
45、度度等等,都都可可应应用用F 检检验验。F 检检验验程程序序以下:以下:63/1021假假定定从从两两个个正正态态总总体体中中,独独立立地地抽抽取取含含量量分分别别为为n1和和n2两两个个随随机机样样本本,计计算算出出S12和和S22。总总体体平平均均数数1和和2能能够相等也能够不相等。够相等也能够不相等。2零假设零假设H0:s s1s s2备择假设可有以下三种情况:备择假设可有以下三种情况:(1)HA:s s1s s2,若已知,若已知s s1不可能小于不可能小于s s2(2)HA:s s1s s2,若已知,若已知s s1不可能大于不可能大于s s2(3)HA:s s1s s2,包含,包含s
46、s1s s2和和s s1s s264/1023显显著著性性水水平平:经经惯惯用用0.05和和0.01两两个个水水平。平。4检检验验统统计计量量:在在H0:s s1s s2时时,用用下下式式给给出出统统计计量量F 做检验:做检验:(51)式即为式即为F 检验所用检验统计量。检验所用检验统计量。5 建立建立H0拒绝域:拒绝域:(1)对对于于HA:s s1s s2,应应做做上上尾尾单单侧侧检检验验,当当FF时拒绝时拒绝H0。F可从附表中直接查出。可从附表中直接查出。65/102(2)对对于于HA:s s1s s2,应应做做下下尾尾单单侧侧检检验验,当当FF1时拒绝时拒绝H0。可利用下面公式求出:。可
47、利用下面公式求出:对对于于HA:s s1s s2一一个个简简便便处处理理方方法法是是,不不用用公公式式FS12S22,而而用用FS22S12计计算算F 值值。即即以以S12和和S22中中较较大大者者S22做做分分子子,S12和和S22中中较较小小者者S12做做分分母母计计算算F 值值,当当FF时时拒拒绝绝H0。这这么么做做只只是为了查表,对结论无影响。是为了查表,对结论无影响。66/102(3)对对于于HA:s s1s s2,应应做做双双侧侧检检验验,当当FF/2及及FF1/2时时拒拒绝绝H0。这这里里,假假如如以以S12和和S22中中较较大大者者做做分分子子求求F值,则只会用到上侧分位数值,
48、则只会用到上侧分位数F/2。6做出结论并给予生物学解释。做出结论并给予生物学解释。例例1.7测测定定了了20位位青青年年男男子子和和20位位老老年年男男子子血血压压值值(收收缩缩压压mmHg)以以下下表表(表表12)。问问老老年年人人血血压压值值个个体体间间波波动动是否显著高于青年人?是否显著高于青年人?67/102青年男子青年男子老年男子老年男子X1X1X1100X12X2X2X2100X2298160136128130114123134128107123125129132154115126132136130-26036283014233428723252932541526323630436
49、0012967849001965291156784495296258411024291622567610241296900133120122114130155116140160100105220120182130139190124110130332022143056164060051202082303990241030108940048419690030252561600360002514400400672490015218100576100900和和56019354和和74045196表表 12 20名青年男子和名青年男子和20名老年男子血压值(收缩压,名老年男子血压值(收缩压,mmHg)6
50、8/102解解依据检验基本程序:依据检验基本程序:1人人类类血血压压值值是是服服从从正正态态分分布布随随机机变变量量,而且上述两样本是独立取得。而且上述两样本是独立取得。2假设:假设:H0:s s1s s2HA:s s1s s2备备择择假假设设说说明明:已已知知老老年年人人血血压压值值在在个个体体之之间间波波动动只只会会大大于于青青年年人人,绝绝对对不不会会小小于青年人。于青年人。3显显著著性性水水平平:依依据据问问题题要要求求要要求求0.05。69/1024统计量值(用统计量值(用S12和和S22中较大者做分子):中较大者做分子):其中其中于是于是70/1025建建立立H0拒拒绝绝域域:因因