方差分析及回归分析.pptx_文库网wenkunet.com

资源描述

1、第九章、方差分析及回归分析1单因素试验的方差分析（一）单因素试验试验指标：在试验中，要考察的指标称为试验指标。因素：影响试验指标的条件称为因素。水平：因素所处于的状态称为水平。单因素试验和多因素试验：试验中只有一个因素在改变称为单因素试验，如果多于一个因素在改变称为多因素试验。方差分析：根据试验的结果进行分析，鉴别各个因素对试验结果的影响的一种分析方法。化学生产中，因素有：原料成分、原料剂量、催化剂、反应温度、压力、反应时间、机器设备、操作人员水平等。目的：决定各种因素，使生产过程得以稳定。方法：先进行试验。试验的分析：利用方差分析来分析试验的结果。根据影响试验结果的因素的

2、多少分为单因素试验的方差分析和多因素试验的方差分析。两个例子第一个例子用三台机器来生产相同的铝合金薄板，测量薄板的厚度如下表：这里指标是薄板的厚度；因素是机器不同，其他的都相同。问题是：机器这一因素对厚度有无显著影响？第二个例子随机选取的、用于计算器的四种类型的电路的响应时间，如下表所示（单位是毫秒）试验的指标是电路的响应时间；考虑的因素是电路类型；目的：是考察电路类型对响应时间有无显著影响。机器1机器2 机器30.2360.2380.2480.2450.2430.2570.2530.2550.2540.2610.2580.2640.2590.2670.262类型1类型2类型3类

3、型419 1522201820 4021332716 17151826182219第三个例子一火箭使用四种燃料，三种推进器做射程试验。每种燃料与美中推进器的组合个发射火箭两次，得射程如下：试验指标：射程；因素：推进器（三个水平）、燃料（四个水平）；目的：考察推进器核燃料这两个因素对射程是否有显著影响。推进器(B)B1B2B3燃料(A)A158.252.656.241.265.360.8A249.142.854.150.551.648.4A360.158.370.973.239.240.7A475.871.558.251.048.741.4问题的讨论-（单因素试验）对于例1 在因素的每一个

4、水平下进行独立试验，其结果是一个随机变量；表中的数据看成是来自三个不同总体的样本值；若记各个总体的均值依次为1，2，3；则按题意需检验假设H0:1=2=3 ， H1: 1，2，3不全相等。若假设个总体为正态变量，且方差相等，但参数未知。这就变为检验同方差的多个正态总体均值是否相等的问题。而方差分析法就是解决这一问题的一种统计方法。单因素试验的方差分析设因素有S个水平，在水平Aj (j=1,2,s)下，进行nj (nj2)次独立试验，结果如下：水平观察结果A1A2AsX11X21X11X21X11X21样本总和样本均值总体均值T.1X.1 1T.2X.2 2 T.sX.s s 假定，各个

5、水平Aj (j=1,2,s)下样本X1j，X2j，来自具有相同方差2，均值分别为j (j=1,2s)的正态总体， j和2未知且在不同水平Aj下的样本之间相互独立。Xij - j可以看成是随机误差。记为Xij - j =ij ，则Xij 可以写为Xij = j +ij ij N(0, 2),各ij独立i=1,2,nj , j=1,2,s(1,1)称为单因素方差分析的数学模型。(1,1)方差分析的任务I.检验s个总体的均值是否相等，即检验假设II.作出未知参数的估计若记的加权平均为再引入表示总体平均值与总平均的差异，称为水平Aj的效应。这时模型（1.1)可以改写为：（1，2）（1，3）（

6、1，4）而假设（1.2)等价于假设我们来导出上述假设检验的检验统计量。(1.1)(1.2)(二）平方和的分解引入总偏差平方和（或总变差）与总平均：即水平Aj下的样本均值为这时，可以将ST写成：（1，5）（1，6）（1，7）上式的第三项为若记 SE称为误差平方和， SA表示Aj水平下的样本均值与数据总平均的差异，叫做效应平方和，他是由水平Aj的效应的差异以及随机误差引起的。（1，8）则得ST=SE+SA ，（1，9）（1，10）（三） SE，SA的统计特性1、SE的统计特性由于是总体的nj-1倍，所以由于独立，（1，11）中各式独立，根据分布的可加性，得（1，11）（1，1

7、2）可以计算这里2、SA的统计特性，它是s个变量的平方和，且仅有一个线性约束条件:因此的知SA的自由度是s-1。（1，13）（由（1，3），（1，6）及Xij的独立性得知经计算（1，14）（1，15）可以证明SE，SA的是相互独立的，且H0当为真时（四）假设检验问题的拒绝域由（1，15）式，当H0为真时所以SA /(s-1)是2的无偏估计,而当当H1为真时，这时而由于（1，16）（1，17）（1，18）（1，19）所以，SA /(n-s)是2的无偏估计由于所以检验问题(1，2)的拒绝域的形式是：其中k由预先给定的显著性水平确定，由此得此检验问题的拒绝域是：因此，可以

8、得到单因素方差分析表如下页（1，20）单因素试验的方差分析表例4 在例1中就是检验假设这里s=3,n1=n2=n3=5,n=15,按下式计算得到下页的表方差来源平方和自由度均方F比因素ASAs-1误差SEn-s总和STn-1由于在ST中n个变量 Xij- 之间仅满足一个约束条件，故ST的自由度为n-1 （1，21）判断：因为F (2,12)=3.8932.92，故在水平0.05下拒绝H0，即认为各台机器生产的薄板厚度有显著差异。方差来源平方和自由度均方F比因素ASA=0.001 053 3320.000 526 6732.92误差SE=0.000 192120.000 016总和ST =

9、0.001 245 3314例4的方差分析表（五）未知参数的估计（1）参数2 ，，j ， j的估计由上面的讨论，不管H0是否为真，是2的无偏估计由于故分别是，j的无偏估计。若拒绝H0 ，就意味着，效应1，2,s不全为零。由于j=j-, j=1,2,s,可知是j的无偏估计。（2）两总体N(j, 2)N(k, 2)均值差j - k = j - k的区间估计具体做法是由于于是因此均值差j - k = j - k的置信水平为1-的置信区间是（1，22）例5 求例4中的未知参数2 ，j ， j 的点估计及均值差的置信水平为0.95的置信区间。解：经计算由t0.025 (n-s)=t

10、0.025 (12)=2.1788，得故1 2 ， 1 3 ， 2 3的置信水平为0.95的置信区间分别为例6 设在第二个例子中，四类电路的响应时间的总体均为正态分布，切割总体的方差相同，但参数未知，并且个样本相互独立。取水平=0.05，检验各类电路的响应时间是否有显著差异。解以1 ， 2 ， 3 ， 4 ，记类型，四种电路的响应时间总体平均值。我们需要检验： H0 ：1 = 2 = 3 = 4 ， H1 ：1 ， 2 ， 3，4不全相等由于n=18,s=4,n1 = n2 = n3 =5,n4 =3，因为F0.05 (3,14)=3.343.76，故在水平0.05下拒绝H0，认

11、为各类型电路的响应时间有显著差异。#方差来源平方和自由度均方F比因素误差318.98395.46314106.3328253.76总和714.4417一元线性回归本节的内容提纲（一）一元线性回归的概念和数学模型（二）a、b的估计（三） 2的估计（四）线性假设的显著性检验（五）系数b的置信区间（六）回归函数(x)=a+bx函数值的点估计和置信区间（七）Y的观测值的点预测和预测区间第三节、一元线性回归两个变量之间的关系包括：1.确定性关系：能用函数关系表达；2.非确定性关系：就是相关关系。回归分析：研究相关关系的一种数学工具。一、一元线性回归回归：设y是随机变量，若对于x的每一确定值，y有它的分

12、布。若y的数学期望存在，且是x的函数，记为(x),称(x)为y关于x的回归。1.预测问题：在给定的置信度下，估计出当x取某一定值时，随机变量y的取值情况；2.控制问题：在给定的置信度下，控制自变量x的取值范围，使y在给定的范围内取值；回归分析的任务主要是根据试验，估计回归函数，讨论点估计、区间估计、假设检验等问题。设x取值为x1,x2,xn设Y1,Y2,Yn为在x1,x2,xn的观测结果，则称(x1, Y1),(x2, ,Y2),(xn ,Yn )是一个样本。相应的样本值是： (x1, y1),(x2, y2),(xn ,yn )。1.回归函数(x)的估计。在直角坐标系中描出散点图，粗略得出(

13、x) 例1 为研究某一化学反应过程中温度(x,)与产品得率y的影响。得数据如下表：其散点图如右从图中可以看出它是一条直线，因此(x) 具有形式(x)=a+bx温度100110120130140150160170180190得率45515461667074788589100120140160180608010040 设Y关于x的回归函数为(x)。利用样本来估计(x)的问题称为求Y关于x的回归问题。若(x)是线性函数(x)=a+bx，此时的估计问题称为求一元线性回归问题。一元线性回归模型：设YN(a+bx, 2 )其中a,b, 2是未知参数，记 = Y-（a+bx），则Y= a+bx +

14、, N(0, 2 ) （1）称上式为一元线性回归模型。称a+bx为x的线性函数，而 N(0, 2 )是随机误差。二、a、b的估计取x的n个完全不相同的值x1,x2,xn，作独立试验，得样本 (x1, Y1),(x2, ,Y2),(xn ,Yn )，于是 Y= a+bxi + i , i N(0, 2 )；各i独立（2） Yi N(a+bxi, 2 )， Y1,Y2,Yn的联合概率密度为利用最大似然估计法来估计未知参数a、b。令则变为求Q(a,b)的最小值。令得方程组：称这个方程组为正规方程组。正规方程组的系数行列式为故正规方程组有唯一一组解这时我们把作为回归函数(x)=a

15、x+b 的估计。称为Y关于x的经验回归函数。称方程为经验回归方程，简称回归方程。也可以把经验回归方程写为若记这时，a,b的估计值是在例1中，测得温度对产品得率的关系是为了求回归方程，我们需要计算温度100110120130140150160170180190得率45515461667074788589和xYx 2y 2xy1001101201301401501601701801904551546166707478858910 00012 10014 40016 90019 60022 50025 60028 90032 40036 1002 0252 6012 9163 7214

16、 3564 9005 4766 0847 2257 9214 5005 6106 4807 9309 24010 50011 84012 26015 30016 9101 450673218 50047 225101570 于是得回归直线方程为根据上表可以计算三、 2的估计根据 Y= a+bx + , N(0, 2 ) （1）即 = Y- ( a + bx)；得到EY ( a+bx)2 = E(2)=D(2)+E()2= 2, 这说明：1.2愈小，用回归函数(x)=ax+b作为Y的近似所导致的均方误差就愈小；用(x)=ax+b研究Y就愈有效；2.因为2是未知的，这就要利用样本来估计2 。 Q

17、e是经验回归函数(x)=ax+b在xi处的函数值与处的观察值的偏差的平方和。我们来计算Qe 根据：得Qe的分解式计算出a,b的估计量是：若记残差平方和服从的分布如下：的数学期望是n-2，由此知这就得到了2的无偏估计量如下页所示。xYx 2y 2xy1001101201301401501601701801904551546166707478858910 00012 10014 40016 90019 60022 50025 60028 90032 40036 1002 0252 6012 9163 7214 3564 9005 4766 0847 2257 9214 5005 61

18、06 4807 9309 24010 50011 84012 26015 30016 910 1 450673218 50047 225101570 计算下表的和时，要计算三个量：和例3、在上表中求2的无偏估计。根据上页的表，我们可以得到（四）线性假设的显著性检验总结上述的讨论，我们有以下几条：1.Y关于x的回归(x)具有形式：a+bx；2.(x)是否为x的线性函数，要具体问题具体分析；即用专业知识判断，和运用假设检验的方法判断。3.若线性假设Y= a+bx + , N(0, 2 )成立，则b不为零。因此需要检验假设H0 ：b=0，H1 ： b0。可以证明且可以计算及在H0为真时，

19、b=0,这时且有，即得H0的拒绝域是几点说明：1.在H0：b=0被拒绝时,认为回归效果是显著的；反之则认为回归效果是不显著的；2.回归效果不显著的原因可能是：1)影响Y取值的，除x和随机误差外，可能还有其他因素；2)E(Y)与x的关系可能不是线性的；3)Y与x可能不存在关系；例4（续例2）检验回归效果是否显著。=0.05 由上面的讨论，知故拒绝H0：b=0 ，认为回归效果是显著的。（五）系数b的置信区间在回归效果显著时，还要对系数b做区间估计。根据上述讨论，在置信度为1-时，的置信区间是根据我们的数据，b的置信水平为0.95的置信区间是（六）回归函数(x)=a+bx函数值的点估

20、计和置信区间用经验回归函数在x0的函数值作为(x0)=a+bx0的点估计。即相应的估计量是无偏的。下面求(x0)=a+bx0的区间估计。由于即由此可以得到(x0)=a+bx0的置信水平为1-的置信区间为该置信区间的长度是x0函数，他随的增加而增加，当时最短。（七）Y的观测值的点预测和预测区间利用经验回归函数，可以对因变量Y的观测值Y0进行点预测和区间预测。 Y0是在x=x0处的观测结果，他满足Y0= a+bx0 + 0, 0 N(0, 2 )我们利用在x0处的经验回归函数值作为Y0= a+bx0 + 0的点预测。我们用下面的方法进行Y0的区间预测。由于Y0是要做的独立试验的

21、结果，所以他与已经得到的结果Y1，Y2，Yn，相互独立。并由前面的讨论，是Y1，Y2，Yn的线性组合，所以是Y1，Y2，Yn的线性组合。由此可以得到即在根据前面的讨论，得到即对于给定的置信水平1-，有区间即区间称该区间为Y0的置信水平为1-的预测区间。该区间的长度是x0的函数，他随的增加而增加。例5 续例2，(1)求回归函数(x)在x=125处的值(125)的置信水平为0.95的置信区间，求在x=125处Y的新观测值的置信水平为0.95的预测区间；（2）求在x=x0处Y的新观察值Y0的置信水平为0.95的预测区间。解 (1)由前面知道得回归函数(x)在x=125处的置信水平为0.95的置信区间为得回归函数(x)在x=125处的置信水平为0.95的预测区间为在x=x0处的新观察值Y0的置信水平为0.95的预测区间为取x0不同的值，得Y的观察值Y0的预测区间为分别将这些区间的上端点和下端点连接起来，得到两条曲线，L1和L2，而回归直线位于这两条曲线之间。x0Y0的预测区间x0Y0的预测区间125(57.642.34)150(69.72 2.30)130(60.65 2.32)155(72.13 2.31)135(62.47 2.31)160(74.55 2.32)140(64.88 2.30)165(76.96 2.34)145(67.30 2.29)

展开阅读全文