1、ANOVA -1-方差分析( One Way ANOVA )ANOVA -2-DefineDefineMeasureMeasureAnalyzeAnalyzeImproveImproveControlControlStep 8- Data 分析Step 9- Vital Few X的选定q Multi Variq Central limitq Hypothesis testingq Confidence intervalq ANOVA, T-testq Chi-squareq Correlation,regressionStep 7- Data 收集路径位置ANOVA -3-目 录q ANOV
2、A(方差分析)的概念q One way ANOVA的概念 q ANOVA的原理 q 应用MINITABq 实习 弹射器q 再多想一想q 简要及 附录ANOVA -4-ANOVA的概念(1) - ANOVA是什么?q 在什么情况下使用? 当有3个以上水平时检验均值差异. One way ANOVA 当有2个以上因子时检验均值的差异. Two, Three way ANOVAq 用什么原理分析? 把所有实验结果的方差,对几个因子的方差和其他误差的方差来区分,并分析均值的差异的方法 利用“总方差 = 因子效果的方差 + 误差方差”ANOVA -5-X数据有1个X变量有多个 X 变量 Y 数据有1个
3、Y 变量 有多个 Y变量 X Data离散型离散型 连续型Y Data离散型离散型连续型One-way ANOVAOne-way ANOVAMeans/Means/Medians TestsMedians TestsX Data离散型离散型连续型Y Data离散型离散型连续型Chi-SquareRegressionMultipleRegressionMedians Tests2, 3, 4 way.ANOVAANOVA的概念(2) - 包含在哪里?当X是离散型或连续型, Y是连续型变量时使用. 是对“均值是否相等”的检验方法ANOVA -6- ANOVA的概念(3) 路径分析包含3个以上水平X
4、变量的均值比较稳定性分布的形态散布(Spread)中心的位置 (Centering)ANOVA包含2个水平的X变量均值比较稳定性分布的形态散布(Spread)中心的位置 (Centering)包含1个水平的X变量均值比较稳定性研究(必要时)分布的形态散布中心的 位置OR2samplet test1samplet testANOVA -7-q我们要观察的一个 input 变量(因子)有多个样本时, 我们实际上在实施 单因子实验 (Single Factor Experiment).q我们要分析对象的 因子是否有水平间的差异确定3个供应商的平均交货期是否有差异确定某个机器的设定值在5个水平间变化时
5、,零件的尺寸是否不同q现在开始做第一次实验!q观察.One way ANOVA的概念(1) 概要ANOVA -8-One ANOVA的概念(2) 例题o考虑如下情景:一个产品开发工程师要研究某个电阻焊接系统中5种不同的电流设置对焊接强度的影响 o她要研究的电流范围为15-19安培。她将调查5个水平的输入变量(因子): 15A, 16A, 17A, 18A 和 19A。她将对每个水平进行5次实验 o输出: 焊接强度o输入: 电流o这是一个具有5个水平的单因子实验(电流)o该实验的结果参考下页. ANOVA -9-One ANOVA的概念(3) 例题存在电流对焊接强度的影响吗? 对于这个设备使用哪
6、个电流,你的结论是什么?为什么? ANOVA -10-输入结果DATA的 design matrix同下.实习: 打开窗口 Mont52.mtwMont52.mtw 制作各列数据的点图点图.使用对所有变量相同的格式 (SCALE)!One ANOVA的概念(3) 例题ANOVA -11-各均值的 95% 置信区间(CI)如下.数据堆叠后 方差分析区对电流和焊接强度的关系做什么结论?这结论的置信度是怎样?One way ANOVA的概念(3) 例题ANOVA -12-设定假设!One ANOVA的概念(4) 假设Ha: 至少有一个水平产生不同过程 H0: 数据只描述一个过程的自然散布 你认为答案
7、是什么?为什么? ANOVA -13-One ANOVA的概念(5) 假设此设计的数学模型是: l Ho 假设处理项是零 数学模型假设 常规假设 Yti = +t+ti其中: yti=来自处理t的单个响应 =总平均值 t=处理tti=随机误差ANOVA -14-One ANOVA的概念(6) 变量选定*输入变量作为一个因子。 在单因子设计中,因子被当作特征变量处理,即使它可能是间隔值或比率。 *如果因子自然为连续型的,可以把它分类成子群。 - 例如,我可以采用低和高来度量生产线的压力值。 - 我们可以作中值分离(Median Split)来把因子分成两个水平:低和高。 - 对于我们的例子,因为
8、电流是连续型变量,我们把它分成5个等级。*输出一般以间隔值或比率范围来度量(合格率,温度,电压,等等)输出变量可以是分离型或间隔/比率变量 ANOVA -15-ANOVA的原理 (1) 总变动q 因子A的水平是I个,各水平的反复数都是m次,则数据矩阵 排列成下面的样子因子的水平A1 A2 A3 A4 A5 A6 Al的反复x11 x21 x31 x41 x51 x61 xl1x12 x22 x32 x42 x52 x62 xl2 x13 x23 x33 x43 x53 x63 xl3 x14 x24 x34 x44 x54 x64 xl4 x15 x25 x35 x45 x55 x65 xl5
9、x1m x2m x3m x4m x5m x6m xlm合T1 T2 T3 T4 T5 T6 TlT均x1 x2 x3 x4 x5 x6 xlxANOVA -16-q 总均值 是用右边的公式求. q 利用各个DATA 和总均值 把总均值 分解为两个,同下表示.q 左边和右边平方时同下.ANOVA的原理 (2) 总变动ANOVA -17-q 上面的第三项变为如下. SS(total) SS(error) SS(factor)q 同样第8页式从写如下,这意义的略写SS(Sum of Squares)来表示.ANOVA的原理 (3) 总变动ANOVA -18-SS(total)的自由度 是, SS(f
10、actor)的自由度 是, SS(error)的自由度 是, 因此 ANOVA的原理 (4) 自由度在一个系统中不影响其他变量能够独立移动的数Ex) a*b*c = 4 这式中变量的自由度是 2 . 假如 a,b定为 1,2, c必须是 2 . 即能够自然的移动的变量。q 自由度是?q 自由度的计算ANOVA -19-因子(factor)平方和(Sum of Squares)自由度(Degree of Freedom)均平方(Mean Square)FAErrorTotalANOVA的原理 (5) 方差分析表q 方差分析表的制作q 对错误的均值平方因子,利用A的均值平方的大小 观察 A效果的大
11、小. F越大 A效果越大. ( 利用F 分布确认 P-value)ANOVA -20-ANOVA的原理 (6) F分布q F分布的参考q 自由度 k1,k2的变量的 F值的 F(k1,k2:)按 的大小 占有面积(发生概率). (显著水平)F(k1,k2)F(k1,k2: )ANOVA -21-F-分布 65432100.70.60.50.40.30.20.10.0ScoresProb10%1%5%ANOVA -22-q Exercise某个 coating 工程认为 反应温度对生产的 产品的强度有影响, 所以对反应温度变化强度有什么变化, 还有温度在什么水平时强度最好,进行了实验. 反应温度
12、设为因子水平,各温度反复3回,总共12回实验数据随机整理. 这结果同下表. 制作方差分析表(ANOVA table) . (参考Excel sheet.)ANOVA的原理 (7) 例题ANOVA -23-因子(factor)平方和(Sum of Squares)自由度(Degree of Freedom)均平方(Mean Square)FAErrorTotalq ANOVA tableANOVA的原理 (8) 例题F分布表中 F是(3,8:0.05) = 4.07, F(3,8:0.01)=7.59 .那么 A是显著水平 1%中是否采用零假设?还是推翻? - 要推翻.ANOVA -24-ANO
13、VA的原理 (9) 统计的假定g输出的总体方差在给定因子所有水平上都相等(方差均一性 Test for Equal Variance )。 我们可以用统计统计 方差分析方差分析 等方差检验程序来检验这个假设。 g响应均值是独立的,并服从正态分布。 - 如果使用随机化和适当的样本数,这个假设一般有效。 - 警告:在化学过程中,均值相关的风险很高,应永远考虑随机化。 g残差(数学模型的误差)是独立的,其分布是均值=0,方差为恒量的正态分布。ANOVA -25-q 单一因子实验分析实验结果移动到 MINITAB Worksheet.数据有没有异常点利用管理图进行确认. (稳定性分析) 利用统计利用统
14、计 方差分析方差分析 等方差检验等方差检验程序进行等方差检验. 方差同一时实施(p-value 方差分析方差分析 单因子方差分析单因子方差分析 进行分析 .所有的数据在1列时 (Stacked) : One-way按水平别数据分几列时(Unstacked) :采用 One-way(Unstacked.) . 解释F-ratio. F-value 高 p-value 显著水平时(一般 5-10%) 推翻零假设(Ho) . 推翻零假设时, 利用统计统计 方差分析方差分析 主效应图主效应图 或统计统计 方差分析方差分析 区间图区间图对均值差异利用区间图说明. 利用Minitab 的 Anova 视窗
15、中的 残差项目残差项目( (残差残差 Plot)Plot) 对残差实施评价. 为测试实际的显著性,对有影响的 Epsilon-Squared 进行计算. 根据分析结果找出方案. 应用MINITAB分析(1) 分析顺序ANOVA -26- 零假设 (Ho): 3名作业者刷漆厚度相同. 备择假设(Ha): 作业者中至少有一名刷的厚度与其他作业者刷的厚度不同(或大或小).应用MINITAB分析(1)老板的思考是谁刷漆刷的这么厚?Bob? Jane? Walt?一定要查找出来!(显著水平设为 5%)q 设置假设ANOVA -27-按照下列样式在Minitab中输入数据打开ANOVA.MPJ的 (3 3
16、 Level ANOVALevel ANOVA )worksheetworksheetBobJaneWalt25.296926.005628.426826.057825.940027.508524.070026.006327.582524.819926.435627.401825.985125.992724.9209 .应用MINITAB分析(2) 输入数据1、判信2、判量参考MSA章节参考抽样与样本大小章节ANOVA -28-应用MINITAB分析(3)稳定性分析目的:确认各水平数据中是否有异常现象(逃逸点、不随机等).路径:统计- 控制图(参考下图)3、判异ANOVA -29-应用MINI
17、TAB分析(3)稳定性分析输出结果结论 各水平中的数据没发现有异常点 可继续往后分析ANOVA -30-应用MINITAB分析(4)正态性分析目的:确认各水平数据是否服从正态分布.路径:统计- 基本统计量 - 正态检验(参考下图)4、判形ANOVA -31-应用MINITAB分析(4)正态性分析输出结果结论 各水平中的数据都服从正态分布 可继续往后分析ANOVA -32-应用MINITAB分析(5)等方差检验目的:确认各水平数据之间方差是否相等.数据堆栈:路径:数据- 堆叠 - 堆叠列(参考下图)5、判散ANOVA -33-应用MINITAB分析(5)等方差检验等方差检验 路径: - 方差分析
18、 - 等方差(参考下图)ANOVA -34-P大于0.05 输出结果 结论:故3个人所油漆的厚度数据方差相等应用MINITAB分析(5)等方差检验ANOVA -35-应用MINITAB分析(6) 均值检验目的:确认各水平数据集所对应的总体均值是否相等.路径:(堆叠型)统计- 方差分析 - 单因子(参考左下图) (非堆叠型)统计- 方差分析 - 单因子 (未堆叠存放)6、判中ANOVA -36-应用MINITAB分析(6) 均值检验ANOVA -37-应用MINITAB分析(6) 均值检验均值检验输出结果均值检验结论 各水平数据集所对应的总体之间的均值至少有一个不相等因子方差分析: 厚度 与 作
19、者 来源 自由度 SS MS F P作者 2 80.386 40.193 44.76 0.000差 87 78.116 0.898合 89 158.502S = 0.9476 R-Sq = 50.72% R-Sq(整) = 49.58%32322212ssssPooled+= P 值小于显著水平 5% 时, 得到至少有一个总体均值与其他总体均值不同的结论. (推翻零假设)这时,推翻所有总体均值相同的零假设(Ho ) - 即至少有一个均值不同.因随机现象得到这样大的F-值, 实际上其概率不足 1/10,000.这与抛硬币时, 10次连续相同的情况是相同的.群间方差与群内方差相近时, F值接近1
20、.本例中, F-值很大.子群大小相同时共有标准差ANOVA -38-应用MINITAB分析(7) 残差分析 目的:二次检验前面的分析是否有不可信的证据(残差有异常现象) 路径: 统计-方差分析 - 单因子点击图形 -点四合一7、判差ANOVA -39-应用MINITAB分析(7) 残差分析 残差输出结果: 残差分析结论:没有足够的证据证明其残差分析有异常ANOVA -40-主效果图、箱图及区间图应用MINITAB分析(8) Plots8、附图ANOVA -41-主效果图及 箱图应用MINITAB分析(8) Plots方差分析主效形箱ANOVA -42-Interval Plot (95% 置信
21、区间)区间图应用MINITAB分析(8) PlotsANOVA -43-qEpsilon-Squared虽然是一个有争议的统计量, 但其结果提供实质性的显著性情报. qEpsilon-Squared 根据适当的 input变量说明的 output变量的大小.q该统计量很容易计算.这值是 Sum-of-Squares (Effect)/Sum-of-Squares (Total) .在采取措施以前应经常要确认这值.厚度的变动中有51% 是由作业者的差异引起的.应用MINITAB分析(9) Squared8、判重ANOVA -44-q知道了是谁刷的厚.单因子方差分析的 P-value 0.05,可
22、采用备择假设 (Ha) “作业者中至少有一名刷的厚度与其他不同(或大或小)”.q这厚度差异,作业者实际影响的效果占51%. q在 95% 的置信水平中 (显著水平为 5%)确认为Walt有所不同. 决定对Walt进行再教育.参考区间图或 主效应图应用MINITAB分析(10) 结论9、判实ANOVA -45-q 利用Mont52.mtw 分析焊接强度的数据. q 原因变量是电流.q 按照分析 roadmap,与旁边的人协作.q 您准备用不同的方法和结论对提问进行回答. 时间是15分!实习 解释ANOVA -46-q按组别各准备 CATAPULT 发射者(3名)的变化? (跟球类无关) 角度每
23、2 度变化时(4水平) 距离是? (用乒乓球) q各条件用同样的条件各 15回 Testq利用这 DATA利用 Minitab与前面路径一样实施 ANOVA 分析q结果发表 实习 CATAPULTANOVA -47-Ft=2F值和 t值的关系对它进行测试 - 利用投射器(catapult)数据, t-检验(两侧检验)和 F- 检验实施. F-检验和 t-检验再多想想(1) t-test 比较ANOVA -48-F-检验和 t-检验q在前面关于油漆厚度的实验所得到的结果中, 针对Bob的结果和 Walt的结果进行比较, 将t-test得到的 T值进行平方时就得到与F值相同的结果再多想想(1) t-test 比较