收藏 分享(赏)

方差分析 易洪刚.ppt

上传人:nanchangxurui 文档编号:9043070 上传时间:2022-10-26 格式:PPT 页数:104 大小:2.88MB
下载 相关 举报
方差分析 易洪刚.ppt_第1页
第1页 / 共104页
方差分析 易洪刚.ppt_第2页
第2页 / 共104页
方差分析 易洪刚.ppt_第3页
第3页 / 共104页
方差分析 易洪刚.ppt_第4页
第4页 / 共104页
方差分析 易洪刚.ppt_第5页
第5页 / 共104页
亲,该文档总共104页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、医学统计学方差分析Analysis of Variance易洪刚Department of Epidemiology and Biostatistics, NMU流行病与生物统计系 南京医科大学主要内容(page62)o 问题的提出o 方差分析的原理o 完全随机设计的方差分析 completely random designo 配伍组设计的方差分析 random block designo 两两比较o 方差分析的正确应用问题的提出o t检验实例o 朴松林等(2008)比较了南通市城市及农村80 岁以上老人生存质量健康状况量表(SF- 36)维度评分。因素:老人所来自的区域水平:城市,农村单因素

2、两水平问题的提出问题的提出o t检验的局限性单因素两水平问题的提出江苏、安徽、浙江三省的平均入学成绩?单因素三水平江苏=592.79安徽=571.23浙江=569.83问题的提出o一种新的降血脂药,120人分为安慰剂组,用药组1(2.4g),用药组2(4.8g),用药组3(7.2g)。实验结束后观察血脂水平。?单因素四水平用药组1 =2.72mmol/l用药组2 =2.70mmol/l安慰剂组 =3.43mmol/l用药组3 =1.97mmol/l8o As the number of levels (or conditions) increases, the number of compar

3、isons needed increases more rapidlyo # comparisons = (n2 - n) / 2nn = number of levels问题的提出问题的提出o 假如每次t检验犯第一类错误的概率是0.05,那么要完全地进行比较,犯第一类错误的概率是1(1)k。o 多组间的两两比较为什么不能用 t 检验? 进行一次假设检验,犯第一类错误的概率: 进行多次(k)假设检验,犯第一类错误的概率:1(1)k组数为3,k=3,1(10.05)k=0.1426组数为4,k=6,1(10.05)k=0.2649组数为5,k=10,1(10.05)k=0.4013组数为6,k=

4、15,1(10.05)k=0.5400问题的提出11ofw = 1 - (1 - )Ko As the number of comparisons increases, the probability of making at least 1 Type-I error increases rapidly.问题的提出方差分析o 方差分析,又称变异数分析。o Analysis of Variance,简写为ANOVA。o 多个均数的比较。o 由英国统计学家R.A.Fisher提出, F检验。o 方差分析的起源。Sir Ronald Aylmer Fisher18901962Rothamsted A

5、gricultural StationFisher于Rothamsted研究作物产量时,完善了方差分析的思想方差分析的原理o 单因素方差分析:研究的是一个处理因素的不同水平间效应的差别;处理因素水平1水平2方差分析的原理o 单因素方差分析:研究的是一个处理因素的不同水平间效应的差别;处理因素水平1水平2水平k多个均数的比较!方差分析的原理(page62)例6.6某地用A、B和C三种方案治疗血红蛋白含量不满10g的婴幼儿贫血患者,A方案为每公斤体重每天口服2.5硫酸亚铁1ml,B方案为每公斤体重每天口服2.5硫酸亚铁0.5ml,C方案为每公斤体重每天口服3g鸡肝粉,治疗一月后,记录下每名受试者血

6、红蛋白的上升克数,资料见表6.3,问三种治疗方案对婴幼儿贫血的疗效是否相同?因素:治疗方案水平:A,B,C例6.6 三组血红蛋白增加量(g)A(i=1)B(i=2)C(i=3)1.81.45.02.02.1-0.7Xij0.51.20.20.01.91.32.32.30.51.61.71.13.70.70.33.00.20.22.40.51.91.62.00.72.01.41.00.01.50.91.51.72.43.00.90.82.73.0-0.40.71.1-0.31.13.22.01.2-0.20.70.92.51.60.71.31.4X总变异示意图A组(i=1)B组(i=2)C组(i

7、=3)X组间变异示意图A组(i=1)B组(i=2)C组(i=3)X组内变异示意图A组(i=1)B组(i=2)C组(i=3)方差分析的原理o 所有个体的血红蛋白上升值几乎都不同 总变异o 不同组间的血红蛋白上升值不同,原因: 处理因素的效应(如果存在的话),随机误差 组间变异o 同组内的血红蛋白上升值不一致,原因: 个体差异、随机误差 组内变异o 总变异=组间变异+组内变异22oBetween-groups varianceoBetween-groups variance is a measure of how different the groups are from each other.o

8、 Which distribution has a greater between-groups variance?方差分析的基本思想23oWithin-groups varianceoWithin-groups variance is the weighted mean variability within each group or conditiono Which of the two distributions to the right has a larger within-groups variance? Why?方差分析的基本思想例6.6 三组血红蛋白增加量(g)A(i=1)B(

9、i=2)C(i=3)1.81.45.02.02.1-0.7Xij0.51.20.20.01.91.32.32.30.51.61.71.13.70.70.33.00.20.22.40.51.91.62.00.72.01.41.00.01.50.91.51.72.43.00.90.82.73.0-0.40.71.1-0.31.13.22.01.2-0.20.70.92.51.60.71.31.4ni20202060Meansd1.8400.9131.4151.2970.9300.7801.3951.071总变异 SS总o Sum of squares about the mean of all N

10、 values.Grand MeanGrand MeanMean 1Mean 1Mean 2Mean 2Mean 3Mean 3方差分析的原理Grand MeanGrand MeanTotal Sum of Squares (SST):组内变异 SS组内o Sum of squares within groupsGrand MeanGrand MeanSum of squares within groupsDf = 4Df = 4Df = 4Df = 4Df = 4Df = 4组间变异 SS组间o Sum of squares between groupsn1 n2 n3 Grand Mean

11、Grand MeanSum of squares between groups:总变异的分解SS总SS组间SS组内67.66858.2930+59.3755ANOVAPartitionsTotalVariationVariation due to treatmentVariation due to random samplingTotal variationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOV

12、APartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariationANOVAPartitionsTotalVariation方差分析的基本思想o 组内变异:抽样误差o 组间变异:组间本质差别抽样误差o 如果组间无本质差别,则组间变异组内变异o 或:方差分析的基本思想XA组(i=1)B组(i=2)C组(i=3)方差分析的基本思想总变异总的离均差平方和处理因素效应+随机误差随机误差方差分析的原理尺度总变异总的离均差平方和处理因素效应+随机误差

13、随机误差方差分析的原理尺度变异来源离均差平方和SS自由度v均方MS统计量F组间 SS组间k-1SS组间/v组间MS组间MS组内组内 SS组内N-kSS组内/v组内总SS总N-1方差分析的原理变异来源SSvMSF 总 67.668559 组间8.293024.14653.98 组内(误差)59.3755571.0417方差分析的原理方差分析的原理o方差比的分布!F分布是英国统计学家Fisher和Snedecor(斯内德克 )提出的。为了表示对Fisher的尊重, Snedecor将其命名为F分布。方差分析也主要是由Fisher推导出来的,也叫F检验。方差分析的原理F 分布0123450.00.2

14、0.40.60.81.01=1, 2=101=5, 2=10方差分析的原理0123450.00.20.40.60.81.01=10, 2=1=10, 2=1方差分析的原理F 分布 = 1 = 2 = 3If we sampled from these populations, we would not expect to reject H0Variability within group6.2 Theory of ANOVA Between-group variation is large compared to the Within-group variation2 3 1 If we sa

15、mpled from these populations, we would expect to reject H0Variability within groupVariability between group6.2 Theory of ANOVA如果均值相等如果均值相等, ,F F= =MSMSt t/ /MSMSe e1 1 F F 分布分布F F ( (k k-1,-1,n n- -k k) )0 0拒绝拒绝H H0 0不能拒绝不能拒绝H H0 0F F方差分析的原理完全随机设计资料的方差分析1. H0: 1=2=3 ,即三总体均数相等;H1: 1, 2, 3 不等或不全相等。0.0

16、5。2. 计算检验统计量: F=3.98 3.1588(界值)3. 概率: P=0.0241(p0.05)Then the P-value = 0.0241Lets say our observed value for F was F = 3.98012340.00.20.40.60.8F-distributionFor example, consider the F-distribution with 2 and 57 df 完全随机设计资料的方差分析 :本料采用因素方差分析(one-way ANOVA)果表明,三种治疗方案治疗婴儿贫血的效果有差别(F=3.98,P=0.0241)。完全随机

17、设计资料的方差分析完全随机设计资料的方差分析 例题 已知动物烧伤后内脏ATP含量迅速下降, 严重影响生物体各器官能量的正常代谢,为了解烫伤后不同时期切痂对肝脏ATP含量影响,将30只雄性大鼠随机分3组, 每组10只:o A组为烫伤对照组,o B组为烫伤后24小时(休克期)切痂组,o C组为烫伤后96小时(非休克期)切痂组, 并在烫伤后168小时活杀,测量其肝脏的ATP含量, 探讨烫伤后不同时间ATP含量是否有变化?因素:烫伤后不同时期水平:A,B,C完全随机设计资料的方差分析烫伤对照组24小时切痂组96小时切痂组 7.76 11.14 10.85 7.71 11.60 8.58 8.43 11

18、.42 7.19 8.47 13.85 9.36 10.30 13.53 9.59 6.67 14.16 8.81 11.73 6.94 8.22 5.78 13.01 9.95 6.61 14.18 11.26 6.97 17.72 8.68完全随机设计资料的方差分析变异来源离均差平方和MSF组间 119.8314组内112.9712总变异完全随机设计资料的方差分析o 建立假设 nH0:三组大鼠肝脏的ATP含量值无差别, 1=2=3nH1 :三组大鼠肝脏的ATP含量值有差别 ;o 选择检验水准=0.05;完全随机设计资料的方差分析o 列方差分析表,计算F值;o 查自由度为2,27的F界值表,

19、得P0.05;o 按=0.05的水准拒绝H0,接受H1,差别有统计学意义。认为烫伤后168 h时, 三组大鼠肝脏的ATP含量有差别。 变异来源离均差平方和MSF组间 119.8314259.916 14.32 组内112.9712274.184总变异232.8026 29 :本料采用因素方差分析(one-way ANOVA)果表明, 后不同期切痂的肝ATP含量有差(F=14.32,P0.0001)。完全随机设计资料的方差分析主要内容o 问题的提出o 方差分析的原理o 完全随机设计的方差分析o 配伍组设计的方差分析o 两两比较o 方差分析的正确应用配伍组设计的方差分析(page67)o 为什么要

20、配伍?n 配对的目的:排除干扰因素的影响;n 配伍的目的:使同一区组内除了研究因素外的其他特征尽可能相似,排除干扰因素的影响;o 按窝配伍;o 田间试验按区块配伍;n 当研究因素只有两水平时, 配伍设计方差分析=配对t检验 Rothamste Agricultural Station Fisher 用方差分析的思想耕种的一块田配伍组设计的方差分析种子A种子B种子C配伍组设计的方差分析肥中瘦ABC肥中瘦BLOCK1配伍组设计的方差分析处理因素配伍因素BLOCK2BLOCK3配伍组设计的方差分析o 实质:两因素方差分析o 变异分解,N为总样本含量,k为水平数,n为区组数;总变异总的离均差平方和处理

21、因素效应+随机误差随机误差配伍组方差分析的原理尺度配伍因素效应+随机误差尺度配伍组设计的SS的分解SS总 SS区组间 SS处理间 SS误差 v总 v区组间 v处理间 v误差 kb-1 (b-1) (k-1) (k-1) (b-1)o 实质:两因素方差分析o 变异分解,N为总样本含量,k为水平数,b为区组数;配伍组设计的方差分析o 例6.10(page67) 在抗癌药筛选试验中,拟用20只小白鼠按不同窝别分为5组,分别观察三种药物对小白鼠肉瘤(S180)的抑瘤效果,资料见表6.7,问三种药物有无抑瘤作用?配伍组设计的方差分析配伍组设计的方差分析配伍组设计的方差分析o 建立假设n实验因素: H0:

22、三种药物的抑瘤效果与对照组相同; H1:三种药物的效果与对照组不同或者不全相同;n干扰因素: H0:5个窝别小白鼠对肉瘤生长的反应相同 ; H1:5个窝别小白鼠对肉瘤生长的反应不全相同或全不相同 ;o 确立检验水准; =0.05;o 列方差分析表;配伍组设计的方差分析o 按=0.05的水准拒绝H0,接受H1,差别有统计学意义,认为三种药物对小白鼠肉瘤(S180)的抑瘤效果与对照组不同 ;o 按=0.05的水准不拒绝H0,差别无统计学意义,尚不能认为各窝小白鼠对肉瘤生长的反映不同 ;变异来源离均差平方和MSFP处理0.4108430.136957.53P0.05误差0.21811120.0181

23、8总变异0.7412819CompletelyRandomizedDesignRandomizedCompleteBlockdesignLatinSquaredesignThreewayFactorialarrangementonaRCBSplitPlotonaCRDSplit-splitPlotonaRCB主要内容o 问题的提出o 方差分析的原理o 完全随机设计的方差分析o 配伍组设计的方差分析o 两两比较o 方差分析的正确应用两两比较(page65)o 又叫多重比较,Multiple Comparison;o 分类n 事先计划好的多个试验组与一个对照组之间的比较,多个组与一个特定组间的比较

24、或者特定组间的比较;(Planned Multiple Comparison) n 方差分析得到有差别的结论后多个组之间的相互比较的探索性研究(Post Hoc);多个组之间的相互比较o Student-Newman-Keuls法(SNK法)SNK法步骤1. H0:相比较的两总体均数相等;H1:相比较的两总体均数不等。0.05。2. 计算检验统计量: q组次123均数1.8401.4150.930组别 ABC a=2 a=2 a=3SNK法步骤o均数1.8401.4150.930o组别 ABC对比组均数之差标准误qaq界值P1与30.9100.22823.987733.400.052与30.4

25、850.22822.125322.830.05结论:A方案与C方案的治疗效果间差异有统计学意义,而其余两组间尚看不出差异。Duncan- t 检验o 又称q法。o 用于k-1试验组与1个对照组比较,或 k-1对照组与1个试验组比较。q 与误差自由度有关,还与比较的两组之a值有关!Duncan-t 法步骤1. H0:相比较的两总体均数相等;H1:相比较的两总体均数不等。0.05。2. 计算检验统计量: Duncan q Duncan-t 法步骤结论:A疗法优于C疗法,而A与B差异无统计学意义。对比组均数之差标准误qaq界值P1与20.4250.28221.862222.830.051与30.91

26、00.28223.987432.980.05两两比较的注意事项o 对于方差分析后的两两比较均应以方差分析拒绝相应的H0为前提,且结论均不应与方差分析的结论相悖;o 出现模糊结论,下结论应该谨慎;o 方差分析拒绝H0,但两两比较得不出有差异的结论,因为方差分析效率高。o Post Hoc分析发现的各组间差别只是一种提示,一种进一步增加含量改进试验的提示。o 不能用t检验代替方差分析,也不能用t检验代替两两比较。o 无论是SNK法还是Dunnett-t法,用于两组比较时,结果与t检验等价。两两比较的注意事项方差分析的要求o 独立随机抽样(Independence);o 正态性(Normality)

27、;o 方差齐性(Homoscedascity);方差齐性检验o 两个方差的齐性检验n Levene法o 多个方差的齐性检验n Bartlett法变量变换(Variable Transformation)o 方差齐性是一个很strong的假设,如果不齐,就不能直接进行方差分析;o 变量变换n目的:方差齐性化,正态化,线性化o 常用方法:n对数变换 对数正态分布, 等比,正偏态n平方根变换 poisson分布,轻度偏态等n百分数平方根反正弦变换 原始数据为率方差分析 小结均数、方差的比较o 样本均数与总体均数的比较(t 检验)o 配对设计样本均数的比较(配对t 检验)o 两样本均数的比较(t 检验

28、,u 检验,F 检验,SNK,Duncan)o 多样本均数的比较(F 检验,ANOVA)n 各组间的比较(SNK法);n 各试验组与某一对照组间的比较用(Duncan法)o 两个方差的比较(F 检验)o 多个方差的比较(Bartlett 检验)方差分析 小结方差分析 小结o 分析单因素多水平间的比较或多个因素对结果的影响;o 单因素方差分析 两因素方差分析o 两两比较o 要求数据满足正态性、独立性、方差齐性o 变量变换o 正确应用两种错误的说法X1 X2 X3o X2所来自的总体位于X1所来自的总体和X3所来自的总体之间;o X1和X2来自同一总体,X2和X3来自同一总体。 只能说明无法判断样

29、本2来自于何总体!o 第一阶段从19世纪初直至20世纪末尾,代表人物有高斯及拉普拉斯、勒让德等人,形式是误差论并逐渐渗入到统计数据分析问题; o 第二阶段从19世纪末到20世纪20年代初期,代表人物主要是卡尔皮尔逊,形式是把多元正态与这模型联系起来,重点转到相关回归;o 第三阶段可以说是自1922年,代表人物是费歇尔,重点问题是方差分析(协方差分析)并联系到试验设计的发展。线性统计模型 o 溯源到1917年斯卢茨基(E. Slutsky)的一篇文章,其中提出了运用皮尔逊的拟合优度(goodness of fit)思想去检验回归是否为线性的问题。o 斯卢茨基认为,在原假设(回归为线性)成立时,统

30、计量将服从自由度为 的分布。 费歇尔和F分布方差分析 o 斯卢茨基这个论断在数学上是不正确的,但其中包含了一种有价值的统计思想 :o 反映与模型取法无关的随机误差,o 残差ri ,则不仅与随机误差有关,还与模型取得是否正确有关,模型与实际偏离愈大, ri一般也会愈大,费歇尔和F分布方差分析 o 所以 这个量反映了以随机误差水平为标杆去衡量模型与实际的偏离程度; o 此量愈大,模型与数据的符合看上去愈差,这就是该统计量的实际背景,这个思想实际上也就是方差分析的精髓。o 费歇尔抓住斯卢茨基这个想法,但在数学上作了改进。 o 费歇尔在1922年发表的论文回归公式的拟合优度及回归系数的分布,提出了F检验。 费歇尔和F分布方差分析 o 费歇尔在1922年这篇重要论文中还未提出方差分析这个术语,但已很接近这个思想。o 两年后的1924年,他在加拿大多伦多举行的国际统计学会大会上,作了题为关于一个引出若干周知统计量的误差函数的分析的报告,正式提出了方差分析。o 这是费歇尔唯一的一篇讨论方差分析的理论基础的数学论文,也是第一篇出现“方差分析表”的数学论文。费歇尔和F分布方差分析

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 传记文集 > 人物传记

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报