收藏 分享(赏)

10 相关和回归分析.ppt

上传人:nanchangxurui 文档编号:9043067 上传时间:2022-10-26 格式:PPT 页数:97 大小:3.40MB
下载 相关 举报
10 相关和回归分析.ppt_第1页
第1页 / 共97页
10 相关和回归分析.ppt_第2页
第2页 / 共97页
10 相关和回归分析.ppt_第3页
第3页 / 共97页
10 相关和回归分析.ppt_第4页
第4页 / 共97页
10 相关和回归分析.ppt_第5页
第5页 / 共97页
亲,该文档总共97页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Department of Biostatistics, School of Public Health Nanjing Medical University直线相关和回归分析Medical statistics医学统计学Department of Biostatistics, School of Public Health Nanjing Medical University直线相关分析Linear Correlation AnalysisPage 3相关分析:主要内容问题的提出相关关系与确定性关系相关和直线相关的概念直线相关的图示直线相关系数的计算直线相关系数的假设检验和区间估计Page

2、4问题的提出以往方法的局限仅限于考察一个观察指标Page 5问题的提出人的体重往往随着身高的增加而增加。二者之间是否存在某种关联?如果存在,可否用身高来推测体重的多少?儿童所能发出的最长音调往往和年龄有关。同样,是否可以建立年龄和音调长度的数量关系?人的肺活量往往随着胸围的增加而增加。举重运动员所能举起的最大重量是否与他的体重有关?Page 6相关关系与确定性关系所谓确定性关系是指两变量间的关系是函数关系。已知一个变量的值,另一个变量的值可以通过这种函数关系精确计算出来。C =2RS=vt非确定性关系是指两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高随年龄增长而增高;体表

3、面积与体重有关Page 72.相关的概念当两个数值变量之间出现如下情况:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。 Page 8直线相关的概念直线相关(linear correlation),又称简单相关,用以描述两个呈正态分布的变量之间的线性共变关系,常简称为相关。Page 9用以说明具有直线关系的两个变量间相关关系的密切程度和

4、相关方向的指标,称为相关系数(correlation coefficient),又称为积差相关系数(coefficient of product-moment correlation),Pearson相关系数 。总体相关系数用希腊字母表示,而样本相关系数用r表示,取值范围均为-1,1。Page 10r=0r=0r-1r1完全正相关完全负相关零相关零相关0r1-1r0r=0 r=0零相关正相关负相关零相关直线相关的图示Page 11r =-1-1r 0r =0直线相关的图示与相关系数的关系0r 1r =1Page 12直线相关系数的计算Page 13以下资料选自Galton的一项研究,目的是探讨

5、成年时身高是否与两岁时的身高(单位:英寸)有关。两的身高(英寸)39 30 32 34 35 36 36 30成年身高(英寸)71 63 63 67 68 68 70 64Page 14绘制散点图Y 成年后身高(单位:英寸)X 2岁时的身高(单位:英寸)3032343638406365676971Page 15Page 16Page 17相关系数的假设检验H0:0,两变量间无直线相关的关系;H1:0。Page 18H0:0,两变量间无直线相关的关系;H1:0,两变量间有直线相关的关系; =0.05=8-2=6以自由度为6查附表2的t界值表,得P0.01,按=0.05的水准拒绝H0,接受H1,认

6、为2岁时的身高和成年身高之间存在正相关。Page 19总体相关系数的区间估计从相关系数不等于0的总体中抽样,样本相关系数的分布是偏态的。 Page 20相关系数的抽样分布( = - 0.8)-0.8-0.6-0.4-0.20.00100200300-1.0Page 21相关系数的抽样分布( = 0)-1.0-0.8-0.6-0.4-0.20.00.20.40.60.81.00100200300Page 22相关系数的抽样分布( =0.8) 00.20.40.60.81.00100200300Page 23R.A. Fisher(1921) 的 z 变换 z近似服从均数为 ,标准差为 的正态分布

7、。 Page 24相关系数的z 值的抽样分布( = - 0.8)00.51.01.52.0050100150200Page 25相关系数的z 值的抽样分布( = 0)-2-1012050100150200Page 26相关系数的z 值的抽样分布( = 0.8) 01234050100150200Page 27相关系数的可信区间估计将 r 变换为 z ;根据 z 服从正态分布,估计 Z 的可信区间;再将 z变换回 r 。Page 28相关系数的可信区间估计 Fishers 变换 r z 正态近似 Fishers 反变换 的95%CI Z的95%CI Page 29该可信区间有什么含义?Depar

8、tment of Biostatistics, School of Public Health Nanjing Medical University直线回归分析Linear Regression AnalysisPage 31直线回归分析:主要内容引言直线回归的定义直线回归方程的求解回归系数的t检验回归问题的方差分析直线回归系数和回归方程的解释与直线回归有关的区间估计相关与回归的区别和联系正确应用Page 32引言 对于2岁时的身高和成年后身高间的关系 即便具有相同的2岁身高,成年后的身高也不一定相同; 2岁身高X与成年后身高Y的散点图Y 成年后的身高(英寸)X 两岁时的身高(英寸)30323

9、43638406365676971Page 33引言 对于女大学生的体重和肺活量间的关系 即便具有相同的体重,肺活量也不一定相同;Y 肺活量(L)X 体重(kg)40602.04.03.02.53.5504555女大学生体重(X)与肺活量(Y)的散点图Page 34折衷的解释2岁身高影响成年的身高,但并非确定地决定它(determine it exactly) ;女学生的体重虽然影响了肺活量;但并非确定地决定它;因此,虽然它们之间有数量关系,但并非确定性的数量关系。是一种非确定性关系;一种宏观的关系!Page 35所谓确定性关系是指两变量间的关系是函数关系。已知一个变量的值,另一个变量的值可以

10、通过这种函数关系精确计算出来。非确定性关系是指两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。Page 36直线回归的定义 宏观上来讲,他们呈直线关系,但并不能用来描述。所以我们用“hat”表示估计值,给定X时Y的条件均数(Y均数的估计值)Page 37 Y 因变量,响应变量 (dependent variable, response variable) X 自变量,解释变量 (independent variable, explanatory variable) b 回归系数 (regression coefficient, slope) a 截距 (intercept)Page

11、38不同斜率时回归直线的表现XYPage 39直线回归方程的求解两的身高(英寸)39 30 32 34 35 36 36 30成年身高(英寸)71 63 63 67 68 68 70 64Page 40直线回归方程的求解:最小二乘原理Y 成年后身高(单位:英寸)X 2岁时的身高(单位:英寸)3032343638406365676971Page 41直线回归方程的求解最小二乘法(Least Square Method)Page 42最小二乘法求解(了解) 根据微积分学中的求极值的方法,令 Q对a、b的一阶偏导数等于0,即:Page 43最小二乘法求解(了解)Page 44直线回归方程的求解2岁身

12、高和成年身高之间关系Page 45直线回归方程Page 46直线回归系数的t检验回归系数也有抽样误差!检验方法针对回归系数b的检验:t检验针对回归方程的检验:F检验Page 47直线回归系数的t检验总体回归系数 =0,则回归关系不存在。H0:总体回归系数为0, =0;H1:总体回归系数不为0,0;=0.05。Page 48直线回归系数的t检验Y的剩余标准差扣除X的影响(即回归所能解释的部分)后Y本身的变异程度Page 49直线回归系数的t检验 名词辨析: Y的变异 Y本身的变异 Y 体重增加量(g)X 进食量(g)600 650 700 750 800 850 900 950120140160

13、180200154.42gSY22.630SY.X12.39Page 50直线回归系数的t检验H0:总体回归系数0;H1:总体回归系数0; =0.05。 =8-2=6按=6查t界值表,得P0.01。按 =0.05水准拒绝H0,接受H1。认为成年身高和2岁时的身高间存在直线回归关系。 Page 51回归系数与相关系数的假设检验结果等价Page 52回归方程的方差分析:因变量总变异的分解X P (X,Y)YQLSPage 53Page 54上式两端平方,然后对所有的上式两端平方,然后对所有的n n点求和,则有点求和,则有Page 55 Page 56Y的总变异分解未引进回归时的总变异: (sum

14、of squares about the mean of Y)引进回归以后的变异(剩余): (sum of squares about regression)回归的贡献,回归平方和: (sum of squares due to regression)Page 57Y的总变异分解 总n1 回1 剩余n2 总回SSSSr=2Page 58Y的总变异可以用回归来解释的部分即与X有关的部分不能用X来解释的部分即与X无关的部分(随机误差)份额的大小可以用相关系数的平方来衡量(决定系数)Page 59回归方程的方差分析Page 60H0:2岁身高和成年身高无直线回归关系;H1: 2岁身高和成年身高有直线

15、回归关系;=0.05。 SS总 =67.5000SS剩 =60.3571SS回 = SS总-SS剩 =67.50-60.36=7.14列方差分析表Page 61方差分析表 F=50.70,今1=1,2=6,查 F界值表,得P0.0001,按 =0.05水准拒绝H0,接受H1,故可认为2岁和成年身高之间有线性回归关系。异来源SSvMSFP 异67.50007回 60.3571160.357150.700.0001剩 余7.142961.1905Page 62直线回归中三种假设检验间的关系在直线回归中,相关系数的假设检验,回归系数的假设检验,以及回归方程的方差分析结果等价。tr=tb=7.12=F

16、1/2=50.701/2Page 63回归系数和回归方程的意义及性质b 的意义a 的意义 和 的意义 的意义Page 64b的含义 b的涵义:两岁身高每高1英寸,成年后的身高平均高0.9286英寸。Page 65a 的意义a 截距(intercept, constant)X=0 时,Y的估计值a的单位与Y值相同当X可能取0时,a才有实际意义。Page 66估计值 的意义X=39, = 71.3929 即两岁身高为39英寸时,其成年后身高均数的估计值为71.3929英寸X=35, = 67.6786 即两岁身高为35英寸时,其成年后身高均数的估计值为67.6786英寸给定X时,Y的均数的估计值。

17、当 时,Page 67号2(英寸)X成年(英寸)Y估残差1397171.3929-0.39292306363.0357-0.03573326364.8929-1.89294346766.75000.25005356867.67860.32146366868.6071-0.60717367068.60711.39298306463.03570.9643合272534534.00000.0000估计值与残差Page 68图7.2 2岁身高X与成年后身高Y的散点图X 2岁时身高3032343638406365676971XY 成年后身高(单位:英寸)Page 69残差平方和 (residual su

18、m of squares).综合表示点距直线的距离。在所有的直线中,回归直线的残差平方和是最小的。(最小二乘) 的意义Page 70与直线回归有关的区间估计回归系数的可信区间估计估计值 的可信区间估计个体Y值的容许区间估计Page 71复习 可信区间 容许区间均数的可信区间: 均数界值标准误 个体的容许区间(参考值范围): 均数界值标准差 Page 72总体回归系数 的可信区间估计根据 t 分布原理估计:Page 73本例中已计算得sb=0.1304(0.9286-2.4470.1304, 0.9286-2.4470.1304)=( 0.6095,1.2477)含义用(0.6095, 1.24

19、77)来估计两岁身高与成年身高间的直线回归系数,可信度为95%。Page 74 的可信区间估计 样本 总体Y的总平均给定X时Y的平均 (Y的条件均数) 根据 t 分布原理:Page 75X=38时,求 的95%可信区间 =34,lXX=77159.67, =12.3921当X=34 时, =70.464470.46442.4470.4688=(68.88,70.05) 即身高为34英寸的两岁儿童,估计其成年后平均身高为70.4644英寸,95可信区间为(68.88,70.05) (g)。Page 76Y的容许区间估计 给定 X 时 Y 的估计值是 Y 的均数的一个估计。 给定X 时 Y 值的容

20、许区间是 Y 值的可能范围。 Y的100(1- )%容许限:Page 7770.46442.4471.2694=(67.3583,73.5705)即所有身高为34英寸的两岁儿童,估计其成年后有95的个体身高在(67.36,73.57) 之间。Page 78剩余标准差、条件标准误、条件标准差抽样误差抽样误差个体变异Page 792身高(英寸)成年身高(英寸)(英寸)的95%可信区Y的95%容区下限上限下限上限306463.035761.448264.623259.929666.1419306363.035761.448264.623259.929666.1419326364.892963.753

21、466.032361.990167.7957346766.750065.806167.693963.918269.5818356867.678666.682268.675064.828970.5283366868.607167.467769.746665.704471.5099367068.607167.467769.746665.704471.5099397171.392969.539073.246768.142574.6432Page 80估计值、95%可信区间和95%容许区间成年后身高英寸X 2岁时的身高(单位:英寸)30 32 34 36 38 58 60 62 64 66 68 70

22、 72 74 76 3 1 3 3 3 5 3 7 3 9 Page 81直线回归与直线相关的区别与联系联系均表示线性关系;符号相同:共变方向一致;假设检验结果相同:是否存在共变关系;二者间可以相互换算用回归解释相关Page 82直线回归与直线相关的区别与联系区别r 没有单位,b有单位;所以,相关系数与单位无关,回归系数与单位有关;相关表示相互关系;回归表示依存关系;对资料的要求不同: 当X和Y都是随机的,可以进行相关和回归分析; 当Y是随机的(X是控制的),理论上只能作回归而不能作相关分析; I型回归:X是精确控制的; II型回归:X是随机的。 由X推算Y: 由Y推算X:Page 83直线相

23、关和回归分析的正确应用 相关和回归要有实际意义; 充分利用散点图,判断: 线性趋势 离群值 相关分析要注意 谨防多个变量间的相关性所带来的虚假关系 对资料本身的要求:双变量正态分布 同质性 当样本含量较大时,统计学检验的作用减小; 回归关系可以内插,不宜外延; 应用条件(LINE): 线性(linear) 独立(independent) 给定X时,Y正态分布(normal) 等方差(equal variance)Page 84Page 85散点图的作用识别离群值;PQ离群值对相关和回归分析的影响Page 86二元正态分布曲面(11=1,22=1,12=0) Page 87二元正态分布曲面(11

24、=1,22=1,12=0) Page 88二元正态分布曲面(11=2,22=4,12=0.75)Page 89二元正态分布曲面(11=2,22=4,12=-0.75)Page 90二元正态分布曲面(11=2,22=4,12=0.75)Page 91二元正态分布曲面剖面(11=1,22=1/2,12=-0.75)Page 92排除间杂性(a)(b) 样本甲观察点 样本乙观察点样本的间杂性对相关和回归的误导Page 93给定X时,Y是正态分布、等方差示意图Page 94给定X时,Y是正态分布、不等方差示意图Page 95男性年龄与血糖的关系 (方差随自变量的增加而增加)glucoseage2030405060708036912Page 9626名病人的胃液pH值及尿亚硝酸盐浓度的散点图 (方差随自变量的增加而增加)尿中亚硝酸盐的浓度胃液的pH值 Page 97

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 传记文集 > 人物传记

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报