1、第十章 曲线回归 1 本章介绍可以直线化的曲线回归的类型,以 生长型曲线为例说明曲线的直线化配合, 曲线回归方程的拟合度 2 第一节 曲线回归的意义 3 直线回归的局限 1、两变量之间的关系不完全是直线关系 2、简单相关不显著并不表示两变量间无相关 3、两变量间更普遍的关系是曲线关系 4、直线回归仅是曲线回归的一种特殊形式 5、直线回归是曲线回归中的一部分 4 曲线配合的一般步骤: 1、确定回归关系的类型:线性 非线性(曲线形状) 2、确定回归关系的参数、相关指数、估计标准误 3、对所得回归方程作显著性检验 曲线方程可分为两种: 可直线化的曲线方程 不可直线化的曲线方程(多项式) 因此,首先应
2、确定两变量的曲线关系是哪一种 5 第二节 曲线类型及其方程 6 本章仅讨论可以直线化的曲线方程 函数型曲线方程 (一)幂函数 直线化:两边取对数: 令: 则有: 对 求 A 和 b, 并得 即可得:a、b,建立方程 (双对数转换,即对 x、y 均求对数后输入) 7 (二)指数函数 或 直线化:两边取对数: 令: 则有 对 求A 并得 即可得 a、b,建立方程 (单对数变换,即对 y 求对数后与 x 一起输入) 8 (三)双曲线函数 令: 则 对 x 求 X 即可得 中的 a、b (倒数变换,即取 x 的倒数,与 y 一起输入) 此外还有一些曲线方程: 下面是几种可以转换为直线方程的曲线函数图形
3、: 9 10 曲线回归的计算器计算方法: 计算器将出现如下画面: mode3 Lin Log Exp 1 2 3 2 3 12 (四)S型曲线 陆生、水生动物的种群增长、微生物种群增长、细 胞的生(增)长等都是这一模式 因此,S型曲线又称为生长型曲线、logistic曲线, 其变换形式有以下几种: 13 类似的生长型曲线还有 Gompertz 曲线: 其变换形式: Bertalanffy 曲线: 14 在这些曲线方程中,无一例外的都有3个需要计算的 统计量:k、a、b K 是当 x 趋向于 +时 y 所所能达到的最大值,往往是 未知的,因此也是需要进行计算的 这是生长曲线与其他可以直线化的曲线
4、方程不同的 地方 这些曲线方程中的 x 往往是时间单位,因此一般可 用 t 表示,而 y 往往是群体的增长量,或群体增 长倍数,所以也可以用 N 表示 我们这里仅对典型的 S 型曲线方程进行直线化,其 他变换类型的方程直线化可以仿此进行 15 测得某微生物在一定温度下随时间变化的平均增长量 数据如下: 时 间t 1 2 3 4 5 6 7 8 9 增长倍数N 1.3 1.5 2.6 3.6 6.8 8.4 8.5 9.1 9.5 从下面的散点图我们可以看出,可配合S型曲线: 10 8 6 4 2 1 2 3 4 5 6 7 8 9 16 我们采用生长曲线的一般形式 进行配合 变换,两边取对数,
5、得: 并令: 从数据表中取三个等距的点代入上式(一般总取始 点、中点、末点):(1,1.3)、(5,6.8)、(9, 9.5) 17 解这一三元一次方程组,消去a、b,得: 则 这是一个通式,任何配置 S 型曲线的数据资料均可 使用这一公式求得 k 值 将上式中的 代入 式,得 即为 k 的解 将k=9.78代入 可得和t相对应的各个Y值 18 将这些 Y 值写在数据表下方对应处,用最小二乘配置法 配置直线 时 间t 1 2 3 4 5 6 7 8 9 增长倍数N 1.3 1.5 2.6 3.6 6.8 8.4 8.5 9.1 9.5 1.88 1.71 1.02 0.54 -0.82 -1.
6、81 -1.89 -2.59 -3.52 19 得一级数据: 或将时间 t 和 Y 值输入计算器直接进行计算 20 则 将k、a、b代入方程,即得: 或: 21 在这一类例子中,时间往往是有效单位时间,如一 周、一月、一年、一个时间段等,如需换算成具 体时间如天、小时、分等,则需将其换算值代入 t 值即可 另外,在一般的通式中,我们往往以 x、y 作为自变 量和依变量的符号,但在具体问题中,有时为了 更形象、更直观地说明问题,可以用其他不同的 字母(往往是相应的英文名词的首写字母)来代 替 22 如长度用 L、时间用 t、增重倍数用 N、体重用 W 等 用统计软件进行计算时,可直接将原始数据输
7、入数 据库,调用相应的程序运算即可 23 第三节 曲线配合的拟合度 24 曲线配合完成,其方程是否理想,同一批数据采用 不同的曲线方程进行拟合,其效果如何,哪一种 方程更好,可以用曲线方程的拟合度来衡量 曲线方程的拟合度就是相关指数 R2 离回归平方和 Q(实测值与预测值之差的平方和, 即剩余回归平方和)在总平方和中所占的比例越 小,说明方程的效果越好,因此可以用剩余回归 平方和在总平方和中的比例来表示曲线配合的好 坏: 25 在曲线回归方程中,我们必须实际求得每一个 ,然 后求出 ,而不能象简单回归一样可以用有关 公式求出 在上例中: t 1 2 3 4 5 6 7 8 9 N 1.3 1.
8、5 2.6 3.6 6.8 8.4 8.5 9.1 9.5 0.9445 1.7481 3.0030 4.6386 6.3326 7.7167 8.6448 9.1874 9.4797 0.1264 0.0615 0.1624 1.0788 0.2184 0.4669 0.0210 0.0076 0.0004 26 R2 的平方根 R 称为相关系数,为了和简单相关系数 r 有所区别,曲线回归方程和多元回归方程的相关 系数称为复相关系数,写为 R 拟合度得到后,同样需要进行显著性检验,检验的 方法还是查 r 表 本例中,变量个数为 m = 2,自由度 df = 7,因此 27 同一批数据如果拟合了多条曲线回归方程,应当将 每一条曲线方程的相关系数相比较,原则上哪一 个曲线方程的相关系数大,哪一个曲线方程就是 最好的,当然还应当结合专业知识来进行判断 (*) 28 end 29