收藏 分享(赏)

拓展模块_不要回避衝突.doc

上传人:黄嘉文 文档编号:2474037 上传时间:2020-07-18 格式:DOC 页数:4 大小:59KB
下载 相关 举报
拓展模块_不要回避衝突.doc_第1页
第1页 / 共4页
拓展模块_不要回避衝突.doc_第2页
第2页 / 共4页
拓展模块_不要回避衝突.doc_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、机的、非随机的,还是它们的混合。3、拟合优度和方差分析由方差分解公式,我们有:。我们用幂等矩阵M0来表示: 所以,和进一步研究回归平方和SSR与残差平方和SSE,我们可以得到下面三个结论:a)在=0的假设条件下,回归平方和服从自由度为K1的卡方分布x2(K1);b)残差平方和服从自由度为nK的卡方分布x2(nK);c)在=0的假设条件下,服从F(k-1,nk)分布。证明:a)M0M是幂等矩阵。先证明M0M+MM0=2M。M0M+MM0=2M从而 所以,。在=0的假设条件下,才服从自由度为K1的卡方分布x2(K1)(为什么?)b)因为M是幂等矩阵而且c)只要验证即可。事实上, 。和前一章的情况一

2、样,我们要对回归模型的好坏,作出评价,决定系数就是对模型拟合的一个度量,计算R2有两个等价的方法。决定系数进一步推导和化解,我们可以得到R2另一个公式。,以及M0e=e(表示残差已经具有零均值)和Xe=0。所以,第一个方法度量了y的总变差中由回归变差所解释的部分,第二个是y的观测值和由估计的回归方程所产生的预测值间的相关系数的平方。当利用R2来比较不同的线性统计模型的拟合度时,存在一个严重的缺点,就是它的值随着解释变量的增多而增大。为了克服这个缺点,我们可以用调整的R2来测度一个模型的解释能力,这个调整的R2被记,它的表达式为 这里的无偏估计量,(思考:当y服从正态分布时,的一个无偏估计量)。

3、不同的是,随着解释变量的增多,它的值可能变小,甚至要能取负值。因为所以,SSR=我们得到了回归方差的另一个表达式,请见多元线性回归模型方差分析表。表1 多元线性回归模型方差分析来源自由度均方回归K1残差nKs2总n14、回归的显著性检验一个通常要检验的假定是回归方程作为整体的显著性,这是对除了常数项外所有常数都为0的假设的联合检验。若所有系数为0,则多重相关系数为0,所以我们可以将这一假定的一个检验基于R2值上。统计量服从自由度为K1和nK的F分布,检验的逻辑是,F统计量是对我们强加所有斜率都是0的这一约束时的拟合损失的一个度量(R2的全部),若F大,假设被拒绝。五、预测多元回归环境下的预测结

4、果与前一章中讨论的那些本质是一样的。假定我们希望预测与回归向量x0相应的y0值。它将是(,且 i=1,n)由高斯马尔科夫定理知是y0的最小方差线性无偏估计量。个体预测(Individual Prediction)误差是(,且 i=1,n)这个估计的预测方差是 若回归含有一个常数项,一个等价的表达式是其中X是X的不包含全为1的列的最后K1列。这表明,和以前一样,区间的宽度依赖于x0的元素与数据中心的距离。因此 又因为 由此得到 即y0的一个置信区间将用下式形成:预测区间。均值预测(Mean Prediction)均值预测是预测值是 而不考虑随机干扰项。误差是这个估计的预测方差是 因此 又因为 由

5、此得到 即y0的一个置信区间将用下式形成:预测区间。六、分块回归和偏回归当兴趣实际上只集中于一个变量或变量全集的一个子集时,设定一个多元回归模型是很普遍的,但往往这个变量或变量全集的子集并不能很好地解释被解释变量,需要我们在原有的模型中添加新的解释变量,才能进一步完善模型。例如考虑收入方程,虽然我们的主要兴趣在于收入和教育的联系上,将年龄包括进模型是必要的。我们已经证实从方程忽略年龄将是错误的,这里我们考虑的问题是,从一个多元回归模型中单独地获取一个子集变量的系数涉及什么样的计算,例如获取前边及回归中教育的系数。以一般术语,假定原有回归模型是,现在在原有的模型中添加新的解释变量集X1,那么现在

6、的回归方程包括两组变量和,转换为: 的代数解是什么?与原有的估计量有何关系?新的模型的正则方程组是(1a)(2a) 利用分块逆矩阵可以得到另外一个方法是可以直接处理(1a)和(2a)以求解。我们首先从(1a)求得解 (9)(注意此解表明是对回归的系数减去一个修正向量。)然后,将其代入(2a)得到整理各项后,解是 (10)注意出现在每个中括号中的小括号里的矩阵都是讨论过的“残差制造者”,这里是相应于对各列回归的。这样,是一个残差矩阵,其中每一列都是中相应列对中各变量回归的残差向量。利用和一样是幂等的这一事实,我们可将(10)重写为 (11)其中 和 所以,是为来自一个回归的系数集合,这个回归的被

7、解释变量是单独对回归的残差,解释变量是的每一列分别对回归所得残差的集合。这个过程通常被称作排除或筛掉的影响。正是部分地由于这个原因,一个多元回归中的系数通常被称作偏回归系数。我们可以用一个例子来说,通过首先用收入和教育对年龄(或年龄及年龄中平方)回归,然后在一个简单回归中使用这两个残差,我们能够得到教育在最小二乘回归中的系数。这一方法的一个经典的应用中,费雪和沃(1933)注意到,在时间序列环境下,像刚才提到的那样首先通过筛掉时间的影响而消除数据趋势,然后用消除趋势的数据简单回归和直接带有一个时间趋势变量似合所得结果是一样的。1、偏回归和偏相关系数使用多元回归包含一个在实际中可能不能实施的概念

8、性试验,即类似于经济学中的“假设其余情况均同”。继续考虑简介中的例子,将收入和年龄及教育相联系的回归方程使我们能够对两个同龄但教育程度不同的人的收入进行比较,即使样本中没有这样一对个人。术语偏回归系数所暗示的正是回归的这一特性。我们已经看到,获取这个结果的方法是首先用收入和教育对年龄进行回归,然后从回归方程中计算出残差,按其构造,年龄对解释这些残差没有任何能力。所以,在这种“净化”(或筛掉年龄的影响后)后的收入和教育间的任何相关都与年龄无关。同一原理可应用于两个变量间的相关系数上。继续我们的例子,当我们在样本中得到收入和教育间的相关数为0.7时,那么,在何种程度上我们可以假定这一相关是由于某种

9、直接关系,而非由于当人们变老时,收入和教育平均来说都趋于增长这一事实?为了找出答案,我们将使用偏相关系数,这与偏回归系数的计算方式一样,在我们的例子中,抑制年龄的影响,收入和教育间的偏相关系数可如下获取:1、收入对年龄的回归中的残差2、教育对年龄的回归中的残差3、偏相关系数就是和间的简单相关系数。这似乎是一个可怕的计算量,然而存在一个方便的简捷算法,一旦计算了一个多元回归,(7)中用于检验系数等于0的比率,可用于计算 (12) 2、对均值的离差对常数回归作为上一节结果的一个应用,考虑仅为中由1组成的第一列的这种情况,此时的解将是带有常数项的回归中斜率。令为由1构成的列,任何变量对的回归的系数是,拟合值是,残差是。所以,当我们将其应用于先前结果时,会发现:将数据转换成对其均值的离差,然后用离差形式的变量对同样的离差形式的解释变量回归,可以得到含有常数项的多元回归中的斜率。练习:若在计算斜率前忽略了将转换为对的离差,在前边的回归中将会发生什么情况?得到了的系数后,怎么才能取得的系数?当然,一个方法是转换和的角色重复上一节中的练习,但有一个更容易的方法,对一般情形,两个正则方程组中的第一个是 我们已经解出了,所以,在求解时可以使用它: (13)若仅为一列,(13)中第一个将产生如下结果 (14)

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 办公文档 > 其他文案

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报