收藏 分享(赏)

用SAS作统计分析.pptx

上传人:浮梦生 文档编号:5730708 上传时间:2022-06-20 格式:PPTX 页数:88 大小:1.20MB
下载 相关 举报
用SAS作统计分析.pptx_第1页
第1页 / 共88页
用SAS作统计分析.pptx_第2页
第2页 / 共88页
用SAS作统计分析.pptx_第3页
第3页 / 共88页
用SAS作统计分析.pptx_第4页
第4页 / 共88页
用SAS作统计分析.pptx_第5页
第5页 / 共88页
亲,该文档总共88页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、用SAS作统计分析SAS Institute (Shanghai) Co., Ltd.基本概念和方法浏览1统计的作用对数据作出概要的描述基于数据作出推断(包括评价推断的有效性)2SAS系统提供有力的统计分析功能Base SAS 和 SAS/GRAPH 包含常规的分析功能SAS 有专用于各种分析功能的模块STAT, QC, ETS, ORINSIGHT, LAB, ASSISTIMLSAS 将其分析功能与其数据管理功能结合成强大的决策支持系统3SAS分析的特点SAS 将常用的统计方法用程序实现,是一个高品位的程序系统SAS 是一个迅速发展的系统:融入最新的方法,不断适应用户的新需求SAS 既可由

2、编程也可用图形界面交互式地实现分析功能SAS 将各种专门分析方法融入为用户提供的直接使用的专用系统中4了解学习SAS的分析决策功能会找: 针对问题和数据选用合适的分析工具会用:选PROC,选Option,写Statement会解释:对SAS提供的计算结果给出解释和分析5总体(母体 Population)关心的对象全体关心对象的某些指标(Variable) Var1, Var2, . . . ,Var n总体的分布:这些变量取什麽值,各占多大比例总体的分布的特征:均值,方差(及其他 参数) 抽样6样本(子样 Sample )样本:取自总体的若干(有代表性)的个体计算统计量7统计量(Statist

3、ics) 子样 总体 描述 推断统计量-由样本运算而得到的量: 均值,方差 中位数,极差 直方图,经验分布统计量能集中样本某一方面的信息8统计模型 母体(分布及其它特征)抽样子样(分布及其它特征)计算统计量统计量描述推断9统计模型参数是总体的特征。统计量是由样本观测值计算而得到的。统计量可用于估计总体的参数。10抽样的随机性总 体子样子样子样子样子样对同一个总体可以获得多个不同的样本这些样本的观测值不全相同,相应的统计 量也不一样,这是由抽样偶然性引起的但当样本的容量增大时,不同样本间的差 异逐渐缩小,这是统计的规律性11抽样的随机性12rannor2, 原数据rannor1抽样的随机性13抽

4、样的随机性14抽样的随机性15抽样的随机性16抽样的随机性17用SAS作常规统计的几种常用做法用SAS作常规统计分析,在交互式运行方式下常用的做法有:用编程实现各种任务用SAS提供的菜单系统实现各种任务用SAS/ASSIST用STATISTICAL ANALYST发命令analyst用SAS/INSIGHT 发命令insight18SAS/INSIGHT是一个可视化的数据探索工具。将统计方法与交互式地图形显示融合在一起随时为用户提供数据、图形和分析结果三方面的内容,便于用户发现奇异数据及包含在数据中的模式或规律,探索性地使用各种统计分析方法并观察分析结果。它为用户提供一种全新的使用统计分析方法

5、的环境。19SAS/INSIGHT如何在SAS系统中进入SAS/INSIGHT键入命令 INSIGHT用下拉菜单 Globals Analyze Interactive data analysis通过 SAS/ASSIST 或提交 Proc insight 20SAS/INSIGHT在SAS/INSIGHT中,变量按其测量水平分为:区间型的(Interval)列名型的(Nominal)以连续变化尺度测量具有可进行分析的数值有数值或字符值用于作分类变量数值型 字符型区间型列名型21SAS/INSIGHT对数据集的操作在SAS/INSIGHT中,可对SAS数据集进行数据输入和浏览修改测量水平移动变

6、量显示次序建立新的变量按某个变量的值进行排序选取子集22Analyst Application分析员应用(Analyst Application)是在SAS系统中进行基本统计分析菜单界面系统它将常用的统计方法按描述统计,表分析,假设检验,方差分析和回归分析等栏目提供菜单,也有制图和建表的功能菜单它对所进行的每项分析都提供按菜单设定的要求自动生成的程序它对分析的过程和结果建立项目并进行管理23Analyst Application在SAS中进入Analyst:键入命令ANALYST用下拉菜单Globals Analyze Statistical Analysis24Analyst Applica

7、tion在Analyst中,可对SAS数据集进行数据输入和浏览移动变量显示次序建立新的变量按某个变量的值进行排序选取子集转置数据集25变量取值的宏观描述分布全面地描述了变量取值的概况分布:变量取什麽值,各占多少比例字符型变量:用表列举其取值和比例或用柱状图,拼花图(Mosaic)26变量取值的宏观描述连续变化数值型变量:用表列举其在各个范围取值的比例,用直方图,Box图或次序统计量、经验分布图27SAS/INSIGHT数据取值频数的描述柱状图与直方图 (Bar chart/Histogram)Analyze Histogram/Bar chart(Y)频数表Analyze Distributi

8、on(Y) Output Frequency Table28Analyst数据取值频数的描述Statistics Descriptive Frequency Counts 制作直方图29变量取值特征的描述运用各种统计量描述变量取值的不同特征均值、中位数描述变量取值的中心位置方差、极差描述变量取值的离散程度次序统计量也可描述变量取值的分布30次序统计量样本(Sample):次序统计量(Order Statistics):4, 3, 11, 3, 1 5, 81, 3, 3, 4, 5, 8, 1131描述数据中心位置的统计量样本观测值:4, 3, 11, 3, 1, 5, 832描述数据离散程度

9、的统计量33描述数据离散程度的统计量样本观测值:4, 3, 11, 3, 1, 5, 8 34与均值方差有关的统计量标准差(Std Dev):标准误(Std Error):变异系数(CV)未校平方和(USS)校正平方和(CSS)35偏度(Skewness)偏度:(Skewness)精确地 0= 036峰度(Kurtosis)峰度:(Kurtosis)精确地 0 0 037分位数(Quantile)(0.4 分位数)38分位数(Quantile)p分位数:附近的一个数(小于p-分位点的样本数约占样本总数的100p%)0.5-分位数即中位数0.25-分位数称下四分位数0.75-分位数称上四分位数样

10、本观测值:4, 3, 11, 3, 1, 5, 8(1,3,3,4,5,8,11)43839SAS/INSIGHT数据的图形描述-盒须图40SAS/INSIGHT与Analyst生成描述统计量Insight 生成描述性统计量:Analyze Distribution(Y)Analyst 生成描述性统计量:Statistics Descriptive Summary Statistics或 Distributions 41变量取值的宏观描述对母体和样本都可考虑它们各自的分布样本直方图总体分布密度样本经验分布总体累计分布42中心极限定理43标准正态分布密度44对数正态分布45Weibull 分布4

11、6SAS/INSIGHT分布拟合直方图(Graphs)+拟合分布密度(Curves)经验分布(Curves)+拟合累计分布(Curves)QQ图(Graphs)+参照线(Curves)非正态参数分布的拟合:Curves+ Parametric Density非参数分布密度拟合: Curves + Kernel由Analyze Distribution(Y) 进入后:47Q-Q图 48Analyst直方图与分布拟合Statistics Descriptive Distributions. 拟合49方差分析(Analysis of Variance)对多个均值进行统计推断通常使用方差分析方差分析是

12、分析试验结果数据的重要方法50方差分析(Analysis of Variance)在方差分析中:连续应变量:记录在各种条件下的观测结果若干个分类变量:设定观测条件(也称独立变量)分类变量可表示固定效因或随机效因分类变量的不同值又称为水平51方差分析(ANOVA)方差分析将观测到的应变量的变差分解为属于不同分类变量的和随机误差进行分析52方差分析(ANOVA) 53方差分析(ANOVA)自由度分解方差分解或(效因模型、线性模型)单分类数据的分析(均值模型)54方差分析(ANOVA) 方差分解与检验 Total SS=SS(因素A)+Residual SS Total DF=DF(A)+Resid

13、ual DF MS(.)=SS(.)/DF(.) F(.)=MS(.)/Residual MS 55方差分析数据要求使用SAS进行方差分析时要求每条记录为一次观测的结果。不同因素或水平下因变量的观测值都记用同一个变量表示不合适合适56方差分析SAS/INSIGHT单因素方差分析图形表现: Analysis Box plot Y:区间型因变量, X:列名型独立变量方差分析计算: Analysis Fit(X,Y) Y:区间型因变量, X:列名型独立变量 57方差分析AnalystStatistics ANOVA One-way ANOVAFactorial ANOVALinear Models5

14、8变量的相关关系散点图是直观地观察连续变化变量间相依关系的重要工具Insight: Analyze Scatter plot(Y X)或 Multivariate(Ys)编程:proc gplotAnalyst: Graphs Scatter plot 59变量的相关关系用直线描述用曲线描述可能有周期变化无明显关系60相关系数(Correlation Coef.)线性联系是描述变量联系中最简单和最常用的一种(Y=a1x1+a2x2+b)相关系数是描述两个变量间线性联系程度的统计指标相关系数的计算公式:61相关系数(Correlation Coef.)正相关:一个变量数值增加时另一个变量也增加负

15、相关:一个变量数值增加时另一个变量减少62相关系数(Correlation Coef.)强相关并不表示存在因果关系弱相关并不表示变量间不存在关系个别极端数据可能影响相关系数63相关系数的计算SAS/INSIGHT Analyze Multivariate (Ys) Output Corr在多变量分析窗中,由下拉菜单 Tables Corr在散点图上加置信椭圆认识相关大小 Curves Confidence Ellipse Prediction: . . . 64相关系数的计算AnalystStatistics Descriptive Correlations 65相关与回归相关分析量化连续变化

16、变量间线性相关的强度回归分析确定一个连续变量与另一些连续变量间的关系66回归(Regression)描述一个变量与另一些变量间统计联系的关系式,Y=f(x1,x2,.,xm), 用于解释和预测。确定回归:确定变量:Y 与那些 x1, x2,. . , xm 有关 选择形式:Y 与 x1, x2,. . , xm 以什麽形式相联系,即 f 的表示式确定系数:确定 Y=a1x1+a2x1x2+a3x12+. 中的 ai 67回归的简单线性模型Yi = b0+b1xi+ei i=1,2,. . .,nYi: 因变量的第 i 次观测值 xi: 自变量的第 i 次观测值 b0,b1: 待估计的未知参数

17、ei: 余差(residual 相互独立,正态分布,零均值,同方差)一般的:Yi=b0+b1x1i+b2x2i+. . .+bpxpi+ei 68回归的简单线性模型69回归的简单线性模型70线性回归的拟合71最小二乘法估计(LSE)72回归的方差分解总变异回归阐明部分回归未阐明部分73回归的方差分解.74回归的方差分解 75回归的假设检验原假设:简单线性模型拟合数据不比基线模型好b1 = 0, r = 0, |b1| 小,SS(Model) 小备选假设:简单线性模型拟合数据比基线模型好b1 0, r 0, |b1| 不为零,SS(Model) 大76 77预测值与置信限 78回归分析计算Ana

18、lystAnalyst: Statistics Regression Simple . . .79变量的测量水平名义型 (Nominal)变量的值之间无逻辑次序可按任何次序排序编码变量:饮料的种类80变量的测量水平有序型的 (Ordinal)变量:饮料杯的型号小中大有序变量的值有明确的逻辑次序,但各个值之间的距离并不清楚81变量的测量水平连续型的 (Continuous)变量:饮料的体积连续型变量的值有逻辑次序,且它们之间的距离也是有意义的82变量的类型属性的与连续的属性变量是指其测量结果只能取到较少的不同的值,通常用以表示对象的分类属性。与属性变量对立的是连续性变量名义型的、有序的和连续型变

19、量当它们可能取到的数值较少时,可作为属性变量处理83属性变量取值的频数统计对属性变量最基本的统计特征就是它可能取到的不同数值和取各个不同数值的概率(频率)84属性变量取值的频数统计Insight: Distribution(Y) Frequency TableAnalyst: Statistics Descriptive Frequency Count . . .编程: PROC FREQ DATA=数据集名; TABLES 变量; RUN;85属性变量取值的频数统计涉及多个属性变量时,为了了解变量之间的关联信息,必须得到各个变量取值不同组合下的频数和百分率。以列联表(交叉表)表示86属性变量取值的频数统计Analyst: Statistics Table Analysis行分类变量列分类变量分层变量单元记数变量87属性变量取值的频数统计分类变量排序依据关联统计量设定单元格显示内容分组变量设定要求表格88

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报