ImageVerifierCode 换一换
格式:PPTX , 页数:89 ,大小:3.58MB ,
资源ID:22739189      下载积分:15 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenkunet.com/d-22739189.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(《统计学原理与实务》课件第三章统计整理.pptx)为本站会员(bubibi)主动上传,文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文库网(发送邮件至13560552955@163.com或直接QQ联系客服),我们立即给予删除!

《统计学原理与实务》课件第三章统计整理.pptx

1、v2014年中国城市居民居住满意度调查中国指数研究院和中国房地产指数系统于2004年专门成立课题组,致力于房地产行业顾客满意度的专项研究,首次将顾客满意度评价模型引入房地产行业,并提出了房地产顾客满意度管理理念,旨在推动企业将追求顾客满意融入到经营管理活动的各个环节,从居住环境中的每一个细节处关注顾客的居住体验。2007年以来,中国指数研究院已连续8年开展“中国城市居民居住满意度调研”工作。导入案例v从中国指数研究院公布的2014年全国重点城市居民居住满意度评价排名 来看,在总共100份的调查中,杭州达到了80.1分,高居第一,重庆和宁波也超过78分,分列第二和第三,排名第四位的沈阳只有74.

2、4分。四大一线城市中,深圳、北京、广州只比72.5分的平均分高一些,而上海得到了71.5分,位居第16位。本次调研评价的目的在于全面测评中国重点城市居民居住满意度水平,探寻居民对居住环境的需求和期待,完善房地产顾客满意度服务标准,并据此帮助地产企业提升服务品质,营造良好的居住消费环境,进而促进行业整体满意度水平的提升。导入案例分析通过对部分城市商品房调查后的部分调查结果,这些数据是通过调查工具收集原始资料整理而来的,如何对分散、杂乱而又毫无规律的原始资料进行整理分析,才能得到上述结果呢?通过本章的学习就能够找到答案。目录1第一节统计数据整理的意义和内容2第二节统计分组3第三节分配数列4第四节统

3、计资料的表现形式第一节统计数据整理的意义和内容1一统计数据整理的意义和内容一、统计数据整理的意义统计数据整理是根据统计研究的需要,将收集到的大量反映个体特征的数据进行科学的分类汇总、加工处理,或对收集到的次级资料进行再加工,使之系统化、条理化,以符合统计分析的需要,成为能够反映事物总体特征的综合资料的过程。统计调查所收集的原始资料是反映个体特征的、分散的、零碎的资料,不能反映总体的数量特征。对原始数据的整理一般是分类和汇总性的整理。对次级资料的整理主要是再分组。统计数据整理是统计工作的中间环节,是从对现象个体观察过渡到对总体数量特征认识的连接点,在统计工作中起着承先启后的作用。统计整理的质量,

4、直接影响对现象总体数量描述的准确性和分析结果的正确性。一统计数据整理的意义和内容二、统计整理的基本程序(一)审核在分组汇总之前,要对原始统计数据进行认真审核,主要审核资料的及时性、准确性和完整性。(1)及时性检查,即检查需要的统计数据是否在规定的时间内已经上报到调查机构,缺一两个单位的资料都会影响整个汇总工作。(2)完整性检查,一是看所有的调查表格或问卷是否收齐,二是看所有的调查项目的答案是否完整。发现有问题应立即同被调查者或报告单位联系,采取补救措施。资料不完整,得出的结论就难以说明现象总体的本质特征。一统计数据整理的意义和内容(3)准确性检查,即检查原始资料是否准确可靠,这是原始资料审核的

5、核心。其审核方法有两个:一是逻辑检查,即根据调查项目之间的内在联系,检查各项目的答案是否合理,是否符合逻辑,答案之间有无矛盾之处,如有不符合逻辑或不合理的答案,应查明原因,及时纠正;二是计算检查,即检查调查表中各项数字的计算方法、计算口径、计算结果有无差错,数字之间该平衡的是否平衡了,若发现错误,能更正的则代其更正,原因难以查明的则退回给调查者或报告单位,查明原因,予以更正。一统计数据整理的意义和内容(二)分类或分组对原始数据进行审核,确认准确无误后,根据统计研究目的和要求,对这些数据进行科学的分类或分组。定性的数据主要是进行分类整理,定量的数据主要是进行分组整理。通过编制频数分布表,可汇总计

6、算各个组的有关指标。具体的分类和分组方法将在后面详细介绍。(三)编表作图将汇总整理的结果用适当的表格形式表现出来,使统计数据系统化、条理化。如有必要,也可以绘制适当的统计图来表现汇总整理的结果,反映总体的分布特征。第二节统计分组2二统计分组一、统计分组的意义统计分组是指根据统计研究的目的和任务,按照一个或几个标志,将总体划分为类型或性质不同的若干个组的一种统计方法。例如,全国人口按性别分为男女两组;按住处分为城镇和农村两组;按民族可分为汉族与少数民族两个组等。国民经济各行业按产业发生的顺序分为第一产业、第二产业和第三产业;企业按规模可分为大、中、小型企业;按所有制可分成国有、集体和其他经济类型

7、等。统计分组对总体而言,是“分”,是将总体区分为性质不同的若干组成部分,来表现总体的内在差异性。如全国人口这一总体,是由具有中华人民共和国国籍的人组成的,可以按不同标志进行分组。而对每个个体而言,是“合”,是将具有相同性质的个体合为一组,体现组内的同质性。二统计分组社会经济现象具有复杂性和多样性,为了区别现象性质上的差异,分析现象的数量特征,揭示现象的本质特征及其发展变化的规律,进行科学分组是十分重要的。确定统计调查的范围,必须首先对现象的类型进行分组。对统计资料进行加工整理,也必须以统计分组为基础。所以,统计分组贯穿于整个统计工作过程,而且在统计整理阶段尤为重要。它是统计整理的基本手段。二统

8、计分组二、统计分组的作用(一)区分事物不同性质属性社会经济现象复杂多样,只有揭示构成客观现象不同事物现象的类型,对不同类型特征加以分析,才能认清现象的本质规律。例如,对某学院市场营销专业2012级学生按性别分组分析,能够提示该班级学生的不同性别属性,如表3-1所示。性别分组人数比重(%)男女462465.734.3合计70100.0表3-1 某学院市场营销2012级学生性别分组表二统计分组(二)反映现象的内部结构复杂的社会经济现象由许多性质不同的个别事物组成,通过统计分组能够区分现象内部不同组成所占比重,说明因内部结构比重不同对现象发展产生的影响。例如,表3-2说明国内生产总值的构成,各产业在

9、国民经济中的地位,第二、三产业产值占国内生产总值的比重很大,说明我国经济发展进入了工业化发展阶段。类型合计第一产业第二产业第三产业小计工业建筑业国内生产总值(亿元)比重%56884510056957100124968443.8921068937.04389956.8526220446.10(资料来源:中华人民共和国统计局网)表3-2 2007年我国国内生产总值不同产业构成二统计分组(三)分析现象间数量的依存关系社会经济发展受到诸多因素的影响和制约,通过统计分组可以把现象间数量依存关系表现出来,揭示现象数量变动的规律。例如,商品销售额与销售费用率之间存在一定依存关系,通过统计分组能够反映出在一定

10、范围内,商品销售率随着销售额的增加而降低的变化规律,根据这一规律可以为销售管理提供依据。二统计分组(四)揭示现象特征和内在规律统计调查得到的资料,一般都处于零星、分散不系统的状态,需要通过统计分组揭示现象内在的本质特征和发展规律。例如,搜集某班统计学期末考试成绩数据资料如表3-3所示。统计学课程期末考试成绩85788591836865728892628443948581797389834774838779647880817663798486768774776786表3-3某班统计学期末考试成绩分组表二统计分组以上资料没有经过统计分组过程,还不能算出该班统计学期末考试成绩数据资料表现的基本特征和

11、内在规律。下面通过分组加工得表3-4。序号成绩分组人数比重(%)160分以下37.526075分102537590分2562.5490分以上255合计40100表3-4 某班统计学期末考试成绩分组表二统计分组经过分组后,该班级统计学期末考试成绩资料的特征就表现出来了。从分组表可以算出,该班考试成绩基本呈正态分布,大多数学生考试成绩在75分至90分之间,60分以下的和90分以上的学生数所占比例较小,说明该班统计学的教与学都处于正常状态,考试成绩的分布特征就较为明显。二统计分组三、分组标志的选择分组标志,即将同质总体区分为不同组的标准或依据。分组标志一旦选定,就必然突出了总体在该标志下的性质差别,

12、而掩盖了总体在其他标志下的不同,即对同一总体按不同标志进行分组会得到不同的分组结果甚至相反的结论。分组标志选择不当,不但无法显示现象的根本特征,甚至会混淆事物的性质,歪曲社会经济的真实情况。因此,分组标志的选择是统计分组的核心问题。为了达到统计分组的目的,在进行统计分组时要遵循以下原则:二统计分组正确选择分组标志是统计分组的关键。分组标志的选择是统计分组的核心。分组标志选择恰当与否,直接影响到分组的科学性。如要研究总体哪一方面的特征,就应该选择反映该特征的标志作为分组标志。统计总体中的个体有许多标志,选择什么标志作为分组标志,要根据统计研究的目的来确定。例如,要了解某单位职工的学历状况,就应选

13、择“文化程度”为分组标志;要了解学生的学习情况,要以“成绩”为分组标志,而不能用“性别”“年龄”“收入”为分组标志,因为这些内容与要了解的内容无关。因此,根据研究目的,正确选择分组标志是保证统计分组具有科学性的关键,是保证统计研究获得正确结论的前提。(1)根据统计研究的目的选择分组标志二统计分组明确了统计研究的目的,还不等于能够选择好分组标志。因为说明同一问题可能有若干个相关标志,在进行分组时,应选择最能反映事物本质特征的标志。例如,研究城镇居民家庭生活水平状况,而反映居民家庭生活水平的标志有:家庭人口数、就业人口数、每一就业者负担人数(含本人)、家庭年收入、平均每人年收入等。其中最能反映居民

14、家庭生活水平状况的标志是“平均每人年收入”,所以应选择这一标志作为分组标志。(2)选择最能够反映现象本质的标志作为分组标志二统计分组社会经济现象随着时间、地点、条件的变化而发生变化,其标志的内涵也会发生变化。同一分组,在过去适用,现在就不一定适用;在这一场合适用,在另一场合就不一定适用。例如,在计划经济时期,企业按所有制形式分组一般分为四组,即全民所有制企业、集体所有制企业、私营企业和其他企业。而现在按企业登记注册类型可分为:(1)国有企业;(2)集体企业;(3)股份合作制企业;(4)联营企业;(5)有限责任公司;(6)股份有限公司;(7)私营企业;(8)港澳台商投资企业;(9)外商投资企业;

15、(10)个体企业等类型。又如,对最低生活水平的确定,就不能沿用20世纪五六十年代的标准,而应根据目前的生活水平状况制定标准,然后再进行分组。此外,行业的划分也发生了很大变化。结合研究对象所处的历史条件、经济条件选择分组标志,这样可以保证分组标志在不同时间、不同场合的适用性。(3)根据现象所处的历史条件和经济状况选择分组标志二统计分组四、统计分组的方法分组标志确定之后,还必须在分组标志变异范围内,划定各相邻组间的性质界限和数量界限。根据分组标志的不同特征,统计总体可以按品质标志分组,也可以按数量标志分组。二统计分组按品质标志分组是指选择反映事物属性差异的品质标志作为分组标志进行分组。按品质标志分

16、组能直接反映事物间质的差别,给人以明确、具体的概念。事物的属性差异是客观存在的,有些品质标志分组,由于界限清晰,分组标志有几种具体表现,就分成几组。例如,人口按性别、民族、职业、文化程度等分组,企业总体按所有制分为国有、集体、联营、股份合作、其他等组。有些品质标志分组有时也很复杂,其相邻组之间的界限不容易划清。有些在理论上容易区分,但在实际社会经济生活中却难于辨别。例如,人口按城乡分组,居民一般分为城市和乡村两组,但因目前还存在有些既具备城市形态又具备乡村形态的地区,分组时就需慎重考虑。其他如部门分类、职业分类也都存在同样的问题。因此,在实际工作中,为了便利和统一,联合国及各个国家都制订有适合

17、一般情况的标准分类目录,如我国就有国民经济行业分类目录、工业部门分类目录和商品目录等。(一)按品质标志分组二统计分组(二)按数量标志分组统计的研究对象是社会经济现象的数量方面,所以按数量标志分组是我们研究的重点。按数量标志分组是指选择反映事物数量差异的数量标志作为分组标志进行分组。如企业根据工人数、产值、产量等标志进行分组;居民家庭按子女人数分组,可分为0人(无子女)、1人、2人、3人等。按数量标志分组的目的,并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质。因此,按数量标志分组,应根据事物内在特点和统计研究的要求,先确定总体在某数量标志的特征下有几种性质不同

18、的组成部分,再研究确定各组成部分之间的数量界限。例如,人口按年龄分组,男性分为06岁、717岁、1859岁、60岁以上;女性分为06岁、717岁、1854岁、55岁以上。这是由于国家对男女职工规定退休年龄的不同而有所差别,因此,正确选择决定事物性质差别的数量界限是按数量标志分组中的一个关键问题。二统计分组1单变量值分组按数量标志分组有两种方法,即单变量值分组和组距分组。单变量值分组的方法通常只适合于离散变量,且在变量值较少的情况下使用。例如,表3-5的分组方式就是单变量值分组。看管机床台数工人数1252153846合计54表3-5 某车间工人看管机床台数情况二统计分组2组距式分组如果变量的变动

19、幅度很大,总体单位数较多时,就不宜采用单变量值分组,而应将全部变量值依次划分为几个区间,将一个区间内的所有变量值归为一组,这种分组形式称为组距式分组,如表3-6所示。工人按工资额分组(元)工人数(人)4005008050060010060070012070080080合计380表3-6 某厂工人按工资额分组情况二统计分组在组距式分组时,一般遵循“上限不在内”原则,即各组的上限值划归下一组,如上例,500元应归于第二组,600元应归于第三组。组距式分组中,各组变量值变化的范围称为各组的组距。各组中最大的变量值称为上限,最小值称为下限,其中组距=上限下限。在组距式分组时,如各组组距相等,则称为等距

20、数列,如表3-6。如果各组组距不等,则称为异距分组,如表3-7。人口按年龄分组人口数(万人)1岁以下3.5134.537771840.0182530.025555055岁以上28.0合计163.0表3-7 某地区人口年龄构成情况二统计分组在分组中,如上表所示,第一组和最末一组有时会出现“以下”“以上”等字样,这种组称为开口组,开口组不是缺下限就是缺上限。编制组距数列时,采用等距式还是异距式应根据现象的性质、变量变动的情况和统计研究的目的来确定。一般来说,凡是变量值的变动比较均匀,现象性质的相对差异是由数量的变化逐渐积累起来的,例如工人的年龄、工龄、工资或零件尺寸误差等,都可以采用等距分组方法。

21、凡是现象性质的变动并不是以它的数量绝对变化为基础,而是以数量的相对变化程度为基础,例如人口统计中要根据人体生理变化的特点进行分组,就应采用异距分组方法。二统计分组五、统计分组的形式(一)简单分组统计分组按分组标志的多少及其排列形式可分为简单分组、平行分组体系和复合分组体系。在现实经济生活中,这三种形式都有广泛的应用价值。简单分组就是对被研究现象总体仅按一个标志所进行的分组。这种分组比较简单,它只能说明社会经济现象某一方面的状况。例如,人口按性别或年龄分组、企业按所有制或规模大小进行分组等。二统计分组(二)分组体系在统计整理中,为了全面认识被研究现象总体,常常需要运用多个分组标志对总体进行分组,

22、形成一系列相互联系、相互补充的分组体系。例如,对国民经济总体进行统计研究,必须通过按经济类型、部门、产业、地区、管理系统等多种分组,形成国民经济分组体系。在我们所要研究现象总体中,总是可以选择一系列标志进行分组,所以分组体系是客观存在的,组与组之间层层深入、相互联系、相互补充。1平行分组体系平行分组体系就是对同一总体同时选择两个或两个以上的标志分别进行简单分组,然后并列在一起就形成了平行分组体系。例如,为了认识我国工业企业的一些基本情况,可以按所有制、轻重工业、企业规模等分组,得到如表3-8的分组体系:二统计分组指标企业数(个)按所有制分:国有企业集体企业私营企业按轻重工业分:轻工业重工业按企

23、业规模分:大型企业中型企业小型企业表3-8 2004年全国各类工业企业按所有制、轻重工业及企业规模分组表二统计分组平行分组体系的特点是,每一分组只能固定一个因素对差异的影响,不能固定其他因素对差异的影响。应用平行分组体系,其多种分组相互独立而不重叠,既可以从不同的角度、不同方面对某一社会经济现象作出比较全面的说明,反映事物的多种结构,又不至于使分组过于繁琐,故这种分组被广泛采用。上面的分组从多方面反映了我国企业类型的状况,给人以全面的认识。2复合分组体系复合分组体系就是将总体按两个或两个以上的标志结合起来进行层叠分组,形成复合分组体系。具体地说,它是先按一个标志分组,再按另一个标志对已经分好的

24、各个组进行再分组。例如,对工业企业按轻重工业和企业规模重叠分组形成的复合分组如表3-9:二统计分组复合分组体系的特点是,第一次分组只固定一个因素对差异的影响,第二次分组同时固定两个因素对差异的影响,依此类推,当完成最后一次分组时,则所有的分组标志对差异的影响已全部被固定。复合分组体系可以更深入细致地研究总体的内部结构,反映问题全面深入。但其组数会随着分组标志的增加而成倍增加,使各组的单位数减少,次数分布不集中,不易揭示总体的本质特征。因此复合分组体系不宜采用过多的分组标志,也不宜对较小总体进行复合分组。按轻重工业和企业规模分组企业数(个)轻工业大型工业企业中型工业企业小型工业企业重工业大型工业

25、企业中型工业企业小型工业企业表3-9 某地区工业企业复合分组表第三节分配数列3三分配数列一、分配数列的概念在统计分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为分配数列或次数分布。分布在各组的总体单位数,称为次数。由于各组次数实际上表现了具有各组标志值的现象在总体中“频繁”出现的次数多少,因此也称为频数。各组次数占总体单位总数的比重,称为频率、比重或比率。它说明具有某组标志值的现象在总体中“频繁”出现的程度,反映总体的构成。次数分布实质上是反映统计总体中所有单位在各组间的分布状态和分布特征的一个数列,例如,人口按性别分组后形成的人口数在各组分布情况的数列,学生

26、按年龄分组后形成的学生人数在各组分布情况的数列等,都是次数分布数列。三分配数列分配数列包括两个要素。一是各组的名称(或各组变量值),常用x表示;二是各组单位数(次数),常用f表示,有时候也可把频率(比重)列人分布数列中。各组的次数愈大,则表示该组的标志值对于全体标志水平所起的作用愈大;反之,次数愈小,则表示该组的标志值所起的作用愈小。因此,在整理和分析分布数列的时候,不但要注意各组标志值的变动范围,而且注意各组标志值的作用大小,也就是次数的大小。次数分布数列的形成虽然简单,但它是统计整理的一种重要表现形式,也是统计分析的一种重要方法。它可以表明总体单位的分布特征和结构状况,并在此基础上进一步研

27、究某种标志的构成、平均水平及其变动规律性。三分配数列二、分布数列的种类(一)品质数列品质数列是指按品质标志分组所形成的分布数列,它由各组名称和次数构成。各组的次数可以用绝对数表示,即频数;也可以用相对数表示。如表3-10所示为以品质数列组成的某大学学生性别构成表。三分配数列这个品质数列是按“性别”这一标志分组形成的,表中的“男”、“女”是组名称,人数6000、14000、20000是次数,比重30、70、100是频率。性别人数(人)比重(%)男女6000140003070合计20000100表3-10某大学学生性别构成表三分配数列(二)变量数列1单项数列变量数列是指按数量标志分组所形成的分布数

28、列,它由变量和次数构成。作为分组标志的那个数量标志称为变量。变量数列是一种典型的分配数列。如表3-11和表3-12所示都是常见的变量数列。变量数列按其变量值的表示方法不同,可分为单项数列和组距数列两种。单项数列是指数列中每个组只用一个变量值表示,即一个变量值只代表一组。三分配数列单项数列一般在总体中的变量值不多,且变动幅度较小,变量呈离散型,总体单位数又不多的情况下采用。如表3-11中工人的日产量最高为39个,最低为30个,最大相差数仅9个,变量值只有5个,总体单位数只有200人。因此,适合采用单项数列来反映。按日产量分组(个)工人数(人)比重(%)3032343639344250443017

29、21252215合计200100表3-11 某企业工人日产量完成情况表三分配数列2组距数列组距数列是指各组都由两个变量值界定的变量区间(组距)来表示的数列,一般在总体中变量值较多,且变动幅度较大的情况下采用。组距数列分为等距数列和不等距数列。在组距数列中,各组组距相等的,叫做等距数列。如表3-12所示就是一个等距数列。按成绩分组(分)人数(人)频率(%)5060607070808090901004122010482440208合计50100表3-12某班学生计算机考试成绩次数分布表三分配数列组距不相等的叫做不等距数列。如表3-13所示就是一个不等距数列。如果数据分布比较均衡,宜采用等距数列;如

30、果数据分布很不均衡,应采用不等距数列。人口按年龄分组人口数(万人)1岁以下16岁618岁18岁55岁55岁以上18.553.460.880.250.1合计263.0表3-13 某市人口年龄构成三分配数列组距变量数列的次数分布还可以用次数分布图来表示。次数分布图是一种简单的统计图。绘制次数分布图时,一般是绘制直方图或曲线图。直方图是以横轴表示各组组限,纵轴表示次数,各组组距为宽度,各组次数的高度,绘出各组所对应的直方图。将表3-12中的资料绘制成直方图,如图3-1所示。在直方图的基础上,将各直方图上端的中点连成一条折线,就形成次数分布曲线图(也称为折线图),如图3-1所示。从面积的角度看,曲线图

31、所覆盖的面积与直方图的面积恰好相等。图3-1 某班学生计算机考试成绩次数分布的直方图和折线图三分配数列上述次数分布图的画法,适用于等距数列。由于等距分组更具有直观、可比的优势,所以在选择组距时,能采用等距分组反映现象中的数值变化就不采用不等距的分组方法。对于不等距数列,需要计算次数密度,也就是各组次数除以各组组距,然后根据频数密度和组距来绘制次数分布图。以表3-14为例,这是一个不等距数列,类同于图3-1绘制出次数分布直方图出来。按人均月收入分组(元)户数频数密度=次数/组距标准组距次数20002200220023002300240024002500250026001081012100.050

32、.080.100.120.105.08.010.012.010.0合计50表3-14某市居民家庭人均月生活费收入次数分布表三分配数列 具体的换算公式如下:标准组距次数=某组单位组距次数标准组距(标准组距通常是组距数列中的最小组距)=再以横轴代表各组的变量值,以纵轴代表各组的标准组距次数(或频数密度),就可以绘出正确反映总体次数分布状况的分布图。三分配数列三、编制变量数列应注意的问题(一)组数和组距1品质分组的组数品质分组组数的确定,主要取决于两个因素:一是统计研究的任务,二是事物的特点。例如,将人口按性别分组,就只能分为两组,这是由人口本身的特点决定的;将企业按经济类型分组,也只能分为国有、集

33、体、个体、私营、外资等几组。但是,有些事物构成比较复杂,组数可多可少,这时,到底将总体分为几组,就需要考虑统计研究任务的具体要求。例如,将人口按职业分组,组数可多可少,此时应根据统计研究的任务来确定。如果要求较细时,组数可以多一些;反之,组数可以少一些。三分配数列2数量分组的组数和组距在单项数列中不存在组距问题,而在组距数列中就要确定组数和组距。首先要确定全距。确定全距主要是为了便于确定组数和组距。全距是总体中的最大变量值与最小变量值之差。在表3-5中,全距=3930=9(个)。在表3-6中,全距=10050=50(分)。组数是在一个数列中共有的组的个数。在表3-6中,有5个组。组距是各组的最

34、大变量值与最小变量值之差。在表3-6中,组距是10分。组距和组数二者有着密切的联系,在全距既定的条件下,组距大,则组数少,组距小,则组数多。三分配数列按数量标志分组的目的,不仅是要确定各组在数量上的差异,而且还要通过数量上的变化来区分各组的不同类型和性质。因此,确定组数和组距时,要能够将总体单位分布的特点充分反映出来,要充分考虑总体单位分布的集中程度和趋势,以及被研究现象的特点和实际情况,把相同质的单位划分在一组内,不同质的单位区别开来,尽可能地区分出组与组之间在性质上的差异。另外,分组不宜过多,过多则容易将属于同一类的单位划分在不同的组,从而显示不出类型的特点;也不宜过少,过少则容易使不同类

35、型的单位归在一组,从而掩盖了质的差异,达不到反映客观事实的目的。三分配数列(二)组限和组中值1组限组限是指每组两端的数值,其中每组的最大变量值为该组的上限,最小变量值为该组的下限。在表3-6中的7080一组,70是本组的下限,80是本组的上限。组限是决定现象总体质量的数量界限。确定组限时要主要考虑下列几点:一是最小组的下限应低于最小变量值,最大组的上限应高于最大变量值;二是组限的确定应当有利于表现总体单位分布的规律性;三是对于等距数列,设定的组距最好是5和10的倍数。由于变量有连续变量和离散变量之分,所以组限的表示方法一般有两种:重合式和不重合式。如果分组标志是连续变量,组限一般用重合式;如果

36、分组标志是离散变量,组限一般用不重合式。三分配数列所谓重合式,就是在相邻两组中,前一组的上限与后一组的下限数值重合,如表3-6中的5060分、6070分、7080分、8090分、90100分。但是,重合式只是形式上重合,实际上两组之间是不重合的,一般按“含下限不含上限”或“上限不在本组之内”的原则处理。例如,“6070分”是指从含60分到不含70分,“7080分”是指从含70分到不含80分,以此类推。所谓不重合式,是指前一组的上限与后一组的下限数值紧密相连而又不相重复。例如,学生按人数分为59人以下、6069人、7079人、8089人以及90人以上各组。在这里,69与70、79与80、89与9

37、0等,都是紧密相连的。遇到特大或特小的变量值时,为了不使组数增加或组距不必要地扩大,可用开口组。开口组是指只有下限而无上限的组或只有上限而无下限的组。如表3-7所示就是一个开口组。在实际工作中,为了简单方便,保证不重复、不遗漏总体单位,离散变量也经常采用重合式的组限的表示方法。三分配数列2组中值三分配数列按考分分组(分)人数(人)频率(%)60以下60707080809090以上2816104520402510合计40100表3-15 某班学生英语考试成绩次数分布表三分配数列3编制变量数列下面以等距数列为例,说明变量数列的编制方法。【例31】根据下列资料编制变量数列。对某班50名学生2008年

38、7月的市场营销学成绩进行登记,得到以下原始资料。6274859687525464569756858694666869607090989686888778798886707886768466777668787978777968786976777888(单位:分)三分配数列(1)将原始资料按数值大小顺序进行排列(如下所示)5254565660626466666868686969707074767676777777787878787878797979848585868686868787888888909496969798根据上述资料,计算全距为:全距=最大变量值最小变量值=9852=46从以上数据的

39、排列和全距的计算可知,学生成绩的变化是有波动的,但这种波动并不完全是杂乱无章的,而是呈现出一定的规律性。首先,波动的范围在5298分之间,其全距为46分;其次,大多数学生的成绩在6888分之间,分数偏高或偏低的情形都比较少。三分配数列三分配数列(3)分别得到相应的分布数列,如表3-16和表3-17所示。按考分分组(分)人数(人)频率(%)505555606065657070757580808585909095951002237315111244461463022248合计50100表3-16 某班学生市场营销学成绩次数分布表三分配数列表3-17 某班学生市场营销学成绩次数分布表按考分分组(分)

40、人数(人)频率(%)506565808095951007251441450288合计50100三分配数列表3-18 某班学生市场营销学成绩次数分布表从表3-18中可见,50名学生的市场营销学成绩的分布特征被明显地表现出来了,呈现出“两头小,中间大”的分布,规律性是很明显的。因此,采用组距为10分来编制该班学生学习成绩的分布数列最为适宜。按考分分组(分)人数(人)频率(%)50606070708080909010041018126820362412合计50100三分配数列对于一组数据究竟可以分为多少组,很多时候取决于研究者的经验。对于不熟悉领域的数据,可以借鉴美国统计学家斯特吉斯提供的经验公式来

41、确定组数。现在用K代表组数,N代表分组数据的总数,则分组数目的计算公式如下:(3-1)三分配数列确定组数的目的是为了使数据恰当地分布在各组之中,如果组数太少,数据的分布就会过于集中;如果组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律,不利于后续的分析研究。组数的确定应以能够显示数据的分布特征和规律为目的。计算组数的经验公式正是从这个角度出发,总结出的一个根据待分组数据的多少来计算组数的具体方法。但是,经验公式计算出来的组数只是一个参考数值,不是必分的组数。在实际应用时,组数的确定还要根据数据的多少和特点,以及研究对象的实际情况,具体问题具体分析,因地制宜地加以确定。例如,

42、根据例3-1的资料,当N为50时,采用 这个公式计算出组数为,可以考虑分为7组。但是,在对考试成绩进行分析时,人们习惯将其分为优(90分以上)、良(8090分)、中(7080分)和及格(6070分)和不及格(60分以下)5组,因此应分成5组较为适宜。三分配数列四、累计次数分布在研究次数和频率分布的时候,我们常常还需要编制累计次数分布数列和累计频率分布数列。如表3-12所示,次数分布只能表示每一组的次数,如学生考分在“7080”一组的有18人,但要知道80分以下的学生有多少人,频率是多少,80分以上的学生有多少人,频率是多少,这就需要使用累计次数分布数列和累计频率分布数列。三分配数列累计次数分布

43、的计算方法有两种:一种是以下累计,又称为向上累计,也就是由变量值低的组向变量值高的组累计,此时每组的累计次数或累计频率表示该组上限以下的次数或频率共有多少。当我们所关心的是标志值比较小的现象的次数分布情况时,一般是采用次数以下累计,以表明在这些数值以下的次数和频率是多少。另一种是以上累计,又称为向下累计,也就是由变量值高的组向变量值低的组累计,此时每组的累计次数或累计频率表示该组下限以上的次数或频率共有多少。当我们所关心的是标志值比较大的现象的次数分布情况时,一般是采用次数以上累计,以表明在这些数值以上的次数和频率是多少。如表3-19所示为某班学生市场营销学成绩的次数分布表。在表中,80分以下

44、的学生有32人,频率是64%;80分以上的学生有18人,频率是36%。由此可以看到累计次数分布的特点:同一数值的以下累计次数和以上累计次数之和等于总体总次数,频率之和等于100%,最后一组的累计频率等于100%。三分配数列表3-19某班学生市场营销学成绩次数分布表累计次数和累计频率可以更简便、更清晰地概括总体各单位的分布特征。根据累计次数分布表的资料,还可以绘制累计次数分布图,如图3-2所示是根据表3-19绘制的累计次数分布图。图中由左下角至右上角的曲线为以下累计曲线,由左上角至右下角的曲线为以上累计曲线。累计次数分布是确定位置平均数的依据。考分分组(分)人数(次数)频率(%)以下累计以上累计

45、人数(人)频率(%)人数(人)频率(%)50606070708080909010041018126820362412414324450828648810050463618610092723612合计50100三分配数列图3-2 学生考试分数累计次数分布图三分配数列五、次数分布的特征次数分布是统计描述和统计分析的一种重要方法,它可以表明总体的结构情况。各组次数比率的大小,意味着相应的变量值在决定总体数量表现中所起的作用不同。次数或比率大的变量值对总体标志水平的影响大,反之则小。由于社会经济现象性质的不同,各个统计总体都有不同的次数分布,形成各种不同类型的分布特征。研究各种类型的次数分布特征,对于

46、准确认识不同类型的社会经济现象的数量特征及规律有重要意义。概括起来,各种不同性质的社会经济现象的次数分布主要有三种类型:钟形分布、U形分布、J形分布。三分配数列(一)钟形分布钟形分布的特征是“两头小,中间大”,次数向中央集中的分布。这种分布绘成曲线图,中央隆起、两边低垂,其状如钟,故称钟形分布。在自然现象和社会现象中有许多数量分布是属于钟形分布类型的。例如,农作物单位面积产量、商品的价格、学生的学习成绩、细沙的强力、螺丝的口径、金属的抗压强度、客运量、人的身高、家庭收入、企业的利润分布等。钟形分布绘成曲线图主要有以下三种,如图3-3所示。图3-3 钟形分布a、左偏分布 b、对称分布 c、右偏分

47、布三分配数列(二)U形分布U形分布的特征是“两头大,中间小”,是与钟形分布恰恰相反的一种分布形式。标志两端次数较多,越向中间次数越少。这种分布绘成图形,就像英文字母“U”,故称U形分布。例如,人口死亡率按年龄分组就是U形分布。婴儿死亡率最高;儿童年龄渐长,死亡率渐低;到成年,死亡率最低;45岁以后,死亡率又逐步升高;60岁以上老年组达到最高水平。如图3-4所示。图3-4 U形分布三分配数列(三)J形分布J形分布有两种类型。正J形分布,是次数随着变量值的增大而增高,绘成曲线图,犹如正写的英文字母“J”,故称正J形分布;反J形分布,是次数随着变量值的增大而减少,绘成曲线图,犹如反写的英文字母“J”

48、,故称反J形分布。例如,资本主义社会中,投资额按利润大小分布,一般是正J形分布;而人口总体按年龄大小分布,则一般呈反J形分布,如图3-5所示。图3-5 J形分布第四节统计资料的表现形式4四统计资料的表现形式一、统计表(一)统计表的概念和结构统计表是表现统计资料的一种形式。把经过大量调查得来的数字资料加以系统化,填列在表格内,就形成了统计表。统计表的优点在于能使大量的统计资料系统化、条理化,简单明了地表述出统计资料的内容,而且便于比较分析和资料积累。从构成要素看,统计表由总标题、横行标题、纵栏标题和指标数值四部分组成。总标题是表的名称,放在表的上端,简明扼要地说明全表的内容。横行标题或称横标目,

49、写在表的左方,是总体各组或各单位的名称。纵栏标题或称纵标题写在表的上方,用于说明各组或各单位的指标名称。指标数值就是汇总得到的各组或各单位的指标取值。四统计资料的表现形式从内容上看,统计表主要包括主词和宾词两个部分。主词是统计表所要说明的对象,也就是统计表所要反映的总体或总体的各个分组;宾词是说明总体的统计指标,包括指标名称和指标数值。一般情况下,主词排列在表的左方,即列于横行;宾词的指标名称列在纵栏标题的位置。见表3-20。项目总标题增加值产值(亿元)比重(%)第一产业第二产业24737.0103162.011.748.9第三产业82972.039.4合计210871.0100纵栏标题指标数

50、值表3-20 我国2006年国内生产总值(GDP)按产业分组表横型标题主词宾词总标题四统计资料的表现形式(二)统计表的种类1简单表表的主词未经任何分组的统计表称为简单表。例如,主词由研究总体单位清单组成的一览表;主词由国家、地区等目录组成的区域表;主词按时间顺序组成的编年表等。如2007年某公司产品合格品数量表就是一个简单表,如表3-21所示。表3-21 2007年某公司所属两企业产品合格品数量表厂别合格品数量(件)甲厂乙厂30004000合计7000四统计资料的表现形式2分组表表的主词按照某一标志进行分组的统计表称为分组表。关于分配数列中的各例,都属于分组表,包括按品质标志分组的品质数列和按

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报