1、普 通 高 中 教 科 书选择性必修信息技术普通高中教科书信息技术3数据管理与分析Shuju Guanli yu Fenxi选择性必修 选择性必修3信息技术普通高中教科书数据管理与分析广东教育出版社广东教育出版社批准文号:粤发改价格2017434号 举报电话:12358定价:11.13元ook2020信息技术选择性必修1-6封面.indd 32020/5/28 下午2:31信息技术广东教育出版社普 通 高 中 教 科 书徐福荫 主编广州数据管理与分析Shuju Guanli yu Fenxi3选择性必修 ook2020信息技术-8扉页.indd 52020/5/28 下午2:52图书在版编目(
2、CIP)数据信息技术选择性必修3:数据管理与分析 / 徐福荫主编广州:广东教育出版社,2019.12(2021.1重印)普通高中教科书ISBN 978-7-5548-3030-7. 信. 徐. 计算机课高中教材. G634.671中国版本图书馆CIP数据核字(2019)第202794号 编写单位 广东教育出版社 主 编 徐福荫 副 主 编 朱光明 黄国洪 本册主编 周云虹 王兴芳 核心编写人员(以姓氏笔画为序) 丁 辉 邓毅怡 梁爱梅 彭丽欧 责任编辑 严洪超 责任技编 杨启承 陈 瑾 装帧设计 何 维信息技术 选择性必修3 数据管理与分析XINXI JISHU XUANZEXING BIXI
3、U 3 SHUJU GUANLI YU FENXI广 东 教 育 出 版 社 出 版(广州市环市东路472号12-15楼)邮政编码:510075网址:http:/广东新华发行集团股份有限公司发行广东新华印刷有限公司南海分公司印刷(佛山市南海区盐步河东中心路)890毫米1240毫米16开本9.5印张190 000字2019年12月第1版2021年1月第3次印刷ISBN 978-7-5548-3030-7定价:11.13元批准文号:粤发改价格2017434号 举报电话:12315著作权所有请勿擅用本书制作各类出版物违者必究如有印装质量或内容质量问题,请与我社联系。质量监督电话:020-876131
4、02 邮箱:gjs-购书咨询电话:020-877724389Z343.indd 22020/12/3 17:04:211 1前 言信息技术作为当今先进生产力的代表,已经成为我国经济发展的重要支柱和网络强国的战略支撑。信息技术涵盖了获取、表示、传输、存储和加工信息在内的各种技术。自电子计算机问世以来,信息技术沿着以计算机为核心、到以互联网为核心、再到以数据为核心的发展脉络,深刻影响着社会的经济结构和生产方式,加快了全球范围内的知识更新和技术创新,推动了社会信息化、智能化的建设与发展,催生出现实空间与虚拟空间并存的信息社会,并逐步构建出智慧社会。数据管理与分析技术已经广泛应用于人们的日常生活与学习
5、中, 成为解决问题的重要方式。有效地管理与分析数据可帮助人们获取有价值的信息,为决策形成提供重要依据。本教科书是针对数据管理技术与数据分析方法的应用而设置的选择性必修模块。通过本教科书的学习,同学们能了解数据管理与分析技术,能根据需求分析,形成解决方案;能选择一种数据库工具对数据进行管理,从给定数据中提取有用信息并应用于解决实际问题中;在活动过程中形成对数据特征、数据价值、数据管理思想与分析方法的认识。本教科书按“数据需求分析”“数据管理”“数据分析”三部分内容展开,围绕信息技术学科核心素养设计了“中学生膳食和运动习惯的数据管理与分析调查”“中学生体质健康数据管理系统的需求分析与数据建模”“中
6、学生体质健康数据管理系统的数据管理”“中学生体质健康数据管理系统的数据分析”“体验电子商务数据的管理与分析新技术应用”项目范例,教师围绕“情境主题规划探究实施成果评价”的项目范例主线开展教学活动,帮助同学们掌握本教科书的基础知识、方法和技能,增强信息意识、发展计算思维、提高数字化学习与创新能力,树立正确的信息社会价值观和责任感,从而促进同学们的信息素养提升。本教科书要求同学们对现实世界中的真实性问题进行自主、协作、探究学习。同学们围绕“项目选题项目规划方案交流探究活动成果交流活动评价”的项目学习主线开展学习活动,体验“做中学、学中创、创中5Z343.indd 12019/4/1 10:04:3
7、4乐”的项目学习理念和“从实践入手、先学后教、先练后讲”的项目学习策略,将知识建构、技能培养与思维发展融入运用数字化工具解决问题和完成任务的过程中,从而促进信息意识、计算思维、数字化学习与创新、信息社会责任的信息技术学科核心素养达成。本教科书设置了“项目范例”“项目选题”“项目规划”“方案交流”“探究活动”“项目实施”“成果交流”“活动评价”等学习栏目,指导同学们开展项目学习活动。其中,“项目范例”是教师通过“情境”“主题”“规划”“探究”“实施”“成果”“评价”等活动,引导同学们了解开展项目学习活动的全过程;“项目选题”是同学们从真实世界选择自己感兴趣的项目主题;“项目规划”是同学们根据项目
8、选题,制订自己的项目方案;“方案交流”是同学们展示交流自己设计的项目方案,师生共同探究、完善其方案;“探究活动”是同学们通过“问题”“观察”“分析”“阅读”“思考”“交流”“实践”“实验”“体验”“调查”“讨论”“拓展”等活动,获取知识和技能的过程;“项目实施”是同学们运用在项目学习过程中所获得的知识和技能来完成项目方案;“成果交流”是教师组织同学们展示交流项目成果,共享创造、分享快乐;“活动评价”是教师组织同学们开展项目评价活动。本教科书各章首页的导言,叙述了本章的学习目的与方式、学习目标与内容,让同学们对整章有个总体认识。每章设置了“本章扼要回顾”,通过知识结构图把每章的主要内容及它们之间
9、的关系描述出来,有助于同学们建立自己的知识结构体系。每章结尾的“本章学业评价”设计了基于学业质量水平的测试题,并通过本章的项目活动评价,让同学们综合评价自己在信息技术知识与技能、解决实际问题的过程与方法,以及相关情感态度与价值观的形成等方面,是否达到了本章的学习目标。此外,本教科书为同学们提供了配套学习资源包,里面含有中学生体质健康数据管理系统、MariaDB数据与分析的各Python程序设计的源代码等,为同学们提供数据采集、管理、分析和可视化表达所需的实验数据和环境。当然,同学们还可以自己收集素材,让自己的项目学习作品更有特色。2前言7Z343.indd 22019/9/26 11:29:5
10、71 1第一章 数据管理与分析应用概述 1项目范例 中学生膳食和运动习惯的数据管理与分析调查.21.1 数据管理与分析技术.51.1.1. 数据管理技术与方法.51.1.2. 数据分析技术与方法.101.2 数据管理与分析的重要性及应用价值.131.2.1. 数据管理与分析的重要性 .131.2.2. 数据管理与分析的应用价值 .15第二章 需求分析与数据建模 23项目范例 中学生体质健康数据管理系统的需求分析与数据建模.242.1 项目需求分析与解决方案.272.1.1. 项目需求分析.272.1.2. 项目解决方案.302.2 数据的采集与分类.342.2.1. 数据采集的途径.342.2
11、.2. 数据的分类.36目 录目 录CONTENTS7Z343.indd 12019/10/9 18:21:402.3 建立关系数据模型.382.3.1. 概念模型与E-.R方法.392.3.2. 从概念模型到关系数据模型的转换. .41第三章 数据管理 49项目范例 中学生体质健康数据管理系统的数据管理.503.1 关系数据库的建立.533.1.1. 创建数据库和数据表.533.1.2. 修改表的结构.563.1.3. 建立表之间的联系.583.1.4. 数据库事务的处理.583.2 数据的查询.653.2.1. 数据库基本的查询方法.653.2.2. 使用结构化查询语言SQL查询数据.71
12、3.3 数据的备份与恢复.753.3.1. 数据丢失的风险及原因.753.3.2. 常见的数据备份与恢复方法.77第四章 数据分析 84项目范例 中学生体质健康数据管理系统的数据分析.854.1数据分析概述.884.1.1. 数据分析的方法.884.1.2. 数据分析的工具.894.1.3. 数据导入. .902目录7Z343.indd 22019/10/9 18:21:423 34.1.4. 数据导出. .914.2 数据处理.934.2.1. 数据清洗. .934.2.2. 数据的合并.964.2.3. 数据的计算.994.2.4. 数据分组. .994.3 描述性分析.1004.3.1.
13、 基本统计. .1004.3.2. 平均值分析法.1024.3.3. 分组分析法.1034.3.4. 对比分析法.1044.3.5. 交叉分析法.1044.3.6. 相关分析. .1054.3.7. 常用的数据分析方法对比. .1074.4 数据的可视化表达.1084.4.1. 常用图形的绘制.1084.4.2. 数据可视化实例1回归分析.1154.4.3. 数据可视化实例2聚类分析.118第五章 数据管理与分析的发展趋势 124项目范例 体验电子商务数据的管理与分析新技术应用.1255.1 数据管理与分析的新发展.1275.1.1. 数据的多样性与应用场景. .1275.1.2. 数据管理技
14、术新进展.1285.1.3. 数据分析技术新进展.132目录7Z343.indd 32019/10/9 18:21:425.2数据挖掘与大数据的意义.1345.2.1. 数据挖掘的意义.1345.2.2. 大数据的意义.136附录1 部分术语、缩略语中英文对照表.142附录2项目活动评价表.143目录47Z343.indd 42019/10/9 18:21:421 1第一章数据管理与分析应用概述随着互联网技术、多媒体技术与通信技术的迅猛发展,数据呈现爆炸式增长,数据管理与分析技术已经广泛应用于人们的生活中,成为信息社会中解决问题的重要方式。本章将通过“数据管理与分析调查”项目,进行自主、协作、
15、探究学习,让同学们认识到数据是一种重要的资源;通过科学管理与分析数据,可以使数据实现其应有价值;感受数据管理与分析技术的重要性,从而将知识建构、技能培养与思维发展融入运用数字化工具解决问题和完成任务的过程中,促进信息技术学科核心素养达成,完成项目学习目标。 数据管理与分析技术 数据管理与分析的重要性及应用价值5Z343.indd 12019/4/1 10:04:3722第一章 数据管理与分析应用概述中学生膳食和运动习惯的数据管理与分析调查项目范例情 境为了促进学生体质健康发展,激励学生积极进行身体锻炼,根据教育部国家学生体质健康标准(2014年修订),国家要求各地区和各学校开展相关调研工作,并
16、做好数据管理与分析工作。为了认识中学生的膳食和运动习惯,促进学生体质健康发展,为学校食堂和学生膳食个人习惯等方面做出相应的改善建议和措施,某中学进行了一次全校“中学生膳食和运动习惯”的调查活动。主 题中学生膳食和运动习惯的数据管理与分析调查规 划根据项目范例的主题,在小组中组织讨论,利用思维导图工具,制订项目范例的学习规划,如图1-1所示。图1-1 “中学生膳食和运动习惯的数据管理与分析调查”项目学习规划5Z343.indd 22019/4/1 10:04:403 3探 究根据项目学习规划的安排,通过调查、案例分析、文献阅读和网上资料搜索,开展“中学生膳食和运动习惯的数据管理与分析调查”项目学
17、习探究活动,如表1-1所示。表1-1 “中学生膳食和运动习惯的数据管理与分析调查”项目学习探究活动探究活动学习内容知识技能调查活动的数据管理分析数据管理技术。正确描述数据。认识到数据是一种重要的资源。认识数据管理技术及发展。调查活动的数据分析体验数据分析技术。了解数据分析技术及特征。体验数据分析技术的基本步骤和方法。数据管理与分析的 重 要 性 及 应 用价值体验数据管理与分析的重要性。体验数据管理技术的重要性。感受数据管理与分析技术的重要性。体验数据分析技术的重要性。认识数据的应用价值。数据的预测性价值。数据的挖掘性价值。数据的分析性价值。认识到通过科学管理与分析数据,可以使数据实现其应有价
18、值。实 施实施项目学习各项探究活动,进一步认识中学生膳食和运动习惯的数据管理与分析调查。成 果在小组开展项目范例学习过程中,利用思维导图工具梳理小组成员在“头脑风暴”活动中的观点,建立观点结构图,运用多媒体创作工具(如演示文稿、在线编辑工具等),综合加工和表达,形成项目范例可视化学习成果,并通过各种分享平台发布,共享创造、分享快乐。例如,运用在线编辑工具制作的“中学生膳食和运动习惯的数据管理与分析调查”可视化报告,可以在教科书的配套学习资源包中查看,其目录截图如图1-2所示。中学生膳食和运动习惯的数据管理与分析调查5Z343.indd 32019/4/1 10:04:4044第一章 数据管理与
19、分析应用概述评 价根据教科书附录2的“项目活动评价表”,对项目范例的学习过程和学习成果在小组或班级上进行交流,开展项目学习活动评价。项目选题同学们以36人组成一个小组,选择下面一个参考主题,或者自拟一个感兴趣的主题,开展项目学习。1中学生早餐营养搭配的数据管理与分析调查2校园歌手大赛成绩的数据管理与分析调查3图书馆图书借阅的数据管理与分析调查项目规划各小组根据项目选题,参照项目范例的样式,利用思维导图工具,制订相应的项目方案。方案交流各小组将完成的方案在全班进行展示交流,师生共同探讨、完善相应的项目方案。图1-2 “中学生膳食和运动习惯的数据管理与分析调查”可视化报告的目录截图5Z343.in
20、dd 42019/4/1 10:04:415 5 1.1 数据管理与分析技术1.1 数据管理与分析技术1.1. 1 数据管理技术与方法在开展“中学生膳食和运动习惯的数据管理与分析调查”项目时,我们可以直接利用发放问卷的形式采集数据,也可以利用网络工具设计问卷来直接采集和管理数据。而对于项目调查活动中所涉及的各种数据,可以利用表格数据分析工具(如Excel,SPSS等),进行统计、分析及研究,并借助数据库技术、大数据技术去学习数据管理与分析的基础知识。探究活动同学们结合“中学生膳食和运动习惯的数据管理与分析调查”项目活动问卷需求,通过获取有关的资料,请尝试分别对膳食种类信息、膳食喜好信息、运动种
21、类信息、中学生运动喜好信息等信息进行数据的描述,认识数据管理技术。1数据的描述“中学生膳食和运动习惯的数据管理与分析调查”项目包括制订问卷、发放问卷、收集问卷、处理问卷、数据整理、数据分析、撰写调查报告、修改提交报告等过程。在开始制订问卷时,就需要将各种数据规范化,要对数据进行合理解释和描述,有效地进行拆解和组合,从而适于数据的处理和分析,达到数据有效管理的目标。(1)认识数据。数据是现实世界客观事物的符号记录,是信息的载体,是计算机加工的对象。在计算机科学中,数据是对所有输入计算机并被计算机识别、存储和处理的符号的总称,是联系现实世界和计算机世界的途径。在大数据时代,数据不仅是信息的载体,也
22、是人们提取信息做出决策的重要依据,成为人们认识和理解现实世界客观事物的重要资源。如图1-3所示是国家统计局网站上发布的权威数据。图1-3 国家统计局网站上发布的权威数据 可视化统计图秉持方便易用的理念展示统计数字,通过简单的图像或动态界面及互动式统计图,您可更清楚了解一些统计指标。7Z343.indd 52019/9/26 11:29:5866第一章 数据管理与分析应用概述(2)解释数据。数据是形成信息和知识的源泉,是计算机程序加工的“原料”。一般来说,数据主要包括结构化数据(structured data)、半结构化数据(semi-structured data)、非结构化数据(unstru
23、ctured data)。合理解释数据,首先要对数据进行选择或将数据转化为结构化数据,其次要将数据融入相应的背景进行解读,对数据做出合理解释,转化为有意义的信息。因此,数据和信息都是可解释的。如图1-4所示,单纯性数据37.8,可以是毫无意义的,但是添加一定背景,就如同为数据赋予了骨架。例如,一名叫小睿的两岁儿童,用体温计测量的腋下体温为37.8 ,此时37.8就转化为有意义的信息,即说明小睿为低烧状态,应该先采取一定的降温手段,再去深入探讨导致这次低烧的原因及预防方法。(3)描述数据。在日常生活中,人们通常直接用自然语言对人或事物进行描述,自然语言可以是中文、地方方言或者外文等。在计算机中,
24、为了存储和处理这些人或事物,就要抽出对这些感兴趣的特征组成一条记录来描述。学生记录就是描述学生的数据,这样的数据是有结构的,是记录计算机中表示和存储信息的一种格式表达。例如,在生活中可以这样来描述一名学生的个人数据信息:彭睿同学,男,学号是20190506873,2002年12月12日出生,出生在广东省广州市,2016年入学,高二(5)班,家庭成员有父亲、母亲、爷爷、奶奶,籍贯是河南省洛阳市,在学校住宿,学习成绩优秀,不懂广州本地方言等。通过认识、解释和描述数据,结合“中学生膳食和运动习惯的数据管理与分析调查”项目活动实际需求,在计算机中应描述为:(彭睿,男,20190506873,20021
25、212,广东省广州市,2016,高二年级,5班)2数据管理技术及发展数据管理是指对数据的采集、分类、组织、编码、存储、查询和维护等活动,从而实现数据的规范化和结构化。以数据库为代表的数据管理技术已经历近半个世纪的大发展。数据管理技术已经从第一代的层次与网状数据库系统、第二代的关系数据库系统,发展到新一代数据库,继而发展到大数据管理技术,人们在不断努力开发适合最新需求的数据库管理系统,如图1-5所示是数据管理技术发展的主要历程示意图。图1-4 合理解释数据9Z343.indd 62020/9/1 9:59:157 7 1.1 数据管理与分析技术3数据管理方法数据管理方法有五大类:人工管理、文件系
26、统管理、数据库系统管理、新一代数据库和大数据管理技术。(1)人工管理。20世纪50年代中期以前,计算机刚刚诞生不久,硬件和软件的发展水平都比较低,计算机主要用于科学计算,数据量少,数据结构简单,用户一般用机器指令编写程序,通过纸带输入程序和数据,如图1-6所示。这个时期数据管理处于人工管理阶段,其主要特点有:第一,没有专门的软件用来管理数据,管理数据需要依赖应用程序本身来处理。第二,数据和程序是紧密联系的,一组数据只能对应一个应用程序,而数据又不能共享。第三,数据通常包含在程序中,不具有独立性,一旦数据的结构发生变化,应用程序就要作相应的修改。图1-5 数据管理技术发展历程示意图图1-6 人工
27、管理阶段应用程序与数据之间的对应关系5Z343.indd 72019/4/1 10:04:4588第一章 数据管理与分析应用概述(2)文件系统管理。20世纪50年代后期至60年代中期,数据管理进入了文件系统阶段。在文件系统中,数据可按其内容、结构和用途组织成若干个独立的文件,应用程序可以通过操作系统从文件中读写数据,如图1-7所示。在文件系统中,文件可以与程序分离,有利于长期保存,与人工管理相比,取得了长足的进步,但仍然存在以下问题:第一,数据独立性差。在文件系统中,数据文件是按照应用程序的具体要求建立的,程序改变,将引起文件结构改变,因此程序与数据之间仍缺乏数据独立性。第二,数据冗余度大。在
28、文件系统中,文件一般为某一用户或用户组所有,文件仍然是面向应用的,因此数据共享性差,冗余度大。同时由于数据重复存储,各自管理,容易产生数据的不一致性。第三,数据的安全性和完整性难以保障。文件之间相互独立,缺乏集中管理,数据的完整性和安全性等无法得到保证。(3)数据库系统管理。数据库(Database,DB)是按照数据结构来组织、存储和管理数据的仓库。数据库系统(Database System,DBS)克服了文件系统的缺陷并提供了对数据更高级、更有效的管理,如图1-8所示。这个阶段的程序和数据的联系通过数据库管理系统(Database Management System, DBMS)来实现。图1
29、-7 文件系统阶段应用程序与数据之间的对应关系图1-8 数据库系统阶段应用程序与数据之间的对应关系5Z343.indd 82019/4/1 10:04:469 9 1.1 数据管理与分析技术数据库管理系统是对数据库进行管理的通用软件系统,是数据库系统的核心。它具有对数据库中的数据资源进行统一管理和控制的功能。在数据库系统中,用户对数据库进行的各种操作都是通过数据库管理系统实现的,因而使数据库中的数据具有较大的独立性。数据库应用系统则是指针对某个特定目标,建立在数据库管理系统之上的计算机应用系统。简单地说,它是指引入数据库技术后的应用软件,由数据库、数据库管理系统、应用程序和用户等组成。因此,数
30、据库、数据库管理系统和数据库应用系统是三个不同的概念,数据库强调的是数据,数据库管理系统强调的是对数据库进行存储与管理的系统软件,而数据库应用系统强调的是面向具体应用软件。与人工管理和文件系统相比,数据库系统主要有以下特点:第一,数据结构化。这是数据库系统与文件系统的根本区别。数据库系统中的数据按照某一特定的数据模型组织,具有特定的统一的结构。例如,在“中学生膳食和运动习惯的数据管理与分析调查”项目活动关系数据库里,数据库中的数据组成多个二维表形式,其中学生个人信息就是一个二维表,而二维表由若干记录组成,个人信息(彭睿,男,20190506873,20021212,广东省广州市,2016,高二
31、年级,5班)就是一条记录,而每个记录又由若干属性项组成。第二,数据共享。数据库中的数据是可以被多个应用程序共享的,这和文件系统不同。数据库中的数据可以通过数据库管理系统为多个用户所共享,冗余度小。第三,数据具有较高的独立性。在数据库系统中,数据通过DBMS管理,使用户或应用程序在操作数据时,并不需要了解数据库中的数据是如何存储的,只需要以简单的逻辑结构来操作数据。第四,数据的安全性得到保证。在数据库系统中,数据的安全性和完整性由DBMS统一管理和控制。总的来说,如果说从人工管理到文件系统,是计算机领域质的飞跃,那么从文件系统到数据库系统,则标志着数据管理技术质的飞跃。(4)新一代数据库。数据库
32、新技术是一个不断发展的范畴,在数据模型的改进、与相关技术融合以及面向应用领域等方面都在不断改进与发展。数据模型的改进。相对于传统的数据库而言,集成了新的技术、工具与机制的有:面向对象数据系统(OODBS);时态数据库系统(TDBS);实时数据库系统(RTDBS);主动数据库系统(ADBS)。数据库与相关技术结合。比较有代表性的有:分布式数据库;Web数据库。5Z343.indd 92019/4/1 10:04:461010第一章 数据管理与分析应用概述面向应用领域。非结构化数据库。(5)大数据管理技术。随着网络技术的发展,非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局
33、限性越来越明显。这就催生了数据管理技术进入新一代的数据库。如iBase数据库是一种面向最终用户的非结构化数据库,Hbase是一个适合非结构化数据存储的数据库。例如,在制订“中学生膳食和运动习惯的数据管理与分析调查”项目活动中,需要采集不同学生、班级、群体等结构化或半结构化数据,还要采集各种半结构化或非结构化数据,如文本、图像、音频、视频等数据。在面对如此多且杂乱无章的数据文件时,要根据不同的数据采用不同的数据管理技术进行处理。在现代信息社会里,我们既可以采用现代技术化的数据管理技术,也不排除人工管理技术来管理数据,只有将不同的数据管理技术有机结合起来,才能使数据管理更加高效,特别是根据特定的需
34、求和目的来建立对应功能的数据库管理系统,更能实现数据管理的智能化和便利化。项目实施各小组根据项目选题及拟订的项目方案,结合本节所学知识,剖析调查活动的数据管理技术。1对调查信息进行数据描述。2认识数据管理技术及其发展历史。1 . 1 . 2 数据分析技术与方法通过开展“中学生膳食和运动习惯的数据管理与分析调查”项目活动,根据调查得出的系列化数据,我们可以利用表格工具(如Excel,SPSS等)或专业数据分析软件对数据进行汇总和分析,从而深入认识目前中学生的膳食和运动喜好情况与原因,为区域主管部门、学校、家庭、学生个人习惯等方面做出相应的改善建议和措施。探究活动在“中学生膳食和运动习惯的数据管理
35、与分析调查”项目中,问卷内容主要包括性别、年龄、身高、体重、膳食中的肉类和蔬菜比、膳食摄入量、各种食物种类摄入程度、每天平均运动时长、主要运动方式、最喜欢的运动方式等项目数据,随机抽取全校各个年7Z343.indd 102019/9/26 11:30:0011 11 1.1 数据管理与分析技术级,让同学们现场网络限时答卷。同学们自主探究与小组研讨,寻求网络检索和老师等帮助,小组汇报下列内容。(1)根据本次调查活动项目的目的,同学们应该从什么方面对数据进行分析?(2)结合本次调查项目不同的数据分析类型,同学们可以采用什么数据分析技术或工具?1数据分析技术通过合理的数据管理,同学们可以得出规范化和
36、结构化的数据。随着信息社会的发展,大数据时代的到来,数据呈现大量化、多样化、快速化、价值密度低的特征。为了提取有用信息和形成结论,进而对数据加以详细研究和概括,总结出所研究对象的内在规律,需要对数据进行分析。一般来说,数据分析是指用适当的统计分析方法对采集来的数据进行分析,将这些大量的数据进行汇总,并做成可以被人们消化和理解的资料,从中提取有用和有价值的信息。数据分析主要分为描述性数据分析、探索性数据分析、验证性数据分析等,如图1-9所示。数据分析常常是以数和量的形式展现,通过实验、观察、调查等方式获取结果。数据分析技术就是指与数据分析活动有关的技术总和,包括数据对象的描述、采集、处理、统计、
37、分析及呈现等,在常用的数据分析中,我们会用到的工具软件主要有Excel,SPSS,Python,SAS等。在大数据时代,运用大数据的批处理、流计算、图计算及查询分析计算等功能模式,可以实现对大数据的批处理、实时分析、图结构分析、查询分析等,如常用的工具软件有MapReduce,Storm,GraphX,Dremet等。2数据分析的基本步骤和方法同学们通过调查结果采集到的数据,选择不同的数据分析方法,按照数据分析的基本步骤,得出翔实的调查数据分析结果,并进一步撰写研究调查报告。(1)数据分析的基本步骤。一般来说,数据分析主要包括以下四大基本步骤,如图1-10所示,它们循序渐进、缺一不可、相辅相成
38、,无论是对小型数据分析还是对大型数据分析,都是必不可少的环节。图1-9 数据分析类型图1-10 数据分析的四大基本步骤8Z343.indd 112020/5/9 17:06:511212第一章 数据管理与分析应用概述识别需求。识别需求是确保数据分析过程有效性的首要条件,可以为采集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责,管理者应根据决策过程控制的需求提出对信息的需求。采集数据。有目的地采集数据,是确保数据分析过程有效的基础。根据需求,对采集数据的内容、渠道、方法进行策划。分析数据。分析数据是指对采集的数据进行加工、整理和分析,使其转化为信息。过程改进。过程改进是指根据数据分析目
39、标,改进做事的过程、方法或工具。例如,对以下问题进行分析,评估其有效性:a. 提供决策的信息是否充分、可信,是否存在因信息不足、失准、滞后而导致决策失误的问题。b. 采集数据的目的是否明确,采集的数据是否真实和充分。c. 数据分析方法是否合理,是否将风险控制在可接受的范围。d. 是否在项目实施过程中有效运用数据分析。e. 数据分析所需资源是否得到保障。(2)数据分析的基本方法。数据分析具有现状分析、原因分析、预测分析三大作用,因此,数据分析的基本方法对应这三大作用进行设置。常用的数据分析方法有对比分析法、平均分析法、分组分析法、结构分析法、交叉分析法,具体如表1-2所示。表1-2 数据分析基本
40、方法作用方法数据分析方法现状分析对比对比分析法、平均分析法、综合评价分析法原因分析细分分组分析法、结构分析法、交叉分析法、杜邦分析法、漏斗图分析法、矩阵关联分析法、聚类分析法预测分析预测回归分析法、时间序列分析法、决策树分析法、神经网络分析法随着数据库与互联网技术等的发展和应用,数据的积累不断膨胀,数据的需求也不断更新,同时带来的数据管理与分析技术也在不断进步和更新。5Z343.indd 122019/4/1 10:04:471313 1.2 数据管理与分析的重要性及应用价值最后,对数据分析除了要注意选用恰当的分析方法之外,还需注意到数据的来源,如搜索引擎抓取数据、网站的HTTP响应时间数据、
41、网站流量来源数据等。项目实施各小组根据项目选题及拟订的项目方案,结合本节所学知识,剖析调查活动的数据分析。1确定调查活动项目的数据分析技术。2体验数据分析技术的基本步骤和方法。1.2数据管理与分析的重要性及应用价值数据管理首先是要保证数据的规范性、描述性、结构性、科学性,其次是要按照实际情况有针对性地对数据进行整理,为数据分析的应用过程提取有用信息,形成结论,最后对数据加以详细研究和概括,挖掘数据背后的内在规律和内在价值,从而体现数据管理与分析的重要性。一般来说,数据管理是数据分析的基础,有效地对数据进行管理与分析可以实现数据的预测性价值、挖掘性价值和分析性价值。1.2. 1 数据管理与分析的
42、重要性1数据管理技术的重要性(1)提高元数据管理的标准化。元数据一般是来源于监测、勘探等数据管理技术下最原始的基础数据,具有基础性和原始性,因此,在数据管理技术中,要对大量的原始资料进行整理加工,将大量的纸质材料数字化,注重元数据采集中的标准化,依据不同的规则进行分类和提取。例如,在“中学生膳食和运动习惯的数据管理与分析调查”项目中,依据“中国居民平衡膳食宝塔”“中国食物成分表”“中学生体质健康标准”等基础元数据,结合区域中学生的膳食特点和运动习惯整理成调查问题。将设计出的问卷初稿先进行小范围初测、个别访谈以及征求专业学者的意见,经修改、删除、完善不明确和信度较差的试题后,形成最终的调查问卷,
43、从而能反映当前中学生膳食和运动习惯的元数据基础,并采集最初的元数据。表1-3是“中学生膳食和运动习惯的数据管理与分析调查”项目活动问卷元数据框架。5Z343.indd 132019/4/1 10:04:471414第一章 数据管理与分析应用概述表1-3 “中学生膳食和运动习惯的数据管理与分析调查”项目活动问卷元数据框架项目维度对应题号第一部分基本信息1,2,3,4第二部分正餐中肉类和蔬菜的比例5晚餐摄入食物总量6一天的食物摄入总量7正餐外的食物摄入量排序8每天平均运动总时长9每天的主要运动方式10喜欢的运动方式11元数据是科学发展和基础研究的基本支撑和本源,也是国家的重要基础信息资源,在国家的
44、宏观决策、科技创新、防灾减灾、环境保护和国民经济的各行各业发挥着不可替代的作用。加强对元数据科学的管理有利于各项工作更好地为经济建设、社会发展和人民生活提供高质量、及时周到的服务。例如,加强气象数据的开发力度,提高气象元数据的标准化格式,充分利用网络和信息技术,丰富气象服务的原始数据,拓展数据服务空间,这样便能提高对气象信息预测的准确性和针对性,才能不断适应社会经济发展日益增长的需求。(2)加强数据管理服务的系统性。随着现代信息技术和网络通信技术的发展,数据管理技术的系统性也变得更加突出,只有对各项数据进行系统性的管理,才能实现数据管理技术的高效。一方面,在数据管理技术中,需要对数据进行有效的
45、信息化处理;另一方面,要依照各项数据管理技术搭建数据共享平台,增强对数据资料系统的开发能力。例如,通过建立“气象元资料服务系统”“气象档案管理系统”“气象台历史沿革管理系统”等,从而使气象数据管理服务系统化,提升了信息化资料服务和数据深加工服务,有效地完成数据的各项数字化、系统化管理服务。(3)优化大数据管理技术的准确性。面对大数据时代的到来,数据管理的准确性是考验数据管理技术的重要指标之一。因此,在大数据环境下,数据管理技术须积极应对社会需求拓展各项服务领域,积极推进网络下的科学数据共享,攻克大数据管理技术的关键性阶段,开发面向服务系统的应用终端,从而让人们更加安全有效地享受大数据环境下数据
46、管理技术的准确性服务。2数据分析技术的重要性(1)确保数据分析的完整性。数据分析产生的分析价值建立在详尽和真实的数据层面,数据采集的完善是完善数据分析技术的一个过程,不论是数字、文本、图表等各种结构化的数据,还是各种不同形式的半结构化或非结构化数据,最后都需要通过汇总、分析,进而做出相应的规划和决策,这就需要在数据分析的前期确保数据的完整性。依靠现有的数据分析技术手段,可以确保5Z343.indd 142019/4/1 10:04:471515 1.2 数据管理与分析的重要性及应用价值数据的完整性要求。(2)提高数据决策的准确性。数据的完整性约束可以确保数据的准确性,随着计算机技术的飞速发展以
47、及专业化和国际化,各种数据分析技术应运而生,数据的准确性在依托于目前各项分析技术与方法手段基础上,让更多的数据分析可以直接依靠分析技术的自动化和智能化,不仅可以降低人为的不准确性因素,更能最大效率地提高数据分析对于决策的准确性。(3)增强数据创造的价值性。数据分析技术是增强国民各项经济价值创造力的重要手段,实施有效的数据分析技术是使数据价值增值的最佳方式。在信息化高速发展的背景下,各商业体积累了海量数据,依靠目前数据分析技术的数据仓库(DW)技术、数据挖掘技术,通过积极探讨商业经营效益的分析,可以促进商业数据的最大价值化。在信息化和网络化不断发展的时代,特别是大数据时代的产生和发展,数据已经成
48、为衡量效益的重要指标,同时也为其对于科学的评估提供了重要的参考资源。因此,随着社会和科技的不断发展,数据管理和分析技术的重要性也变得越来越突出,数据管理与分析技术的发展也必将引领数据时代的健康发展。探究活动讨 论结合数据管理与分析技术的重要性,同学们查找有关资料,结合实例来讨论影响数据管理和分析技术重要性发展的因素主要有哪些。1.2. 2 数据管理与分析的应用价值通过项目范例的学习,我们认识到数据是一种重要的资源,并通过科学管理与分析数据,可以使数据实现其应有的价值。1数据的预测性价值(1)气象预测。气象中的气流、风速、云层等各种数据通过系统软件的数据分析,能够比较准确地预报某区域在某时间段的
49、气象情况。例如,针对大部分自然灾害均由气象因素引发这一现状,广东省以科技创新加强气象现代化建设,着力构建未雨绸缪式的气象趋势预测及高效有序的预警信息发布体系,更好地服务于民,使得相关部门和公众在应对恶劣天气突发事件过程中游刃有余,最大限度预防和减少突发事件可能造成的危害。如图1-11所示是广东省突发事件预警信息发布中心内的区域数值天气预报重点实验室。7Z343.indd 152019/9/26 11:30:001616第一章 数据管理与分析应用概述(2)工业预测。工业中的生产过程、生产产品以及各种资源等丰富的数据经过有效分析,往往能优化生产工艺和流程,节约生产成本,降低能耗,增加利润。例如,由
50、于航空公司的自身原因、机场流量控制、机场航空管制、天气恶劣等原因经常会导致航班延误,由民航局发布的2012年民航行业的统计数据,称航班准点率为74.83%。但是某知名公司却做到了能够比航空公司更准确地预测信息。据报道,该公司已建立155处无源雷达接收站,每4.6秒接收一次雷达眼监测到的每架飞机的信息,通过这些信息可以准确了解每一架飞机在空中飞行的情况以及飞机的着陆时间。公司还建立自己的数据库,将自测的信息以及其他信息全部备案保存,经过十多年的积累,公司存储了海量的航空信息,拥有了其他任何公司都无法比拟的数据资源。(3)商业预测。商业活动中海量的数据通过系统软件的分析,能够准确得出某一类商品的市