收藏 分享(赏)

华东师大版普通高中教科书·信息技术选择性必修3 数据管理与分析.pdf

上传人:九年教育 文档编号:6956783 上传时间:2022-08-23 格式:PDF 页数:126 大小:24.72MB
下载 相关 举报
华东师大版普通高中教科书·信息技术选择性必修3 数据管理与分析.pdf_第1页
第1页 / 共126页
华东师大版普通高中教科书·信息技术选择性必修3 数据管理与分析.pdf_第2页
第2页 / 共126页
华东师大版普通高中教科书·信息技术选择性必修3 数据管理与分析.pdf_第3页
第3页 / 共126页
华东师大版普通高中教科书·信息技术选择性必修3 数据管理与分析.pdf_第4页
第4页 / 共126页
华东师大版普通高中教科书·信息技术选择性必修3 数据管理与分析.pdf_第5页
第5页 / 共126页
亲,该文档总共126页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、书 书 书书 书 书总 主 编?李晓明副总主编?赵?健本册主编?张?洁本册副主编?王?肃编写人员?按姓氏笔画排序? ?王?肃?毛黎莉?张?洁?高?峰责任编辑?曹祖红美术设计?储?平普通高中教科书?信息技术?选择性必修? ?数据管理与分析上海市中小学?幼儿园?课程改革委员会组织编写出版发行?华东师范大学出版社?上海市中山北路? ? ? ?号?印?刷?上海四维数字图文有限公司版?次? ? ? ? ?年?月第?版印?次? ? ? ? ?年?月第?次开?本? ? ? ?毫米? ? ? ? ?毫米? ? ?印?张? ?字?数? ? ? ?千字书?号? ? ? ? ? ? ? ? ? ? ? ? ? ?

2、? ? ?定?价? ? ? ? ? ?元版权所有?未经许可不得采用任何方式擅自复制或使用本产品任何部分?违者必究如发现内容质量问题?请拨打电话? ? ? ? ? ? ? ? ? ? ?如发现印?装质量问题?影响阅读?请与华东师范大学出版社联系?电话? ? ? ? ? ? ? ? ? ? ?全国物价举报电话? ? ? ? ?声明?按照?中华人民共和国著作权法?第二十五条有关规定?我们已尽量寻找著作权人支付报酬?著作权人如有关于支付报酬事宜可及时与出版社联系?本册教材图片提供信息?本册教材中的部分图片由全景网?视觉中国等图片网站提供?致同学们致同学们亲爱的同学们?当今?信息技术的发展日新月异?物联

3、网?大数据?人工智能等新技术?新工具扑面而来?显著地改变着人们的生活?学习和工作模式?生存于信息社会中?我们每一个人都不可避免地会接触信息技术?应用信息技术?甚至去创造新信息技术?在具备了基本信息技术应用能力的基础上?高中阶段我们要进一步学习信息技术的知识与技能?能够利用信息技术负责任地解决生活与学习中的问题?全面提升信息素养?迎接信息社会的挑战?数据管理与分析?作为高中信息技术学科的选择性必修模块?是高中信息技术学科的重要内容?本教科书采用?项目活动?方式组织学习内容?通过?身边的数据价值以及数据管理与分析? ?网上书店数据管理? ?在线考试系统的安全维护? ?上海市旅游景点数据分析?和?电

4、影数据的数据挖掘?项目?将数据价值?数据管理?数据分析?数据安全?大数据?数据挖掘等知识与技能融入学习活动中?教科书的每章围绕?信息意识? ?计算思维? ?数字化学习与创新? ?信息社会责任?四个学科核心素养提出本章的学习目标?利用?本章知识结构?图示呈现本章知识脉络?帮助同学们从总体上了解本章学习内容?在学习过程中?同学们可以通过?问题思考?栏目?将现实问题?个人经验与知识技能相关联?带着问题开始学习?通过?项目实践? ?探究活动?和?体验思考?栏目?将?做中学?与?学中做?的学习方法相互融合?把知识技能应用于解决实际问题中?根据?作业练习?栏目提供的练习?应用所学的知识技能解决新的实际问题

5、?提高创新能力?按照个人的学习需求?学习?知识延伸?栏目中的内容?拓展个人学习视野?数据管理与分析?提升信息素养?要求我们在掌握数据管理与分析的基础技术知识?学会使用数据管理与分析工具的同时?能够用计算思维来分析问题?要求我们在体验数据管理与分析技术给生产生活带来便利的同时?学会运用相关知识创造性地解决实际问题?并且关注数据安全?参与和促进信息社会的伦理与道德建设?同学们可以通过本教科书及其配套资源?学习数据管理与分析技术?负责任地应用数据管理与分析技术?逐步成长为新时代合格的社会主义建设者?编者?目录目录第一章数据管理与分析初步?. 1项目主题身边的数据价值以及数据管理与分析. 3第一节数据

6、价值. 4第二节数据管理与分析技术的重要性. 7第三节数据管理与分析方案. 10第二章数据管理?. 21项目主题网上书店数据管理. 23第一节数据分类与采集. 24第二节数据模型设计. 30第三节数据库的实施. 38?数据管理与分析第三章数据安全?. 53项目主题在线考试系统的安全维护. 55第一节数据安全威胁与数据安全策略. 56第二节数据备份与还原的实现. 65第四章数据分析?. 75项目主题上海市旅游景点数据分析. 77第一节数据准备. 78第二节数据分析方法与呈现. 84?目录第五章数据挖掘?. 99项目主题电影数据的数据挖掘. 101第一节数据挖掘过程. 102第二节大数据时代下的数

7、据管理与分析技术的发展. 114后记?. 119?第 一 章数据管理与分析初步本章学习目标认识到数据是一种重要资源, 了解数据的价值, 能够发现生活中的数据所蕴含的价值。认识数据管理与分析技术的重要性。结合具体活动了解数据需求分析方法, 能结合实际问题进行数据需求分析。了解建立数据管理与分析方案的基本过程, 能结合实际问题制定数据管理与分析方案, 并对所制定的方案进行评价, 针对发现的问题进行方案优化。华东师范大学出版社数据管理与分析数据, 古已有之, 它是人类改造世界的一种重要资源。古时候的结绳记事记录了数据, 货币、 度量衡、 罗盘的使用都体现了人们对数据的利用。在信息时代, 数据更是无处

8、不在, 其内涵和价值更为丰富。例如, 超市的收银系统会记录顾客购买商品的相关数据; 在线学习系统可以记录学习者学习的内容、 完成的作业和测试及相应的成绩等数据; 人们可以通过在线社交软件发布文字、 图片、 视频, 以及自己所在地理位置等数据。随着科技尤其是人工智能技术的发展,将会有更多的智能设备接入互联网, 最终实现万物的互连互通。智能手表、 智能家电、 无人驾驶汽车、 机器人等智能设备利用数据为人们提供服务, 同时它们在运行时也记录着大量的数据。例如, 智能手表不仅可以为佩戴者提供时间、 天气情况等数据, 还可以记录佩戴者的实时位置、 运动步数、 实时心率等数据。数据的飞速增长给人们带来了更

9、多的机遇和挑战, 如何利用好数据, 使数据实现其应用价值, 是人们越来越关注的问题。“ 工欲善其事, 必先利其器” , 实现数据价值是“ 善其事” , 数据管理与分析技术是“ 善其事” 的利器。在信息时代, 我们必须利用合理高效的数据管理与分析方法管好数据、 用好数据, 使数据发挥出更大的价值, 为人们的衣食住行提供更好的服务, 帮助企业赢得更大的效益和商机, 促进国家科技和经济发展。本章知识结构0) 0)L!0).00)+F2华东师范大学出版社第一章数据管理与分析初步项目主题身边的数据价值以及数据管理与分析项目情境年初, 学校科创社团开展了一次社会实践活动 参观调研某智能手环研发企业。首先,

10、 我们通过地图软件查找学校到该企业的路线, 地图软件为我们提供了多种出行方案。到了企业后, 经过调研, 我们了解了该企业某种畅销智能手环上一年度每个月的销售量数据。我们希望根据这些数据预测明年该智能手环的月销售量, 从而帮助企业制定明年的生产计划和合适的营销策略。我们需要对调研到的销售量数据进行管理与分析以便作出预测。活动结束后, 我们把活动报道发布到学生社团网站, 让其他同学了解这次有意义的活动。大家对我们的活动非常感兴趣, 有许多同学都在活动文章的评论区里发表了评论, 还有许多同学转发了这篇文章。同样, 我们也可以在网站上查看很多其他社团开展的丰富多彩的活动。学生社团网站上发布了这么多的活

11、动, 哪个活动的浏览量最高? 哪个活动大家讨论得最热烈? 哪个活动的转发量最高? 学生社团网站如何向不同的用户推荐他们可能感兴趣的活动呢? 我们可以制定一个学生社团网站的数据管理与分析方案来解决这些问题。项目任务任务 1任务 2任务 3 通过“ 交通路线规划中的数据价值” 项目实践活动, 了解交通数据的价值。 通过“ 企业商品月销售量数据分析” 项目实践活动, 了解数据管理 与 分 析 技 术 的 重要性。 制定学生社团网站的数据管理与分析方案, 了解针对具体问题进行数据需求分析、建立数据管理与分析方案的基本过程, 以及如何对方案进行评价和优化。3 华东师范大学出版社数据管理与分析第一节数据价

12、值在日常生活中, 无论是看新闻、 听音乐、 购物, 还是吃饭、 运动, 甚至走路、 睡觉, 人们几乎所有的活动都和数据息息相关。例如: 购买火车票时, 火车票订票系统会通过对车次运行数据、 票务数据、 乘客数据等多种数据的有效利用为用户提供方便快捷的订票服务; 网络购物时, 在线购物网站通过对大量的商品数据、 会员数据、 订单数据、 物流数据等进行管理和分析, 为人们提供便利的商品查询和比价、 个性化商品推荐等服务。在享受着数据带来便利的同时, 我们的各种行为也被智能手机、 智能穿戴设备等记录下来, 成为数据。数据已经渗透到了日常生活的方方面面以及每一个行业领域。数据蕴含着巨大的价值, 合理地

13、使用数据是非常重要的。问题思考随着信息技术的发展, 数据已经无处不在, 并给人们的生产生活带来深远的影响。请思考:1 . 在生活或学习中, 你使用了哪些数据? 这些数据对你而言有哪些价值? ( 请举例说明)2 . 为什么数据管理与分析技术对于实现数据的价值是非常重要的?在信息社会中, 数据价值体现在生产生活以及各行各业中。数据可以为人们的生产生活提供服务和便利, 例如, 气象数据可以用于预测天气, 为人们安排出行和生产生活提供方便。数据可以帮助企业进行创新和决策以提高经济效益, 例如, 企业利用客户数据和销售数据可以对不同的客户群体进行有针对性的营销。数据可以为政府的科学决策提供支持, 例如,

14、 公共卫生部门可以利用覆盖区域的居民健康档案数据和电子病历数据, 快速检测传染病, 进行全面的疫情监测。项目实践交通路线规划中的数据价值出行时, 如果不知道出行路线是一件非常麻烦的事情。可以利用地图软件查找从出发地到目的地的路线, 帮助我们快速地做好交通路线规划。规划交通路线需要对出发地、 目的地、 道路长度、 道路状况等多种交通数据进行分析。根据项目情境中的描述, 我们要从学校到研发智能手环的企业去开展社会实践活动。请根据图 1. 1中的数据, 规划从学校到该企业的路线, 图中的数字表示道路长度( 单位: 千米) 。 步骤 1 对图 1. 1中的所有地点进行编号, 如表 1. 1所示。4华东

15、师范大学出版社第一章数据管理与分析初步表 1 . 1 地点编号表地点编号学校A湖滨公园B医院C绿云小区D超市E邮局F企业G图 1 . 1 道路图步骤 2 请根据图 1. 1将不同地点间直接到达( 不经过其他地点) 的道路长度( 单位: 千米) 填入表 1. 2 。表 1 . 2 地点间直接到达的道路长度表ABCDEFGA/32/5BCDEFG步骤 3 计算从学校( A ) 到企业( G ) 一共有几条可以到达的路线, 并将相关数据填入表 1. 3 。表 1 . 3 学校到企业的路线规划表路线编号路线路线长度(千米)1A G55 华东师范大学出版社数据管理与分析 由表 1. 3可知, 从学校到企

16、业有多条路线。通常, 地图软件会推荐最短路线, 但是如果最短路线出现堵塞或者路况维护等情况, 地图软件很可能会根据路况数据推荐其他路线。即使最短路线路况良好, 地图软件也可能会根据出行者的不同需求而推荐其他路线。步骤 4 根据出行需求及路况, 设计推荐路线并填入表 1. 4, 格式为“ 路线( 长度) ” , 其中路线长度以千米为单位。表 1 . 4 学校到企业的推荐路线表出行需求及路况推荐路线(可以有多条)路线长度最短A G ( 5)A G 堵塞A G 、 BG 、 D G 修路,道路不通交通数据为人们的生活提供了很多便利, 如路线查询、 物流配送、 实时导航等。人们在使用这些数据时, 可以

17、感受到数据的价值。例如, 张先生要从上海出发到郑州参加一个重要会议, 可是在买火车票的时候发现出发日上海到郑州直达车的车票已经卖完了, 他是否必须改乘其他交通工具呢? 其实, 张先生可以利用火车票订票系统的路线换乘查询功能, 查询上海到郑州的中转换乘推荐路线。生活中还有哪些交通数据为我们提供了便利? 这体现出了什么样的数据价值? 请思考并填入表 1. 5。表 1 . 5 交通数据的价值应用场景场景中的数据数据价值交通路线规划地点位置、道路长度、道路路况等6华东师范大学出版社第一章数据管理与分析初步第二节数据管理与分析技术的重要性数据本身蕴含着价值, 通过数据管理与分析可以发现数据更多的价值,

18、为科学决策提供重要依据。例如, 上海的公交车都安装了卫星定位设备, 上海城市公交系统的管理中心可以实时获得每辆公交车的当前位置、 行驶路线、 行驶速度等数据, 通过对这些数据进行管理和分析, 帮助人们实时查询公交车预计到站时间, 为公众出行提供便利。如图1 . 2所示为上海市某公交车站电子站牌实时显示公交车预计到站时间。又如, 有的智能手环可以对老人的血压进行实时监测, 通过对这些数据进行管理和分析, 生成老人的血压曲线图( 如图1 . 3所示) , 并利用手机应用程序推送给其家人, 让家人了解老人的血压状况。如果老人身体不适或突发疾病, 血压偏离了本人的正常曲线值, 手机应用程序可以及时发出

19、警报并通知其家人。图 1 . 2 上海市某公交车站电子站牌实时显示公交车预计到站时间 图 1 . 3 智能手环生成的穿戴者的血压曲线图 项目实践企业商品月销售量数据分析在企业进行参观调研时, 我们了解了该企业某种畅销智能手环上一年度每个月的销售量。这些商品月销售量数据可以反映该商品的月销售情况, 这是数据本身蕴含的价值。而运用数据管理与分析技术对月销售量数据进行分析, 可以充分发挥这些数据的价值和作用。例如, 我们可以对上一年度每个月的商品销售量进行分析, 预测今年每个月的销售量, 从而帮助企业制定生产计划或合适的营销策略。请根据某企业上一年度 112月份智能手环的月销售量( 如表 1. 6所

20、示) , 预测该商品今年各月的销售量。7 华东师范大学出版社数据管理与分析表 1 . 6 智能手环上一年度 11 2月份的月销售量表月份123456789101112月销售量(个)18 02 0 52 2 02 432 3 42 572 6 02 8 52 903 0 03 0 52 8 8数据预测是一种常见的数据分析应用。根据预测数据和预测目的的不同, 需要选择合适的数据预测方法。简单移动平均法是一种常用的数据预测方法, 它主要是利用一组最近的历史数据的平均数来预测未来的数据值, 经常被用于预测企业商品的需求量、 销售量等。当商品需求量或者销售量既不快速增长也不快速下降, 且不受季节性因素影

21、响时, 简单移动平均法能有效地消除预测中的随机波动。简单移动平均法的计算公式如下: Pt=St- 1+St- 2+ +St-nn(n0 ) 。其中,Pt表示未来一期的预测值( 即移动平均值) ;n表示移动平均时期个数;St- 1表示前一期的实际值,St- 2表示前两期的实际值, 以此类推,St-n表示前n期的实际值。由表 1. 6可知, 智能手环上一年度 112月份的销售量变化平稳, 没有快速下降或增长, 因此可以应用简单移动平均法进行销售量预测。请按照表 1. 7设置的移动平均时期个数(n) , 计算今年智能手环月销售量的预测值( 结果保留到整数) , 并进行对比。表 1 . 7 今年智能手

22、环月销售量预测表月份上一年度的月销售量(个)n=2的预测值n=3的预测值n=4的预测值118 0/22 0 5( 2 0 5+ 18 0 ) / 2= 193/32 2 0( 2 2 0+ 2 0 5) / 2= 2 13( 2 2 0+ 2 0 5+ 18 0 ) / 3= 2 0 2/42 43( 2 43+ 2 2 0 ) / 2= 2 3 2( 2 43+ 2 2 0+ 2 0 5) / 3= 2 2 352 3 462 5772 6 082 8 592 90103 0 0113 0 5122 8 88华东师范大学出版社第一章数据管理与分析初步 由表 1. 7可知, 移动平均时期个数会

23、影响预测结果, 因此选择合适的移动平均时期个数至关重要。通过对历史数据设置不同的移动平均时期个数, 并将得到的预测值和实际数据进行对比, 可以得到合适的移动平均时期个数。例如, 企业可以根据商品 2 0 18 年的月销售量, 通过设置不同的移动平均时期个数, 计算出商品 2 0 19年的月销售量的多个预测值, 并将这些预测值和商品 2 0 19年的月销售量的实际值进行对比,从而得到能使预测结果更准确的移动平均时期个数, 然后再利用这个移动平均时期个数来预测商品未来的月销售量。这有利于企业更科学地安排生产、 制定营销策略。请同学们根据上述内容填写表 1. 8 。表 1 . 8 商品月销售量数据的

24、价值数据名称数据本身的价值由数据管理与分析技术实现的数据价值商品月销售量数据知识延伸数据隐私在信息社会中, 人们无时无刻不在和数据打交道。你在社交网络上发布了一条消息或几张图片, 社交网络会记录你的信息; 物联网中大量的传感器、 视频监控摄像头等设备每时每刻都在采集着大量数据。随着无处不在的各类终端不停地收集越来越多的数据, 无论你去哪儿, 都会留下“ 脚印” , 这可能会存在数据隐私泄露危险。例如, 你在某个网站注册时填写了个人资料, 包括姓名、 手机号、 家庭住址等重要信息, 经过你的同意, 网站有权使用你的资料为你提供服务, 但是这并不代表这些数据可以变成网站营销的资源,或者随意流通到其

25、他公司。那么, 什么是数据隐私呢? 通常, 数据隐私就是个人不愿公开的个人信息, 包括身份证号、 银行账号、 手机号、 E-ma il 地址、 家庭住址、 工作单位、 指纹、 病史记录等。如何保护数据隐私呢? 一方面, 每个人都要树立维护数据隐私的意识, 既要合法使用数据, 也要合理使用数据; 另一方面, 要有一些可以有效防止数据泄漏的技术手段; 当然, 还要有健全的隐私保护法律体系。我国先后出台了一系列数据安全相关政策法规。 中华人民共和国网络安全法 自 2 0 17年 6月 1日起施行, 其中明确规定个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息

26、, 包括但不限于自然人的姓名、 出生日期、 身份证件号码、 个人生物识别信息、 住址、 电话号码等; 任何个人和组织不得窃取或者以其他非法方式获取个人信息, 不得非法出售或非法向他人提供个人信息。( 参考资料: 维基百科)9 华东师范大学出版社数据管理与分析图 1 . 4 建立数据管理与分析方案的基本过程第三节数据管理与分析方案数据蕴含着巨大的价值, 如果想利用好数据,让其更好地为人们服务, 就需要制定合理、 有效的数据管理与分析方案。数据管理与分析方案是一个全面系统的综合性解决方案。针对数据需求分析中提出的问题, 建立合适的方案对数据进行管理与分析, 可以为用户提供服务或决策支持。建立数据管

27、理与分析方案的基本过程包括数据需求分析、 数据管理、 数据分析、 方案评价和优化、 科学决策, 如图1 . 4所示。问题思考在信息社会中, 除了电视、 报纸、 杂志等传统媒体, 人们越来越多地通过网络来了解世界各地发生的事情。学生社团网站上发布了各类社团开展活动的通知和相关报道, 学生可以在网站上了解丰富多彩的社团活动, 并进行评论和交流。请思考:1 . 学生社团网站需要满足哪些业务需求?2 . 在满足业务需求的基础上, 如何对学生社团网站进行数据需求分析?3 . 针对数据需求分析建立数据管理与分析方案, 其主要过程是什么?4 . 如何评价数据管理与分析方案并进行优化?一、 数据需求分析数据需

28、求分析是建立数据管理与分析方案的第一步, 是确保数据管理与分析过程正确有效的首要条件。如果数据需求分析不清晰或者出现错误, 会导致后面的过程出现问题。数据需求分析需要对拟解决的问题进行详细分析, 弄清楚问题的要求, 包括需要输入什么数据、 要得到什么结果、 最后应以什么方式输出结果。1 0华东师范大学出版社第一章数据管理与分析初步项目实践学生社团网站数据需求分析根据项目情境的描述, 学生社团网站需要解决两个问题。一个问题是了解一周内发布的哪些文章的浏览量最高、 评论量最高、 转发量最高; 另一个问题是网站向用户进行文章个性化推荐, 方便学生更快地找到感兴趣的活动。对于问题一, 需要统计出一周内

29、发布的所有文章的浏览量、 评论量和转发量, 并进行比较。因此需要输入文章数据, 如文章的编号、 标题、 内容、 发布时间、 发布作者、 浏览量、 评论量、 转发量, 通过数据分析, 将一周之内每天浏览量最高、 评论量最高、 转发量最高的文章找到, 并用图表可视化方式显示。对于问题二,请思考需要输入的数据、 输出的结果、 输出方式, 并把思考结果填入表 1. 9。表 1 . 9 学生社团网站数据需求分析表解决的问题需要输入的数据输出的结果输出方式找到一周内每天浏览量最高的文章、评论量最高的文 章、 转 发 量 最 高 的文章一周内发布的所有文章的数 据, 包 括 文 章 的 编号、 标 题、 内

30、 容、 发 布 时间、发布作者、浏览量、评论量、转发量等一周内每天浏览量最高的文章、评论量最高的文章、转发量最高的文章图表可视化方式向学 生 推 荐 感 兴 趣 的文章二、 数据管理数据管理是利用计算机硬件和软件技术对数据进行有效采集、 存储、 处理和应用的过程, 其目的在于充分有效地发挥数据的作用。数据管理包括对结构化数据、 半结构化数据以及非结构化数据的管理( 详见第二章第一节) 。数据管理首先要进行数据采集, 对数据需求分析中需要输入的数据进行采集, 即需要明确数据来源, 并利用合理的方式有目的地采集数据, 这是保证数据管理与分析过程正确有效的基础。例如, 在学生社团网站中, 需要采集一

31、周发布的所有文章的数据, 这些数据可以从学生社团网站的数据库中导出。但是, 如果没有权限, 那么也可以编写网络爬虫程序从该网站上采集。采集数据时, 应该在保证数据安全可靠的前提下, 使采集到的数据尽可能全面、 客观、 具体、 准确。采集到的数据经过整理后需要进行存储和管理。目前, 常用的数据管理方式是应用数据库管理数据。数据库可以对数据进行操作、 备1 1 华东师范大学出版社数据管理与分析份, 并进行数据并发控制、 安全性管理。除此以外, 数据也可以通过文件系统进行管理。例如, 可以利用分布式文件系统管理大数据。分布式文件系统是指文件系统管理的数据不一定在本地计算机上, 这些数据可能存储在通过

32、计算机网络连接的其他计算机上。项目实践学生社团网站数据管理将从学生社团网站中采集到的文章数据保存在一张二维表中, 请思考该表应该包括哪些列并填写表1. 10 。表 1 . 1 0 文章数据表123文章编号文章标题文章内容为学生社团网站用户推荐他们可能感兴趣的文章, 需要生成用户文章评分数据, 用户对文章的评分越高, 表示用户对这篇文章越感兴趣。某篇文章的评分数据是从各个用户对该篇文章的浏览、 转发、 评论、 收藏、 点赞等行为数据中统计得到的。这些数据也可以保存在二维表中, 在数据库中进行管理。表 1. 11是用户对文章的访问数据表, 包括浏览、 转发、 评论、 收藏和点赞数据。表中的“ 是”

33、 表示用户进行了某种行为,例如表中的第一条数据表示用户 a没有浏览过文章 0 0 0 1, 也就没有转发、 评论、 收藏、 点赞等行为, 第二条数据表示用户 a浏览、 评论并且收藏了文章 0 0 0 2 。根据表 1. 11, 可以计算各用户对文章的评分, 计算规则如下: 用户对某篇文章的初始评分为 0 , 用户对该文章的浏览、 转发、 评论、 收藏和点赞的每个行为各计 1分, 用户对某篇文章的最高评分为 5分, 如果用户没有浏览过该文章, 那么评分为 0 。请根据表 1. 11计算出用户 ae对文章 0 0 0 10 0 0 5的评分并填入表 1. 12 。表 1 . 1 1 用户对文章的访

34、问数据表文章编号用户编号浏览转发评论收藏点赞0 0 0 1a 0 0 0 2a是 是是 0 0 0 3a是是是 是0 0 0 4a是是是是是0 0 0 5a 0 0 0 1b是 是0 0 0 2b 0 0 0 3b是 1 2华东师范大学出版社第一章数据管理与分析初步(续 表)文章编号用户编号浏览转发评论收藏点赞0 0 0 4b是 是0 0 0 5b 0 0 0 1c是 0 0 0 2c 0 0 0 3c是是是 0 0 0 4c是 0 0 0 5c是是是是 0 0 0 1d是 是是是0 0 0 2d是 是 是0 0 0 3d是 0 0 0 4d 0 0 0 5d是 0 0 0 1e是 是0 0

35、0 2e是是是 是0 0 0 3e 0 0 0 4e 0 0 0 5e是是是是是表 1 . 1 2 用户文章评分表文章 0 0 0 1文章 0 0 0 2文章 0 0 0 3文章 0 0 0 4文章 0 0 0 5用户 a用户 b用户 c用户 d用户 e三、 数据分析数据分析需要将采集到的数据进行整理、 加工, 然后再进行分析并转化为信息, 帮助决策者进行科学决策。由于被分析的数据往往1 3 华东师范大学出版社数据管理与分析有多个来源, 并且数据类型多种多样, 因此在分析前需要对数据进行预处理和整理, 然后设计合理高效的数据分析方法, 再利用数据分析工具对数据进行深入分析, 并将分析结果可视化

36、, 以图表形式直观、 美观、 清晰地展示给用户。数据分析具有较强的专业性, 目前普遍应用的数据分析工具中, 以开源软件为主的有P y t h o n语言、R语言等。数据分析方法多种多样, 需要根据数据的特征、 数据量大小以及数据需求设计有效的数据分析方法。传统的数据分析主要使用数据统计技术, 即从数据中抽取样本, 通过统计方法对数据进行排序、 筛选、 汇总、 统计等处理, 从而得出一些有意义的结论。但是在面对巨大的数据量和计算量时, 许多传统统计方法显得无能为力。这就需要使用新的数据分析方法, 例如应用数据挖掘技术。数据挖掘可以利用算法帮助人们从大量的数据中提取隐藏的、 人们事先不知道但是又潜

37、在有用的信息。例如: 关联规则挖掘算法可以从在线购物网站的大量订单数据中发现商品的潜在规则; 协同过滤推荐算法可以从数据中发现购买者的消费行为, 从而向购买者进行商品个性化推荐等。在实际应用中, 需要根据解决问题的不同, 合理地应用数据分析方法, 这样才能得到有效的分析结果, 为科学决策提供支持。项目实践学生社团网站数据分析请利用数据分析中常用的统计分析法分别找出浏览量最高、 评论量最高、 转发量最高的文章。首先,需要将各篇文章的浏览量、 评论量、 转发量这些数据计算出来。请根据表 1. 11统计出文章 0 0 0 10 0 0 5的浏览量、 评论量、 转发量, 并填入表 1. 13 。表 1

38、 . 1 3 文章关注度数据表文章编号浏览量(次)评论量(条)转发量(次)0 0 0 10 0 0 20 0 0 30 0 0 40 0 0 51 4华东师范大学出版社第一章数据管理与分析初步 在采集各篇文章的浏览量、 评论量和转发量数据时, 通常还需要采集文章的发布日期和时间, 这样可以分时间段统计出每天、 每周、 每月浏览量最高的文章、 评论量最高的文章、 转发量最高的文章。例如, 对文章数据表( 详见素材库, 表 1. 14所示为其一部分) 中的数据, 运用数据分析工具统计出一周内( 6月 4日至 6月 10日) 每天浏览量最高的文章, 并通过图表可视化方式展现, 如图 1. 5所示。表

39、 1 . 1 4 文章数据表( 部分)发布日期文章编号浏览量(次)评论量(条)转发量(次)发布时间6月 4日0 0 0 112 01092 3 : 176月 4日0 0 0 23 6 03 02 62 2 : 3 26月 4日0 0 0 32 102 72 62 1: 3 26月 4日0 0 0 442 0494714: 536月 4日0 0 0 513 0141313 : 3 86月 4日0 0 0 6140141313 : 0 86月 4日0 0 0 71702 11910 : 3 86月 4日0 0 0 819016168 : 546月 4日0 0 0 92 1016158 : 536月

40、 4日0 0 102 3 02 72 77: 3 76月 5日0 0 1110 011102 2 : 3 46月 5日0 0 128 2 06 1532 2 : 186月 5日0 0 132 8 03 33 22 2 : 186月 5日0 0 143 0 08 73 92 2 : 176月 5日0 0 1513 0161419: 3 36月 5日0 0 1612 09719: 196月 5日0 0 173 0 0493 717: 3 26月 5日0 0 1811011917: 3 26月 5日0 0 191107617: 186月 5日0 0 2 0170191713 : 0 46月 5日0

41、0 2 118 02 42 311: 3 56月 5日0 0 2 23 6 0493 99: 3 26月 5日0 0 2 36 3 9788 07: 3 16月 5日0 0 2 417015133 : 166月 5日0 0 2 51183 2 51131: 0 11 5 华东师范大学出版社数据管理与分析图 1 . 5 单日最大浏览量对比图请你对文章数据表中的数据进行数据分析, 分别找出 6月 4日至 6月 10日间每天评论量最高、 转发量最高的文章, 并用图表展现。然后, 通过分析结果观察浏览量最高的文章是否也是评论量最高或者转发量最高的文章, 思考这三个数据之间有没有什么关系。探究活动上述统

42、计方法可以帮助我们直观了解每天最受关注的活动文章, 但是没有办法为学生推荐其可能感兴趣的文章。通常可以利用推荐算法来进行文章的个性化推荐。推荐算法通过分析用户对物品的评分数据, 推测出用户可能喜欢的物品。例如, 利用推荐算法可以进行在线网络购物系统中的商品推荐、 云音乐软件中的音乐推荐、 新闻网站中的新闻推荐等。推荐算法主要包括协同过滤推荐算法、 基于内容的推荐算法、 基于知识的推荐算法以及混合推荐算法。以基于物品的协同过滤推荐算法为例, 在在线购物系统中, 该算法可以根据用户浏览或购买过的物品的记录, 向用户推荐与之相似的物品。该算法首先通过用户对浏览或购买过的物品的评分, 计算出物品之间的

43、相似度, 再根据物品的相似度和用户行为, 预测用户对没有浏览或没有购买过的物品的评分。用户是否喜欢一个物品通过评分表示, 评分越高表示用户越喜欢这个物品, 因此可以推荐预测评分高的物品给用户。例如, 根据表 1. 11可知用户 a没有浏览过文章 0 0 0 1和 0 0 0 5, 因此在表 1. 12用户文章评分表中, 用户a对文章 0 0 0 1和 0 0 0 5的评分均为 0 。应用基于物品的协同过滤推荐算法可以预测用户 a对文章 0 0 0 1和0 0 0 5的评分, 预测评分高的文章可能就是用户更关注的文章。因此, 可以优先选择预测评分高的文章向用户 a推荐。通过推荐算法这种数据分析方

44、法, 不仅可以实现文章的个性化推荐, 而且由于网站用户更容易找到自己关注的文章, 所以也将提高文章的浏览量和转发量。请以实现学生社团网站的文章个性化推荐为目标, 分组调研一种具体的推荐算法及其实现过程, 讨论并学习推荐算法如何向不同的网站用户推荐他们可能感兴趣的文章。1 6华东师范大学出版社第一章数据管理与分析初步四、 数据管理与分析方案的评价和优化方案评价和优化贯穿于数据管理与分析方案的整个过程中, 在每个环节完成后都应该进行该环节的方案评价, 如果发现问题, 需要立即进行改进和优化。如果整个方案完成后才进行评价和优化, 那么一旦中间某个环节有问题, 将会导致该环节以及其后各环节的方案都需要

45、进行修改。例如, 数据需求分析完成后应该随即进行评价和优化,如果发现问题, 可以针对问题进行改进和优化, 直至没有问题后再进行数据采集。方案评价和优化需要根据不同的应用展开。针对不同的过程, 评价和优化的方法有多种, 主要可以从以下四个方面进行评价: 1 . 数据需求目标评价数据需求分析是否可以解决需要解决的问题, 是否可以达到既定目标。2 . 数据真实性和有效性评价(1) 采集数据的目的是否明确。(2) 数据来源以及采集到的数据是否全面、 是否真实可信、 是否完整、 是否合乎法律和伦理要求。3 . 方案合理和有效性评价(1) 数据管理方案是否合理、 是否具有扩展性, 数据库管理系统选择是否合

46、适。(2) 数据分析方法是否正确高效、 是否选择了有效的数据分析工具, 分析结果是否可以为用户提供服务和决策支持。4 . 方案安全性和风险性评价整个数据管理与分析方案是否将风险控制在可接受的范围内, 是否符合相关法律法规、 标准规范以及伦理要求。1 7 华东师范大学出版社数据管理与分析体验思考学生社团网站数据管理与分析方案的评价和优化不同应用和解决方案的评价方法不同。一般情况下, 首先需要对采集数据的真实性、 有效性进行评价。例如, 在浏览文章时, 有些用户可能因点击错误而打开了文章页面, 或者打开页面后发现自己不感兴趣而立即关闭页面。在提取用户浏览数据时, 如果根据用户是否打开文章页面来统计

47、, 则可能和真实的用户行为有偏差。因此, 可以对数据采集方式进行优化, 采集用户在页面上的停留时间来判断用户是否浏览了该文章。在数据管理方案评价和优化中, 经常需要对数据组织进行评价。例如, 为了提高数据表的规范性和数据完整性, 需要对表的结构进行评价和优化。在数据分析方案优化方面, 就学生社团网站而言, 考虑到只对每天浏览量最高的文章进行统计不够全面, 还可以改进方案, 对每天浏览量排名前三或者前五的文章进行统计分析。对于学生社团网站的数据管理与分析方案, 除了以上的评价和优化, 请分组讨论是否还有其他的评价方法, 并尝试对方案进行评价。如果发现了问题, 请思考可以用哪些方法对方案进行优化。

48、五、 科学决策在信息社会中, 决策者改变了只依靠知识、 经验、 思想来决策的传统方式, 他们更多地依靠数据分析的结果来进行科学决策, 增强了决策的科学性。科学决策并不直接使用数据, 而是以数据分析后提取出来的信息为支撑。例如, 企业可以通过科学的数据分析方法将产品数据、 市场数据、 用户数据、 项目财务数据等数据转化为可利用的信息,以有利于制定精准的营销方案。又如, 城市公交数据分析平台可以对线路站点客流、 出行时间段特征、 出行次数、 出行距离、 换乘等数据进行综合分析, 判断公交负载效率和营运水平, 从而在线路规划、 高峰大站车安排、 排班调整、 运营时间等方面给出优化建议。作业练习在信息

49、社会, 一切皆可数据化, 包括学生的学习过程。请同学们以小组为单位, 针对在线学习系统中的某一个问题, 设计数据管理与分析方案, 并对其进行评价和优化。1 8华东师范大学出版社第一章数据管理与分析初步知识延伸数据分析的分类数据分析通常可以分为四类, 即描述性分析、 诊断性分析、 预测性分析和规范性分析。1. 描述性分析描述性分析是最常见的一类数据分析, 它主要采用数学统计方法对已经发生的事情进行描述和统计。例如, 一个在线购物网站每个月完成多少订单、 退货多少、 利润多少等。找出学生社团网站中每天浏览量最高的文章也是一种描述性分析。描述性分析的结果通常用数据可视化工具来呈现。2. 诊断性分析通

50、过评估描述型数据, 诊断性分析能够深入分析问题的核心原因, 即回答“ 为什么” 。诊断性分析主要采用关联分析法和因果分析法。例如, 在线购物系统可以对顾客经常一起购买的商品进行关联分析, 从而更了解顾客的购买行为, 进行商品联合促销。对用户浏览过的文章数据进行分析, 推荐他们可能感兴趣的文章, 这也是一种诊断性分析。诊断性分析的基础是描述性分析。3. 预测性分析预测性分析主要采用分类分析、 趋势分析等方法, 通过建立数据模型对未来进行预测。例如, 企业对消费者未来的消费趋势进行预测, 企业根据商品的历史销售量预测未来销售量等。预测性分析的基础是描述性分析和诊断性分析。4. 规范性分析规范性分析

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 教育专区 > 高中资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报