收藏 分享(赏)

互联网大数据ppt第4章数据相关性分析与回归分析的黄金法则.pptx

上传人:bubibi 文档编号:20014325 上传时间:2023-12-02 格式:PPTX 页数:21 大小:597.16KB
下载 相关 举报
互联网大数据ppt第4章数据相关性分析与回归分析的黄金法则.pptx_第1页
第1页 / 共21页
互联网大数据ppt第4章数据相关性分析与回归分析的黄金法则.pptx_第2页
第2页 / 共21页
互联网大数据ppt第4章数据相关性分析与回归分析的黄金法则.pptx_第3页
第3页 / 共21页
互联网大数据ppt第4章数据相关性分析与回归分析的黄金法则.pptx_第4页
第4页 / 共21页
互联网大数据ppt第4章数据相关性分析与回归分析的黄金法则.pptx_第5页
第5页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第4章数据相关性分析与回归分析的黄金法则4.1 什么是数据集4.2 做好数据相关性分析4.3 做好数据回归分析实战要领4.1 什么是数据集4.1.1 数据集的概念与常见类型1.数据集的概念数据集(Dataset),又称作资料集、数据集合或资料集合,是由数据所组成的集合。数据集是一个数据的集合,通常是以表格的形式出现,每一列代表一个特定变量,每一行都对应于某一成员的数据集的每一个变量。2.数据集的类型1)Iris数据集在模式识别文献中,Iris数据集是最通用也是最简单的数据集。要学习分类技术,Iris数据集绝对是最方便的途径。该数据集只有4列150行。典型问题:在可用属性基础上预测花的类型。第4

2、章数据相关性分析与回归分析的黄金法则2)泰坦尼克数据集泰坦尼克数据集也是全球数据科学殿堂中出镜率最高的数据集之一。该数据集更重视分类问题,共有12列891行。典型问题:预测泰坦尼克号上生还的幸存者人数。3)贷款预测数据集在所有行业中,保险业对数据的倚重最为明显,预测数据集可以让保险公司更好地面对各种挑战和出现的问题。该数据集共有13列615行。典型问题:预测贷款申请能否得到批准或通过。4)大市场销售数据集在客户群体中零售业对数据分析的使用程度也越来越大,对数据的需求也是日趋明显。该数据集共有12列8523行。典型问题:预测销售情况。第4章数据相关性分析与回归分析的黄金法则5)波士顿数据集波士顿

3、数据集也是模式识别文献中的典型数据集,该数据集得名是因为波士顿的房地产行业,同时它也是一个回归问题。该数据集共有14列8506行。典型问题:预测房屋售价的中间值。6)进阶级别的数据集(1)人类活动识别数据集。该数据集是由几十个受试人智能手机内置的传感器收集来的。在许多机器学习课程中该数据集是学生联手的重要助手。该数据集属于多标记分类问题,共有561列10299行。典型问题:预测人类活动的类别。(2)“黑五”数据集。该数据集主要是由零售店的交易记录组成的,它在数据集界资格很老,可以帮助商家了解自己商店每天的购物体验。“黑五”数据集也是个回归问题,它共有12列550069行。典型问题:预测消费者购

4、物量。第4章数据相关性分析与回归分析的黄金法则(3)文本挖掘数据集。该数据集包含航空公司飞行数据中关于航空安全问题的报告,属于多标记分类的高维问题。它共有30438列21519行。典型问题:根据标签为文档分类。(4)访问历史数据集。该数据集来源于美国的一个单车分享服务。该数据集2010年第四季度开始每季度都会总结出一个新文档,每个文档拥有7列。它属于典型的分类问题。典型问题:预测用户的类型。(5)百万歌曲数据集。在娱乐业中也有用到此项技术,该数据集能帮你完成回归问题。它包括515345个观察值和90个变量。只不过,这还只是百万首歌曲数据库中的一个小子集。典型问题:预测发行歌曲的最佳年份。第4章

5、数据相关性分析与回归分析的黄金法则(6)人口收入数据集。该数据集属于非平衡数据分类和机器学习问题。众所周知,机器学习在解决非平衡问题上效果显著,它可以执行癌症和欺诈检测等任务。该数据集共有14列48842行。典型问题:预测美国人的收入阶层。(7)电影镜头数据集。利用该数据集,你能搭建一个推荐引擎。同时,该数据集也是数据科学行业的老兵之一,它可运用在许多领域。它的数据量相当庞大,共有4000部电影和6000多位用户发出的超过100万个评分。典型问题:为用户推荐新电影。第4章数据相关性分析与回归分析的黄金法则4.1 什么是数据集4.1.2 高效进行数据度量的实战技巧1.创建快速度量(1)在Powe

6、rBIDesktop中创建快速度量(2)选择“新建快速度量值”命令后将显示“快速度量”对话框,随即可以选择所需计算,以及要对其运行计算的字段。(3)选择“选择计算”字段,查看一长串的可用快速度量,(4)选择要用于快速度量的计算和字段后,单击“确定”按钮。新建的快速度量将显示在“字段”窗格中,而基础DAX公式显示在“公式”栏中。第4章数据相关性分析与回归分析的黄金法则选择“新建快速度量值”命令在“快速度量”对话框中选择“选择计算”字段4.1 什么是数据集4.1.2 高效进行数据度量的实战技巧2.快速度量的应用(1)选择矩阵视觉对象,在“值”框中单击TotalSales旁边的下拉箭头,然后在弹出的

7、下拉列表中选择“新建快速度量”选项。(2)在“快速度量”对话框的“计算”下拉列表框中,选择“每个类别的平均值”选项。(3)将AverageUnitPrice从“字段”窗格拖到“基值”字段,将“类别”字段保留为Category,然后单击“确定”按钮。(4)单击“确定”按钮后,可以看到:矩阵视觉对象有一个新列,其中显示已计算的AverageUnitPriceaverageperCategory;新建的快速度量的DAX公式显示在公式栏中;新建的快速度量在“字段”窗格中以选中和高亮显示状态显示。第4章数据相关性分析与回归分析的黄金法则4.1 什么是数据集4.1.2 高效进行数据度量的实战技巧3.使用快

8、速度量了解DAX快速度量的一个强大优点在于显示了实现度量值的DAX公式。选择“字段”窗格中的快速度量后将显示公式栏,其中显示了PowerBI为实现此度量值而创建的DAX公式。4.快速度量使用限制和注意事项(1)你可以在报表的任何视觉对象中使用添加到“字段”窗格的快速度量。(2)选择“字段”列表中的度量值,然后查看公式栏中的公式,可以随时查看与快速度量相关联的DAX。(3)如果能够修改模型,快速度量才可使用;如果使用某些实时连接,则不适用。(4)在DirectQuery模式下工作时,无法创建时间智能快速度量,这些快速度量中使用的DAX函数在转换为发送到数据源的T-SQL语句时会影响性能。第4章数

9、据相关性分析与回归分析的黄金法则4.1 什么是数据集4.1.2 高效进行数据度量的实战技巧5.时间智能和快速度量可以将自己的自定义日期表与时间智能快速度量配合使用。如果使用的是外部表格模型,请确保在生成模型时,此表中的主日期列被标记为“日期”表。如果要导入自己的日期表,请确保将其标记为“日期”表。第4章数据相关性分析与回归分析的黄金法则4.2 做好数据相关性分析4.2.1 进行数据相关性分析的作用在我们的工作中,会有一个这样的场景:有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,也可能是没有关联。因此,进行数据相关性分析的作用就是把这种关联性进行定

10、量对数据进行分析,从而给我们的决策提供支持。第4章数据相关性分析与回归分析的黄金法则4.2 做好数据相关性分析4.2.2 常用的数据相关分析方法数据分析的方法有很多,初级的方法如正相关、负相关或不相关;中级的方法如完全相关、不完全相关等;高级的方法可以将数据间的关系转化为模型,并通过模型对未来的业务发展进行预测。1.图表相关分析(折线图及散点图)1)折线图第一种相关分析方法是将数据进行可视化处理,简单地说就是绘制图表。为了更清晰地对比这两组数据的变化和趋势,我们使用双坐标轴折线图,第4章数据相关性分析与回归分析的黄金法则双坐标轴折线图2)散点图散点图比折线图更直观。散点图去除了时间维度的影响,

11、只关注广告曝光量和费用成本这两组数据间的关系。第4章数据相关性分析与回归分析的黄金法则散点图4.2 做好数据相关性分析4.2.2 常用的数据相关分析方法2.协方差及协方差矩阵第二种相关分析方法是计算协方差。协方差用来衡量两个变量的总体误差:如果两个变量的变化趋势一致,协方差就是正值,说明两个变量正相关;如果两个变量的变化趋势相反,协方差就是负值,说明两个变量负相关;如果两个变量相互独立,那么协方差就是0,说明两个变量不相关。3.相关系数第三个相关分析方法是相关系数。相关系数(CorrelationCoefficient)是反映变量之间关系密切程度的统计指标。相关系数的取值区间在1到-1之间:1

12、表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0表示相关关系越弱。第4章数据相关性分析与回归分析的黄金法则4.2 做好数据相关性分析4.2.2 常用的数据相关分析方法4.一元回归及多元回归回归分析(RegressionAnalysis)是确定两组或两组以上变量间关系的统计方法。回归分析按照变量的数量分为一元回归和多元回归。两个变量使用一元回归,两个以上变量使用多元回归。进行回归分析之前有两个准备工作:确定变量的数量;确定自变量和因变量。我们的数据中只包含广告曝光量和费用成本两个变量,因此使用一元回归5.信息熵及互信息实际工作中影响最终效果的因素可能有很

13、多,并且不一定都是数值形式。度量文本特征值之间相关关系的方法就是互信息。通过这种方法我们可以发现哪一类特征与最终的结果关系密切。1)信息熵的计算2)条件熵的计算3)互信息的计算第4章数据相关性分析与回归分析的黄金法则4.3 做好数据回归分析实战要领4.3.1 数据回归分析方法概述1.线性回归线性回归是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的少数几种技术之一。线性回归的要点如下:(1)自变量与因变量之间必须有线性关系。(2)多元回归存在多重共线性、自相关性和异方差性。(3)线性回归对异常值非常敏感。它会严重影响回归线,最终影响预测值。(4)多重共线性会增加系数估计值的方

14、差,使得估计值对于模型的轻微变化异常敏感,结果就是系数估计值不稳定。(5)在存在多个自变量的情况下,我们可以使用向前选择法、向后剔除法和逐步筛选法来选择最重要的自变量。第4章数据相关性分析与回归分析的黄金法则4.3 做好数据回归分析实战要领4.3.1 数据回归分析方法概述2.逻辑回归逻辑回归可用于发现“事件=成功”和“事件=失败”的概率。逻辑回归的要点如下:(1)逻辑回归广泛用于分类问题。(2)逻辑回归不要求自变量和因变量存在线性关系。(3)为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。(4)逻辑回归需要较大的样本量。(

15、5)自变量之间应该互不相关,即不存在多重共线性。(6)如果因变量的值是定序变量,则称它为序逻辑回归。(7)如果因变量是多类的话,则称它为多元逻辑回归。第4章数据相关性分析与回归分析的黄金法则4.3 做好数据回归分析实战要领4.3.1 数据回归分析方法概述4.逐步回归在处理多个自变量时,我们可以使用逐步回归。最常用的逐步回归方法:(1)标准逐步回归法。(2)向前选择法。(3)向后剔除法。5.岭回归当数据之间存在多重共线性(自变量高度相关)时,就需要使用岭回归分析。岭回归通过给回归估计值添加一个偏差值,来降低标准误差。岭回归和线性回归方程一样,也有一个误差项。岭回归的要点如下:(1)除常数项以外,

16、岭回归的假设与最小二乘回归相同;(2)它收缩了相关系数的值,但没有达到零,这表明它不具有特征选择功能;(3)这是一个正则化方法,并且使用的是L2正则化。第4章数据相关性分析与回归分析的黄金法则4.3 做好数据回归分析实战要领4.3.1 数据回归分析方法概述6.套索回归套索回归类似于岭回归,它也会惩罚回归系数的绝对值大小。套索回归与岭回归有一点不同,它使用的惩罚函数是绝对值,而不是平方。这导致惩罚(或等于约束估计的绝对值之和)值使一些参数估计结果等于零。7.ElasticNet回归ElasticNet回归是套索回归和岭回归的组合体。岭回归一般会随机选择其中一个特征,而ElasticNet则会选择

17、其中的两个。同时包含岭回归和套索回归的一个优点是,ElasticNet回归可以在循环状态下继承岭回归的一些稳定性。ElasticNet回归的要点如下:(1)在具有高度相关变量的情况下,它会产生群体效应;(2)选择变量的数目没有限制;(3)它可以承受双重收缩。第4章数据相关性分析与回归分析的黄金法则4.3 做好数据回归分析实战要领4.3.2 数据回归分析所能解决的实际问题1.SIM手机用户满意度与相关变量线性回归分析本示例分析的步骤如下。1)确定变量2)建立预测模型3)进行相关分析4)计算预测误差5)确定预测值2.回归分析在游戏人气分析的实践应用探索线性回归分析需要考虑以下几点。(1)自变量与因变量的关系,是否呈直线,是否一个变量依存于另一个变量的变化程度。如刚才所言,变量之间的地位是不平等的。(2)因变量是否符合正态分布。(3)因变量数值之间是否独立。(4)方差是否齐性。第4章数据相关性分析与回归分析的黄金法则感谢观看

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证 > 计算职称

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报