互联网大数据ppt第3章做好数据预处理的实战方法.pptx

资源描述

1、第3章做好数据预处理的实战方法3.1 数据预处理概述3.1 数据预处理概述3.3 数据集成与数据转换实战方法3.3 数据集成与数据转换实战方法3.5 数据预处理实战案例分析3.1 数据预处理概述3.1.1 数据预处理的目的数据预处理(DataPreprocessing)主要是为了保证数据的质量，包括确保数据的准确性、完整性和一致性。其目的具体包括以下三个方面。(1)把数据转换成可视化更直观的，便于分析、传送或进一步处理的形式。(2)从大量的原始数据中抽取部分数据，推导出对人们有价值的信息以作为行动和决策的依据。(3)利用计算机科学地保存和管理经过处理(如校验、整理等)的大量数据，这样更方便人们

2、充分地利用这些宝贵的信息资源。第3章做好数据预处理的实战方法3.1 数据预处理概述3.1.2 数据预处理的方法1.数据清理在数据产生的过程中会出现很多的噪声数据和无关数据，这些数据都需要清理掉。并且要处理遗漏和清洗脏数据、空缺值等。2.数据集成在大数据中，将多源数据进行数据集成，然后根据需要将数据转换为适于处理的形式进行学习，以发现其中隐藏的潜在模式与规律，这就是数据集成与数据转换。3.数据变换数据变换主要是对数据进行规范化处理，达到适用于挖掘的目的。4.数据规约数据规约是指将元组按语义层次结构合并。语义层次结构定义了元组属性值之间的语义关系。第3章做好数据预处理的实战方法3.2 从问题分析到

3、数据清洗实战策略3.2.1 数据清洗的步骤1.预处理阶段(1)把数据导入处理工具。(2)看数据。2.缺失值的清洗缺失值是很常见的数据问题。一般来说，处理缺失值的方法步骤如下。(1)确定缺失值的范围。(2)去除不需要的字段。(3)填充缺失内容。(4)重新取数。第3章做好数据预处理的实战方法3.2 从问题分析到数据清洗实战策略3.2.1 数据清洗的步骤3.格式内容的清洗1)时间、日期、数值、全半角等显示格式不一致2)内容中有不该存在的字符3)内容与该字段应有内容不符4.逻辑错误的清洗逻辑错误的清洗主要包括以下几种情形。1)去重2)去除不合理值3)修正矛盾内容第3章做好数据预处理的实战方法3.2 从

4、问题分析到数据清洗实战策略3.2.1 数据清洗的步骤5.非需求数据的清洗这类问题主要就是把不要的数据进行清除。在处理这类数据时容易出现的问题有：误把看起来不需要而实际对业务很重要的字段删除；不确定某个字段是否该删；看错而导致删错字段。针对问题、，通常尽量不做删除，除非数据量特别大而导致必须删除才可进行数据处理；对问题主要是经常备份数据。6.关联性验证关联性验证针对多个来源的数据。多个来源的数据整合工作比较复杂，我们一定要注意数据之间的关联性，尽量在分析过程中警觉数据之间的互相矛盾问题。第3章做好数据预处理的实战方法3.2 从问题分析到数据清洗实战策略3.2.2 缺失值的识别与处理技巧缺失值产生

5、的原因包括机械原因和人为原因。(1)机械原因是因为机械方面的因素导致的数据收集或保存的失败造成的数据缺失，例如数据存储的失败、存储器损坏、机械故障导致某段时间数据未能收集(对于定时数据采集而言)。(2)人为原因是因为人的主观失误、历史局限或有意隐瞒造成的数据缺失，例如在市场调查中被访人隐藏相关问题的答案，或者回答的问题是无效的，以及数据录入人员失误漏录了数据等。第3章做好数据预处理的实战方法3.2 从问题分析到数据清洗实战策略3.2.2 缺失值的识别与处理技巧1.缺失值的识别R语言对缺失值的识别方法如下。(1)根据向量类型判断缺失值的is.na函数和用于缺失值填补的which函数。(2)根据数

6、据框类型判断缺失值的is.na函数、用于缺失值填补的which函数、用于删除缺失值所在行的na.omit函数。(3)识别缺失值的基本语法汇总。(4)探索缺失值的模式。第3章做好数据预处理的实战方法3.2 从问题分析到数据清洗实战策略3.2.2 缺失值的识别与处理技巧2.缺失值的处理1)删除存在缺失值的个体或变量2)估计缺失值3)建立哑变量第3章做好数据预处理的实战方法3.2 从问题分析到数据清洗实战策略3.2.3 异常值的判断、检验与处理异常值(Outlier)是指一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值，称为高度异常的异常值。1.异常值的判断判断

7、异常值的规则有以下两种。(1)标准差已知奈尔(Nair)检验法。(2)标准差未知格拉布斯(Grubbs)检验法(参见以下讲解)和狄克逊(Dixon)检验法。2.异常值的检验1)格拉布斯检验法2)根据正态分布判断异常值3)根据箱形图判断异常值4)在回归线附近判断异常值5)根据库克距离判断异常值第3章做好数据预处理的实战方法3.3 数据集成与数据转换实战方法3.3.1 数据集成常见方法1.使用联邦数据库联邦数据库是早期人们采用的一种模式集成方法。模式集成是人们最早采用的数据集成方法。模式集成要解决以下两个基本问题：(1)构建全局模式与数据源数据视图间的映射关系；(2)处理用户在全局模式基础上的查询

8、请求。第3章做好数据预处理的实战方法联邦数据库系统结构3.3 数据集成与数据转换实战方法3.3.1 数据集成常见方法2.中间件集成方法中间件集成方法是目前比较流行的数据集成方法，中间件模式通过统一的全局数据模型来访问异构的数据库、遗留系统、Web资源等。3.数据仓库方法数据仓库方法是一种典型的数据复制方法，该方法将各个数据源的数据复制到同一处，即数据仓库。用户则像访问普通数据库一样直接访问数据仓库第3章做好数据预处理的实战方法基于中间件的数据集成模型3.3 数据集成与数据转换实战方法3.3.1 数据集成常见方法2.中间件集成方法中间件集成方法是目前比较流行的数据集成方法，中间件模式通过统一的全

9、局数据模型来访问异构的数据库、遗留系统、Web资源等。3.数据仓库方法数据仓库方法是一种典型的数据复制方法，该方法将各个数据源的数据复制到同一处，即数据仓库。用户则像访问普通数据库一样直接访问数据仓库第3章做好数据预处理的实战方法基于中间件的数据集成模型基于数据仓库的数据集成模型3.3 数据集成与数据转换实战方法3.3.2 数据转换过程中的离散化1.有监督的卡方分箱法有监督的卡方分箱法(ChiMerge)是自底向上的(即基于合并的)数据离散化方法，其依赖于卡方检验：具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则。1)基本思想对于精确的离散化，相对类频率在一个区间内应当一致。2)确定

10、卡方阈值根据显著性水平和自由度得到卡方值自由度比类别数量小13)阈值的意义类别和属性独立时，有90%的可能性，计算得到的卡方值会小于4.6，而大于阈值4.6的卡方值就说明属性和类不是相互独立的，不能合并。如果阈值选得大，区间合并就会进行很多次，离散后的区间数量少、区间大。2.无监督分箱法无监督分箱法可分为等频分箱和等距分箱。第3章做好数据预处理的实战方法3.4 数据的特征选择3.4.1 常用数据特征选择方法特征选择主要的功能包括：减少特征数量、降维，使模型泛化能力增强，减少过拟合；增强对特征和特征值之间的理解。常用的数据特征选择方法有以下几种。1.Filter(过滤式)方法(1)方法思想：对每

11、一维特征“打分”，即给每一维的特征赋予权重，这样的权重就代表着该特征的重要性，然后依据权重排序。(2)先进行特征选择，然后去训练学习器，所以特征选择的过程与学习器无关。(3)主要方法有三种：Chi-squaredtest(卡方检验)、Informationgain(信息增益)(详见6.3.1节中决策树ID3算法的讲解)、Correlationcoefficientscores(相关系数)。第3章做好数据预处理的实战方法3.4 数据的特征选择3.4.1 常用数据特征选择方法2.Wrapper(包裹式)方法(1)方法思想：将子集的选择看作是一个搜索寻优问题，生成不同的组合，对组合进行评价，再与其他

12、的组合进行比较。(2)把最后要使用的分类器作为特征选择的评价函数，对于特定的分类器选择最优的特征子集。(3)主要方法有：递归特征消除算法。3.Embedded(嵌入式)方法(1)方法思想：在模型既定的情况下学习出对提高模型准确性最好的特征。也就是在确定模型的过程中，挑选出那些对模型的训练有重要意义的特征。(2)简单易学的机器学习算法岭回归(RidgeRegression)，就是线性回归过程加入了L2正则项。第3章做好数据预处理的实战方法3.4 数据的特征选择3.4.1 常用数据特征选择方法4.去掉取值变化小的特征(1)该方法一般用在特征选择前作为一个预处理的工作，即先去掉取值变化小的特征，然后

13、再使用其他特征选择方法选择特征。(2)考察某个特征下样本的方差值，可以认为给定一个阈值，抛弃那些小于某个阈值的特征。(3)例子。离散型变量连续型变量(4)实现例子第3章做好数据预处理的实战方法3.4 数据的特征选择3.4.1 常用数据特征选择方法5.单变量特征选择单变量特征选择方法能够对每一个特征进行测试，衡量该特征与响应变量之间的关系，根据得分扔掉不好的特征。对于回归和分类问题可以采用卡方检验等方式对特征进行测试。1)皮尔森相关系数(PearsonCorrelationCoefficient)法皮尔森相关系数法是一种最简单的，能帮助理解特征和响应变量之间关系的方法。2)互信息和最大信息系数(

14、MutualInformationandMaximalInformationCoefficient)法3)距离相关系数(DistanceCorrelation)法距离相关系数法解决了皮尔森相关系数法的弱点。4)基于学习模型的特征排序(ModelBasedRanking)此方法的思路是直接使用你要用的机器学习算法，针对每个单独的特征和响应变量建立预测模型。第3章做好数据预处理的实战方法3.4 数据的特征选择3.4.1 常用数据特征选择方法6.线性模型和正则化单变量特征选择方法独立地衡量每个特征与响应变量之间的关系，另一种主流的特征选择方法是基于机器学习模型的方法。在很多实际的数据当中，往往存在多

15、个互相关联的特征，这时候模型就会变得不稳定，数据中细微的变化就可能导致模型的巨大变化(模型的变化本质上是系数，或者叫参数，可以理解成W)，这会让模型的预测变得困难，这种现象也称为多重共线性。1)正则化模型2)L1正则化/LassoRegression(Lasso回归)3)L2正则化/RidgeRegression(岭回归)第3章做好数据预处理的实战方法3.4 数据的特征选择3.4.1 常用数据特征选择方法7.随机森林随机森林具有准确率高、鲁棒性好、易于使用等优点，这使得它成为目前最流行的机器学习算法之一。随机森林提供了两种特征选择的方法：平均不纯度减少(meandecreaseimpurity

16、)和平均精确度减少(meandecreaseaccuracy)。1)平均不纯度减少法2)平均精确度减少法第3章做好数据预处理的实战方法3.4 数据的特征选择3.4.2 Relief算法与费希尔判别法的应用1.Relief算法Relief算法最早由基拉(Kira)提出，最初局限于两类数据的分类问题。Relief算法是一种特征权重算法，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。2.ReliefF算法该算法用于处理目标属性为连续值的回归问题。ReliefF算法在处理多类问题时，每次从训练样本集中

17、随机取出一个样本R，然后从和R同类的样本集中找出R的k个近邻样本(NearHits)，从每个R的不同类的样本集中均找出k个近邻样本(NearMisses)，然后更新每个特征的权重，第3章做好数据预处理的实战方法3.4 数据的特征选择3.4.2 Relief算法与费希尔判别法的应用3.费希尔判别法费希尔判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法。费希尔判别法是一种投影方法，把高维空间的点向低维空间投影。关于费希尔判别法的步骤介绍如下。1)两个总体的费希尔判别函数2)多个总体的费希尔判别函数第3章做好数据预处理的实战方法3.5 数据预处理实战案例分析本案例的目的是对虎嗅

18、网站数据进行预处理。1.案例分析目的本案例中的分析目的包括以下4个。(1)对虎嗅网内容运营方面的若干分析，主要是对发文量、收藏量、评论量等方面的描述性分析。(2)通过文本分析，对互联网行业的一些人、企业和细分领域进行趣味性的分析。(3)展现文本挖掘在数据分析领域的实用价值。(4)将杂芜无序的结构化数据和非结构化数据进行可视化，展现数据之美。第3章做好数据预处理的实战方法3.5 数据预处理实战案例分析本案例的目的是对虎嗅网站数据进行预处理。2.分析方法本案例采用的数据分析工具如下：(1)Python3.5.2(编程语言)；(2)Gensim(词向量、主题模型)；(3)Scikit-Learn(用

19、于聚类和分类)；(4)Keras(深度学习框架)；(5)Tensorflow(深度学习框架)；(6)Jieba(用于分词和关键词提取)；(7)Excel(用于可视化)；(8)Seaborn(用于可视化)；(9)Bokeh(用于可视化)；(10)Gephi(用于网络可视化)；(11)Plotly(用于可视化)。第3章做好数据预处理的实战方法3.5 数据预处理实战案例分析本案例的目的是对虎嗅网站数据进行预处理。3数据采集和数据预处理1)数据采集使用爬虫采集来自虎嗅网主页的文章，数据采集的时间区间为2012.052017.11，共计41121篇。2)数据预处理(1)文本分词。(2)去停用词。(3)去掉高频词、稀有词，计算Bigrams。4描述性分析1)发文数量、评论量和收藏量的变化走势2)相关性分析3)城市提及分析第3章做好数据预处理的实战方法3.5 数据预处理实战案例分析本案例的目的是对虎嗅网站数据进行预处理。5文本挖掘文本挖掘(在文本数据库中也称为文本数据挖掘或者知识发现)是从大量无结构的数据中提炼出模式，也就是有用的信息或知识的半自动化过程。1)关键词提取2)ATM(Author-TopicModel，作者-主题模型)3)词向量、关联词分析4)对互联网百强公司旗下品牌的词聚类与词分类第3章做好数据预处理的实战方法感谢观看

展开阅读全文