人工智能PPT第3章数据清洗与特征预处理.ppt-资源下载-文库网

人工智能PPT第3章数据清洗与特征预处理.ppt

1、第第3 3章章数据清洗与特征预处理数据清洗与特征预处理数据清洗数据清洗n在实际的数据集中，通常存在着缺失值、在实际的数据集中，通常存在着缺失值、异常值等噪声数据。数据清洗包括缺失异常值等噪声数据。数据清洗包括缺失值处理、异常数据检测与清除，重复值值处理、异常数据检测与清除，重复值处理等。处理等。缺失缺失值值n采集数据时，由于各种因素导致部分样本的数据特性缺失。采集数据时，由于各种因素导致部分样本的数据特性缺失。缺失值通常以空白，缺失值通常以空白，NaN或其他占位符编码。缺失值处理或其他占位符编码。缺失值处理一般采用如下方法：删除法和数据填充。一般采用如下方法：删除法和数据填充。n删除法：如果

2、某个属性的缺失值过多，可以直接删除整个删除法：如果某个属性的缺失值过多，可以直接删除整个属性。属性。n数据填充：对属性缺失的样本采用其他值，如前后值、中数据填充：对属性缺失的样本采用其他值，如前后值、中位数、均值进行替代。位数、均值进行替代。nsklearn中中 Imputer 类或类或SimpleImputer类处理缺失值。类处理缺失值。imputer在在preprocessing模块，而模块，而SimpleImputer在在sklearn.impute模块中。模块中。异常值异常值n“异常数据异常数据”又称为离群点，具有与其他数据的显著不同。通常检测方法如又称为离群点，具有与其他数据的显著不

3、同。通常检测方法如下所示：下所示：n1）基于邻近度的方法）基于邻近度的方法n通常可以在对象之间定义邻近性度量，异常对象是那些远离其他对象的对象。通常可以在对象之间定义邻近性度量，异常对象是那些远离其他对象的对象。n2）基于密度的方法）基于密度的方法n仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。n3）基于聚类的方法）基于聚类的方法n聚类分析用于发现局部强相关的对象。聚类分析用于发现局部强相关的对象。n一般采用一般采用Z标准化得到的阈值作为判断标准，超过阈值则为异常。标准化得到的阈值作为判断标准，超过阈值则为异常。

4、重复重复值值n重复值的存在会影响数据分析和挖掘结果的准确性。对于重复值的存在会影响数据分析和挖掘结果的准确性。对于重复值的处理，可以使用重复值的处理，可以使用Pandas中的相关方法，如下所中的相关方法，如下所示：示：nduplicated()用于判断重复数据记录用于判断重复数据记录ndrop_duplicates()用于删除重复记录用于删除重复记录特征预处理特征预处理n当多个特征大小相差较大，或者某特征的方差相比其他特征数个数量当多个特征大小相差较大，或者某特征的方差相比其他特征数个数量级，容易影响或支配目标结果。特征预处理就是通过转换函数将这些级，容易影响或支配目标结果。特征预处理就是通过

5、转换函数将这些特征数据转换成适合算法模型的过程。特征数据转换成适合算法模型的过程。方法含义方法名归一化preprocessing.MinMaxScaler标准化preprocessing.StandardScaler鲁棒化Preprocessing.RobustScaler规范化规范化n当数据不符合正态分布、异常值较少的时当数据不符合正态分布、异常值较少的时候，为了让特征具有同等重要性，可以采候，为了让特征具有同等重要性，可以采用规范化用规范化(normalization)将不同规格的数将不同规格的数据转换到同一个规格，即变换到固定的最据转换到同一个规格，即变换到固定的最小最大值的区间小最大值

6、的区间。nSklearn提供提供MinMaxScaler方法进行规范方法进行规范化，具体语法如下所示：化，具体语法如下所示：MinMaxScaler(feature_range=(0,1)规范化规范化from sklearn.preprocessing import MinMaxScalerdef Normalization():#实例化一个转换器类实例化一个转换器类 Normalization=MinMaxScaler(feature_range=(0,1)#范围设置为范围设置为01之间之间 data=90,2,10,40,60,4,15,45,75,3,13,46print(data)#调

7、用调用fit_transform data_Normal=Normalization.fit_transform(data)print(data_Normal)return Noneif _name_=_main_:Normalization()【程序运行【程序运行结果】果】90,2,10,40,60,4,15,45,75,3,13,461.0.0.0.0.1.1.0.83333333 0.5 0.5 0.6 1.标准化标准化n当有些特征的方差过大，会导致无法正确地去学习其当有些特征的方差过大，会导致无法正确地去学习其他特征，标准化用于解决归一化容易受到样本中极大他特征，标准化用于解决归一化容

8、易受到样本中极大或者极小的异常值的影响。数据标准化或者极小的异常值的影响。数据标准化(standardization)将数据按比例缩放到特定区间。将数据按比例缩放到特定区间。n标准化后，所有数据都聚集在标准化后，所有数据都聚集在0附近，方差为附近，方差为1。Sklearn提供提供StandardScaler()实现标准化，确保数实现标准化，确保数据的据的“大小大小”一致，从而利于模型的训练一致，从而利于模型的训练。具体。具体语法语法如下所示：如下所示：StandardScaler(copy,with_mean)标准化标准化import numpy as npfrom sklearn.prepr

9、ocessing import StandardScalerdef Standardization():data_list=1.5,-1.,2.,2.,0.,0.print(矩阵初值为：矩阵初值为：.format(data_list)scaler=StandardScaler()data_Standard=scaler.fit_transform(data_list)print(该矩阵的均值为：该矩阵的均值为：n 该矩阵的标准差为：该矩阵的标准差为：.format(scaler.mean_,np.sqrt(scaler.var_)print(标准差标准化的矩阵为：标准差标准化的矩阵为：.for

10、mat(data_Standard)return None 矩矩阵初初值为：1.5,-1.0,2.0,2.0,0.0,0.0该矩矩阵的均的均值为：1.75-0.5 1.该矩矩阵的的标准差准差为：0.25 0.5 1.标准差准差标准化的矩准化的矩阵为：-1.-1.1.1.1.-1.鲁棒化鲁棒化n当数据包含许多异常值，离群值较多时，使用均值和当数据包含许多异常值，离群值较多时，使用均值和方差缩放不能取得较好效果，可以使用鲁棒性缩放方差缩放不能取得较好效果，可以使用鲁棒性缩放（RobustScaler）进行处理。）进行处理。RobustScaler使用中使用中位数和四分位数进行数据的转换，会直接将异

11、常值位数和四分位数进行数据的转换，会直接将异常值剔剔除除nSklearn提供提供sklearn.preprocessing.RobustScaler()实现鲁棒化实现鲁棒化，语，语法如下所示：法如下所示：RobustScaler(quantile_range,with_centering,with_scaling)鲁棒化鲁棒化from sklearn.preprocessing import RobustScalerX=1.,-2.,2.,-2.,1.,3.,4.,1.,-2.transformer=RobustScaler().fit(X)RobustScaler(quantile_range=(25.0,75.0),with_centering=True,with_scaling=True)print(transformer.transform(X)【程序运行结果】【程序运行结果】0.-2.0.-1.0.0.4 1.0.-1.6

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

人工智能PPT第3章 数据清洗与特征预处理.ppt