ImageVerifierCode 换一换
格式:PPT , 页数:12 ,大小:840KB ,
资源ID:18831112      下载积分:15 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenkunet.com/d-18831112.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(人工智能PPT第3章 数据清洗与特征预处理.ppt)为本站会员(bubibi)主动上传,文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文库网(发送邮件至13560552955@163.com或直接QQ联系客服),我们立即给予删除!

人工智能PPT第3章 数据清洗与特征预处理.ppt

1、第第3 3章章 数据清洗与特征预处理数据清洗与特征预处理数据清洗数据清洗n在实际的数据集中,通常存在着缺失值、在实际的数据集中,通常存在着缺失值、异常值等噪声数据。数据清洗包括缺失异常值等噪声数据。数据清洗包括缺失值处理、异常数据检测与清除,重复值值处理、异常数据检测与清除,重复值处理等。处理等。缺失缺失值值n采集数据时,由于各种因素导致部分样本的数据特性缺失。采集数据时,由于各种因素导致部分样本的数据特性缺失。缺失值通常以空白,缺失值通常以空白,NaN或其他占位符编码。缺失值处理或其他占位符编码。缺失值处理一般采用如下方法:删除法和数据填充。一般采用如下方法:删除法和数据填充。n删除法:如果

2、某个属性的缺失值过多,可以直接删除整个删除法:如果某个属性的缺失值过多,可以直接删除整个属性。属性。n数据填充:对属性缺失的样本采用其他值,如前后值、中数据填充:对属性缺失的样本采用其他值,如前后值、中位数、均值进行替代。位数、均值进行替代。nsklearn中中 Imputer 类或类或SimpleImputer类处理缺失值。类处理缺失值。imputer在在preprocessing模块,而模块,而SimpleImputer在在sklearn.impute模块中。模块中。异常值异常值n“异常数据异常数据”又称为离群点,具有与其他数据的显著不同。通常检测方法如又称为离群点,具有与其他数据的显著不

3、同。通常检测方法如下所示:下所示:n1)基于邻近度的方法)基于邻近度的方法n通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。n2)基于密度的方法)基于密度的方法n仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。n3)基于聚类的方法)基于聚类的方法n聚类分析用于发现局部强相关的对象。聚类分析用于发现局部强相关的对象。n一般采用一般采用Z标准化得到的阈值作为判断标准,超过阈值则为异常。标准化得到的阈值作为判断标准,超过阈值则为异常。

4、重复重复值值n重复值的存在会影响数据分析和挖掘结果的准确性。对于重复值的存在会影响数据分析和挖掘结果的准确性。对于重复值的处理,可以使用重复值的处理,可以使用Pandas中的相关方法,如下所中的相关方法,如下所示:示:nduplicated()用于判断重复数据记录用于判断重复数据记录ndrop_duplicates()用于删除重复记录用于删除重复记录特征预处理特征预处理n当多个特征大小相差较大,或者某特征的方差相比其他特征数个数量当多个特征大小相差较大,或者某特征的方差相比其他特征数个数量级,容易影响或支配目标结果。特征预处理就是通过转换函数将这些级,容易影响或支配目标结果。特征预处理就是通过

5、转换函数将这些特征数据转换成适合算法模型的过程。特征数据转换成适合算法模型的过程。方法含义方法名归一化preprocessing.MinMaxScaler标准化preprocessing.StandardScaler鲁棒化Preprocessing.RobustScaler规范化规范化n当数据不符合正态分布、异常值较少的时当数据不符合正态分布、异常值较少的时候,为了让特征具有同等重要性,可以采候,为了让特征具有同等重要性,可以采用规范化用规范化(normalization)将不同规格的数将不同规格的数据转换到同一个规格,即变换到固定的最据转换到同一个规格,即变换到固定的最小最大值的区间小最大值

6、的区间。nSklearn提供提供MinMaxScaler方法进行规范方法进行规范化,具体语法如下所示:化,具体语法如下所示:MinMaxScaler(feature_range=(0,1)规范化规范化from sklearn.preprocessing import MinMaxScalerdef Normalization():#实例化一个转换器类实例化一个转换器类 Normalization=MinMaxScaler(feature_range=(0,1)#范围设置为范围设置为01之间之间 data=90,2,10,40,60,4,15,45,75,3,13,46print(data)#调

7、用调用fit_transform data_Normal=Normalization.fit_transform(data)print(data_Normal)return Noneif _name_=_main_:Normalization()【程序运行【程序运行结果】果】90,2,10,40,60,4,15,45,75,3,13,461.0.0.0.0.1.1.0.83333333 0.5 0.5 0.6 1.标准化标准化n当有些特征的方差过大,会导致无法正确地去学习其当有些特征的方差过大,会导致无法正确地去学习其他特征,标准化用于解决归一化容易受到样本中极大他特征,标准化用于解决归一化容

8、易受到样本中极大或者极小的异常值的影响。数据标准化或者极小的异常值的影响。数据标准化(standardization)将数据按比例缩放到特定区间。将数据按比例缩放到特定区间。n标准化后,所有数据都聚集在标准化后,所有数据都聚集在0附近,方差为附近,方差为1。Sklearn提供提供StandardScaler()实现标准化,确保数实现标准化,确保数据的据的“大小大小”一致,从而利于模型的训练一致,从而利于模型的训练。具体。具体语法语法如下所示:如下所示:StandardScaler(copy,with_mean)标准化标准化import numpy as npfrom sklearn.prepr

9、ocessing import StandardScalerdef Standardization():data_list=1.5,-1.,2.,2.,0.,0.print(矩阵初值为:矩阵初值为:.format(data_list)scaler=StandardScaler()data_Standard=scaler.fit_transform(data_list)print(该矩阵的均值为:该矩阵的均值为:n 该矩阵的标准差为:该矩阵的标准差为:.format(scaler.mean_,np.sqrt(scaler.var_)print(标准差标准化的矩阵为:标准差标准化的矩阵为:.for

10、mat(data_Standard)return None 矩矩阵初初值为:1.5,-1.0,2.0,2.0,0.0,0.0该矩矩阵的均的均值为:1.75-0.5 1.该矩矩阵的的标准差准差为:0.25 0.5 1.标准差准差标准化的矩准化的矩阵为:-1.-1.1.1.1.-1.鲁棒化鲁棒化n当数据包含许多异常值,离群值较多时,使用均值和当数据包含许多异常值,离群值较多时,使用均值和方差缩放不能取得较好效果,可以使用鲁棒性缩放方差缩放不能取得较好效果,可以使用鲁棒性缩放(RobustScaler)进行处理。)进行处理。RobustScaler使用中使用中位数和四分位数进行数据的转换,会直接将异

11、常值位数和四分位数进行数据的转换,会直接将异常值剔剔除除nSklearn提供提供sklearn.preprocessing.RobustScaler()实现鲁棒化实现鲁棒化,语,语法如下所示:法如下所示:RobustScaler(quantile_range,with_centering,with_scaling)鲁棒化鲁棒化from sklearn.preprocessing import RobustScalerX=1.,-2.,2.,-2.,1.,3.,4.,1.,-2.transformer=RobustScaler().fit(X)RobustScaler(quantile_range=(25.0,75.0),with_centering=True,with_scaling=True)print(transformer.transform(X)【程序运行结果】【程序运行结果】0.-2.0.-1.0.0.4 1.0.-1.6

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报