1、电电子子表表格格与与文文本本编编辑辑器器主主 讲讲:X X X X X X目录C o n t e n t电子表格中的数据清洗电子表格中的数据清洗1文本数据清洗文本数据清洗2电子表格中的数据清洗电子表格在数据清洗方面的功能主要体现在两个方面:一是它可以将数据组织成列和行,第二个方面在于他的内置函数。1、Excel的文本分列功能2、字符串的拆分3、字符串的拼接4、从关系数据库(以Mysql为例)中导入Excel数据5、使用电子表格生成SQL语句数据清洗技术路线数据的来源不同文本清洗RDBMS清洗Web内容清洗文本清洗路线对文本进行清洗主要包括电子表格中的数据清洗和文本编辑器的数据清洗。对于电子表格
2、中的数据清洗,主要是利用表格中的行和列,以及电子表格中的内置函数。我们通常把一些数据复制到电子表格中,电子表格根据相应分隔符(制表位或逗号或其他)把数据分成不同的列。有时候会根据系统不同来人为地制定分隔符。对于文本编辑器中的数据清洗,主要是许多操作系统中集成了文本编辑器,如Windows操作系统中的文本编辑器。在进行文本清洗前,需要对数据进行整理,包括对数据中的数据改变大小写、在文本每一行前端增加前缀,主要是为了在转换过程中,有可以参考的分隔符。RDBMS清洗路线RDBMS即关系型数据库管理系统,它作为经典的、长期使用的数据存储解决方案,成为数据存储的标准。但由于不同的人在设计数据库时,往往存
3、在设计缺陷,需要对数据库的数据进行清洗。通过清洗可以找到异常数据,通常使用不同的策略来清洗不同类型的数据。对于RDBMS数据的清洗,有两种方式可以选择,即可以先把数据导入数据库,然后在数据库端进行清洗;也可以在电子表格或文本编辑器中进行清洗。具体选择哪种方案,会根据不同的数据进行不同的选择。Web内容清洗路线Web内容清洗,主要是清洗来自网络的数据,为其构建合理的清洗方案。Web数据主要来自HTML网页。HTML网页的页面结构决定了采取哪种方式。1HTML页面结构:文本组成。所以从Web中进行数据抽取,可有两种不同的方式,一种是行分隔方式,另一种是树形结构方式。在行分隔方式中,我们把网页的数据看作文本内容,把网页中的标签理解为分隔符,这样在进行数据抽取时就比较容易。2清洗方式:Web内容清洗可以有两种方式,一种是逐行方式,另一种是使用树形结构方式。逐行方式中,采用基于正则表达式的HTML分析技术,它是基于文件中的分隔符,配合正则表达式,获取需要的数据。Thanks谢谢您的聆听!谢谢您的聆听!