1、数数据据格格式式类类型型与与编编码码主主 讲讲:X X X X X X目录C o n t e n t文件及文件格式文件及文件格式1归档与压缩归档与压缩2数据类型数据类型3字符编码字符编码4数据转换数据转换5常见的文件格式文本是计算机保存数据的主要方式,文本有多种不同的格式,常见的文本格式有txt、doc、zip、jpg和HTML等。Windows操作系统下常见的文本格式:txt、doc、xls格式等。类(UNIX)操作系统下常见文本格式:dmg、tar格式等。网络文本格式:HTML、xml、php、jsp、css格式等。(1)JSON和XML都是纯文本。(2)JSON和XML都具有“自我描述性
2、”。(3)XML和JSON都可以通过JavaScript进行解析。(4)XML有结束标签而JSON没有。(5)JSON传输一般比XML更短、速度更快。xls及xlsx文件格式xlsx是MicrosoftOfficeExcel2007或者更新版本保存的文件格式,是用新的基于XML的压缩文件格式取代了其之前专有的文件格式。此文件格式在传统的文件扩展名后面添加了字母x(“.docx”取代“.doc”,“.xlsx”取代“.xls”),使文件占用系统的空间更小。xls格式的文件能用所有版本的MicrosoftExcel打开。存储存储成本下降JSON文件格式JSON全称是JavaScriptObject
3、Notation,即JavaScript对象标记,是一种轻量级的数据传输格式,常用于网络信息的传输。JSON基于ECMAScript规范,采用独立于编程语言的文本格式来存储和表示数据。JSON具有简洁和清晰的层次结构,是一种当下较为理想的数据传输语言。因为JSON易于阅读和编写,也易于机器解析和生成,因此能有效地提升网络传输效率,在现有的客户端和服务器数据交换传输中,JSON的应用非常广泛。如下所示,为JSON的举例:存储存储存储成本下降HTML文件格式HTML全称是HyperTextMarkupLanguage,即超文本标记语言,这里的“超文本”指的是页面内可以包含图片、链接,甚至音乐、程序
4、等非文字元素,HTML是标准通用标记语言下的一个应用。如下所示,为一个典型的HTML文件内容:XML文 件 格 式与JSON功能相同的另一种格式是XML,其全称是ExtensibleMarkupLanguage,即可扩展标记语言,也是标准通用标记语言下的一个应用。XML是各种应用程序之间进行数据传输最常用的工具。如下图所示,为一个典型的xml文件内容:XML和JSON格式的比较存储存储成本下降JSON和XML都是纯文本01JSON和XML都具有“自我描述性”02XML和JSON都可以通过JavaScript进行解析03JSON传输一般比XML更短、速度更快05XML有结束标签而JSON没有04
5、归档与压缩(1)归档文件就是一个对内部包含了许多文件的独立文件的归档。在这些文件的内部可以包含文本文件或二进制文件,或者二者兼有。(2)终端窗口和命令行界面,比如MacOSX上的Terminal程序或Linux上的bash程序。(3)适合程序员使用的编辑器,如Mac上的TextWrangler,Linux上的vi或emacs,或是Windows上的Notepad+、Sublime编辑器等。(4)Python客户端程序,如EnthoughtCanopy。另外,还需要足够的权限来安装一些程序包文件。(5)电子表格程序,如MicrosoftExcel和GoogleSpreadsheets。其可用于数
6、据呈现和可视化,并且以恰当的方式展示数据分析和挖掘的结果。(6)数据库软件,如MySQL数据库和MicrosoftAccess等。数据类型数据类型是一种数据结构,包括定义一个值的集合以及定义在这个值集上的一组操作。通常根据数据的特点将数据划分为不同的类型。按照计算机的存储特性,编程语言和数据库应用都会把数据划分为特定的几种类型:Java数据类型:Java的基础数据类型可分为4类8种,包含整型(byte、short、int、long)、浮点型(float、double)、逻辑型(boolean)以及符型(char)。具体内容如下:MYSQL数据类型1、数值类型:MySQL支持所有标准SQL数值数
7、据类型。2、日期和时间类型:表示时间值的日期和时间类型有DATE、TIME、YEAR、DATATIME和TIMESTAMP。3、字符串类型:CHAR、VARCHAR、TEXT、ENUM和SET等。字符编码1、字节、字符和字符集:字节(Byte)是计算机信息技术用于计量存储容量的一种单位,通常情况下一字节等于八位二进制位,同时也表示一些计算机编程语言中的数据类型。字符是指计算机中使用的字母、数字、字和符号。字符集(CharacterSet)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、U
8、nicode字符集等。2、内码:内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的。3、编码与字符集:编码(Ecoding)和字符集不同,字符集只是字符的集合,不一定适合网络传送、处理,有时需要经过编码以后才能实现应用。4、空值和乱码:(1)空值:在数据库中,空值(NULL)用来表示实际值未知或无意义的情况(2)乱码:乱码主要指用文本编辑器打开文本时,使用了不对应的字符集和编码,从而造成文本解码错误,导致文本的部分字符或所有字符无法被正确显示的情况数据转换1、电子表格转换:据信息一般使用专门软件处理,常见的有Exce
9、l、Access、MySQL和SQLServer。目前主要用的数据库是RDBMS,即关系型数据库管理系统(RelationalDatabaseManagementSystem),它将数据组织为相关的行和列,而管理关系数据库的软件就是关系数据库管理系统,其具有数据以表格的形式出现、每行为各种记录名称、许多的行和列组成一张表单、若干的表单组成数据库等特点。2、RDBMS数据转换:常见的RDBMS有Oracle、MySQL、Access、SQLServer等。在日常业务中,可能存在数据规模的变化,出现数据库管理系统的变化,例如MySQL转换到Oracle数据库管理系统等.大多数据库管理系统均有数据的导入、导出工具,可以实现数据源到目标的转换。例如,SQLServer可以通过数据库客户端(SSMS)的界面工具实现数据库与Excel、数据库与数据库之间的相互转换。Thanks谢谢您的聆听!谢谢您的聆听!