1、 ICS 35.020 CCS L 70 DB52 贵州省地方标准 DB52/T 1541.32020 政务数据平台 第 3 部分:数据存储规范 Government data platform Part 3:Data storage specification 2020 - 11 - 20 发布 2020 - 12 - 20 实施贵州省市场监督管理局 发 布 DB52/T 1541.32020 I 目 次 前言 . II 1 范围 . 1 2 规范性引用文件 . 1 3 术语和定义 . 1 4 数据分类和类型 . 2 5 数据命名规则 . 2 6 存储要求 . 3 7 数据入库 . 4 8
2、存储备份 . 4 9 存储安全 . 5 DB52/T 1541.32020 II 前 言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。 本文将是DB52/T 1541的第3部分。DB52/T 1541已经发布了以下部分: 第2部分:数据归集规范; 第3部分:数据存储规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由贵州省大数据发展管理局提出。 本文件由贵州省大数据标准化技术委员会归口。 本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云上贵州大数据产业发展有限公司
3、、信通达智能科技有限公司。 本文件主要起草人:唐昶、田野、宿睿智、肖然、王嘉卉、关艳梅、秦晓东、杨建国、叶海曦、蒋朋兵、黄明峰、杨鹏、韦超、徐凯琳、郑如顺、杨建雄、邵建平、戚玉峰、赵飞、张洋、孙瑾。 DB52/T 1541.32020 1 政务数据平台 第 3 部分:数据存储规范 1 范围 本文件给出了政务数据平台数据存储的数据分类和类型、 数据命名规则, 规定了数据的存储、 入库、备份和安全等要求。 本文件适用于政务数据平台数据的存储管理。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期
4、的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 22239-2019 信息安全技术 网络安全等级保护基本要求 3 术语和定义 下列术语和定义适用于本文件。 3.1 政务数据平台 government data platform 依托政务云计算平台搭建,承载政务数据并支撑数据统筹存储、统筹治理、统筹应用和统筹安全的基础信息技术平台。 3.2 政务数据 government data 各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、存储、管理的各类数据资源。 注:根据可传播范围,政务数据一般包括可共享政务数据、可开放公共数据及不宜开放共享政务数据。 来源:GB/T
5、38664.1-2020,3.1 3.3 结构化数据 structured data 一种数据表示形式, 按此种形式, 由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。 来源:GB/T 35295-2017,2.2.13 DB52/T 1541.32020 2 3.4 半结构化数据 semi-structured data 具有结构性,但结构变化大,且难以用结构化数据的处理方法将其放进二维表的数据。 示例:XML 文档内容,每项都被一对标记封起来,如,表面上看是结构化数据,但之间的数据却是千变万化,这是典型的半结构化数据。 来源:DA/T 82-2019,2.8
6、3.5 非结构化数据 unstructured data 不具有预定义模型或未以预定义方式组织的数据。 来源:GB/T 35295-2017,2.1.25 3.6 对象存储服务 object storage service 政务云计算平台提供的可存放任意类型的海量、安全和高可靠的文件云存储服务。 4 数据分类和类型 4.1 数据分类 数据按其结构化程度及特征,分为结构化数据、半结构化数据、非结构化数据。 4.2 数据类型 4.2.1 结构化数据类型 结构化数据类型包括字符串类型数据,整数、浮点数、定点数类型数据,二进制数类型数据,日期与时间类型数据,布尔型数据。 4.2.2 半结构化数据类型
7、半结构化数据类型包括XML类型数据、JSON类型数据、HTML类型数据等。 4.2.3 非结构化数据类型 非结构化数据类型包括所有格式的办公文档,各种文本、报表、图片、音频、视频等。 5 数据命名规则 5.1 基本要求 5.1.1 具有唯一性,能单独成立。 5.1.2 字段名称的字符采用 26 字母、09 的自然数及下划线_组成。 5.1.3 不使用数据库关键字命名,如 select、table、show、time、password 等。 5.1.4 宜使用普遍理解的英文单词,应尽量准确、简练。 DB52/T 1541.32020 3 5.2 结构化数据命名规则 5.2.1 表命名 表命名结构
8、见图1。命名规则如下: a) 表命名结构由提供数据部门简称首字母、“_”下划线、数据命名词组成; b) 数据命名词由英文单词组成,数量、长度不限。 图1 表命名结构 5.2.2 字段命名 5.2.2.1 命名全部采用小写字母和数字组成,应以字母开头,长度不超过 20 个字符。 5.2.2.2 应填写字段描述信息。 5.2.2.3 不应重复表的名称。 5.3 非结构化数据命名规则 非结构化数据以文件形式存储,命名组成:数据部门简称_文件命名词_日期.文件后缀。 示例:Sgat_Proposal_20200712.doc。 6 存储要求 6.1 基本要求 6.1.1 应为单个机构提供独立逻辑存储空
9、间。 6.1.2 应具备可弹性伸缩、高可用的分布式对象存储服务的能力。 6.1.3 应满足政务数据不同类型的服务使用需求,能为结构化、半结构化和非结构化类型数据提供不同级别的存放策略。 6.1.4 应创建不同类型的字段,根据用途和需求变化对字段进行增加、删除和修改操作,并提供数据导入/导出和数据迁移功能。 6.2 存储方式 6.2.1 结构化数据统一存入数据库中,如存入 MySQL、PGsql 等。 6.2.2 半结构化数据应转换成结构化数据统一存入数据库中。 6.2.3 非结构化数据采用文件形式存储至对象存储服务中,并将文件基本属性、存储路径等描述信息以结构化数据存入数据库中。 6.3 存储
10、格式 6.3.1 应支持多种格式的内容数据存储。 6.3.2 同一条记录可容纳一个或多个内容数据。 DB52/T 1541.32020 4 6.4 存储介质 6.4.1 政务数据平台云存储介质包括云磁盘、高效磁盘、对象存储等。 6.4.2 政务数据平台数据可在不同存储介质间转移。 7 数据入库 7.1 入库方式 7.1.1 文件导入 通过政务数据平台在线文件上传功能, 可将结构化数据文件导入到数据库中, 一次导入可批量入库多条记录;半结构化数据文件需转为结构化数据文件入库;非结构化数据文件仅将文件基本属性、存储路径等描述信息以结构化数据文件入库。 7.1.2 数据库同步 将关系型数据库中的数据
11、, 通过数据库采集功能同步至政务数据平台数据库中。 一次可批量同步多条记录。 7.2 入库记录管理 7.2.1 对入库数据的文件格式或数据库类型进行检查,对不支持的文件格式或数据库类型显示提示信息。 7.2.2 记录入库数据的数量、时间、处理人员等处理过程相关信息。 7.2.3 监测和过滤错误数据,并记录数据入库产生的错误日志。 7.3 数据检查 7.3.1 入库前后数据类型、长度、数据量、数据信息项等应保持一致。 7.3.2 应符合数据库规定的编码类型。 8 存储备份 8.1 备份内容 8.1.1 应对数据库数据、数据库结构、数据库配置定义文件等进行备份。 8.1.2 应对数据在采集、入库等
12、过程的配置策略进行备份。 8.2 备份方式 应支持全量备份、增量备份和差分备份等。 8.3 备份管理 8.3.1 对备份对象、备份介质、备份时间、备份数据保存时间和备份方式等策略进行管理。 8.3.2 支持对备份策略进行添加、删除、修改等操作。 8.3.3 支持对备份作业状态和备份设备状态的监控。 DB52/T 1541.32020 5 9 存储安全 9.1 数据存储载体的安全应符合 GB/T 22239-2019 中的等级保护三级的要求。 9.2 保障存储数据不被非授权主体访问。 9.3 保障存储数据不被非法篡改或破坏。 9.4 保障存储数据使用时稳定可靠。 9.5 保障存储数据的安全访问,确认合法身份及访问授权。 _ DB52/T 1541.3-2020