ImageVerifierCode 换一换
格式:PDF , 页数:16 ,大小:364.97KB ,
资源ID:5625667      下载积分:14 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenkunet.com/d-5625667.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(DB52∕T 1541.6-2021 政务数据平台 第6部分:面向全网搜索应用的数据处理规范(贵州省).pdf)为本站会员(秋儿)主动上传,文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文库网(发送邮件至13560552955@163.com或直接QQ联系客服),我们立即给予删除!

DB52∕T 1541.6-2021 政务数据平台 第6部分:面向全网搜索应用的数据处理规范(贵州省).pdf

1、 ICS 01.040.03 CCS A 12 DB52 贵州省地方标准 DB52/T 1541.62021 政务数据平台 第 6 部分:面向全网搜索 应用的数据处理规范 Government data platformPart 6:Data preprocessing specifications for searching application based on the platform 2021 - 05 - 17 发布 2021 - 09 - 01 实施贵州省市场监督管理局 发 布 DB52/T 1541.62021 I 目 次 前言 . II1 范围 . 12 规范性引用文件 .

2、13 术语和定义 . 14 缩略语 . 55 总体框架 . 56 数据接入 . 67 数据处理 . 78 搜索应用 . 89 数据安全 . 8 DB52/T 1541.62021 II 前 言 本文件按照GB/T 1.1-2020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。 本文件是DB52/T 1541政务数据平台的第6部分。DB52/T 1541已经发布了以下部分: 第2部分:数据归集规范; 第3部分:数据存储规范; 第4部分:接口规范; 第6部分:面向全网搜索 应用的数据处理规范。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件

3、由贵州省大数据发展管理局提出并归口。 本文件起草单位:贵州省机械电子产品质量检验检测院、贵州中软云上数据技术服务有限公司、云上贵州大数据产业发展有限公司、同方知网数字出版技术股份有限公司。 本文件主要起草人:张洋、常丹丹、张榉尹、曾宪平、关艳梅、郑如顺、杨建雄、罗森、秦晓东、杨建国、潘伟杰、邵建平、黄明峰、刘军、田野、段飞虎、宿睿智、刘彦嘉、唐昶、姚茂峰、陆莹、 孙瑾。 DB52/T 1541.62021 1 政务数据平台 第 6 部分:面向全网搜索 应用的数据处理规范 1 范围 本文件规定了面向政务数据平台全网搜索应用的数据处理的总体框架、数据接入、数据处理、搜索应用和数据安全相关要求。 本

4、文件适用于政务数据平台全网搜索应用的数据处理活动。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T 2260 中华人民共和国行政区划代码 GB/T 2261.1 个人基本信息分类与代码 第1部分:人的性别代码 GB/T 7408 数据元和交换格式 信息交换 日期和时间表示法 GB 11643 公民身份号码 GB 32100 法人和其他组织统一社会信用代码编码规则 GB/T 37973-2019 信息安全技术 大数据安全管理指

5、南 DB52/T 1540.2 政务数据 第2部分:元数据管理规范 DB52/T 1541.3 政务数据平台 第3部分:数据存储规范 3 术语和定义 下列术语和定义适用于本文件。 3.1 政务数据平台 government data platform 依托政务云计算平台搭建,承载政务数据并支撑数据统筹存储、统筹治理、统筹应用和统筹安全的基础信息技术平台。 来源:DB52/T 1541.3-2020,3.1 3.2 全网搜索 data searching applications based on government data platform 基于政务数据平台围绕特定应用场景进行数据处理,

6、通过搜索引擎和机器学习技术实现数据的组织呈现、融合重构、关联分析和衍生应用。 DB52/T 1541.62021 2 3.3 数据处理 data preprocessing 对拟进入搜索数据库的数据进行前期处理加工以达到特定的规范性要求,支撑后续搜索应用的实现。 3.4 数据元 data element 用一组属性描述其定义、标识、表示和允许值的数据单元。数据元由三部分组成:对象、特性、表示。 来源:GB/T 18391.1-2009,3.3.8 3.5 元数据 metadata 关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。 来源:G

7、B/T 35295-2017,2.2.7 3.6 统计指标 statistical indicators 说明总体数量特征的概念及其数值的综合。 3.7 基础数据库 basic information database 国家信息化和电子政务建设基础数据资源库, 包括人口基础数据库、 法人数据库、 宏观经济数据库、自然资源与空间地理数据库、电子证照库等。 3.8 主题数据库 thematic information database 针对特定应用主题将存在内在逻辑关联关系的各类数据有序汇聚形成的指定数据库。 3.9 搜索数据库 searching data database 基于政务数据平台数据

8、, 结合特定搜索应用业务需求进行管理规划并有序存放经数据前置处理后的有效数据的专题数据库。 DB52/T 1541.62021 3 3.10 结构化数据 structured data 一种数据表示形式, 按此种形式, 由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。 来源:GB/T 35295-2017,2.2.13 3.11 非结构化数据 unstructured data 不具有预定模型或未以预定方式组织的数据。 来源:GB/T 35295-2017,2.1.25 3.12 半结构化数据 Semi structured data 具有结构性,但结构变化大,且

9、难以用结构化数据的处理方法将其放进二维表的数据。 示例:XML 文档内容,每项都被一对标记封起来,如,表面上看是结构化数据,但之间的数据却是千变万化,这是典型的半结构化数据。 来源:DA/T 82-2019,2.8 3.13 数据类型 data type 规定数据结构的数据对象的经定义的集合和一组许可的运算, 在这些运算中任何一个执行时, 其中数据对象都当作运算数。 示例:整数型的结构非常简单,整数型的值是在某一规定范围内的整数的一个成员的表示,许可的运算包括对这些整数的常见算术运算。 来源:GB/T 5271.17-2010,17.5.8 3.14 全量更新 full update 使用新的

10、数据对历史数据进行完全覆盖。 来源:DB52/T 1541.22020,3.14 3.15 增量更新 incremental update 将两次更新间隔发生变更的数据同步到存储区域。 来源:DB52/T 1541.22020,3.15 DB52/T 1541.62021 4 3.16 数据脱敏 data mask 从原始环境向目标环境进行敏感数据交换的过程中,通过一定方法消除原始环境数据中的敏感信息,并保留目标环境业务所需的数据特征或内容的数据处理过程。 来源:DB52/T 11262016,2.1 3.17 数据加密 data encryption 对数据进行密码变换以产生密文的过程。 一

11、般包含一个变换集合, 该变换使用一套算法和一套输入参量。输入参量通常被称为密钥。 来源:GB/T 250692010,2.2.2.60 3.18 数据完整性 data integrity 数据没有遭受以未授权方式所作的更改或破坏的特性。 来源:GB/T 250692010,2.1.36 3.19 数据模型 data model 按照信息系统中的形式描述和所应用的数据库管理系统的要求构造的数据库中数据的一种原型。 来源:GB/T 5271.17-2010,17.1.7 3.20 主键 primary key 一种用于标识一个记录的键。 来源:GB/T 5271.17-2010,17.3.11 3

12、.21 外键 foreign key 在某一关系中,与另一类关系中的主键对应的一个或一组属性。 来源:GB/T 5271.17-2010,17.4.15 3.22 关系 relation 具有相同属性的各实体值的集合以及这些属性。 注:在关系数据库中,一个关系能通过一个表来表示,表中各行对应于各实体值,各列对应于各属性。 来源:GB/T 5271.17-2010,17.4.1 DB52/T 1541.62021 5 3.23 数据描述 data description 对某一数据元素与其中出现该元素的名称和字的数据结构的形式化描述。 来源:GB T 5271.17-2010,17.6.3 3.

13、24 总量指标 total quantity index 用来反映特定对象或现象在一定条件下总规模、总水平或工作总量的统计指标。 3.25 相对指标 relative indices;relative indicators 用两个关联指标的比值来反映特定对象或现象的数量特征、数量关系的综合指标。 3.26 平均指标 average Index 同一时间的同类型主题对象或现象的一般水平,或是不同时间的同类型主题对象或现象的一般水平。 4 缩略语 下列缩略语适用于本文件。 OSS:对象存储服务(Object Storage Service) ETL:加载、抽取、转换(Extract-Transfo

14、rm-Load) API:应用程序编程接口(Application Programming Interface) URL:统一资源定位符(Uniform Resource Locator) 5 总体框架 政务数据平台的全网搜索应用的整体业务逻辑架构图见图1。其组成部分如下: a) 数据接入: 将来源于政务数据平台各存储模块中各种类型的数据进行规范接入管理, 并根据业务需求从不同存储模块中接入数据元进行对应数据处理。 存储模块包括数据采集区、 基础库和主题库; b) 数据处理:对接入的数据元按照数据治理规范,结合业务场景与搜索目标进行数据元梳理、数据清洗融合和数据模型设计,并将结果存储到搜索数据

15、库中。处理内容包括数据描述、数据指标、数据标签和关联关系等; c) 搜索应用: 通过元数据管理系统对搜索数据库中表结构与关联关系进行抽取, 结合搜索应用业务需求对元数据进行管理分类、知识构建,支撑搜索引擎和领导驾驶舱建设; d) 数据安全:包括数据机密性、完整性、数据备份。采用数据脱敏、数据加密、制定备份机制等数据处理方法进行数据传输与存储,确保数据安全。 DB52/T 1541.62021 6 图1 全网搜索应用的整体业务逻辑架构图 6 数据接入 6.1 存储要求 6.1.1 数据分类存储按 DB52/T 1541.3 的规定进行。 6.1.2 数据接入前应根据待处理数据的结构化程度将数据存

16、储至以下区域: a) 结构化数据应存储到统一数据采集区; b) 非结构化数据应存储于云计算的开放存储区 OSS,并建立对应数据描述表以支撑搜索应用; c) 半结构化数据按将文件基本属性、 存储路径等描述信息以结构化数据文件入库存储至统一数据采集区。 6.2 接入规则 6.2.1 结构化、非结构化数据,通过 ETL 工具进行分类接入; 6.2.2 半结构化数据化解为结构化数据通过 ETL 工具进行接入; 6.2.3 接入形式包括二维库表类型、文本类型、URL 连接地址、API 接口等。 DB52/T 1541.62021 7 6.3 更新机制 6.3.1 全量更新 将数据源中的表或视图的数据全部

17、从数据库中抽取出来,通过ETL工具迁移到搜索数据库中。 6.3.2 增量更新 增量更新是指在进行更新操作时, 只更新需要改变的地方, 不需要更新或者已经更新过的地方则不会重复更新,增量更新与全量更新相对。 6.3.3 更新频率 数据更新频率包括以下方式: a) 数据更新频率应达到秒级响应,实现实时更新: b) 在设定时间的误差范围内,准实时批量接入; c) 数据按天、周、月进行定时调度,实现同步更新。 7 数据处理 7.1 数据描述规范化处理 7.1.1 处理方法 数据描述的规范化处理方法包括但不限于: a) 数据格式处理:对错误的数据格式进行治理、修改; b) 关键信息缺失补全:对需要搜索的

18、关键信息出现缺失的部分进行补全; c) 明显逻辑错误修正: 核查数据元间业务逻辑关系, 对明显错误逻辑进行修正。 如对数据上下级、归属关系进行修正; d) 数据类型错误修正:根据搜索目标对数据类型进行判断,对不满足数据类型的错误进行修正。 7.1.2 通用型数据处理要求 时间、区划地点、对象等通用数据处理,应满足以下要求: a) 行政区划代码应符合 GB/T 2260 规定; b) 性别代码应符合 GB/T 2261.1 规定; c) 日期和时间应符合 GB/T 7408 规定; d) 公民身份号码应符合 GB 11643 规定; e) 法人和其他组织统一社会信用代码应符合 GB 32100

19、规定。 7.1.3 非通用型数据处理要求 非通用的描述类数据处理应满足以下要求: a) 可计算型数据元的计算类型, 应满足当前系统可连接数据库类型的可计算数据类型的要求, 计算单位根据业务进行描述; b) 可分组维度的数据字段应按其特征进行分组; c) 可比较数据元应按照不同维度、不同规则进行比较; d) 主体数据元应对主体的核心内容进行描述。 DB52/T 1541.62021 8 7.2 数据指标处理 对数据元中涉及数值与统计数据的指标数据, 应按同一指标内部相对差距不变、 不同指标间的相对差距不确定、 标准化后极大值相等原则采用数据同趋化和无量纲化等方法进行处理。 按照其反映的内容或其数

20、值表现形式分为总量指标、相对指标和平均指标三种。 指标统计处理应包括以下内容: a) 确定指标的含义和范围; b) 指标指向的对象或现象应具有同类性; c) 有统一的计量单位; d) 两个对比指标要有可比性。 7.3 数据标签处理 7.3.1 对具有搜索价值的数据元应根据业务信息及搜索目标进行标签定义,对数据属性进行归类。 7.3.2 数据标签可分为以下两类: a) 基于统计类的标签: 从政务平台基础数据中直接统计得出, 为基础的标签类型, 如性别、 城市、月均消费金额等字段构成用户画像的基础; b) 基于规则类的标签: 基于行为及确定的规则产生, 开发标签中的标签规则由涉及的双方共同协商确定

21、,如距今 90 天内交易次数3 是“交易活跃”标签的定义和口径。 7.4 关联关系处理 7.4.1 同一个业务源不同数据表之间,需要有对应的主外键关系,表与表之间依据主外键进行关联。 7.4.2 针对不同业务与业务之间,需要设立统一规范的业务主键,利用业务主键进行关联。 8 搜索应用 8.1 经数据处理后的数据应按描述数据、业务数据、模型和标签等类型数据进行分类存放进搜索数据库。 8.2 按 DB52/T 1540.2(政务数据 元数据管理规范)的规定对搜索数据库数据的元数据进行管理。 8.3 计算机对数据标签、关联关系信息、数据指标进行学习理解并最终记忆,形成知识构建。 8.4 经知识构建形

22、成的可理解和处理的数据,与搜索内容进行语义对齐,理解搜索意图,最终查找出结果。 8.5 对于非结构化数据,搜索实现文本语言数据之间的比较,当核心内容相似性达到一定程度时,判断为找到用户需求,并反馈结果。 8.6 全网搜索主要应用方向包括数据查询、数据画像、数据调度、决策支撑和智慧应用。 9 数据安全 9.1 数据分类分级应遵循 GB/T 37973-2019 中第 7 章的规定。 9.2 数据处理的安全要求应符合 GB/T 37973-2019 中 8.4 的要求。 9.3 数据处理操作人员的安全管理,应符合以下要求: a) 专岗要求:应对用户按类赋权。用户账号应使用组、角色等组合方式进行权限分配,可进行授权管理和统计; b) 专人要求:应保障用户身份唯一性。每个用户账号的设置,均对应特定的使用人。 DB52/T 1541.62021 9 9.4 数据使用需求应根据数据等级进行审核,不同等级的数据应由不同等级权限的角色完成审核。 _ DB52/T 1541.6-2021

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报