收藏 分享(赏)

北京市留学人员海淀创业园企业 .doc

上传人:李静文 文档编号:706077 上传时间:2019-09-01 格式:DOC 页数:46 大小:578.50KB
下载 相关 举报
北京市留学人员海淀创业园企业 .doc_第1页
第1页 / 共46页
北京市留学人员海淀创业园企业 .doc_第2页
第2页 / 共46页
北京市留学人员海淀创业园企业 .doc_第3页
第3页 / 共46页
北京市留学人员海淀创业园企业 .doc_第4页
第4页 / 共46页
北京市留学人员海淀创业园企业 .doc_第5页
第5页 / 共46页
点击查看更多>>
资源描述

1、1ICS 01.140.20A 14备案号:中华人民共和国档案行业标准DA/T XX2017 纸质档案数字副本光学字符识别(OCR )工作规范Specification for optical character recognition(OCR) of digital copies of paper-based records(征求意见稿)2017-XX-XX 发布 2017-XX-XX 实施国 家 档 案 局 发 布2前 言本标准按照 GB/T 1.12009 给出的规则起草。本标准的附录 A 是资料性附录,附录 B 是规范性附录。本标准由国家档案局提出并归口。本标准起草单位:本标准主要起草

2、人:3纸质档案数字副本光学字符识别(OCR)规范1 范围本标准规定了纸质档案数字副本光学字符识别(OCR)的工作组织、方案制定、实施过程、成果管理与应用、性能和指标、业务评价要求。本标准适用于形成的、印刷字迹清晰、文本规范的纸质档案数字副本的光学字符识别(OCR)工作。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB 23121980 信息交换用汉字编码字符集 基本集GB/T 97042012 党政机关公文格式GB 180302005 信息技术 中文编码字符集DA

3、/T 131994 档号编制规则DA/T 181999 档案著录规则DA/T 222015 归档文件整理规则DA/T 31 纸质档案数字化技术规范3 术语和定义3.1字符 character供组织、控制或表示数据用的元素集合中的一个元素。GB 18030-2005,4 术语和定义3.2字符集 character set多个字符的集合。字符集包含的字符个数不同,常见字符集名称有ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode 字符集等。43.3光学字符识别(OCR)Optical Character Recognition;OCR通过信息技术对图像文件

4、中的字符形状进行识别、文字转换和文本输出、呈现的过程。3.4纸质档案数字副本 digital copies of paper-based records 纸质档案经过数字化加工过程后形成的,存储在磁带、磁盘、光盘等载体上并能被计算机等电子设备识别的数字图像。3.5档案 OCR 成果 OCR achievements of records记录通过OCR技术获取的纸质档案数字副本文字内容的文件。3.6识别准确率 recognition accuracy通过OCR技术识别正确字符的比率。识别准确率=(识别正确字符数/应识别字符总数)100%3.7识别速度 recognition speed单位时间内

5、通过OCR技术识别字符的数量。4 总则4.1 档案 OCR 应当纳入数字档案馆(室)资源建设范畴,统筹规划,有序实施,逐步实现常态化。4.2 档案 OCR 应当科学开展,以有利于实现档案信息检索、计算机辅助编目、编研开发和数据挖掘为原则。4.3 档案 OCR 应当基于档案数字化工作,档案 OCR 成果与纸质档案数字副本之间应建立准确、可靠的关联关系。4.4 应当釆取有效的管理和技术手段,加强档案 OCR 的过程管理和质量控制,确保档案OCR 过程规范、成果可靠、数据安全。4.5 涉密纸质档案数字副本的 OCR 工作,应符合涉密档案相关的管理和技术要求。55 工作组织5.1 机构及人员5.1.1

6、 应建立或依托档案数字化工作机构,配备相应素质和技术水平的工作人员,组织开展档案 OCR 工作的统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等。5.1.2 档案 OCR 工作实行服务外包的,应建立权责明确、覆盖工作全过程的监督机制和安全防范机制,确保档案信息安全。对外聘的工作人员,应进行安全审查。5.2 基础设施5.2.1 应配备或依托档案数字化工作场地、机房等,合理规划、配备和管理设施设备,确保设施设备能够满足档案 OCR 的实际需要。5.2.2 应配备或开发相应性能先进、安全可靠的电子档案管理系统、 OCR 软件系统,建立有助于档案 OCR 的式样库、特征

7、数据库等,提升档案 OCR 质量。5.3 流程控制5.3.1 档案 OCR 流程包括图像输入、图像预处理、比对识别、修改校正、成果整理输出等业务环节。应依据相关技术标准,制定档案 OCR 工作流程和业务环节的操作规范,对全过程进行有效控制。5.3.2 应加强对档案 OCR 工作全流程的质量管理和安全管理,建立完善的质量问题发现、修正机制,确保档案信息安全。5.4 工作文件与元数据5.4.1 应建立档案 OCR 工作方案、技术方案、工作审批材料、流程控制材料、数据验收材料、项目验收报告、成果移交材料等的管理工作文件,采取服务外包的还应包括项目招标文件、投标文件、中标通知书、项目合同、保密协议、操

8、作规程、监管记录等,加强对档案 OCR 工作的管理。5.4.2 应参照相关标准,提出档案 OCR 工作流程中相关元数据设计、捕获、著录和管理的基本要求,与对应的纸质档案数字副本管理过程元数据实施融合管理,并纳入入数字档案馆(室)应用系统数据库。6 方案制定6.1 确定工作策略 6.1.1 OCR 工作开展前,应当依据纸质档案数字副本 OCR 项目的计划、合同、招投标书等有关项目文件对 OCR 工作的识别系统(OCR 软件,见附录 A)、网络系统、基础设施、保障能力等方面进行业务评价。对不符合要求的评价项目须整改达到评价指标要求后方能开展纸质档案数字副本 OCR 工作。6.2.2 评价通过后,应

9、根据以下因素,制定档案 OCR 的工作策略:6图像资源:即符合输入标准的可识别的彩色(24BITS)、灰度(256 阶)和黑白二值图像。一般应为 TIFF、BMP、JPG、PDF(图像)、 OFD(图像)格式文件。OCR 引擎:对图像包含文字进行高速和高识别率的 OCR 软件开发包。OCR 软件:装备 OCR 引擎的软件,可高速稳定输出识别结果。应根需要识别的目标,按照项目资源的成本风险平衡原则确定 OCR 的范围、质量、效率、技术等要求。基础设施:支持系统运行的建筑、设施和设备,包括介质的场外存放场所、备用的机房及辅助设施。专业技术支持能力:对系统的运转提供支撑和综合保障的能力,以实现系统的

10、预期目标。包括硬件、系统软件和应用软件的问题分析和处理能力、网络系统安全运行管理能力、沟通协调能力等。运行维护管理能力:保障系统相关的设备和软件正常运行,提供长期、及时、全面的技术支持的能力。包括运行环境管理、系统管理、安全管理和变更管理等。灾难恢复预案:对系统灾难实行快速、有效的响应和恢复。包括灾难紧急响应,灾后系统重建及重续运行,通信、后勤、技术等相关保障机制建设。6.2 制定技术方案6.2.1 应当根据确定的档案 OCR 工作策略制定 OCR 各工作系统技术方案,包含 OCR 的数据管理系统、OCR 识别处理系统和网络系统。技术方案中所涉及的系统应满足如下条件: 与档案管理系统相当的安全

11、保护级别; 具有可扩展性; 对档案管理系统无明显可用性和性能影响。6.2.2 为确保技术方案满足档案 OCR 工作策略的要求,应对技术方案进行确认和验证,并记录和保存验证及确认的结果。按照确认的 OCR 软件技术方案进行开发,实现所要求的数据系统、数据处理系统和网络系统。6.2.3 按照经过确认的技术方案,应制定 OCR 软件各阶段的系统安装及测试计划,以及支持不同关键业务功能的系统安装及测试计划,并组织最终用户共同进行测试。确认以下各项功能可正确实现:对识别图像进行预处理;数据识别及校验;输出档案 OCR 成果;数据安全管理。7 档案 OCR 的实施7.1 图像输入7.1.1 档案 OCR

12、实施前,应当先评估纸质档案数字副本质量是否符合 OCR 的基本要求。评估内容一般应包括图像分辨率、偏斜度、清晰度、失真度、亮度、对比度、灰度等。7.1.2 纸质档案数字副本的图像分辨率宜为 300dpi,不应低于 200dpi。特殊情况下,如文字偏小、密集、清晰度较差等,可以适当提高分辨率。文件命名应符合 DA/T 131994 7、DA/T 222015 、DA/T 31 的规定。7.1.3 对质量不能达到档案 OCR 工作基本要求的纸质档案数字副本,应按照 DA/T 31 的要求重新数字化后导入。7.2 图像预处理7.2.1 二值化7.2.1.1 在识别处理前,应对彩色图像进行灰度化和二值

13、化处理;对灰度图像进行二值化处理。OCR 软件应采取局部自适应二值化等算法,并支持自动或手动调节。7.2.1.2 OCR 软件应具备亮度和对比度值自动、手动调节功能。亮度和对比度值的设定以调整后的图像中文字的笔画连贯清晰为准。7.2.2 图像降噪7.2.2.1 对图像中印刷体字符进行识别处理前,需要根据噪声的特征对待识别图像进行降噪处理,提升识别处理的精确度。7.2.2.2 OCR 软件的降噪处理应去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方。7.2.3 倾斜校正7.2.3.1 对图像进行识别前,应进行图像方向检

14、测并进行自动水平或垂直倾斜校正。软件应支持由用户指定图像倾斜的角度,并然后采用相应的图像旋转算法进行手工倾斜校正。7.2.3.1 图像质量控制程序应自动检测图像处理质量。对无法达到质量要求的图像进行标注。7.3 比对识别7.3.1 版式分析7.3.1.1 OCR 软件在对比识别前应对图像中的字符块结构进行版式分析,把图像中相似的版块信息划分到一起。如横排文本、竖排文本、表格、图形等。7.3.1 .2 OCR 软件可采取多种分析方法,自动检测各版块类型,对图像内部区域进行逻辑归类,记录各版块的位置,存储版面信息。7.3.2 档案特征分析7.3.2.1 归档章分析。建立归档章式样库,自动识别图像中

15、的归档章,并根据归档章样式,识别出字段位置,如全宗号、年度、机构、保管期限、件号、页数等。7.3.2.2 公文内容分析。建立公文格式库,可准确识别公文的版头、主体、版记三部分,识别公章、签章等区域,比照公文样式,识别份密级、发文单位、标题、日期等公文要素。公文要素 OCR 识别要求参见附录 B。7.3.2.3 表格分析。建立单独表格处理模块,建立专用表格模板定义工具,自定义文件处理单、发文稿纸、备考表等表格模板,识别表格中的字段位置。7.3.2.4 印章分析。识别印章图像位置,存储印章图像,建立印章名称与印章图像的关系库,用于版式恢复。7.3.3 识别和匹配7.3.3.1 OCR 软件应抽取字体、字号、粗体、斜体、首行缩进等字符特征,通过相似度计算8方法,与特征数据库比对,识别为计算机文字内码。7.3.3.2 OCR 软件的特征数据库应存储多种印刷体字符、常用签名和批注手写体字符,具备可更新和可扩充性。对使用频率高的汉字、英文、数字以及常用的符号、常用签名和批注手写体字符应建立高频库。OCR 软件应将无法识别的手写体筛选出来,通过人工识别,并将识别结果存入字符库。7.3.3.3 OCR 软件应通过将比对后的识别文字根据上下文在可能的相似候选字群中找出最合乎逻辑的字词对识别文字进行除错或更正,以提高 OCR 识别准确率。7.4 修改校正7.4.1 OCR 软件应对

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 网络技术 > 热门技术

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报