DA/T 77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范

DA/T 77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:659K
标准类别:建筑工业标准
资源ID:210182
下载资源

标准规范下载简介

DA/T 77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范

DA/T 772019

纸质档案数字复制件光学字符

本标准按照GB/T1.1一2009给出的规则起草。 本标准由国家档案局提出并归口。 本标准起草单位:国家档案局馆室司、青岛市档案馆。 本标准主要起草人:刘芸、丁德胜、杨来青、邹杰

本标准按照GB/T1.1一2009给出的规则起草。 本标准由国家档案局提出并归口。 本标准起草单位:国家档案局馆室司、青岛市档案馆。 本标准主要起草人:刘芸、丁德胜、杨来青、邹杰

Q/CR 9250-2020 铁路隧道衬砌施工技术规范(完整正版、清晰无水印).pdf识别准确率recognitionaccuracy 通过OCR技术识别正确字符的比率。 注:识别准确率=(识别正确字符数/应识别字符总数)X100% 3.7 识别速度recognitionspeed 单位时间内通过OCR技术识别字符的数量

4.1档案OCR应当纳人数字档案馆(室)资源建i 设范畴,统筹规划,有序实施,逐步实现常态化 4.2档案OCR应当科学开展,以有利于实现档案信息检索和计算机辅助编目、编研开发、数据挖掘为 原则。 4.3档案OCR应当基于档案数字化工作,档案OCR成果与纸质档案数字复制件之间应建立准确、可 靠的关联关系。 4.4应当采取有效的管理和技术手段,加强档案OCR的过程管理和质量控制,确保档案OCR过程规 范、成果可靠、数据安全。 4.5涉密纸质档案数字复制件的OCR工作,应符合涉密档案相关的管理和技术要求

5.1.1应建立档案OCR工作机构,配备相应素质和技术水平的工作人员,组织开展档案OCR工作的 统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等。档案OCR可 与纸质档案数字化工作统筹配置工作机构和人员。 5.1.2档案OCR工作实行服务外包的,应从企业性质、股东组成、安全保密、企业规模、注册资金情况 等方面严格审查档案OCR服务供方的相关资质;从规章制度的建立健全程度等方面考查服务供方的 管理能力,建立权责明确、覆盖工作全过程的监督机制和安全防范机制,确保档案信息安全。对外聘的 工作人员,应进行安全审查,接规定进行保密教育

5.2.1档案OCR流程包括图像导入、图像预处理、比对识别、修改校正、成果整理输出五个业务环节。 应依据相关技术标准,对档案OCR全过程进行有效控制。V人 5.2.2应加强对档案OCR工作全流程的质量管理和安全管理,建立完善的质量、安全问题发现、修正 机制,确保OCR成果质量和档案信息安全。

5.3工作文件与元数据

5.3.1应建立档案OCR工作方案、技术方案、工作审批材料、流程控制材料、数据验收材料、项目验收 报告、成果移交材料等的管理工作文件,采取服务外包的还应包括项目招标文件、投标文件、中标通知 书、项目合同、保密协议、操作规程、监管记录等,加强对档案OCR工作的管理。 5.3.2应参照相关标准,提出档案OCR工作流程中相关元数据设计、捕获、著录和管理的基本要求

DA/T 772019

5.1.1OCR工作开展前,应当依据纸质档案数字复制件OCR项目的计划、合同、招投标书等有关项目 文件,对OCR工作的识别处理系统、网络系统、基础设施、保障能力等方面进行业务评价

图像资源:即符合导人标准的可识别的彩色(24BITS)、灰度(256阶)和黑白二值图像。一般 应为TIFF、BMP、JPG、PDF(图像)、OFD(图像)格式文件。 OCR引擎:对图像包含文字进行高速度和高准确率识别的OCR软件开发包。 OCR软件:装备OCR引擎的软件,可高速准确输出识别结果,支持人工比对和校正。应根据 需要识别的目标,按照项目资源的成本风险平衡原则确定OCR的范围、质量、效率、技术等 要求。 基础设施:支持系统运行的场所、设施和设备,包括OCR设备及工作间、介质的场外存放场 所、备用的机房及辅助设施等。 一专业技术支持能力:对系统的运转提供支撑和综合保障的能力,以实现系统的预期目标。包括 硬件、系统软件和应用软件的问题分析和处理能力,网络系统安全运行管理能力,沟通协调能 力等。 运行维护管理能力:保障系统相关的设备和软件正常运行,提供长期、及时、全面的技术支持的 能力。包括运行环境管理、系统管理、安全管理和变更管理等 灾难恢复预案:对系统灾难实行快速、有效的响应和恢复。包括灾难紧急响应,灾后系统重建 及重续运行,通信、后勤、技术等相关保障机制建设

6.2.1应当根据确定的档案OCR工作策略制定OCR各工作系统技术方案,包含OCR的数据管理系 统、OCR识别处理系统和网络系统。技术方案中所涉及的系统应满足如下条件: 一与档案管理系统相当的安全保护级别; 一具有可扩展性; 一对档案管理系统无明显可用性和性能影响, 6.2.2为确保技术方案满足档案OCR工作策略的要求,应对技术方案进行确认和验证,并记录和保 存验证及确认的结果。按照确认的OCR软件技术方案进行开发,实现所要求的数据管理系统、OCR识 别处理系统和网络系统。 6.2.3应按照经过确认的技术方案,制定OCR软件各阶段的系统安装及测试计划,以及支持不同关 键业务功能的系统安装及测试计划,并组织最终用户共同进行测试。确认以下各项功能可正确实现: 对识别图像进行预处理: 数据识别及校验; 输出档案OCR成果; 数据安全管理

1.1档案OCR实施前,应当先评估纸质档案数字复制件质量是否符合OCR的基本要求。评估

容一般应包括图像分辨率、偏斜度、清晰度、失真度、亮度、对比度、灰度等。 7.1.2纸质档案数字复制件的图像分辨率应不低于200dpi。特殊情况下,如文字偏小、密集、清晰度 较差等,可以适当提高分辨率。文件命名应符合DA/T13—1994、DA/T22—2015、DA/T31—2017的 定。 7.1.3对质量不能达到档案OCR工作基本要求的纸质档案数字复制件,应按照DA/T31一2017的要 求重新数字化后导人

7. 2. 1 三值化

7.2.2.1对图像中印刷体字符进行识别处理前,需要根据噪声的特征对待识别图像进行降噪处理,提 升识别处理的精确度。 7.2.2.2降噪处理应去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,去除档案页面 原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方

7. 2. 3倾斜校正

7.2.3.1对图像进行识别前,应 动水平或垂直倾斜校正 7.2.3.2应支持由用户指定图像 手工倾斜校正。

7.2.3.1对图像进行识别前,应进

SL 395-2007 地表水资源质量评价技术规程(清晰无水印,附条文说明)图像质量控制程序应自动检测图像处理质量。对无法达到质量要求的图像进行标注。

7.3.1.1对比识别前应对图像中的字符块结构进行版式分析,把图像中相似的版块信息划分到一起 如横排文本、竖排文本、表格、图形等。 7.3.1.2版式分析可采取多种分析方法,自动检测各版块类型,对图像内部区域进行逻辑归类,记录名 版块的位置,存储版面信息

7.3.2档案特征分析

7.3.2.1归档章分析。建立归档章式样库,自动识别图像中的归档章,并根据归档章样式,识别出字段 立置,如全宗号、年度、机构、保管期限、件号、页数等 7.3.2.2公文要素分析。建立公文格式库,可准确识别公文的版头、主体、版记三部分,识别公章、签章 等区域,比照公文样式,识别密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件 说明、发文机关署名、成文日期、附注、附件、抄送机关等公文要素。公文要素OCR识别要求见附录A。 7.3.2.3表格分析。建立单独表格处理模块,建立专用表格模板定义工具,自定义文件处理单、发文稿 纸、备考表等表格模板,识别表格中的字段位置,

GB/T 51365-2019 网络工程验收标准DA/T 772019

7.3.2.4印章分析。识别印章图像位置,存储印章图像,建立印章名称与印章图像的关系库,用于版式 恢复

©版权声明
相关文章