T/CESA 1199-2022 人工智能 智能字符识别技术规范.pdf

T/CESA 1199-2022 人工智能 智能字符识别技术规范.pdf
仅供个人学习
反馈
标准编号:T/CESA 1199-2022
文件类型:.pdf
资源大小:5.7 M
标准类别:电力标准
资源ID:371958
下载资源

T/CESA 1199-2022标准规范下载简介

T/CESA 1199-2022 人工智能 智能字符识别技术规范.pdf

ICS 35.240 CCS L70

/CESA 11992022

Artificial intelligenceTechnical specification forintelligent character rec

SL 323-2011 实时雨水情数据库表结构与标识符.pdfT/CESA 11992022

所有归属于该标准的发布机构,除非有其他规定,否则未经许可,此发行物及其章节不得以其 任何手段进行复制、再版或使用,包括电子版,影印件,或发布在互联网及内部网络等。使用 发布机构获取。

版权所有归属于该标准的发布机构,除非有其他规定,否则未经许可,此发行物及其章节不得 形式或任何手段进行复制、再版或使用,包括电子版,影印件,或发布在互联网及内部网络等。 可可于发布机构获取。

T/CESA 11992022

本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件由中国电子技术标准化研究院提出。 本文件由中国电子技术标准化研究院、中国电子工业标准化技术协会归口。 本文件起草单位:中国电子技术标准化研究院、腾讯云计算(北京)有限责任公司、华为技术有限 公司、深圳云天励飞技术股份有限公司、四川云从天府人工智能科技有限公司、西安深信科创信息技术 有限公司、美的集团(上海)有限公司、阿里云计算有限公司、北京百度网讯科技有限公司、浙江大华 支术股份有限公司、北京旷视科技有限公司、杭州海康威视数字技术股份有限公司、华为云计算技术有 限公司、上海计算机软件技术开发中心、上海依图网络科技有限公司、上海商汤智能科技有限公司、深 圳市矽赫科技有限公司、马上消费金融股份有限公司、北京九章云极科技有限公司、西北工业大学、上 海人工智能研究院有限公司。 本文件主要起草人:董建、马珊珊、刘海涛、杨晓光、刘皓、张小宝、徐洋、杨雨泽、王小叶、 王彭、郑文先、代翔、李军、李继伟、田福康、胡蓉、脱立恒、郭嘉、姚聪、杨志博、章成全、杨烨华、 李笑如、陈媛媛、熊剑平、程淼、梅敬青、付英波、程战战、钮毅、谢泽澄、符海芳、郝阳阳、陈敏刚 马泽宇、赵春昊、梁鼎、武焕、洪鹏达、洪宝璇、李云峰、刘志强、方磊、毛玉婷、王鹏、王冀、宋海 涛、王资凯

T/CESA 11992022

人工智能智能字符识别技术规范

本文件确立了智能字符识别技术参考框架,规定了功能要求和性能要求,描述了对应的测试 本文件适用于智能字符识别产品和服务的设计、开发、应用和测试评价。

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 汉该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T5271.12一2000信息技术词汇第12部分:外围设备

智能字符识别intelligentcharacterrecognition 种基于深度学习的光学字符识别技术。对印刷文字、手写文字、表格、公式符号以及 素进行识别和编码。

文本检测textdetection 对图像上字符(串)、文本行(列)位置进行定位的过程。 注:字符(串)包括数字,符号,英文,中文或其他语言文本。 4 文本识别textrecognition 对图像上字符(串)、文本行位置进行识别的过程。 注:字符(串)包括数字,符号,英文,中文或其他语言文本

T/CESA 11992022

文本信息提取textinformationextraction 对图像上识别出的文本,进行排序、合并、自然语言处理等操作,使其转换为结构化信息的过程。

基于人工智能技术的字符识别系统框架见图1。

图1智能字符识别系统框架

ICR将给定图像中的点或像素字符转换为数字编码信息,包括图像获取、图像预处理、文本检测、 文本识别、信息提取五个模块。 a)图像获取模块负责图像、视频截图中图像的读取; b) 图像预处理模块负责对从图像获取模块接收到的图像原始数据,将其转换成满足文本检测、文 本识别等输入要求的图像,其中包括质量增强、版面分析和质量筛选等功能; C 文本检测模块负责对于给定图像(包括原始图像、图像中间样本等)进行字符和文本行检测

ICR将给定图像中的点或像素字符转换为数字编码信息,包括图像获取、图像预处理、文本检测 识别、信息提取五个模块。 图像获取模块负责图像、视频截图中图像的读取; 图像预处理模块负责对从图像获取模块接收到的图像原始数据,将其转换成满足文本检测、 本识别等输入要求的图像,其中包括质量增强、版面分析和质量筛选等功能; 文本检测模块负责对于给定图像(包括原始图像、图像中间样本等)进行字符和文本行检测

d)文本识别模块负责对于给定文本图像,可包括原始图像、图像中间样本、文本检测出的图像区 域等,进行字、词和文本行的内容识别; e 信息提取模块依据版面分析、自然语言处理等手段将基于文本检测和文本识别结果,转换为结 构化数据,以及识别结果的矫正。

图像采集功能应符合以下要求: a)支持对包含但不限于JPEG、GIF、PNG、TIFF、BMP、PDF等常见的图片格式进行读取。图片分 辨率支持范围应该包含128×128dpi~4096x4096dpi; b)支持对包括但不限于自然场景卡证、票据、文档、表单等常见文本场景文字的检测和识别。

5. 3. 1字符检测

在原始图像或图像中间样本识别从预定义范围的字符符合以下要求: a)应支持设置待检测字符类型范围,如:Unicode字符集; b)应检测出预先定义范围内的字符类型,包含但不限于:中文简体、中文繁体以及英语、阿拉伯 语、俄语等西文;宜支持藏语、蒙语、维语等少数民族语言,数字、特殊符号及其组合等; C 应在检测结果中包含字符在图像中的位置信息; d 宜支持对所检测图像中的最小、最大字符大小的设置,如:8px~256pX。

对原始图像或图像中间样本进行文本行检测符合以下要求: a)应定位出图像中文字块的位置,位置信息支持水平矩形、旋转矩形、不规则四边形以及多轮廓 点等形式; b 应根据位置信息将含有文本行的区域,通过算法,如:仿射、最小外接矩形等归一化算法,处 理成规则的图像数据; c)应支持对所需检测图像分辨率的设置,如:128×128dpi~4096×4096dpi; 宜支持不同语言种类的检测,如对中文、英文、混合语种的检测;支持印刷体和手写体的混合 模式、不同字体类型大小、不同角度倾斜、不同程度遮挡物等情况的文字区域检测,

T/CESA 11992022

对图片中的文本行检测区域进行定位后,对检测区域内文本内容进行识别,应符合以下要求: a)对印刷文字和手写文字的识别; b)对字符、字母、混合语种中的文字内容进行识别; 对数字、数学公式以及特殊符号的识别: d 英文识别的最小尺寸为16x16px,中文识别的最小尺寸为32x32px; e) 对方向有旋转的文字,支持文字与水平轴<土15°夹角偏转; f 支持对如中、日、韩文等有比较多竖排文字呈现的文字识别

内结构化数据,应符合以下要求: a)可对文本中的特定词汇进行纠错: 可根据特定的语言上下文的关系,对识别结果进行校正。对于需要校正的字段,应支持定义校 正规则,并依据校正规则进行处理,如日期、地址、金额类等; c) 可支持对文本版式结构的还原,包括但不限于标题、章节、段落、图表、脚注、页眉、页脚等 版本格式; d)可支持识别表格区域行列信息,并对表格区域结构单元信息进行恢复还原

3.1文本检测性能要求

6. 1. 1交并比 (IoU)

交并比是用来评价文本目标框和文本预 测框之间的重合度。计算公式如式1,

6.1.2精确率(PR)

IoU = area (BpnBgt). area (B,UBgt)

精确度包括字符精确度、单词精确度和字段精确度。其中: a)字符精确率:适合中文ICR评测,字符包括单个文字以及标点符号; b)单词精确率:适合英文ICR评测,单词以空格分隔; c)字段精确率:适合卡证类、发票类、车牌ICR评测,能提取到结构化的字段信息。 精确率用于衡量正确检测出的字符(串)框数量占所有检测出的字符(串)框数量的比例。计算方 法见公式2: 正确检测是指预测框与目标框的IoU不小于0.5。

式中: PR—精确率; C——正确检测出的字符(串)框数量; M 检测出的字符(串)框总数量。

6.1.3召回率(RR)

T/CESA 11992022

召回率包括字符召回率、单词召回率和字段召回率。召回率用于衡量正确检测出的字符(串) 占图像上真实存在的字符(串)框数量的比例。计算方法见公式3:

式中: RR召回率; C一一正确识别的字符(串)框数量; 图像上应该被正确识别的字符(串)框总数量

6. 1.4F Score

6. 1. 5AP 测度

FScore =(1 +β) B2(PR+RR)

式中: AP 不同召回率下的平均精确率; RR 召回率; PRonis 平滑后的精确率。

1 PRsmooth(RR) RRE(0,0.1...1.0)

AP = PRsmooth(RR) RRE(0.0.1 ...1.0

杭州室内装饰装修工程施工组织设计电子/扫描、拍照、自然街景、网络、多语音等场景下的文本检测性能要求应符合表1的要求。

6.2文本识别性能要求

6.2.1精确率(PR)

精确率用于衡量正确识别出的字符(串)数量占所有检测出的字符(串)数量的比例。计算方法见 公式6:

式中: PR精确率; 一正确识别的字符(串)数量; M 一识别的字符(串)总数量。 注1:若引擎将两个单词之间的空格漏掉,则两个单词都算识别错误 注2:字段中如有一个错误识别的文字则整个字段算作识别错误

6. 2. 2 编辑距离

编辑距离表示一个学符串修改为和另外一个字符串一致GBT50357-2018标准下载,总共需要修改的学符数。编辑距离越大表 示两字符串之间的差异越大。编辑距离包括全图编辑距离、最小编辑距离和平均编辑距离。 归一化编辑距离可以衡量两个字符串之间的相似性,在编辑距离的基础上加入归一化操作可规避字 符串长度带来的指标差异。计算方法见公式7:

词错误率(WordErrorRate,wER)是一种基于编辑距离的评价文本识别准确率的指标。而在评价 文本,通常采用此错误率,该指标的定义为公式8:

EDITDIS(label,pred) WER= LENGTH(label) ×100%

©版权声明
相关文章