标准规范下载简介
Q/GDW 12118.2-2021 人工智能平台架构及技术要求 第2部分:算法模型共享应用要求.pdfICS 35. 020
Q/GDW12118.2—2021
T/CALI 0602-2019 基于DMX512网络的LED照明设备远程管理(RDM)协议.pdf人工智能平台架构及技术要求
Architectureandtechnicalrequirementsofartificialintelligenceplatform
国家电网有限公司 发布
Q/GDW12118.22021
范围. 规范性引用文件.. 术语和定义, 缩略语 算法模型共享方式, 5.1算法模型文件方式共享. 5.2算法模型容器方式共享. 算法模型文件 6. 1 算法模型源文件. 6. 2 算法模型配置文件. 6. 3 算法模型运行脚本文件.. 算法模型描述文档. 7. 1 数据集描述文档. .5 7. 2 模型服务类型描述文档.. 7. 3 属性描述文档. 7. 4 性能描述文档. 算法模型应用方式. 8. 1 部署应用, 8. 2 二次训练应用.. 8. 3 应用接口应用. 编制说明
[Q/GDW 12118 22021
为规范国家电网有限公司人工智能平台建设,明确人工智能平台架构和技术要求,提升公司人工智 能平台及应用水平,制定本部分。 《人工智能平台架构及技术要求》标准分为三个部分: 一第1部分:总体架构与技术要求; 一第2部分:算法模型共享应用要求; 一第3部分:样本库格式要求, 本部分为《人工智能平台架构及技术要求》的第2部分。 本部分由国家电网有限公司互联网部提出并解释。 本部分由国家电网公司科技部归口。 本部分起草单位:中国电力科学研究院有限公司、国家电网有限公司信息通信分公司、国网四川省 电力公司、国网安徽省电力有限公司、南瑞集团有限公司、国网新疆电力有限公司、许继集团有限公司、 国家电网有限公司客户服务中心。 本部分主要起草人:蒲天骄、来风刚、张颉、蒋炜、季知祥、曾楠、郑永康、姚振、谭凯、胡美慧 翟登辉、张晓慧、肖凯、沈雪晴。 本部分首次发布。 本部分在执行过程中的意见或建议反 公司科技部
本部分规定了电力人 求。 本部分适用于人工智能平台模型库的规划 设计、开发、建设和运维
机器学习machinelearning 功能单元通过获取新知识或技能,或通过整理已有的知识或技能来改进其性能的过程。 [GB/T5271.31—2006,定义31.01.02] 3.2 深度学习deeplearning 机器学习中一种对数据进行表征学习的方法。深度学习通过组合低层特征形成更加抽象的高层特往 表示属性类别,以发现数据的分布式特征表示。 3.3 模型训练modeltraining 基于一系列数据集、学习框架等,并通过最优的建模方法和参数得到一个算法模型的过程。
机器学习machinelearning 功能单元通过获取新知识或技能,或通过整理已有的知识或技能来改进其性能的过程。 [GB/T5271.31—2006,定义31.01.02] 3.2 深度学习deeplearning 机器学习中一种对数据进行表征学习的方法。深度学习通过组合低层特征形成更加抽象的高层特征 表示属性类别,以发现数据的分布式特征表示。 3.3 模型训练modeltraining 基于一系列数据集、学习框架等,并通过最优的建模方法和参数得到一个算法模型的过程。
Q/GDW 12118.22021
测试集testset 用于对最终模型进行无偏评估的样本组成的集
模型文件部著modelfiledeployment 根据提供的算法模型源文件、模型配置文件等,结合相应的开发语言、深度学习框架、模型配置说 明、运行依赖说明,手动完成运行框架、依赖环境安装和配置文件调整,实现算法模型的成功部署,完 成相应推理服务。
容器部署dockerdeployment 利用容器封装算法模型源文件、运行框架、依赖环境、配置文件等资源,通过容器方式实现算 的成功部署,完成相应推理服务
预言模型标记语言(PMML)predictivemodelmarkuplanguage 用于呈现数据挖掘模型,支持在不同的应用程序之间共享预测分析模型。
5.1算法模型文件方式共享
[Q/GDW 12118 22021
算法模型宜支持以模型文件方式共享,可利用算法模型文件实现二次训练和部署应用,算法模型文 件应包括但不限于以下文件: a算法模型源文件; b)算法模型配置文件; c)算法模型运行脚本文件。
5.2算法模型容器方式共享
算法模型应支持以容器方式共享,容器应包括算法模型和算法模型运行所需的基础环境,可利用容 器直接部署应用,容器中算法模型文件应包括但不限于以下文件: a)算法模型二进制文件; b)算法模型配置文件; C)算法模型运行脚本文件
算法模型源文件应包括由训练框架和数据集经过模型训练后得到的所有参数存储文件。所涉及的 练框架包括但不限于Caffe、PyTorch、TensorF1ow、MXNet、飞、MindSpore等深度学习框架。根据不 同描述语言和开发框架,算法模型源文件对应要求如下: a)Caffe框架。算法模型源文件宜包括caffemodel文件和prototxt文件,caffemodel存储模型 参数,prototxt存储模型网络结构; b PyTorch框架。算法模型源文件宜包括pth文件,用于存储模型的网络结构和参数; C TensorF1ow框架。模型源文件宜包括meta文件、data文件和index文件,meta文件存储模 型的网络结构,data文件存储模型的网络参数,index文件为张量描述列表或网络结构和参数 整合后的h5/pb文件; MxNet框架。算法模型源文件宜包括params文件和json文件,params文件存储模型参数,jsor 文件存储模型网络结构; e) 其他框架。算法模型源文件可采用通用PMML预言模型标记语言描述,文件格式为xml,可用 于描述和存储算法模型
6.2算法模型配置文件
模型配置文件描述所有可配置的变量,针对不同框架的配置文件格式要求如下: a)Caffe框架。算法模型配置文件应为prototxt格式: b)PyTorch框架。算法模型配置文件应为py格式; c)TensorF1ow框架。算法模型配置文件应为config格式: )MXNet框架。算法模型配置文件应为params格式: e)其他框架。算法模型配置文件可采用xml格式。 各类配置文件中可调参数应包含但不限于以下字段
Q/GDW 12118. 22021
表 1 可调参数说明
6.3算法模型运行脚本文件
提供算法模型训练所采用的数据集相关描述,应包括但不限于训练数据集、验证数据集和测试数据 集。数据描述字段包括但不限于以下字段
7.2模型服务类型描述文档
应对算法模型训练所属模型服务进行描述。模型服务分类应为语音识别、OCR识别、人脸识别 检测、自然语言处理、知识图谱。
c)作者信息,算法模型的生成作者,可为个人或单位; 模型大小,算法模型源文件大小; 开发语言,算法模型核心部分的开发语言以及相应版本信息,如Python3.6、Javal.8等,可 为多个; 训练框架,训练框架宜包括但不限于TensorFlow、PyTorch、Caffe、MXNet、飞桨、MindSpore 以及相应框架的版本信息,如TensorF1ow2.0.0; g 最小配置,最小配置为能使模型运行的最小配置,最小配置描述应包括但不限于CPU、GPU、 内存、存储空间等配置信息; h 推荐配置,推荐配置为能发挥模型性能的最优配置,推荐配置描述应包括但不限于CPU、GPU、 内存、存储空间等配置信息; 1 芯片类型,应指明模型在边缘端运行所需要的芯片类型、型号,如GPU,NvidiaTeslaP4; 运行环境,运行环境为模型的实际使用环境配置,运行环境描述应包括但不限于如下配置CPU、 GPU、内存、存储空间
性能描述文档应对算法模型的性能参数进行描述,根据不同类型模型,性能参数要求包含,但不限 于如下: a)语音识别类模型。语音识别模型的性能描述宜包括但不限于如下参数: 1)词错误率wER(WordErrorRate)。wER计算方式为:为了使识别出来的词序列和标准的 词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入(Insertion)、 替换(Substitution)、删除(Deletion)的词的总个数,与标准的词序列中词个数的百 分比,即为WER。其计算公式如式(1)所示:
Insertions+Substitutions+Deletions WER=100x Total Word s in Correct Transcript
式中: WER一一词错误率; TotalWordsinCorrectTranscript单词总数; Insertion一插入单词总数; Substitution替换单词总数; Deletion一删除单词总数。 2)句子识别错误率SER。SER计算方式为:为了使识别出来的词序列和标准的词序列之间保 持一致,需要进行替换、删除,句子中如果有一个词识别错误,那么这个句子被认为识别 错误,句子识别错误的个数,除以总的句子个数即为SER。其计算公式如式(2)所示:
SER=100x SentencewithErro Total of Sentences
Q/GDW 12118.22021
1)拒识率FRR,是指在标准数据库上测试OCR识别算法时,相同OCR的匹配分数低于给定 值,从而被认为是不同ORC的比例; 2 误识率FAR,是指在标准数据库上测试OCR识别算法时,不同OCR的匹配分数大于给定崴 值,从而被认为是相同OCR的比例。 人脸识别类模型。人脸识别模型的性能描述宜包括但不限于如下参数: 1)精确率Precision,预测为正例的样本中,真正为正例的比率,如式(3)
TP ecision: TP + FP
ecal1),预测为正例的TP占所有真实正例的比
TF TPR: TP + EN
角率Accuracy,在所有样本里面预测对了的比率
ccuracy TP + TN + FP + FN
2TP+ FP + FN
5)曲线ROC。接受者操作特征曲线,是反映敏感性和特异性连续变量的综合指标,ROC曲线 上每个点反映着对同一信号刺激的感受性。ROC曲线的横坐标和纵坐标分别是伪正类率 FPR和真正类率TPR。 6)伪正类率FPR。预测为正但实际为负的样本占所有负样本的比例,如式(7)
FPR = FP FP + TN
率TPR。预测为正且实际为正的样本占所有正样
TPR=Recall TP TP + FN
厦门市XXXX大厦安全生产文明施工组织设计TPR=Recall TP (8) TP + FN
式中: DR——检测结果; GT——标准答案。
IOU= DRIGT DRUGT
T/CCAATB 0004-2020标准下载DRIGT IOU= DRUGT
[Q/GDW 12118 22021
章法模型应支持以部署方式进行应用 特容器部著, ,宜支持模型文件部署。