标准规范下载简介

GB／T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解.pdf

ICS 35.240.01 CCSL77

信息技术智能语音交互测试方法

重庆绕城高速公路涵洞施工方案Informationtechnology—Intelligentspeechinteractiontestingmethod Part2:Semanticunderstanding

GB/T 41813.2—2022

本文件按照GB/T1.1一2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草。本文件是GB/T41813《信息技术智能语音交互测试方法》的第2部分。GB/T41813已经发布了以下部分：一第1部分：语音识别；一第2部分：语义理解。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。本文件起草单位：中国电子技术标准化研究院、科大讯飞股份有限公司、小米通讯技术有限公司、华为终端有限公司、深圳市优必选科技股份有限公司、中国电信集团有限公司、思必驰科技股份有限公司、中国科学院自动化研究所、中国医学科学院生物医学工程研究所、哈尔滨工业大学、海信视像科技股份有限公司、马上消费金融股份有限公司、腾讯科技（北京）有限公司、沈阳新松机器人自动化股份有限公司、深圳市人马互动科技有限公司、平安科技（深圳)有限公司、安徽咪鼠科技有限公司、泾丰科技（深圳）有限公司、北京捷通华声科技股份有限公司、北京百度网讯科技有限公司、深圳市北科瑞声科技股份有限公司、阿里云计算有限公司、云从科技集团股份有限公司、上海计算机软件技术开发中心、网易（杭州）网络有限公司、南京云问网络技术有限公司、联想（北京)有限公司、福州数据技术研究院有限公司、国家网络软件产品质量监督检验中心（济南）、华南理工大学、山东省计算中心（国家超级计算济南中心）、神思电子技术股份有限公司、郑州中业科技股份有限公司、中汽数据（天津）有限公司、中国电器科学研究院有限公司、中汽研（天津）汽车工程研究院有限公司、中科极限元（杭州)智能科技股份有限公司、北京爱数智慧科技有限公司。本文件主要起草人：徐洋、马万钟、吴国纲、朱亚军、贾一君、周立君、宋文林、袁杰、杨震、田定书、钱彦晏、陶建华、花云飞、蒲江波、李海峰、王峰、杨春勇、苏丹、张锋、冯海洪、刘国涛、任军民、陈楠、刑启洲、李笑如、黄石磊、汪淼淼、蔡立志、李军、胡光龙、杨萌、鹿飞、方斌、王岳、井馄、温正棋、李介、张莹、徐向民、孟宪明、高永超、张晴晴。

信息技术智能语音交互测第2部分：语义理解

信息技术智能语音交互测试方法第2部分：语义理解

本文件描述了智能语音交互测试中语义理解系统的通用测试项和通用测试方法。本文件适用于智能语音服务提供商、用户和第三方检测机构对智能语音交互应用的语义理解系统测试的设计和实施。

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单)适用于本文件。 GB/T36464（所有部分）信息技术智能语音交互系统

不语和定文 GB/T36464（所有部分)界定的以及下列术语和定义适用于本文件。 3.1 语义理解semanticunderstanding 使功能单元理解人说话的意图。 [来源：GB/T36464.1—2020,3.11] 3.2 命名实体namedentity 具有特指或唯一含义的指称名字的实体。 3.3 意图intention 语音交互过程中需要系统执行的任务或达成目标。

智能语音交互测试中的语义理解测试主要包括功能测试与性能测试，具体如下：功能测试用于检查被测系统是否提供了语义理解相关的各项功能，包括：意图理解、命名实体识别、敏感信息识别、语义拒识、信息检索、文本相似度计算、文本修改、语义修正、自然语言生成、逻辑推理、对话引导和上下文相关的多轮对话；性能测试用于检查被测系统中语义理解相关的各项性能，包括：语义理解效果、语义理解效率和系统稳定性。测试过程中，应依据被测系统技术规范进行在线/离线的功能和性能测试。可使用主观体验的方法行测试，主观体验测试应按照附录A描述的测试项和测试方法执行。本文件所列测试项可用于对

智能语音交互测试中的语义理解测试主要包括功能测试与性能测试，具体如下：功能测试用于检查被测系统是否提供了语义理解相关的各项功能，包括：意图理解、命名实体识别、敏感信息识别、语义拒识、信息检索、文本相似度计算、文本修改、语义修正、自然语言生成、逻辑推理、对话引导和上下文相关的多轮对话；性能测试用于检查被测系统中语义理解相关的各项性能，包括：语义理解效果、语义理解效率和系统稳定性。测试过程中，应依据被测系统技术规范进行在线/离线的功能和性能测试。可使用主观体验的方法进行测试，主观体验测试应按照附录A描述的测试项和测试方法执行。本文件所列测试项可用于对

语义理解测试工具包括可编程测试工具、测试统计工具和资源监测工具，应符合下列要求。 a）可编程测试工具要求如下： ·应能调用被测系统开放接口； ·应能对工具配置文件进行定制； ·应能接收文本数据并将其输人至被测系统； ·应能进行功能测试及其相应的性能测试； ·应能以文本形式获取被测系统运行结果。 b）测试统计工具要求如下： ·应能自动对不同测试项的系统运行结果进行统计和分析； ·应能自动对系统运行结果和标准结果对比文件进行比对。 c）资源监测工具应能监测内存、中央处理单元(CPU)、图形处理单元(GPU)、句柄数等系统参数。

支测系统的功能和性能要求，以及应用场景配置相

应使用可编程测试工具和测试统计工具将测试数据集输人到在线/离线状态的被测系统中并运行结果。

测试内容：检查被测系统是否提供理解说话人的意图的功能，包括但不限于以下具体功能。 a）模糊识别：能正确处理错别字、同义词、多字和少字等问题。 b）语义抽取：能抽取语义要素和说话人关键意图，包括： ·命名实体抽取，被测系统能自动对文本中表达关键意图的命名实体进行抽取； ·关键词抽取，被测系统能自动对文本中表达意图的关键词进行抽取； ·语义关系抽取，被测系统能自动对文本中表达语义关系的三元组进行抽取。 c）语义排序：被测系统能在语义理解结果中给出多个排序后的理解结果，供说话人进行选择或二次确认。 d）意图分类：被测系统能对说话人的关键意图进行预测，将输人的文本数据对应到一个或多个预定的意图上，并标记文本数据所属意图类别。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具则试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。

测试内容：检查被测系统是否提供在文本中找出并准确标注命名实体的功能。

测试方法：按照表1中的中命名实体文本的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。

测试内容：检查被测系统是否提供根据上下文对输人文本中的敏感内容进行分辨的功能。注：敏感内容包括涉及黄色、暴力、恐怖和国家安全等信息的内容。测试方法：按照表1中的敏感信息文本的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。

测试内容：检查被测系统是否提供对无法处理或不应当处理的无效文本输人内容进行分辨和拒识的功能。注：无法处理的内容包括被测系统不支持的或与业务无关的内容；不应当处理的内容包括完全无意义的内容。测试方法：按照表2中的未定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。

测试内容：检查被测系统是否提供信息检索的功能，包括但不限于以下具体功能。 a）个性化词典检索：如联系人列表、歌曲列表和兴趣点（POI)等。 b）第三方信源检索：如天气、航班、酒店和股票等。 c）自定义知识库检索。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。

测试内容：检查被测系统是否提供根据输入的文本数据，计算其与已有文本的语义信息一致性程度的功能。语义信息一致性类型包括但不限于以下具体方面。 a）句子用词发生了变化，但语义信息相似。 b）句子结构发生了变化，但语义信息相似。 c）句子用词和结构相似，但语义信息不相似。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。

测试内容：检查被测系统是否提供对对话中的前一句文本进行修改的功能。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。

测试内容：检查被测系统是否提供对语义理解错误的结果进行自动校正的功能。注：语义理解错误包括句法错误、中文分词错误、指代消歧错误等。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进行判定

测试内容：检查被测系统是否提供对语义理解错误的结果进行自动校正的功能。注：语义理解错误包括句法错误、中文分词错误、指代消歧错误等。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程和测试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进

GB/T 41813.2—2022

测试内容：检查被测系统是否提供根据语义理解结果生成自然语言文本，符合说话人的意图、满足语音交互响应的功能。注：自然语言文本内容包括： a）简单答复文本； b）根据预定义模板的答复文本； c）理解和符合说话人的意图的答复文本； d）说话人的意图不明确时给出的合理的引导或推荐的答复文本。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进行判定

测试内容：检查被测系统是否提供对文本内容的逻辑计算和推导的功能。示例：2020年是闰年；爸爸的妈妈叫奶奶。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。

测试内容：检查被测系统是否提供根据说话人的意图和场景需求动态生成引导提示用语，引导用户对其最终目的进行陈述的功能。引导提示用语包含但不限于以下具体内容： a）个性化词典； b）根据用户行为习惯挖掘归类的信息； c）已定义知识库内的知识； d）第三方信源信息； e）海量数据的检索得到的关联信息； f）拒识提示。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进行判定。

6.12上下文相关的多轮会话

测试内容：检查被测系统是否提供上下文相关的多轮会话处理能力，包含但不限于以下具体功能： a）对话状态跟踪； b）对话策略管理； c）对话意图切换、跳转； d）历史信息继承。测试方法：按照表2中的已定义场景或业务文本数据的要求制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果，按照测试内容的描述对结果进行判定

员累计增益等参数表征，具体参数描述和计算方法如下。 a 精确率：检测被测系统的语义理解能力，即被测系统对有效文本实际响应正确的次数占所有本响应正确的总次数的比率。参数值计算方法见公式（1)：

Nss X100% Ns

Pss一语义理解精确率； Nss一有效文本实际响应正确的次数； Ns一所有文本响应正确的总次数。召回率：检测被测系统的语义理解能力，即被测系统对有效文本实际响应正确的次数占应响应正确的总次数的比率。参数值计算方法见公式（2）：

SR 语义拒识率； NsR 无效文本实际响应正确的次数 N 无效文本输人的总次数

无效文本输入的忘认数。准确率：检测被测系统的语义理解能力，即被测系统对所有文本实际响应正确次数占所有文本响应的总次数的比率。参数值计算方法见公式（4)：

某特大桥墩身冬季施工方案Ass 语义理解准确率； Nss 有效文本实际响应正确的次数； NsR 无效文本实际响应正确的次数； N 所有文本响应的总次数。

一语义理解准确率； Nss一有效文本实际响应正确的次数； NsR一无效文本实际响应正确的次数； N一所有文本响应的总次数。 F，值：检测被测系统的语义理解能力，即被测系统的语义理解精确率和语义理解召回率的加权调和平均值。参数值计算方法见公式（5)：

F，值：检测被测系统的语义理解能力，即被测系统的语义理解精确率和语义理解召回率的权调和平均值。参数值计算方法见公式（5）：

式中： F 语义理解F值； P ss 语义理解精确率； Rss 语义理解召回率。

兰州酒店公寓部分塔吊基础施工方案Pss 十 R ss

语义理解F值； Pss一语义理解精确率；语义理解召回率。平均排序倒数：检测被测系统的信息检索能力，即正确结果在被测系统给出结果中的排序位

倒数的平均值。参数值计算方法见公式（6)

兵工民品标准外经贸标准档案标准汽车标准船舶标准海关标准医药标准海军标准商检标准土地管理标准测绘标准

资源来自互联网，如有侵权请联系删除

同类资源：信息技术电力弱电

GB／T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解.pdf

标准规范下载简介

1 通用用电设备配电设计规范条文说明.doc

2 电力工程电缆设计规范 50217-94.doc

3 防雷设计规范2010.pdf

4 10kV及以下变电所设计规范条文说明.doc

5 供配电系统设计规范条文说明.doc

6 电力装置的继电保护和自动装置设计规范条文说明.doc

7 2022版国家电网有限公司输变电工程标准工艺(变电工程电气分册)（国家电网有限公司基建部2022年3月版）.pdf

8 50545《110kV～750kV架空输电线路设计规范》.pdf

9 Q_GDW_11081-2013.pdf

10 GD2016 火力发电厂汽水管道零件及部件典型设计.pdf

11 国家电网有限公司输变电工程初步设计审批管理办法（国网基建部2019年5月31日起施行，国家电网企管〔2017〕69号之国网[基建／3]115-2017）同时废止）.doc

12 Q／GDW 12152-2021 输变电工程建设施工安全风险管理规程.pdf

13 南方电网110-500千伏输变电工程造价控制线(2023年word版).docx

14 GA 38-2021 银行安全防范要求.pdf

15 IEC61400-3 英语版海上风力发电机组设计要求.pdf

16 GB 11032-2010 交流无间隙金属氧化物避雷器.pdf

1 EJ 569-1991 核辐射探测器分类与代码

2 HB 3530-1985 带刃倾角的直柄机用铰刀 d＝6～20mm

3 GB 7062-1986 汽车气制动软管总成

4 DB34／T 2156-2014 高速公路施工标准化指南路面工程

5 邻水县大步口中心敬老院楼施工组织设计

6 115厂房压缩空气管道安装工程施工方案

7 2_安全交底

8 宝兰客专甘肃段项目经理部三工区脚手架搭设技术交底

GB／T 41813.2-2022 信息技术 智能语音交互测试方法 第2部分：语义理解.pdf

标准规范下载简介

1 通用用电设备配电设计规范条文说明.doc

2 电力工程电缆设计规范 50217-94.doc

3 防雷设计规范2010.pdf

4 10kV及以下变电所设计规范条文说明.doc

5 供配电系统设计规范条文说明.doc

6 电力装置的继电保护和自动装置设计规范条文说明.doc

7 2022版国家电网有限公司输变电工程标准工艺(变电工程电气分册)（国家电网有限公司基建部2022年3月版）.pdf

8 50545《110kV～750kV架空输电线路设计规范》.pdf

9 Q_GDW_11081-2013.pdf

10 GD2016 火力发电厂汽水管道零件及部件典型设计.pdf

11 国家电网有限公司输变电工程初步设计审批管理办法（国网基建部2019年5月31日起施行，国家电网企管〔2017〕69号之国网[基建／3]115-2017）同时废止）.doc

12 Q／GDW 12152-2021 输变电工程建设施工安全风险管理规程.pdf

13 南方电网110-500千伏输变电工程造价控制线(2023年word版).docx

14 GA 38-2021 银行安全防范要求.pdf

15 IEC61400-3 英语版海上风力发电机组设计要求.pdf

16 GB 11032-2010 交流无间隙金属氧化物避雷器.pdf

1 EJ 569-1991 核辐射探测器分类与代码

2 HB 3530-1985 带刃倾角的直柄机用铰刀 d＝6～20mm

3 GB 7062-1986 汽车气制动软管总成

4 DB34／T 2156-2014 高速公路施工标准化指南 路面工程

5 邻水县大步口中心敬老院楼施工组织设计

6 115厂房压缩空气管道安装工程施工方案

7 2_安全交底

8 宝兰客专甘肃段项目经理部三工区脚手架搭设技术交底

GB／T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解.pdf

4 DB34／T 2156-2014 高速公路施工标准化指南路面工程