标准规范下载简介
GB/T 41813.2-2022 信息技术 智能语音交互测试方法 第2部分:语义理解.pdfICS 35.240.01 CCSL77
信息技术智能语音交互测试方法
重庆绕城高速公路涵洞施工方案Informationtechnology—Intelligentspeechinteractiontestingmethod Part2:Semanticunderstanding
GB/T 41813.2—2022
本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件是GB/T41813《信息技术智能语音交互测试方法》的第2部分。GB/T41813已经发布 了以下部分: 一第1部分:语音识别; 一第2部分:语义理解。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本文件起草单位:中国电子技术标准化研究院、科大讯飞股份有限公司、小米通讯技术有限公司、华 为终端有限公司、深圳市优必选科技股份有限公司、中国电信集团有限公司、思必驰科技股份有限公司、 中国科学院自动化研究所、中国医学科学院生物医学工程研究所、哈尔滨工业大学、海信视像科技股份 有限公司、马上消费金融股份有限公司、腾讯科技(北京)有限公司、沈阳新松机器人自动化股份有限公 司、深圳市人马互动科技有限公司、平安科技(深圳)有限公司、安徽咪鼠科技有限公司、泾丰科技(深圳) 有限公司、北京捷通华声科技股份有限公司、北京百度网讯科技有限公司、深圳市北科瑞声科技股份有 限公司、阿里云计算有限公司、云从科技集团股份有限公司、上海计算机软件技术开发中心、网易(杭州) 网络有限公司、南京云问网络技术有限公司、联想(北京)有限公司、福州数据技术研究院有限公司、国家 网络软件产品质量监督检验中心(济南)、华南理工大学、山东省计算中心(国家超级计算济南中心)、神 思电子技术股份有限公司、郑州中业科技股份有限公司、中汽数据(天津)有限公司、中国电器科学研究 院有限公司、中汽研(天津)汽车工程研究院有限公司、中科极限元(杭州)智能科技股份有限公司、北京 爱数智慧科技有限公司。 本文件主要起草人:徐洋、马万钟、吴国纲、朱亚军、贾一君、周立君、宋文林、袁杰、杨震、田定书、 钱彦晏、陶建华、花云飞、蒲江波、李海峰、王峰、杨春勇、苏丹、张锋、冯海洪、刘国涛、任军民、陈楠、 刑启洲、李笑如、黄石磊、汪淼淼、蔡立志、李军、胡光龙、杨萌、鹿飞、方斌、王岳、井馄、温正棋、李介、 张莹、徐向民、孟宪明、高永超、张晴晴。
信息技术智能语音交互测 第2部分:语义理解
信息技术智能语音交互测试方法 第2部分:语义理解
本文件描述了智能语音交互测试中语义理解系统的通用测试项和通用测试方法。 本文件适用于智能语音服务提供商、用户和第三方检测机构对智能语音交互应用的语义理解系统 测试的设计和实施。
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于 本文件。 GB/T36464(所有部分)信息技术 智能语音交互系统
不语和定文 GB/T36464(所有部分)界定的以及下列术语和定义适用于本文件。 3.1 语义理解semanticunderstanding 使功能单元理解人说话的意图。 [来源:GB/T36464.1—2020,3.11] 3.2 命名实体namedentity 具有特指或唯一含义的指称名字的实体。 3.3 意图intention 语音交互过程中需要系统执行的任务或达成目标。
智能语音交互测试中的语义理解测试主要包括功能测试与性能测试,具体如下: 功能测试用于检查被测系统是否提供了语义理解相关的各项功能,包括:意图理解、命名实体 识别、敏感信息识别、语义拒识、信息检索、文本相似度计算、文本修改、语义修正、自然语言生 成、逻辑推理、对话引导和上下文相关的多轮对话; 性能测试用于检查被测系统中语义理解相关的各项性能,包括:语义理解效果、语义理解效率 和系统稳定性。 测试过程中,应依据被测系统技术规范进行在线/离线的功能和性能测试。可使用主观体验的方法 行测试,主观体验测试应按照附录A描述的测试项和测试方法执行。本文件所列测试项可用于对
智能语音交互测试中的语义理解测试主要包括功能测试与性能测试,具体如下: 功能测试用于检查被测系统是否提供了语义理解相关的各项功能,包括:意图理解、命名实体 识别、敏感信息识别、语义拒识、信息检索、文本相似度计算、文本修改、语义修正、自然语言生 成、逻辑推理、对话引导和上下文相关的多轮对话; 性能测试用于检查被测系统中语义理解相关的各项性能,包括:语义理解效果、语义理解效率 和系统稳定性。 测试过程中,应依据被测系统技术规范进行在线/离线的功能和性能测试。可使用主观体验的方法 进行测试,主观体验测试应按照附录A描述的测试项和测试方法执行。本文件所列测试项可用于对
语义理解测试工具包括可编程测试工具、测试统计工具和资源监测工具,应符合下列要求。 a)可编程测试工具要求如下: ·应能调用被测系统开放接口; ·应能对工具配置文件进行定制; ·应能接收文本数据并将其输人至被测系统; ·应能进行功能测试及其相应的性能测试; ·应能以文本形式获取被测系统运行结果。 b)测试统计工具要求如下: ·应能自动对不同测试项的系统运行结果进行统计和分析; ·应能自动对系统运行结果和标准结果对比文件进行比对。 c)资源监测工具应能监测内存、中央处理单元(CPU)、图形处理单元(GPU)、句柄数等系统 参数。
支测系统的功能和性能要求,以及应用场景配置相
应使用可编程测试工具和测试统计工具将测试数据集输人到在线/离线状态的被测系统中并 运行结果。
测试内容:检查被测系统是否提供理解说话人的意图的功能,包括但不限于以下具体功能。 a)模糊识别:能正确处理错别字、同义词、多字和少字等问题。 b)语义抽取:能抽取语义要素和说话人关键意图,包括: ·命名实体抽取,被测系统能自动对文本中表达关键意图的命名实体进行抽取; ·关键词抽取,被测系统能自动对文本中表达意图的关键词进行抽取; ·语义关系抽取,被测系统能自动对文本中表达语义关系的三元组进行抽取。 c)语义排序:被测系统能在语义理解结果中给出多个排序后的理解结果,供说话人进行选择或二 次确认。 d)意图分类:被测系统能对说话人的关键意图进行预测,将输人的文本数据对应到一个或多个预 定的意图上,并标记文本数据所属意图类别。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 则试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。
测试内容:检查被测系统是否提供在文本中找出并准确标注命名实体的功能。
测试方法:按照表1中的中命名实体文本的要求制作测试数据集,使用可编程测试工具和测试统计 工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。
测试内容:检查被测系统是否提供根据上下文对输人文本中的敏感内容进行分辨的功能。 注:敏感内容包括涉及黄色、暴力、恐怖和国家安全等信息的内容。 测试方法:按照表1中的敏感信息文本的要求制作测试数据集,使用可编程测试工具和测试统计工 具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。
测试内容:检查被测系统是否提供对无法处理或不应当处理的无效文本输人内容进行分辨和拒识 的功能。 注:无法处理的内容包括被测系统不支持的或与业务无关的内容;不应当处理的内容包括完全无意义的内容。 测试方法:按照表2中的未定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。
测试内容:检查被测系统是否提供信息检索的功能,包括但不限于以下具体功能。 a)个性化词典检索:如联系人列表、歌曲列表和兴趣点(POI)等。 b)第三方信源检索:如天气、航班、酒店和股票等。 c)自定义知识库检索。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。
测试内容:检查被测系统是否提供根据输入的文本数据,计算其与已有文本的语义信息一致性程度 的功能。语义信息一致性类型包括但不限于以下具体方面。 a)句子用词发生了变化,但语义信息相似。 b)句子结构发生了变化,但语义信息相似。 c)句子用词和结构相似,但语义信息不相似。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。
测试内容:检查被测系统是否提供对对话中的前一句文本进行修改的功能。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。
测试内容:检查被测系统是否提供对语义理解错误的结果进行自动校正的功能。 注:语义理解错误包括句法错误、中文分词错误、指代消歧错误等。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工 试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定
测试内容:检查被测系统是否提供对语义理解错误的结果进行自动校正的功能。 注:语义理解错误包括句法错误、中文分词错误、指代消歧错误等。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进
GB/T 41813.2—2022
测试内容:检查被测系统是否提供根据语义理解结果生成自然语言文本,符合说话人的意图、满足 语音交互响应的功能。 注:自然语言文本内容包括: a)简单答复文本; b)根据预定义模板的答复文本; c)理解和符合说话人的意图的答复文本; d)说话人的意图不明确时给出的合理的引导或推荐的答复文本。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定
测试内容:检查被测系统是否提供对文本内容的逻辑计算和推导的功能。 示例:2020年是闰年;爸爸的妈妈叫奶奶。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。
测试内容:检查被测系统是否提供根据说话人的意图和场景需求动态生成引导提示用语,引导用户 对其最终目的进行陈述的功能。引导提示用语包含但不限于以下具体内容: a)个性化词典; b)根据用户行为习惯挖掘归类的信息; c)已定义知识库内的知识; d)第三方信源信息; e)海量数据的检索得到的关联信息; f)拒识提示。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。
6.12上下文相关的多轮会话
测试内容:检查被测系统是否提供上下文相关的多轮会话处理能力,包含但不限于以下具体功能: a)对话状态跟踪; b)对话策略管理; c)对话意图切换、跳转; d)历史信息继承。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定
员累计增益等参数表征,具体参数描述和计算方法如下。 a 精确率:检测被测系统的语义理解能力,即被测系统对有效文本实际响应正确的次数占所有 本响应正确的总次数的比率。参数值计算方法见公式(1):
Nss X100% Ns
Pss一语义理解精确率; Nss一有效文本实际响应正确的次数; Ns一所有文本响应正确的总次数。 召回率:检测被测系统的语义理解能力,即被测系统对有效文本实际响应正确的次数占应响 应正确的总次数的比率。参数值计算方法见公式(2):
SR 语义拒识率; NsR 无效文本实际响应正确的次数 N 无效文本输人的总次数
无效文本输入的忘认数。 准确率:检测被测系统的语义理解能力,即被测系统对所有文本实际响应正确次数占所有文 本响应的总次数的比率。参数值计算方法见公式(4):
某特大桥墩身冬季施工方案Ass 语义理解准确率; Nss 有效文本实际响应正确的次数; NsR 无效文本实际响应正确的次数; N 所有文本响应的总次数。
一语义理解准确率; Nss一有效文本实际响应正确的次数; NsR一无效文本实际响应正确的次数; N一所有文本响应的总次数。 F,值:检测被测系统的语义理解能力,即被测系统的语义理解精确率和语义理解召回率的加 权调和平均值。参数值计算方法见公式(5):
F,值:检测被测系统的语义理解能力,即被测系统的语义理解精确率和语义理解召回率的 权调和平均值。参数值计算方法见公式(5):
式中: F 语义理解F值; P ss 语义理解精确率; Rss 语义理解召回率。
兰州酒店公寓部分塔吊基础施工方案Pss 十 R ss
语义理解F值; Pss一语义理解精确率; 语义理解召回率。 平均排序倒数:检测被测系统的信息检索能力,即正确结果在被测系统给出结果中的排序位
倒数的平均值。参数值计算方法见公式(6)