标准规范下载简介

GB／T 41813.1-2022 信息技术智能语音交互测试方法第1部分：语音识别.pdf

ICS 35.240.01 CCSL77

GB/T41813.1—2022

信息技术智能语音交互测试方法第1部分：语音识别

GB/T 41813.1—2022

本文件按照GB/T1.1一2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定起草。本文件是GB/T41813《信息技术智能语音交互测试方法》的第1部分。GB/T41813已经发布了以下部分：一第1部分：语音识别；一第2部分：语义理解。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国信息技术标准化技术委员会（SAC/TC28)提出并归口。本文件起草单位：中国电子技术标准化研究院、科大讯飞股份有限公司、小米通讯技术有限公司、华为终端有限公司、深圳市优必选科技股份有限公司、中国电信集团有限公司、思必驰科技股份有限公司、中国科学院自动化研究所、中国医学科学院生物医学工程研究所、哈尔滨工业大学、海信视像科技股份有限公司、马上消费金融股份有限公司、腾讯科技（北京)有限公司、沈阳新松机器人自动化股份有限公司、深圳市人马互动科技有限公司、平安科技（深圳)有限公司、安徽咪鼠科技有限公司、泾丰科技(深圳) 有限公司、北京捷通华声科技股份有限公司、北京百度网讯科技有限公司、深圳市北科瑞声科技股份有限公司、阿里云计算有限公司、云从科技集团股份有限公司、网易（杭州）网络有限公司、南京云问网络技术有限公司、联想（北京）有限公司、福州数据技术研究院有限公司、国家网络软件产品质量监督检验中心（济南）、中汽研（天津)汽车工程研究院有限公司、华南理工大学、山东省计算中心（国家超级计算济南中心）、中科极限元（杭州)智能科技股份有限公司、神思电子技术股份有限公司、郑州中业科技股份有限公司、中汽数据（天津)有限公司、中国电器科学研究院有限公司、上海计算机软件技术开发中心、北京爱数智慧科技有限公司。本文件主要起草人：董建、徐洋、吴国纲、马万钟、朱亚军、贾一君、周立君、宋文林、袁杰、杨震、田定书、钱彦晏、陶建华、花云飞、蒲江波、刘斌、李海峰、王峰、杨春勇、苏丹、张锋、冯海洪、刘国涛、任军民、陈楠、刑启洲、魏韬、李笑如、黄石磊、汪淼淼、李军、胡光龙、杨萌、孟宪明、温正棋、鹿飞、方斌、王岳、井馄、李介、张莹、蔡立志、徐向民、高永超、张晴晴。

GB/T 41813.1—2022

信息技术智能语音交互测试方法第1部分：语音识别

信息技术智能语音交互测试方法

本文件描述了智能语音交互测试中语音识别系统的通用测试项和通用测试方法。本文件适用于智能语音服务提供商、用户和第三方检测机构对智能语音交互应用的语音识别系统测试的设计和实施

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引牛，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单)适本文件。 GB/T21023中文语音识别系统通用技术规范 GB/T36464（所有部分）信息技术智能语音交互系统

GB/T36464（所有部分）界定的以及下列术语和定义适用于本文件。 3.1 语音识别speechrecognition 将人类的声音信号转化为文字或者指令的过程。 [来源：GB/T36464.1—2020，3.7] 3.2 说话人分离speakerdiarization 对包含有效语音信号的音频流中的多个说话人进行说话人分割和说话人聚类的过程。注：说话人分离的目的一般是对空间中存在的多个说话人进行分类和追踪。 3.3 说话人分割speakersegmentation 在多个说话人中找出说话人改变的时间边界，并根据这些边界将音频流切分成多个语音片段。 3.4 说话人聚类speakerclustering 将属于同一个说话人的一个或多个语音片段进行归类。 3.5 语音编码speechcoding;speechencoding 语音波形编码speechwaveformcoding 按照一组能合理重构语音信号的规划，由经数字化的语音信号到离散的数据元序列的转换。注：语音数字化可与用于语音压缩的某一编码相结合。因此，"语音编码"这一术语常指这种组合运算。 [来源：GB/T5271.29—2006，29.01.23]

GB/T41813.1—2022

语音识别测试工具包括可编程测试工具、测试统计工具和资源监测工具符合下列要求。 a）可编程测试工具要求如下： ·应能调用被测系统开放接口； ·应能对工具配置文件进行定制； ·应能接收语音数据并将其输人至被测系统； ·应能进行功能测试及其相应的性能测试； ·应能以文本形式获取被测系统运行结果。 b）测试统计工具要求如下： ·应能自动对不同测试项的系统运行结果进行统计和分析； ·应能自动对系统运行结果和标准结果对比文件进行比对。 c）资源监测工具应能监测内存、中央处理单元(CPU)、图形处理单元(GPU)、句柄数等系统资源参数。

采样设备：音频采样设备参数应符合表2的要求，

表2音频采样设备参数要求

音频采样设备参数要求

专声器设备：传声器设备参数应符合表3的要求。

回放设备：回放设备参数应符合表4的要求。

GB/T 41813.1—2022

表4回放设备参数要求

应根据被测系统的功能和性能要求，以及应用场景配置相应的软硬件环境，

应使用可编程测试工具和测试统计工具将测试数据集输人到在线/离线状态的被测系统中并获取运行结果

应根据被测系统技术要求对系统在各测试项上的运行结果进行记录和分析，形成测试结果。

测试内容：检查被测系统是否提供给定拾音距离下的语音信号采集功能。测试方法：按照表1的要求和测试功能制作测试数据集，按照给定的拾音距离，放置被测系统和回放设备（播放器或人工嘴)，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果。拾音距离应根据被测系统的主要用途和应用场景进行设置，在实际测试中可根据需要进行区间划分，例如，按照1m、3m和5m划分为4个区间。

GB/T 41813.1—2022

测试内容：检查被测系统是否提供将所接收到的有效语音信号转化为与语音内容相符的文字结果，并将其输出的功能。测试方法：按照表1的要求和测试功能制作测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果。

测试内容：检查被测系统是否提供语音唤醒的功能，包括但不限于以下具体功能。 a）命令字（词)唤醒：能使用预定义唤醒命令字（词)唤醒被测系统。 b）自定义唤醒命令字（词)：能自定义唤醒命令字（词）。 c）多命令字（词）唤醒：能使用不同的唤醒命令字（词）唤醒被测系统。 d）多音频流监听：被测系统在执行语音唤醒的同时能监听多个音频流。 e）语音打断唤醒：能使用语音打断的方式唤醒被测系统。 f）协同唤醒：使用相同命令字（词)的多个设备在同一场景中出现，一次唤醒操作有且仅有一个设备应答。测试方法：按照表1的要求和测试功能制作包含预定义唤醒命令字（词）、非唤醒命令字（词）、自定义唤醒命令字(词）、多个唤醒命令字(词)和语音打断唤醒命令字(词)的测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果。

测试内容：检查被测系统是否提供前端信号处理的功能，包括但不限于以下具体功能。 a）语音编解码：被测系统能设置语音编码算法的压缩等级，能支持不同音频编码格式下的语音音频的压缩和解压缩，并确保语音内容不变。 b）端点检测：被测系统能从连续音频流中检测出第一个或多个语音片段的起始点和结束点，能设置端点检测灵敏度，即设置语音等待超时时长和尾部静音长度。 C1 语音增强：被测系统能自动对输人语音的信噪比进行改善，能对输人语音中的背景噪声和晚期混响进行抑制。 d）声源定位：被测系统能自动对发声源的空间位置进行定位。 e）格式转换：被测系统能自动对输人音频的格式进行转换，并确保语音内容不变。 f）·重采样：被测系统能改变数字语音信号的采样率，并确保语音内容不变。 g）音频质量判断：被测系统能对输人音频质量进行自动判断。示例：对音量过小、信噪比过低或存在前、后截断的音频判断为音频质量较差。 h）声学回声消除：被测系统能对输人音频进行回声消除。测试方法：按照表1的要求和测试功能制作包含多种音频质量的测试数据集，包括前截断音频、后断音频、音量小音频、信噪比低音频等，使用可编程测试工具和测试统计工具将测试数据集输人到被系统并获取运行结果。

测试内容：检查被测系统是否提供说话人分离的功能，包括但不限于以下具体功能。 D 说话人分割：被测系统能自动进行说话人分割，分割后的语音片段只包含一个说话人的语音内容。说话人聚类：被测系统能自动进行说话人聚类，聚类后的语音片段分别对应不同的说话人

测试内容：检查被测系统是否提供说话人分离的功能，包括但不限于以下具体功能。 8D 说话人分割：被测系统能自动进行说话人分割，分割后的语音片段只包含一个说话人的语音内容。 b) 说话人聚类：被测系统能自动进行说话人聚类，聚类后的语音片段分别对应不同的说话人，

GB/T 41813.1—2022

测试方法：按照表1的要求和测试功能制作包含多个说话人交替对话的测试数据集，对话时长 min，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果。

测试内容：检查被测系统是否提供语言信息识别的功能社区配套服务及活动用房住宅楼施工组织设计.doc，包括但不限于以下具体功能。 a）（多)语种识别：被测系统能自动对输人语音所属的某个或多个(2个及以上)语种进行判断并输出（多)语种识别结果。 b）多语种混读识别：在多个语种混读的情况下，被测系统能自动对不同语种进行判断并输出多语种混读识别结果。 c）（多)汉语方言识别：被测系统能自动对输人语音所属的某个或多个(2个及以上)汉语方言进行判断并输出（多）汉语方言识别结果。 d）语言信息端点识别：被测系统能自动对不同的语种、汉语方言的音频片段端点进行判断并输出语言信息端点识别结果。测试方法：按照表1的要求和测试功能制作包含一个或多个语音信息的测试数据集，使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果

测试内容：语音识别效果测试项包括对字识别效果和句识别正确率的测试。 a）字识别效果：字识别效果由字匹配率等参数表征，它们共同显示被测系统的字识别能力。参数值按GB/T21023描述的方法计算： ·字匹配率， ·替代错误率，

测试内容：语音识别效率测试项用语音识别平均响应时间、语音识别平均子句响应时间、语音识别时间分布和语音识别吞吐率等参数表征。 a) 语音识别平均响应时间：语音识别响应时间指的是接收到一条语音后，被测系统给出该条语音识别结果的时间；语音识别平均响应时间是测试数据集上所有语音识别响应时间与输人语音总条数的比值。参数值计算方法见公式（1)：

式中： Tw 语音识别平均响应时间； t： —得到第i条语音识别结果的时刻； t° 一第i条语音输人结束的时刻； N 一输人语音总条数。

式中： T一语音识别平均响应时间； t：一得到第i条语音识别结果的时刻； t。一第i条语音输人结束的时刻； N一输人语音总条数。 b> ）语音识别平均子句响应时间：语音识别子句响应时间指的是接收到一条语音后，被测系统给出该条语音中某一子句识别结果的时间；语音识别平均子句响应时间是测试数据集上所有语音识别子句响应时间与输人语音总条数的比值。参数值计算方法见公式（2)：

东莞电力生产调度大楼井字梁模板施工方案式中： Tw一语音识别平均子句响应时间； t一得到第i条语音中第j个子句识别结果的时刻； t一第i条语音中第j个子句输人结束的时刻； N一一输人语音总条数。 ?) . 语音识别响应时间分布：此参数显示测试数据集上所有语音识别响应时间分布及其占比情况实际测试时可根据需要划分不同响应时间区间。

GB/T 41813.1—2022

d）语音识别吞吐率：此参数描述一次性输人包含录制好的（长时间)语音并一次性给出整体语音识别结果的效率，即被测系统在单位响应时间内识别语音音频的时间长度。参数值计算方法为测试数据集上语音音频总时长除以测试数据集上语音识别响应时间总时长。测试方法：语音识别效率测试方法如下。测试数据：按照表1的要求制作测试数据集，此外，制作语音时长为10s士0.1s、语音结束后无静音的测试数据集用于语音识别平均响应时间和语音识别响应时间分布测试；制作语音时长大于10h的测试数据集用于语音识别吞吐率测试。测试工具：符合5.2的要求。测试设备：符合5.3的要求。测试环境：符合5.4的要求。测试执行：按照5.5的要求对被测系统进行测试。测试结果：按照测试内容描述的方法得出系统运行结果并生成结果文件，包括测试数据集名称、测试数据集数量、测试项结果等。系统运行结果符合被测系统技术要求或相关标准规范则测试通过，否则不通过。

金融标准 WH文化标准商检标准建筑材料标准电力标准教育标准铁路运输标准通讯标准档案标准化工标准旅游标准

资源来自互联网，如有侵权请联系删除

同类资源：信息技术电力弱电

GB／T 41813.1-2022 信息技术智能语音交互测试方法第1部分：语音识别.pdf

标准规范下载简介

1 通用用电设备配电设计规范条文说明.doc

2 电力工程电缆设计规范 50217-94.doc

3 防雷设计规范2010.pdf

4 10kV及以下变电所设计规范条文说明.doc

5 供配电系统设计规范条文说明.doc

6 电力装置的继电保护和自动装置设计规范条文说明.doc

7 2022版国家电网有限公司输变电工程标准工艺(变电工程电气分册)（国家电网有限公司基建部2022年3月版）.pdf

8 50545《110kV～750kV架空输电线路设计规范》.pdf

9 Q_GDW_11081-2013.pdf

10 GD2016 火力发电厂汽水管道零件及部件典型设计.pdf

11 国家电网有限公司输变电工程初步设计审批管理办法（国网基建部2019年5月31日起施行，国家电网企管〔2017〕69号之国网[基建／3]115-2017）同时废止）.doc

12 Q／GDW 12152-2021 输变电工程建设施工安全风险管理规程.pdf

13 南方电网110-500千伏输变电工程造价控制线(2023年word版).docx

14 GA 38-2021 银行安全防范要求.pdf

15 IEC61400-3 英语版海上风力发电机组设计要求.pdf

16 GB 11032-2010 交流无间隙金属氧化物避雷器.pdf

1 GA 12-1991 集水器性能要求和试验方法

2 SN/T 1877.1-2007 脱模剂中多环芳烃的测定方法

3 GB 2587-81 热设备能量平衡通则

4 SN/T 1532-2005 出口橡胶气球检验规程

5 SY/T 6848-2012 地下储气库设计规范

6 DBS61 0003-2013 代用茶安全要求

7 烟台医科大学附属医院污水处理厂建设工程施工方案

GB／T 41813.1-2022 信息技术 智能语音交互测试方法 第1部分：语音识别.pdf

标准规范下载简介

1 通用用电设备配电设计规范条文说明.doc

2 电力工程电缆设计规范 50217-94.doc

3 防雷设计规范2010.pdf

4 10kV及以下变电所设计规范条文说明.doc

5 供配电系统设计规范条文说明.doc

6 电力装置的继电保护和自动装置设计规范条文说明.doc

7 2022版国家电网有限公司输变电工程标准工艺(变电工程电气分册)（国家电网有限公司基建部2022年3月版）.pdf

8 50545《110kV～750kV架空输电线路设计规范》.pdf

9 Q_GDW_11081-2013.pdf

10 GD2016 火力发电厂汽水管道零件及部件典型设计.pdf

11 国家电网有限公司输变电工程初步设计审批管理办法（国网基建部2019年5月31日起施行，国家电网企管〔2017〕69号之国网[基建／3]115-2017）同时废止）.doc

12 Q／GDW 12152-2021 输变电工程建设施工安全风险管理规程.pdf

13 南方电网110-500千伏输变电工程造价控制线(2023年word版).docx

14 GA 38-2021 银行安全防范要求.pdf

15 IEC61400-3 英语版海上风力发电机组设计要求.pdf

16 GB 11032-2010 交流无间隙金属氧化物避雷器.pdf

1 GA 12-1991 集水器性能要求和试验方法

2 SN/T 1877.1-2007 脱模剂中多环芳烃的测定方法

3 GB 2587-81 热设备能量平衡通则

4 SN/T 1532-2005 出口橡胶气球检验规程

5 SY/T 6848-2012 地下储气库设计规范

6 DBS61 0003-2013 代用茶安全要求

7 烟台医科大学附属医院污水处理厂建设工程施工方案

GB／T 41813.1-2022 信息技术智能语音交互测试方法第1部分：语音识别.pdf