标准规范下载简介
GB/T 41813.1-2022 信息技术 智能语音交互测试方法 第1部分:语音识别.pdfICS 35.240.01 CCSL77
GB/T41813.1—2022
信息技术智能语音交互测试方法 第1部分:语音识别
道路改建工程高压旋喷桩止水帷幕施工方案信息技术智能语音交互测试方法
GB/T 41813.1—2022
本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件是GB/T41813《信息技术智能语音交互测试方法》的第1部分。GB/T41813已经发布 了以下部分: 一第1部分:语音识别; 一第2部分:语义理解。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本文件起草单位:中国电子技术标准化研究院、科大讯飞股份有限公司、小米通讯技术有限公司、华 为终端有限公司、深圳市优必选科技股份有限公司、中国电信集团有限公司、思必驰科技股份有限公司、 中国科学院自动化研究所、中国医学科学院生物医学工程研究所、哈尔滨工业大学、海信视像科技股份 有限公司、马上消费金融股份有限公司、腾讯科技(北京)有限公司、沈阳新松机器人自动化股份有限公 司、深圳市人马互动科技有限公司、平安科技(深圳)有限公司、安徽咪鼠科技有限公司、泾丰科技(深圳) 有限公司、北京捷通华声科技股份有限公司、北京百度网讯科技有限公司、深圳市北科瑞声科技股份有 限公司、阿里云计算有限公司、云从科技集团股份有限公司、网易(杭州)网络有限公司、南京云问网络技 术有限公司、联想(北京)有限公司、福州数据技术研究院有限公司、国家网络软件产品质量监督检验中 心(济南)、中汽研(天津)汽车工程研究院有限公司、华南理工大学、山东省计算中心(国家超级计算济南 中心)、中科极限元(杭州)智能科技股份有限公司、神思电子技术股份有限公司、郑州中业科技股份有限 公司、中汽数据(天津)有限公司、中国电器科学研究院有限公司、上海计算机软件技术开发中心、北京爱 数智慧科技有限公司。 本文件主要起草人:董建、徐洋、吴国纲、马万钟、朱亚军、贾一君、周立君、宋文林、袁杰、杨震、 田定书、钱彦晏、陶建华、花云飞、蒲江波、刘斌、李海峰、王峰、杨春勇、苏丹、张锋、冯海洪、刘国涛、 任军民、陈楠、刑启洲、魏韬、李笑如、黄石磊、汪淼淼、李军、胡光龙、杨萌、孟宪明、温正棋、鹿飞、方斌、 王岳、井馄、李介、张莹、蔡立志、徐向民、高永超、张晴晴。
GB/T 41813.1—2022
信息技术智能语音交互测试方法 第1部分:语音识别
信息技术智能语音交互测试方法
本文件描述了智能语音交互测试中语音识别系统的通用测试项和通用测试方法。 本文件适用于智能语音服务提供商、用户和第三方检测机构对智能语音交互应用的语音识别系统 测试的设计和实施
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引 牛,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适 本文件。 GB/T21023中文语音识别系统通用技术规范 GB/T36464(所有部分)信息技术智能语音交互系统
GB/T36464(所有部分)界定的以及下列术语和定义适用于本文件。 3.1 语音识别speechrecognition 将人类的声音信号转化为文字或者指令的过程。 [来源:GB/T36464.1—2020,3.7] 3.2 说话人分离speakerdiarization 对包含有效语音信号的音频流中的多个说话人进行说话人分割和说话人聚类的过程。 注:说话人分离的目的一般是对空间中存在的多个说话人进行分类和追踪。 3.3 说话人分割speakersegmentation 在多个说话人中找出说话人改变的时间边界,并根据这些边界将音频流切分成多个语音片段。 3.4 说话人聚类speakerclustering 将属于同一个说话人的一个或多个语音片段进行归类。 3.5 语音编码speechcoding;speechencoding 语音波形编码speechwaveformcoding 按照一组能合理重构语音信号的规划,由经数字化的语音信号到离散的数据元序列的转换。 注:语音数字化可与用于语音压缩的某一编码相结合。因此,"语音编码"这一术语常指这种组合运算。 [来源:GB/T5271.29—2006,29.01.23]
GB/T41813.1—2022
语音识别测试工具包括可编程测试工具、测试统计工具和资源监测工具符合下列要求。 a)可编程测试工具要求如下: ·应能调用被测系统开放接口; ·应能对工具配置文件进行定制; ·应能接收语音数据并将其输人至被测系统; ·应能进行功能测试及其相应的性能测试; ·应能以文本形式获取被测系统运行结果。 b)测试统计工具要求如下: ·应能自动对不同测试项的系统运行结果进行统计和分析; ·应能自动对系统运行结果和标准结果对比文件进行比对。 c)资源监测工具应能监测内存、中央处理单元(CPU)、图形处理单元(GPU)、句柄数等系统资源 参数。
采样设备:音频采样设备参数应符合表2的要求,
表2音频采样设备参数要求
音频采样设备参数要求
专声器设备:传声器设备参数应符合表3的要求。
回放设备:回放设备参数应符合表4的要求。
GB/T 41813.1—2022
表4回放设备参数要求
应根据被测系统的功能和性能要求,以及应用场景配置相应的软硬件环境,
应使用可编程测试工具和测试统计工具将测试数据集输人到在线/离线状态的被测系统中并获取 运行结果
应根据被测系统技术要求对系统在各测试项上的运行结果进行记录和分析,形成测试结果。
测试内容:检查被测系统是否提供给定拾音距离下的语音信号采集功能。 测试方法:按照表1的要求和测试功能制作测试数据集,按照给定的拾音距离,放置被测系统和回 放设备(播放器或人工嘴),使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取 运行结果。拾音距离应根据被测系统的主要用途和应用场景进行设置,在实际测试中可根据需要进行 区间划分,例如,按照1m、3m和5m划分为4个区间。
GB/T 41813.1—2022
测试内容:检查被测系统是否提供将所接收到的有效语音信号转化为与语音内容相符的文字结果, 并将其输出的功能。 测试方法:按照表1的要求和测试功能制作测试数据集,使用可编程测试工具和测试统计工具将测 试数据集输人到被测系统并获取运行结果。
测试内容:检查被测系统是否提供语音唤醒的功能,包括但不限于以下具体功能。 a)命令字(词)唤醒:能使用预定义唤醒命令字(词)唤醒被测系统。 b)自定义唤醒命令字(词):能自定义唤醒命令字(词)。 c)多命令字(词)唤醒:能使用不同的唤醒命令字(词)唤醒被测系统。 d)多音频流监听:被测系统在执行语音唤醒的同时能监听多个音频流。 e)语音打断唤醒:能使用语音打断的方式唤醒被测系统。 f)协同唤醒:使用相同命令字(词)的多个设备在同一场景中出现,一次唤醒操作有且仅有一个设 备应答。 测试方法:按照表1的要求和测试功能制作包含预定义唤醒命令字(词)、非唤醒命令字(词)、自定 义唤醒命令字(词)、多个唤醒命令字(词)和语音打断唤醒命令字(词)的测试数据集,使用可编程测试工 具和测试统计工具将测试数据集输人到被测系统并获取运行结果。
测试内容:检查被测系统是否提供前端信号处理的功能,包括但不限于以下具体功能。 a)语音编解码:被测系统能设置语音编码算法的压缩等级,能支持不同音频编码格式下的语音音 频的压缩和解压缩,并确保语音内容不变。 b)端点检测:被测系统能从连续音频流中检测出第一个或多个语音片段的起始点和结束点,能设 置端点检测灵敏度,即设置语音等待超时时长和尾部静音长度。 C1 语音增强:被测系统能自动对输人语音的信噪比进行改善,能对输人语音中的背景噪声和晚期 混响进行抑制。 d)声源定位:被测系统能自动对发声源的空间位置进行定位。 e)格式转换:被测系统能自动对输人音频的格式进行转换,并确保语音内容不变。 f)·重采样:被测系统能改变数字语音信号的采样率,并确保语音内容不变。 g)音频质量判断:被测系统能对输人音频质量进行自动判断。 示例:对音量过小、信噪比过低或存在前、后截断的音频判断为音频质量较差。 h)声学回声消除:被测系统能对输人音频进行回声消除。 测试方法:按照表1的要求和测试功能制作包含多种音频质量的测试数据集,包括前截断音频、后 断音频、音量小音频、信噪比低音频等,使用可编程测试工具和测试统计工具将测试数据集输人到被 系统并获取运行结果。
测试内容:检查被测系统是否提供说话人分离的功能,包括但不限于以下具体功能。 D 说话人分割:被测系统能自动进行说话人分割,分割后的语音片段只包含一个说话人的语音 内容。 说话人聚类:被测系统能自动进行说话人聚类,聚类后的语音片段分别对应不同的说话人
测试内容:检查被测系统是否提供说话人分离的功能,包括但不限于以下具体功能。 8D 说话人分割:被测系统能自动进行说话人分割,分割后的语音片段只包含一个说话人的语音 内容。 b) 说话人聚类:被测系统能自动进行说话人聚类,聚类后的语音片段分别对应不同的说话人,
GB/T 41813.1—2022
测试方法:按照表1的要求和测试功能制作包含多个说话人交替对话的测试数据集,对话时长 min,使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果。
测试内容:检查被测系统是否提供语言信息识别的功能社区配套服务及活动用房住宅楼施工组织设计.doc,包括但不限于以下具体功能。 a)(多)语种识别:被测系统能自动对输人语音所属的某个或多个(2个及以上)语种进行判断并 输出(多)语种识别结果。 b)多语种混读识别:在多个语种混读的情况下,被测系统能自动对不同语种进行判断并输出多语 种混读识别结果。 c)(多)汉语方言识别:被测系统能自动对输人语音所属的某个或多个(2个及以上)汉语方言进 行判断并输出(多)汉语方言识别结果。 d)语言信息端点识别:被测系统能自动对不同的语种、汉语方言的音频片段端点进行判断并输出 语言信息端点识别结果。 测试方法:按照表1的要求和测试功能制作包含一个或多个语音信息的测试数据集,使用可编程测 试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果
测试内容:语音识别效果测试项包括对字识别效果和句识别正确率的测试。 a)字识别效果:字识别效果由字匹配率等参数表征,它们共同显示被测系统的字识别能力。参数 值按GB/T21023描述的方法计算: ·字匹配率, ·替代错误率,
测试内容:语音识别效率测试项用语音识别平均响应时间、语音识别平均子句响应时间、语音识别 时间分布和语音识别吞吐率等参数表征。 a) 语音识别平均响应时间:语音识别响应时间指的是接收到一条语音后,被测系统给出该条语音 识别结果的时间;语音识别平均响应时间是测试数据集上所有语音识别响应时间与输人语音 总条数的比值。参数值计算方法见公式(1):
式中: Tw 语音识别平均响应时间; t: —得到第i条语音识别结果的时刻; t° 一第i条语音输人结束的时刻; N 一输人语音总条数。
式中: T一语音识别平均响应时间; t:一得到第i条语音识别结果的时刻; t。一第i条语音输人结束的时刻; N一输人语音总条数。 b> )语音识别平均子句响应时间:语音识别子句响应时间指的是接收到一条语音后,被测系统给 出该条语音中某一子句识别结果的时间;语音识别平均子句响应时间是测试数据集上所有语 音识别子句响应时间与输人语音总条数的比值。参数值计算方法见公式(2):
东莞电力生产调度大楼井字梁模板施工方案式中: Tw一语音识别平均子句响应时间; t一得到第i条语音中第j个子句识别结果的时刻; t一第i条语音中第j个子句输人结束的时刻; N一一输人语音总条数。 ?) . 语音识别响应时间分布:此参数显示测试数据集上所有语音识别响应时间分布及其占比情况 实际测试时可根据需要划分不同响应时间区间。
GB/T 41813.1—2022
d)语音识别吞吐率:此参数描述一次性输人包含录制好的(长时间)语音并一次性给出整体语音 识别结果的效率,即被测系统在单位响应时间内识别语音音频的时间长度。参数值计算方法 为测试数据集上语音音频总时长除以测试数据集上语音识别响应时间总时长。 测试方法:语音识别效率测试方法如下。 测试数据:按照表1的要求制作测试数据集,此外,制作语音时长为10s士0.1s、语音结束后无 静音的测试数据集用于语音识别平均响应时间和语音识别响应时间分布测试;制作语音时长 大于10h的测试数据集用于语音识别吞吐率测试。 测试工具:符合5.2的要求。 测试设备:符合5.3的要求。 测试环境:符合5.4的要求。 测试执行:按照5.5的要求对被测系统进行测试。 测试结果:按照测试内容描述的方法得出系统运行结果并生成结果文件,包括测试数据集名 称、测试数据集数量、测试项结果等。系统运行结果符合被测系统技术要求或相关标准规范则 测试通过,否则不通过。