GB/T 36464.1-2020 信息技术 智能语音交互系统 第1部分:通用规范

GB/T 36464.1-2020 信息技术 智能语音交互系统 第1部分:通用规范
仅供个人学习
反馈
标准编号:GB/T 36464.1-2020
文件类型:.pdf
资源大小:1.2M
标准类别:电力标准
资源ID:211364
下载资源

GB/T 36464.1-2020 标准规范下载简介

GB/T 36464.1-2020 信息技术 智能语音交互系统 第1部分:通用规范

GB/T36464.12020

信息技术智能语音交互系统 第1部分:通用规范

信息技术智能语音交互系统

GB/T36464的本部分给出了智能语音交互系统通用功能框架,规定了语音交互界面、数据资源、 前端处理、语音处理、服务接口、应用业务处理等功能单元要求 本部分适用于智能语音交互系统的通用设计、开发、应用和维护

GTCC-057-2018 机车信号车载系统设备-铁路专用产品质量监督抽查检验实施细则GB/T36464.12020

有效语昔信号validspeechsignal 有效语音validspeech

里和数据资源等功能单元,其中: 语音交互界面提供系统与人直接进行语音交互的人机界面,包括语音信号输入、输出以及由前 端处理、语音处理支撑的语音能力: b 数据资源包括系统处理的音频数据和文本数据; C 前端处理提供语音唤醒、声源定位、声纹识别、语音增强、格式转换、重采样等功能; 语音处理提供语音识别、语义理解、语音合成、端点检测、语音编解码、全双工交互、情感计算等 功能; 服务接口提供外部设备/设施调用系统语音服务的接口; f 应用业务处理对语音处理的结果转换为对应的应用指令并反馈业务响应结果。 系统的通用功能框架见图1:部分参数定义及其计算方法参见附录A

图1智能语音交互系统的通用功能框架

系统应支持中文普通话输人输出;除中文普通话之外,对有方言和其他语种输入输出需求的, 支持地方方言、民族语言以及其他语种输人输出

5.4环境噪声适应能力

系统应在不同场景的典型环境 下能成功进行语音交互,确保人机交互可用 主:不同场景的典型环境噪 2~5部分

系统的音频数据主要用于语音识别和语音合成,要求如下: a)语音识别的输人音频数据格式应符合GB/T34083—2017中表1的要求; b)语音合成的输出音频数据格式应符合GB/T34145一2017中表2的要求

改据主要用于各功能单元之间的信息传输、交换利

GB/T36464.1—2020

a)应与具体操作系统和平台无关,并且可扩展; b) 宜是结构化数据,便于系统处理; C 中文编码字符应符合GB18030的规定,并依据GB/T11460进行检测; d)中文语音合成数据交换格式应符合GB/T21024—2007中第5章的要求

a)应与具体操作系统和平合无关,并且可扩展: b)宜是结构化数据,便于系统处理; 中文编码字符应符合GB18030的规定,并依据GB/T11460进行检测; d)中文语音合成数据交换格式应符合GB/T21024—2007中第5章的要求

系统应支持使用预先定义的命令字来对系统进行

7.1.2命令字声纹唤醒

系统在语音唤醒过程中,宜支持使用文本相关声纹识别和命令字匹配,且在声纹确认成功 系统。

7.1.3自定义唤醒命令字

系统应支持对用于语音唤醒的命令字进行自定义

7.1.4多唤醒命令字

7.1.5 多音频流监听

系统在进行语音唤醒时,应支持同时监听多个音步

系统应支持通过对声源的平面角、方 方位角和声源距离的计算,来对发声源进行定位

系统应支持下列声纹识别功能: a) 文本相关的声纹识别; b) 文本无关的声纹识别; c) 指定文本的声纹识别; d) 声纹模型训练; e) 声纹模型自适应; f) 声纹确认; g) 声纹辨认; h) 声纹检出; i) 声纹追踪; j) 语言相关的声纹识别;

k)语言无关的声纹识别。 上述功能描述和要求应符合SJ/T113802008第3章的要求

GB/T36464.12020

系统应支持获取指定文本或目定义文本,用于声纹模型训练、声纹模型目适应、声纹确认和声纹 辨认。

应支持对输入语音中的背景噪声进行抑制,提高语

系统应支持下列全部或大部分语音识别功能: a) 中文语音识别服务; b) 多语种识别; c 多方言识别: d) 多语种混读识别; e) 自定义语法; f) 个性化识别; g) 识别结果多候选; h) 自定义热词: i) 识别结果进阶; j) 语言信息识别; k) 说话者信息识别。 上述功能描述和要求应符合GB/T34083一2017中4.2和4.3的要求

8.1.2 语音识别方式

B/136464.1 2020 语音识别中的一种。

8.2.1自定义语义词典

能支持应用程序自定义语义词典和用户自定义

8.2.2自定义语义库

能支持应用程序自定义语义库和用户自定义语

系统应正确处理错别字、同义词、多字少字问是

系统在交互过程中,应抽取语义要素和用户的关键意图

系统能在语义理解结果中给出多个排序后的理解结果,供用户进行选择或二次确认

系统应支持下列全部或大部分语音合成功能: a) 中文语音合成; b)流式语音合成; c)多种合成文本编码; d)个性化合成; e)多语种合成; f) 多方言合成; g) 多语种混读合成; h)合成音频多音色; 用户自定义分词; ) 用户自定义读音; k)合成文本位置信息; 1) 文本分词和拼音信息; m)音频时间信息。 上述功能描述和要求应符合GB/T34145—201

支持从一段连续的音频流中检测出第一个语音段

系统应支持从一段连续的音频流中检测出多

8.4.3端点检测灵敏度设置

8.5.2压缩等级设置

系统应支持根据当前网络状况、系统性能等要求来设置语音编码算法的压缩等级。

系统宜支持全双工语音交互;在此状: 次语音唤醒和随时语音打断,能进行上下文语 境和开放式对话管理,能控制对话节奏和预测用户意图等

系统宜支持以语音信号为载体的情感计算

系统应其备可供外部调用的服务接 中,中文语音识别的互联网接口应符合GB/T34083的 规定,中文语音合成的互联网接口应符合GB/T34145的规定

系统应支持将用户意图转换成应用和业务的控制命令或系统指令,实现应用和业务的响应。

本附录给出了用于描述智能语音交互系统的部分参数定义及其计算方法

附录A (资料性附录) 部分参数及其计算方法

当声源与拾音设备之间的距离≤1m时,为近场;当声源与拾音设备之间的距离>1m时,为远场

在一定的时间段内,成功的语音交互会话总数占有效的语音交互会话总数的百分比。“成功的语音 交互会话”指获取到完整的语音服务结果,期间未产生差错的语音交互会话;“有效的语音交互会话”指 全部的语音交互会话去除由于用户终端故障或用户行为、参数错误导致的失败会话。 交互成功率的计算方法参见公式(A.1):

式中: Ps——交互成功率,%; S 交互成功的次数; F 交互失败的次数。

间内的语音唤醒操作中,成功唤醒的次数占语音唤醒总次数的比率。用于描述语音唤醒操 同应情况,其计算方法参见公式(A.2):

式中: 唤醒率,%; 成功唤醒次数; N 语音唤醒操作次数

式中: 唤醒率,%; Nsw 成功唤醒次数; N.. 语音唤醒操作次数

误唤醒频度描述误唤醒操作在单位时间内出现的频度,其计算方法参见公式(A,3):

句识别率的计算方法参见公式(A.4):

句识别率,%; 智能语音交互系统正确识别的句数; N。标注总句数

A.5.3起始响应时间

从检测到用户有效语音输人时起至得到第一部分识别结果时止中间经过的时间,单位为 1s),用于描述语音识别响应的实时性

A.5.4结束响应时间

从检测到用户有效语音输入结束时起至得到最后一部分识别结果时止中间经过的时间,单位, (ms),用于描述语音识别响应的实时性

A.6.1 语义理解正确率

语义理解正确率计算方法参见公式(A.5)

语义理解正确率计算方法参见公式(A.5

式中: Rss 语义理解正确率,%; 操作意图及语义要素均被正确判断的次数; N 用户输入被正确识别出文本信息的总次数。

语文理解响应正确率计算方法参见公式(A.6):

式中: 语义理解响应正确率,%; Nss———操作意图及语义要素均被正确判断的次数; NsR 被正确拒识的次数; 用户输入被正确识别出文本信息的总次数。

A.7.1合成响应时间

合成响应时间描述了语音合成系统响应的及时性,指从用户写人合成文本时起至拿到第一块合成 音频时止中间经过的时间,单位为毫秒(ms)

一次语音合成会话输出的合成音频数据总量 (kbit/s)。合成音频数据总量以解码后的音频数据量计算,语音合成会话的持续时间指从用户写入合 成文本时起至拿到最后一块合成音频时止中间经过的时间。 语音合成系统的平均码流率宜大于或等于合成音频格式的标称码流率

信噪比用来描述智能语音交互系统使用的背景环境,其计算方法参见GB/T21023一2007中4 定。

A.8.3平均意见得分

分(MOS)是语音质量的一种主观度量。MOS量

表A.19主观MOS量化分值

A.10语音编解压缩率

语音编解压缩率为语音压缩算法车 的待压缩音频的码流率之比。

A.11.1信噪比改善

言噪比改善为语音增强功能单元输出语音信噪比与输入语音信噪比的比值。

A.11.2噪声抑制量

噪声抑制量的计算方法参见公式(A.7):

式中: DNR 噪声抑制量,单位为分贝(dB); vi(n) 一输人信号中第n个噪声信号的振幅; Vout (n) 输出信号中第n个噪声信号的振幅; N 输人信号频谱频率分量的总数量。

4.12.1平面角定位误差

A.12.2俯仰角定位误差

A.12.3距离定位误差

JGJ/T 40-2019 疗养院建筑设计标准误差为声源定位功能单元计算得到的声源位置距

A.13语音打断成功率

I vim(n)[2 DNR =10log I Vout(n) |2

对话管理中,语音打断成功率指某段时间内,语音打断操作被正确响应的次数占总次数的比率

GB/T36464.1—2020

土算方法参见公式(A.8)

式中: P:——语音打断成功率GB/T 41865-2022 软件与系统工程 产品线工程与管理参考模型,%; N:———被语音交互系统正确响应的次数; N——交互内容中需要执行打断操作的次数。

©版权声明
相关文章