DB35T 1979-2021标准规范下载简介
DB35T 1979-2021 智慧家庭人工智能语音服务通用技术规范.pdfICS35.240.01 CCS L 77
DB35/T197920
altechnical specificationforartificialintelligencevoiceserviceof smarthom
福建省市场监督管理局 发布
河南某地税所装饰装修工程施工组织设计(砖混结构)省市场监督管理局 发布
DB35/T1979202
别 范围 规范性引用文件 术语和定义 缩略语 语音服务的组成及能力等级划分 环境要求 基本要求 测试方法 附录A(规范性) 语音测试集录音质量要求, 附录B(规范性) 测试用设备要求
DB35/T1979202
本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由福建省工业和信息化厅提出并归口。 本文件起草单位:申国移动通信集团福建有限公司、科大讯飞股份有限公司、中移(杭州)信息技 术有限公司、福建福诺移动通信技术有限公司、中国电信股份有限公司福建分公司、中国联合网络通信 有限公司福建省分公司、福建广电网络集团、华为技术有限公司、福建星网锐捷通讯股份有限公司、 新大陆通信科技股份有限公司、福建福日电子股份有限公司。 本文件主要起草人:章金水、黄海辉、林海、俞晓梅、罗新喜、孙凯廷、马培培、罗红、程宝平 李栋、黄晓明、韦观明、屈彤、吴振文、沈绍昌、王献飞、杨韬
DB35/T1979202
智慧家庭人工智能语音服务通用技术规范
本文件规定了智慧家庭人工智能语音服务的组成及能力等级划分、环境要求、基本要求和测试 本文件适用于智慧家庭人工智能语音服务的建设、测试和评价
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB3096一2008声环境质量标准 GB/T21023一2007中文语音识别系统通用技术规范 GB/T21024一2007中文语音合成系统通用技术规范 GB/T22239一2019信息安全技术网络安全等级保护基本要求 GB/T36464.1一2020信息技术智能语音交互系统第1部分:通用规范 GB/T 36464.2—2018 3信息技术智能语音交互系统第2部分:智能家居
GB/T21023—2007、GB/T21024—2007、GB/T36464.1—2020、GB/T36464.2—2018界定的以及下 列术语和定义适用于本文件。 3.1 语音服务voiceservice 人机之间通过自然语言对话来获取信息的服务。 3.2 语音集 voiceacquisition 通过传声器或麦克风阵列等拾音设备对语音进行采集。 3.3 语音识别speechrecognition 将人类的声音信号转化为文字或指令的过程。 [来源:GB/T21023—2007,3.1] 3.4 语义理解 semanticunderstanding 使功能单元理解人说话的意图。 [来源:GB/T 36464.1—2020,3.11]
DB35/T1979202
下列缩略语适用于本文件。 PCM:脉冲编码调制(PulseCodeModulation) MoS:平均意见得分(MeanOpinionScore)
下列缩略语适用于本文件。 PCM:脉冲编码调制(PulseCodeModulation MOS:平均意见得分(Mean Opinion Score)
5语音服务的组成及能力等级划分
由语音采集与识别、语义理解、语音合成与播放、语音技能四个部分组成。
5.2语音服务能力等级划分
音服务能力根据成熟度划分为五个等级,见表1
DB35/T1979202
表1语音服务能力等级
智能语音终端或与之相连的智能设备应支持无线或有线网络接入互联网,网络接入速度应不 28kbit/s
智能语音终端主要在家庭环境下使用,家庭噪声环境具体要求按照GB3096一2008第4章申0、 声环境功能区的规定执行。
DB35/T1979202
7.1 语音采集与识别
人工智能语音服务使用智能语音终端进行语音采集,应能通过传声器或麦克风阵列等具备语音采集 能力的拾音设备对语音、连续语音进行单声道或多声道的采集。语音采集应满足以下要求 a)支持8kHz或16kHz采样率,16bit及以上的采样精度; b)音频文件编码支持PCM或Opus或Speex格式; c)对于连续性音频,支持30s或60s为时间单位进行切片分割。 注:Opus是有损音频的一种编码格式:Speex是一套针对语音音频的压缩格式。
7. 1. 3 语音识别
表3语音识别句识别率要求
句识别率计算方法按公式(1)
句识别率计算方法按公式(1)
式中: Psr 一句识别率,单位为百分数(%); 一智能语音终端语音交互系统正确识别的句数 N:一一标注总句数。
Psr一一句识别率,单位为百分数(%); 一智能语音终端语音交互系统正确识别的句数; N一一标注总句数。
应满足以下要求: a)支持简称、别名、代码、数字的理解; b)具有用户表达存在错字、缺字、模糊时的容错理解能力; 支持多轮、全双工对话的人机交互方式; d)语义理解正确率应满足表4要求。
DB35/T1979202
语义理解正确率计算方法按公式(②)。
式中: R一一语义理解正确率,单位为百分数(%); N一一操作意图及语义要素均被正确判断的次数; 一用户输入被正确识别出文本信息的总次数。
7. 3.2 语音合成
应满足以下要求: a)支持在线或离线方式合成近似人类的语音; 支持普通话和英语,宜支持福建省内主流方言,如闽南语、客家语; 支持中英文数字等各种混合音,宜支持多音色合成和个性化合成; d) MOS应大于或等于4,MOS量化分值见表5。
DB35/T1979202
表5MOS量化分值(续)
具备语音唤醒功能的智能语音终端在夜间的唤醒率应满足表6要求。
表6夜间不同噪声环境下的唤醒率要求
夜间唤醒率计算方法按公式(3)
R一一夜间唤醒率,单位为百分数(%); N一一成功唤醒次数; N一一语音唤醒操作次数
7. 4. 2 昼间唤醒
具备语音唤醒功能的智能语音终端在昼间的唤醒率应满足表7要求。
表7昼间不同噪声环境下的唤醒率要求
DB35/T1979202
表7昼间不同噪声环境下的唤醒率要求(续)
昼间唤醒率计算方法按公式(4)。
Ra一一昼间唤醒率,单位为百分数(%); N一一成功唤醒次数; N 一语音唤醒操作次数。
具备语音唤醒功能的智能语音终端误唤醒次数应满足表8要求。
Rdw = Nsw×100%..
7.5. 1.1响应时间
因调用网络资源的不同某工程深基坑支护施工方案,音频端点检测 立时间应小于或等于2S。 响应时间计算方法按公式(5)
DB35/T1979202
一给出结果时刻; 一一语音输入结束的时刻。 注1:如语音交互系统支持识别结果分多次返回,t.为第一部分识别结果返回的时刻。 注2:如智能语音终端具备语音唤醒功能,t为终端返回指定内容、反馈的时刻。 注3:如智能语音终端具备显示屏幕,t为终端以屏幕显示或音频播放方式返回指定内容、反馈的时刻。
7. 5. 1. 2 交互反馈
应满足以下要求: a)支持查询类技能通过语音播报加信息展示的形式向用户反馈; b) 支持媒资检索类技能通过语音播报加搜索结果展示的形式向用户反馈; 支持技能处理遇到异常情况时通过语音或者文本展示的形式向用户反馈。
7.5.1.3反馈语设讯
宜满足以下要求: a)准确:实事求是GB/T 31838.2-2019标准下载,清楚明了传达信息,避免歧义; 简洁:用最少的话传达最重要的信息; 自然:口语化不生硬,容易理解,有停顿,符合正常说话节奏; d) 明晰:明确、具体完成任务,并传达理解程度; e)亲和:遇到出错情况,主动推荐并引导用户