标准规范下载简介
GY/T 349-2021 感知音频质量的客观测量方法.pdf10.6. 3基础版本
基础版本仅采用FFT耳朵模型。它采用以下MOv值:BandwidthRef:、BandwidthTestB、总NMRB、 finModDifflB、ADB、EHS、AvgModDiffl、AvgModDiff2、RmsNoiseLoud、MFPD.和RelDistFrameS 通过采用10.6.2中描述的神经网络可将这11个MOV映射成质量指数。该质量指数在隐藏层中具有3个节点。 映射的参数应与表8~表12相符合。
表8基础版本中使用的MOV
表9适用于基础版本输入的比例系数
JGJ/T 140-2019标准下载GY/T 3492021
表10适用于基础版本输入节点的加权系数
表11适用于基础版本输出节点的加权系数
表12适用于基础版本输出节点的比例系数
高级版本既采用滤波器组耳朵模型,也采用FFT耳朵模型。它采用了5个MOV,包括:RmsModDiffa、 RmsNoiseLoudAsym、AvgLinDista、SegmentalNMRe和EHSs。通过10.6.2中描述的神经网络,可以将这 些MOV映射成一个质量指数。该质量指数在隐藏层里具有5个节点。映射的参数应与表13~表17相符合。
GY/T 3492021
表13高级版本中使用的MOV
表14适用于高级版本输入节点的比例系数
表15用于高级版本输入的加权系数
表16用于高级版本的输出节点的加权
表17用于高级版本输出节点的比例系数
10. 7 实现方案的一致性
10.7实现方案的一致性
10. 7. 1 概述
本条给出一组测试序列,以验证测量方法的正确实现方案
10. 7. 2 测试素材
测试序列为16段,其MOV和DI值的范围较大。
10. 7. 3一致性测试的设置
GY/T 3492021
10.7.4可接受的容许空间
为了符合本文件的规定,所有测试条目的DI值应与表18和表19的值一致,容差应小于±0.02” 某个实现方案得到的值超出该容差范围,则该方案不符合本文件
10. 7. 5 测试项目
测试序列的DI值和ODG值应与表18和表19相符合,其中表18的DI值为基础版本的DI值,表19为 本的DI值。其中,被测条目文件的文件名用“cod”表示,参考测试条目文件的文件名用“ref”表 如bcodtri.wav为被测序列,对应的参考序列名称为breftri.wav。
表18用于基础版本的测试素材以及其DI值
5为达到该精度,需采用IEEE浮点算法
GY/T 3492021
表19用于高级版本的测试序列以及其DI值
GY/T 3492021
GY/T349—2021一2016规定的程序考虑到了这个因素,因此,GY/T298一2016规定的程序申,充允许评价员选择音频中非常短的一部分进行仔细听。在检测阈值处,检测概率是50%,在阈值周围检测概率在0~100%平滑分布。临界可察觉电平差(JNLD)是电平差的检测阈值。JNLD受输入电平的影响,对声音较小的信号,检测需要大差异(电平:20dBSPL,JNLD:0.75dB);对声音较大的信号,对较小差异的敏感度要高一些(电平:80dBSPL,JNLD:0.2dB)。数据是根据调幅实验获得的,检测概率的原理掩蔽见图B.3。概0.5率0JNLD激励差异图B.3检测概率的原理掩蔽B.2.6掩蔽单独播放时清晰可听的信号,在与其他信号同时播放时则可能完全听不见,该效应称之为掩蔽效应,掩蔽其他信号的信号称为掩蔽信号,被掩蔽的信号称为被掩蔽信号。以下两种情况必须要区分开:一同时掩蔽:这种情况下,掩蔽信号和被掩蔽信号同时出现且处于准稳态。如果掩蔽信号具有一个离散带宽,对于低于或高于掩蔽信号的频率,其听力阈值都会提高。掩蔽的数量取决于掩蔽信号和被掩蔽信号的结构。在类噪声信号掩蔽音调信号的情况下,掩蔽数量儿乎与频率无关。如果被掩蔽信号的声压电平比掩蔽信号的电平低约5dB,那么被掩蔽信号就听不见了。如果情况对调,也就是音调信号掩蔽类噪声信号,掩蔽数量取决于掩蔽信号的频率。这可以通过公式)dB进行估算,其中z表示掩蔽信号的临界频带率。另外,在高信号电平处,非Bark/线性效应降低了掩蔽信号的掩蔽阈值。类似效应也出现在“音调掩蔽音调”的情况下。多信号的掩蔽阅值是非线性叠加的。总之,所得的掩蔽阅值比每个独立信号生成的掩蔽阈值要高。一一时间性掩蔽:这种情况下,掩蔽信号和被掩蔽信号在不同的时间出现。在掩蔽信号衰减后不久的掩蔽阅值更接近于该掩蔽信号的同时掩蔽阈值,而不是绝对阈值。根据掩蔽信号的持续时间,阈值的衰减时间可以在5ms(掩蔽信号:持续0.05ms的高斯脉冲)到150ms之间(掩蔽信号:持续1s的粉红噪声)。正好处于强信号之前的弱信号将会被掩蔽,这种后向掩蔽效应的持续时间约为5mS。如果被掩蔽信号刚超过阈值,但在掩蔽信号出现之前它还未被感知到,它可能会被看做是掩蔽信号的变化。对不同的视听者,后向掩蔽的效果差异很大。B.2.7响度和部分掩蔽音频信号的感知响度取决于它们的频率、持续时间和声压级。由于自动掩蔽,复杂信号的响度比其45
GY/T 3492021
组成部分各自响度相加的总和要低。在音频质量测量中,参考信号中所增加的多余失真的响度,也就是 噪音响度,将随参考信号产生的部分掩蔽而降低
B. 2. 8 尖锐度
尖锐度是感觉的一个基本值,与音质相关。如果声音主要包含高频组成部分,那么这个声音听起来 就非常尖锐。例如,在高频处的正弦音或者带限噪声,或截止频率大于3kHz的高通噪声,都可以称之为 尖锐。而音频信号的详细频率结构对尖锐度的影响不大。VonBismarck在1974年做过与尖锐度相关的基 础研究。 Aures在1984年做过另一个与尖锐度相关的研究。与Bismarck定义的加权函数相比,其研究结果给 出了一个略加修正的加权函数。很低和很高的临界频带比率,对尖锐度属性贡献较小,但在临界频带比 率在4Bark~20Bark间对尖锐度属性贡献较大。另外,这些研究表明,对于声压级剧烈变化和具有强高 频内容的音频信号,其尖锐度不能仅由整体响度决定,还需要考虑一个加权函数,该加权函数取决于整 体响度。
GY/T 3492021
本附录规定了感知音频质量客观测量方法所适用的主要应用及其技术要求。 部分应用需要实时的客观测量方法,部分应用则不需要实时测量。对于实时测量的方法,建议测量 设备的最大延时应大于等于200ms,不允许超过1s。 此外,在线测量与离线测量存在不同的区别。在离线测量中,测量程序可以完全访问设备或连接 而在线测量则意味着程序正在运行,不能被测量所中断。
C.2.1实现方案的评价
C. 2. 2 感知质量的排序
这是一个快速程序,在设备或线路投入应用前进行。其目的是进行功能性检查和质量。测量设备将 由操作人员控制。任何类型的失真都可能会出现。 对于这类应用,应进行实时测量,一般需要采用测试信号或预设音频信号。应提供并展现ODG值 且1s内至少应刷新两次;如果采用特殊测试信号,则在测试信号结束后直接给出ODG值。 该应用采用基础版本就足够了。
C. 2.3 在线监测
这是一个在线连续过程,发生在音频在线传输的过程中。音频节目绝不能被测量程序打断。因此, 测量的时候应采用节目信号本身或预先设定的音频片段作为测试信号。预先设定的音频片段可以是火车 鸣笛声或叮当声。测量设备由操作人员控制。 对该应用,应进行实时测量。应提供并展现ODG值,1s内至少应刷新两次或者在预设信号结束后直 接显示ODG。不需要展现MOV值。 该应用采用基础版本就足够了。
C.2.4设备或连接状态
为确认音频连接或设备的功能性,需要不时地进行大量的质量检查。与在线监测和感知质量的排序 应用不同,该应用需要对许多技术参数进行检查。 除了ODG值外,测量系统还应显示所有MOV值,通过这些参数,对设备或连接状态给感知音频质量造 成的影响进行详细描述。该应用不需要实时测量
GY/T 3492021
该应用推荐使用高级版本。
为了识别解码器(不同算法或相同算法的不同实现方 个模式特征的功能。各模式之间的相似性可以认为是不同编解码器实现方案的相似性的测量结果。因此 该程序可用于识别特殊编解码器的实现方案与类型。 测量系统应尽可能多地记录与模式相关的信息。仅有ODG值无法提供足够的信息。 该应用推荐采用基础版本,无需实时测量。 注:推荐方法的实践经验极少。此外,用于测量模式之间的相似性的方法还没有确定,
C.2.6编解码器开发
对这类应用,测量方法应尽可能准确且详细地描述被测设备的性能特性,特别是小损伤系统。 连续监测需要实时处理,但这并不是高级版本的必备功能;而微小劣化和详细信息则需要高级版本 的支持。测量系统输出的显示速率与计算速率应相等,支持在4s内直接访问历史输出值。 对该类应用,建议使用高级版本。但对实时测量,采用基础版本就能满足要求。在测量过程中,应 实现实时分析、非实时分析以及逐帧分析;可通过峰值等方式,显示任意严重的失真。理想的情况下, 要求可以访问所有的MOV值
C. 2. 7网络规划
网络规划需要在规划过程中 模恢个 音频处理阶段,以检查不同的配置,从而达到优化音频质量的目的。在后期,实际的音频处理组件可以 安照所选参数进行配置并测试。 网络规划由系统工程师完成。工程师应遍历对音频质量产生影响的网络特性的详细信息。根据网络 的具体应用,以适用MOV集为基础,对可能的网络配置进行等级划分。因此,该类应用不仅需要ODG,还 需要MOV值。该类应用不需要实时评价。 针对这类应用,两个版本均适用,但推荐采用高级版本。
C.2.8主观评价的辅助
客观测量方法可用于筛选主观听音评价的关键音频素材。所有的MOV值可用于关键材料的分类。 该类应用要求准确性最高,推荐采用高级版本。然而,为了减少用于选择关键材料的时间,也可进 行实时测量。
C.2.9应用类别的总结
述主要应用对客观测量方法的要求应符合表C.1
GY/T 3492021
表C.1测量方法的要求
.3.2自然测试信号的
在验证过程中用到的测试信号子集应符合表C.2。经过验证,确定了本文件的有效性。表中还给出 了这些信号在低比特率编码中典型的失真类型
表C.2测试信号的子集列表
GY/T 3492021
前回声敏感,时域中的噪音
住2:音调结构:噪声敏感,粗糙。 主3:自然语音(音调部分和攻击的关键组合):失真敏感,攻击模糊。 住4:复合声:强调被测设备。 主5:高带宽:强调被测设备,高频损失,被调节目的高频噪音。
自然测试信号的持续时间应与其用于听音评价的时间一致。持续时间通常为10s~20s。测试信号的 关键部分(揭露大多数损伤)极有可能只占据持续时间中非常小的部分。 合成测试信号的持续时间应足够长,以给被测编解码器足够的压力。被测编解码器可能含有用于编 马音频信号的缓冲区。考虑到这些缓冲区大小以及测量方法中的时间常数,一个序列中的每个测试条目 的持续时间应大于500mS。持续时间可以规定这么短,是因为这些信号不会用于主观听音评价。
表C.2给出的测试信号的免费使用,仅限用于测试用途以及本文件规定的客观测量方法, 这些信号主要来自EBU(EBUSQAM光盘),需获得版权许可。
GY/T 3492021
本文件规定的客观测量方法可对音频质量进行测量,并给出对应的感知音频质量值。测量方法将听 觉系统的基本性质模型化,多个中间过程模拟了生理和心理声学效应。 中间过程的输出值可用于描述损伤的特性。这些参数称为模型输出变量(MOV)。在测量模型的最 终阶段,MOV值组合生成一个输出值,该输出值与主观评价的结果相互对应
D. 2 模型输出变量
用于计算客观差异等级的MOV的描述见表D.1。下标A表示该值来自滤波器组模型,下标B表示该 FFT模型。客观差异等级可以仅从FFT部分进行预测(基础版本),也可以对FFT与滤波器组的组 预测(高级版本)。需要随时间取平均值
表 D.1模型输出变量的描述
主观听音测试中最常见的参数是基本音频质量(BAQ)。BAQ可以用主观差异等级进行表示。在主观 听音测试中,将被测信号的评价等级减去参考信号的评价等级得到SDG。主观差异等级通常是负数。本 文件对应的输出参数称为ODG,可通过大量可靠的测试序列作为基础,把MOV映射到ODG。 ODG是一个客观测量的参数,与主观感知质量对应。听音评价中,评价者的任务是对测试素材的BAQ
GY/T 3492021
进行评价,ODG也是基本音频质量的一个量度
在未来可能比较有价值的另一个参数是编码余量。编码余量是描述不可感知损伤的一种方式。测试 人员通过将损伤放大至可感知的范围测得主观编码余量(SCM),即编码余量描述了损伤的可闻阅值余 量。 为了确定该值,在听音测试时,需要对损伤进行放大或者衰减。差异法是较适合的一种方法,通 过将时间同步后的原始信号与编码信号的差异信号放大并叠加到原始信号。此时,可闻阅值的检测最好 与一个强制选择方法一起执行。每个评价者通过发达或衰减损伤后,得到可闻阈值,通过对这些可闻 直进行平均从而得到主观编码余量。编码余量为负数表示听得见损伤,若余量为正数则表示听不见损伤 与基本音频质量不同,编码余量表示了损伤从听不见变为听得见却不恼人的一个量度。Feiten在1997 年发表的文章中描述了主观编码余量测量方法的定义和检验。 客观编码余量同样可以根据模型输出变量计算得到。但只有极少数用于主观编码余量的测试条目被 评价过。本文件不提供根据模型输出值计算客观编码余量的方法。
根据应用的不同,用户对于测量方法的输出变量的要求也不同。对某些应用,如附录C中介绍的应 用2、应用3,测量也是操作程序的一部分。在这些情况下,考虑到用户可能对测量技术没有深入了解, 测量的输出需要易读易懂。测量方法仅输出一个与感知音频质量相对应的值为最佳。 上述方式同样适用于其他应用,如应用1和4。但对5~8这一类应用,建议包含更加复杂的输出 值,有利于那些掌握测量方法中相关原理知识的用户进行深入分析
GY/T 349—2021附录E(规范性)模型补充说明E.1概述根据GY/T298一2016,在听音测试中,通过对音频测试条目进行评价得到对应的SDG值,众多评价员的平均SDG值代表了该条目的主观质量。测试条目可能含有不同类型的音频失真GB 50180-2018 城市居住区规划设计要求,音频质量应对整个测试条目进行整体的考察。因此以物理测量为基础预测SDG需要一个准确的外耳周听觉系统模型。该系统应与音频质量评判的认知一致。推荐的客观测量模型,将参考信号和被测信号进行相互比较,输出一系列模型输出变量。通过优化技术,将这些模型变量映射成客观差异等级。通过该优化技术,在一个足够大的数据集上使得ODG与其对应的平均SDG之间的均方差最小。这里介绍了两个不同的模型:其一为基于DFT版本,可以用于实时监测;另一个版本为同时基于滤波器组和DFT,该版本可提供更加准确的结果。基于DFT的版本称为基础版本,而后者则称为高级版本。基础版本和高级版本的处理过程应符合图E.1。用户定义设置参考信号认知模型(特征> ODG被测信号心理声学模型提取和合并)MOViMOV.. .> MOV.图E.1模型的处理过程E.2音频处理与主观评价相同,测试信号的质量通过与参考信号进行比较得到。首先将参考信号和被测信号(单声道或立体声信号)转换成为心理声学的表示形式,再对这些表现形式进行比较,从而获得客观差异等级。处理过程见图E.1。E.3用户定义设置测量方法需要设定听音测试声压。现实中,该值可以是一个1019.5Hz的全幅正弦波形成的声压级(dBSPL),若确切的声压未知,则建议听音声压级设定为92dBSPL。E.4心理声学模型心理声学模型将时域信号的连续顺转换为基底膜表现方式。该过程结合使用DFT和滤波器组。DFT53
GY/T 3492021
将数据转换到频率域,并将数据从频率标度映射至音高标度,即心理声学的等效频率。模型的滤波器组 部分,则通过带通滤波器的带宽和空间直接频率映射音高。 本文件中采用了两种不同的方法实现同时掩蔽。一些模型输出变量通过采用掩蔽阈值概念计算得到 而另一些变量则通过对内部表征进行比较而获得。第一方式通过使用心理及生理掩蔽函数,直接计算掩 蔽阈值。模型输出变量以物理误差信号到该掩蔽阅值之间的距离为基础进行计算得到。通过对内部表征 进行比较,将被测信号和参考信号的能量转换到比邻的音高域,以获得激励模式。模型输出变量以这些 激励模式的比较为基础。非同步掩蔽通过在时间上抹除信号表征而实现。 绝对阅值由两个部分模拟计算得到,一部分通过应用频率加权函数进行模拟,另一部分通过对激励 模式应用频率偏移实现。该阈值是最小可听声压的近似值。 心理声学模型的主要输出是激励模式和掩蔽阅值,均是时间和频率的函数。不同模型输出可用于后 续处理
认知模型对心理声学模型生成的帧序列上的信息进行压缩。质量测量最重要的信息源是参考信号和 测信号在频域和音高域之间的差异。在频域DB43∕T 652-2011 法人单位基础信息共享数据元,测试两者间频谱带宽以及谐波结构误差。而在音高域, 差测量主要是对激励包络调制和激励幅度进行测量计算。 所得的参数经过了加权,因此针对特殊音频失真,这些参数的最终计算结果即客观等级差异与主观 差异等级十分接近。基础版本采用11个参数用于计算生成客观差异等级,而高级版本仅采用了5个参 数。优化方案采用反向传播神经网络学习算法(见10.6)。
GY/T 3492021
GY/T 3492021