标准规范下载简介
GB/T 18978.304-2021 人-系统交互工效学 第304部分:电子视觉显示器的用户绩效测试方法.pdf78.3042021/ISO9241
78.3042021/ISO9241
6规定视觉工效学的测试目标
视觉工效学与其他任何工程学属性类似L15J188 非透明幕墙建筑外墙保温构造详图,是可测量的。虽然用户绩效测试数据只是对个人绩效的 主客观测量,但这并不意味着这些数据仅仅是个人的意见。一个好的测试设计将产生客观且公正的数 据。GB/T32265.1和GB/T32261.2给出了关于实验设计的诸多实践方面的有用信息,特别是 GB/T32265.1还提供了该方面有价值的背景信息。 只有将测试结果与所定义的显示器是否可接受的准则进行比较时,测试才有意义。本步骤旨在为 待测显示器定义这些准则。
示例:用于车载导航的显示器的测试准则是:当有经验的驾驶员在明亮的照明环境下使用显示器时,从显示器上读 取信息的容易程度
测量方法包括如何对判定准则进行测量,即用于测量的标尺是什么,以及如何得到测量值 例如,在GB/T18978.11中有以下三个独立的测量指标: 有效性(用户实现特定目标的准确性和完整性); 效率(与用户实现目标的准确性和完备性相应的资源消耗); 一满意度(无不适感并对产品使用持肯定态度)。 GB/T18978.11中的这三个指标均与情境相关。例如,与桌面显示器相比,虽然手机显示屏的有效 性可能较低,但在手机使用的情境下却是令人满意的。 示例:对手机显示屏进行的测试包括:受试者区分不同颜色的精确度(有效性),受试者阅读文本的速度(效率),以 及受试者对显示器图像质量的整体态度(满意度)
将待测显示器与基准显示器进行比较时,一般情况下性能判定准则是待测显示器与基准显示器至 少需具有相同的视觉质量。但在某些情况下,该性能判定准则是否可接受还需进行市场分析后才能确 定。这时存在如下问题 一一是否有与此情境相关的更早时期的待测显示器?如果有,其视觉质量是如何评估的? 一竞争产品显示器的视觉质量是如何评估的? 这些信息为工程师提供了显示性能的下限。人因学专家建议将响应区间视为连续的范围,从“不可 接受”“最低限度”到“达标”和“优秀”,如下所示。 a不可接受 如果产品的显示性能在此范围内,则不能发布。 b)最低限度 显示性能在此范围的产品勉强合格。管理层需要权衡的是现在就发布勉强合格的产品,还是 待产品的可用性问题改善后再发布。 达标 显示性能在此范围的产品可以发布。该范围是成功上市所必需的。 d)优秀 如果产品的显示性能在此范围,说明研发团队在产品设计方面付出了很多努力,研制出来的产 品超越了所要求的显示性能。 该方法可使研究团队避免对显示器设计不足或过度设计
测试流程应面向借助视觉显示器执行的任务,本文件中定义的用户绩效测试方法依赖于用户执 类典型任务时的行为
7.2字母数字和非字母数字文本
用于涉及文本操作和文本处理的任务。其测试流程适用于典型办公环境下的任务。其他类型任务
测试方法及相应的设备仍有待开发 注1:到目前为止,尚未制定出使用地图时的测试流程。 注2:到目前为止,尚未制定出处理和解释照片的测试流程。 注3:到目前为止,尚未制定出处理和解释动态图像的测试流程
任何实验均会存在偏差,尤其是在心理学实验。因此,本测试应在专业人员的指导下进行,有资 展此类测试的专业人员需有必要的教育经历且至少具备一年以上相关经验。应遵守有关人体实验 的道德行为准则,相关准则示例见参考文献[14]和[15]
受试者宜能代表预期用户群体 体均不存在视力障碍。有视力障碍的用 在使用视觉显示器时,需要使用其他的图像质量标准,而且还需单独进行实验设计。所有受试者的视 或矫正视力应正常,且没有任何明显的、可能会影响其搜索效率或感知图像质量的身体或生理状况
测试应在不受干扰的环境下进行,以避免外部干扰对测试结果的影响。环境条件应遵循ISO924 的规定。环境条件应舒适,且在同一受试者和不同受试者测试期间不应有明显变化。
根据ISO/IEC8859(所有部分)的规定,测试材料应为与8位单字节编码图形字符集相关的字符集 的伪文本,该字符集描述了各种语言的字符集集合。如果用户不熟悉系统所呈现的文本中的字母 则宜以双字节编码字符(如亚洲字符)来显示文本。这种情况下所使用的语言应在合规声明中加以 。每个测试均使用指定的字符子集(例如“A”到“Z”、“a”到“z”以及“0”到“9”)。两个显示器应使用 的子集。 应根据以下约束条件从字符集生成测试文本。 测试文本应由通过空格来分隔的随机字符串块组成。 待测和基准显示器上的文本均应包括固定行数,每行字符数(包括空格字符)也应固定。 在选择每行的字符数时应使行长(厘米)小于行距(即显示区域的高度除以最大行)的25倍。 但是,一行至少宜包含30个字符(包括嵌入的空格)。包括嵌入的空格在内,测试文本中的字 符总数应在400~600之间。测试文本块的大小应确保,如果同时呈现5个文本块(屏幕四角 各1个,中间1个),文本块间的重叠应最小,同时最大限度地覆盖显示区域, 在整个测试过程中,应让每个受试者计算单个目标字符出现的次数(例如,让受试者X在整个 测试期间搜索“A”,让受试者Y搜索“R等)。 包括嵌人的空格在内,目标字符数应为文本中字符总数的2%~3%。 目标字符的位置应随机,但不应作为每行的开头或结尾, 文本中所包含的空格数量应固定。空格比例应为15%(即相对于字符总数的空格数,包括嵌 入的空格)。 注:虽然不同语言的平均字长不同,但空格占比15%的测试文本在字符串长度分布上与普通文本相似。 空格位置应随机选择,限制如下: a)空格不应出现在每行的开头和结尾(所有空格均为嵌人式); b)两个空格不应相邻(字符串间由单个空格隔开); 最小字符串的长度应为两个字符
在屏幕上的5个位置之一将测试文本以字符块的形式呈现,受试者的任务是浏览文本并识别每个 目标字符。 将测试文本块呈现在屏幕左上角、右上角、左下角、右下角和中间。定位中心块,使块的中间字符大 位于屏幕活动区域的中心。将文本放在屏幕的四角时,将其紧靠屏幕边角。 向受试者介绍此次测试的目的是评估显示器所呈现的图像质量。如果出于实验的目的,待测显示 馨的制造商决定由测试者自行调整显示器亮度和对比度,则受试者有机会接其个人首选项进行调整。 且基准显示器亮度和对比度的设置需按照制造商的指示,不应由受试者进行调整。 制造商宜意识到,如果允许受试者调整显示器设置,这会给受试者以暗示,他所调整的这个显示器 优是待测显示器,因此可能会影响测试结果。为了避免该影响,可以让受试者在测试前调整设置,然后 使用隐藏在视图中的控件执行测试。 随机在5个位置呈现5个测试块。让每个受试者从上到下浏览测试文本,并给出目标字符出现的 数。为了克服初始的学习效应,需在正式实验前对受试者进行训练,让受试者至少执行10个测试文 本的测试任务(即10次预实验)。其他学习效应应通过在主实验中平衡刺激顺序来控制。在预实验中,
应将测试文本放在屏幕5个位置中的任一位置,让受试者进行练习。在待测显示器和基准显示器上均 应进行预实验练习。 让受试者持续进行预实验,直到他在任何一块测试文本上都不再出现错误。评估显示器的图像显 示质量不能使用预实验中收集到的数据。 在进行测试时,测量受试者识别测试文本块中每个目标字符所用的时间,并记录其出错的次数(见8.8) 测试间隙,允许受试者休息10s~1min。 指导受试者通过按预定义的键或按钮对开始测试、计算发现的目标数、停止测试等操作做出响应。 可以使用键盘或其他任意适当的输入设备进行操作。如果使用键盘,则宜将“回车”键定义为并始 停止测试,将“空格”键定义为记录发现目标。 记录开始测试和停止测试之间的时间间隔,作为该次测试的搜索时间。 指导受试者在尽快完成搜索工作时要尽可能地减少错误。无论待测显示器的视觉质量如何(例如 显示器与之前测试的显示器相比,质量相对较低),均应告诉他们要将搜索错误率降至最低。在这方面 给予受试者适当的指导非常重要,可保持错误率稳定且错误率较低的状态。 一半受试者应先使用基准显示器测试,另一半受试者应先使用待测显示器测试。 使用显示器完成视觉搜索任务后,要求受试者采用9级量表评价该显示器的视觉质量(如下所示) 分表示最差,9分表示最好。基于待测显示器或基准显示器完成测试后,要求受试者评价显示器显示 质量和视觉舒适性
2 b 9 较差 一般 优良
“请您对刚才所使用的显示器的视觉舒适性进行判断,圈选出与您的判断相对应的数字。” 8.6.7中给出了给受试者的指导语示例
受试者应使用其他按钮(或按键)来开始(或停止)时间记录
8.6.7 受试者指导语
以下给出了受试者指导语的示例说明, 宜针对特定测试情况进行修改。假定某个国家的语言阅读 习惯是从左到右,使用键盘作为输入,如果阅读方向有变化或使用了非键盘输入设备,则需要将键盘输 人进行修改。 应以书面形式向受试者呈现这些指导语,以下是受试者阅读示例: “谢谢您参加本次测试。本次测试的目的是评估字符的易读性。请记住,我们测试的对象是显示 器,而不是您!” “您将看到屏幕上呈现一系列类似于以下示例的文本块。您的任务是找到每一个大写字母“A”。 请像阅读普通文章一样从屏幕左上角读到右下角。准备好后请按键盘上的回车键。当测试文本出现在 屏幕上的5个位置(左上、右上、左下、右下或中间)之一时,请立即开始搜索。一且看到天写字母“A”, 请按下键盘上的空格键。读完全文后,请再次按下回车键。请尽可能准确快速地完成浏览。每个屏幕 上的目标数量均不相同,所以请注意正确阅读和搜索,并尽可能准确、快速地找到每个文本块中的目标 字母。这意味着,如果被测显示器的视觉质量与您前一个测试的显示器相比有所下降,则搜索速度会减 缓,但如果与前一个相比有所提高,则搜索速度会加快。如果有任何问题,请您咨询测试负责人员。”
对于每个受试者的实验测试,应记录两个 不得使用预微试实微数据 因变量应为以下两项: a)错误率<10%时的平均搜索速度; b)视觉舒适度的主观评价。 错误率E的定义见公式(1):
Tc一一受试者发现的目标字符总数。 如果遗漏的或额外的目标字符数量太多(每个文本中遗漏的或找错的字符数超过文本字符总数的 十分之一),则在统计处理中应忽略此次绩效测量值
8.7.2平均搜索速度
T:是所记录的有效实验(E<10%)的搜索时间。受试者的绩效测量,即平均搜索速度V(学符 的计算公式见公式(2):
u.=n. · n。· [≥ T,]
n,一受试者执行的有效实验次数; n。一测试文本中的字符总数(包括嵌人的空格)。 注:待测显示器和基准显示器的.值可以通过对连续受试者采用序贯测试程序进行分析(见8.8)。
如果采用序贯分析进行符合性测试,则可以减少对无效假设进行具有统计可靠性的测试所需的受 试者数量。 注:序贯分析的主要特点是样本量不是预先确定的,而是在收集每组结果并检验原假设的有效性后才确定。 其他统计程序和分析,例如t检验,只要有足够的样本量就可以进行。 如果未使用序贯分析程序,则在实验和统计分析中,应确保2类错误率β小于0.05(标准偏差D为 0.5),且检验值α(制造商风险)应为0.05(见表1)。 测试结果的统计处理包括将待测显示器的相关度量与基准显示器进行比较。由于没有任何统计测 试可以证明两个产品是相同的,因此本测试用于确定待测产品的性能是否明显低于或优于基准产品。 如果待测产品没有明显劣于基准产品,则认为该待测产品符合标准。 因此,原假设H。是指待测显示器的评分等于或高于基准显示器。替代假设H,是指待测显示器 的评分明显低于基准显示器
统计决策容易出现两类错 发生在错误未拒绝原假设时。
表1统计测试时的决策类型
在非序贯测试中,实验中的样本量应使用以下改编自文献的公式(3)进行预先确定:
N= 2(u. +μp)
式中: N 一实验样本量; α对应的正态偏差(分数); β对应的正态偏差(α分数); D 标准差。 例如,当α和β均设置为0.05,目标是检测半个标准差平均值之间的差异时,则需要的受试者数量 通过公式(4)进行计算:
2(1.65+1.65)
因此,本测试宜至少需要87名受试者
表2Barnard的U检验
表3用Barnard的U检验法进行序贯测试的示例
N表示受试者的人数。 其他符号的含义详见表2。 临界值见表4。
在8个受试者浏试之后,U 基准显示器.待测显示器通过该测试
8.9BarnarU检验临界值
表4中给出了BarnardU检验的临界值,即α=0.05,β=0.05,D=0.5。参考文献L16中的表L.3 对这些值进行了插值(使用线性回归)。表4方括号内的边界值用于辅助绘制边界线,不应用于做出 决策。
表4BarnardU检验的临界值
78.3042021/ISO9241
合同施工组织设计文字说明表4BarnardU检验的临界值(续)
附录A (资料性) ISO.9241系列概览
A.1ISO9241系列概览
78.3042021/ISO9241
表A.1ISO9241系列概览(续)
某展览中心室内给排水及自动报警系统施工组织设计118页表A.1ISO9241系列概览(续)
78.3042021/ISO9241