GB/T 6380-2019标准规范下载简介
GB/T 6380-2019 数据的统计处理和解释 Ⅰ型极值分布样本离群值的判断和处理.pdfGB/T 6380—2019 代替GB/T6380—2008
Statistical interpretation of dataDetection and treatment of outliers in the sample fromtypeIextremevaluedistribution
国家市场监督管理总局 发布 国家标准化管理委员会
GB/T63802019
CJJ122-2017标准下载范围 规范性引用文件 术语、定义和符号: 3.1术语和定义 3.2符号 离群值判断 4.1 离群值的来源与判定 4.2 检出离群值个数的上限 4.3 单个离群值情形 4.4 多个离群值情形 离群值处理 5.1 处理方式 5.2 处理规则 5.3 备案 单个离群值的判断规则 6.1 检验方法的选择 6.2 狄克逊(Dixon)检验法 6.3 欧文(Irwin)检验法 多个离群值的判断规则 7.1检验步骤 7.2多个离群值检验示例 附录A(规范性附录)狄克逊检验的临界值表 附录B(规范性附录)欧文检验的临界值表 参考文献
GB/T63802019
GB/T63802019
从事科学研究、工农业制造以及管理工作都离不开数据,而对这些数据的整理、分析和解释都离不 开统计方法。统计学是研究数字资料的整理、分析和正确解释的一门学科。人们各自从不同的来源取 得各种数字资料,这些数字资料通常都是杂乱无章的,经过整理和简缩才能利用,使用完善的统计方法 就可使数据整理、排列得有条有理,用图形或少量的几个重要参数,就可将大量数据的特征表达出来,这 详既可避免不正确的解释,又可将获得满意数据的成本降到最低限度,提高了经济效益。 根据收集到的样本观测值,可以大体上确认样本来自为某种分布。这时发现样本中的一个或几个 见测值,它们离开其他观测值较远,暗示它们可能来自不同的总体。是否为实际的离群值,需要统计检 验。在离群值的检验中特别要注意数据来自哪一种基本分布,假定来自工型极值分布与假定来自正态 分布在检验时是非常不同的,对分布的错误假定会导致观测值被错误地归类为离群值。 国家标准《数据的统计处理和解释》包含以下各项: 统计容忍区间的确定(GB/T3359); 均值的估计和置信区间(GB/T3360); 在成对观测值情形下两个均值的比较(GB/T3361); 二项分布参数的估计与检验(GB/T4088); 泊松分布参数的估计与检验(GB/T4089); 正态性检验(GB/T4882); 正态样本离群值的判断和处理(GB/T4883); 正态分布均值和方差的估计与检验(GB/T4889); 正态分布均值和方差检验的功效(GB/T4890); I型极值分布样本离群值的判断和处理(GB/T6380); T分布(皮尔逊Ⅲ型分布)的参数估计(GB/T8055); 指数样本离群值的判断和处理(GB/T8056)
GB/T63802019
在允许检出离群值的个数大于1的情况下,重复使用4.3规定的检验规则进行检验,并按下述规则 决定检验停止的时机: a)若没有检出离群值,则整个检验停止; b)若检出离群值,当检出的离群值总数达到上限(4.2)时,检验停止,否则,采用相同的检出水平 和相同的规则,对除去已检出的离群值后余下的观测值继续检验,
处理离群值的方式有: 保留离群值并用于后续数据处理; b) 在找到实际原因时修正离群值,否则予以保留; C 剔除离群值,不追加观测值; d)剔除离群值.并追加新的观测值或用适宜的插补值代替
对检出的离群值,应尽可能寻找其技术上和物理上的原因,作为处理离群值的依据。应根据实际问 题的性质,权衡寻找和判定产生离群值的原因所需代价、正确判定离群值的得益及错误剔除正常观测值 的风险,以确定实施下述三个规则之一: a)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,不得剔除或修正。 b)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,保留歧离值,剔除或修正 统计离群值。在重复使用同一检验规则检验多个离群值的情形,每次检出离群值后,都要再检 验它是否为统计离群值。若某次检出的离群值为统计离群值,则此离群值及在它前面检出的 离群值都应被剔除或修正。 c)检出的离群值(统计离群值和歧离值)都应被剔除或修正
除或修正的观测值及其理由应予记录,以备查询
6单个离群值的判断规则
当样本量5≤n≤30时,使用狄克逊(Dixon)检验法;当样本量30 6.2狄克逊(Dixon)检验法 GB/T63802019 (α) T()(1) / 6.2.2狄克逊(Dixon)检验法示例 321.46.319.62.320.44.319.51.329.73.320.4 根据经验,可以认为总体为I型极值分布。假如使用者关心的是数据中是否有上侧离群值,可 节中的方法。 本例中,n=6,最小观测值为(1)=319.51、最大观测值为(6)=329.73、次大观测值为(5)=321.46 (1)计算统计量D,的值 确定检出水平α=0.05,按照表A.1查出D,的临界值D.95(6)=0.681。由于D。=0.8092>0.681 Do.95(6),故判定(6)=329.73为离群值。 对于检出离群值(6)=329.73SY/T 7397-2017标准下载,进一步给出剔除水平α*=0.01,按照表A.1查出D,的临界值 Do.9g(6)=0.796,由于D。=0.809>0.796=D0.99(6),故判断r(6)=329.73为统计离群值。 经复核查实,此数据系误记,实际值为319.73 6.2.3狄克逊检验法示例2 D20 = (20) (18) (—1nl.2)—(ln59.6) ln59.6—1n1.2 4.0880.182 0.664 (20) (1) (—lnl.2)—(—ln428.4) ln428.4—lnl.2 6.0600.182 确定检出水平α=0.05,按照表A.1查出D2临界值0.558。由于 Dan = 0.664 > 0.558 = Do.s (20) GB/T63802019 GB/T63802019 因此拒绝原假设,可以判定(20)=一ln1.2=一0.182确实是离群值DB51/T 2407-2017 自然保护区信息化建设规范.pdf,即可以判定w(1)=1.2确实是 离群值。 对于剔除水平α=0.01,按照表A.1查出D2o临界值0.654。由于 D20 = 0.664 > 0.654 = Do.99(20) 因此拒绝原假设,即可以判定(20)=一1n1.2=一0.182是统计离群值,即可以判定W(1)=1.2是统 计离群值。经仔细检查,发现此电容器是在加压过程中绝缘层被击穿,不是正常的老化失效,因此 U1=1.2是统计离群值,应予以剔除 6.3欧文(Irwin)检验法