GB/T 42460-2023 信息安全技术 个人信息去标识化效果评估指南.pdf

GB/T 42460-2023 信息安全技术 个人信息去标识化效果评估指南.pdf
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:4.8 M
标准类别:环境保护标准
资源ID:389388
下载资源

标准规范下载简介

GB/T 42460-2023 信息安全技术 个人信息去标识化效果评估指南.pdf

范围 规范性引用文件 术语和定义 个人信息去标识化效果分级 个人信息去标识化效果评估流程…… 评估实施 6.1评估准备 6.2定性评估 6.3定量评估 6.4形成评估结论 6.5沟通与协商. 6.6评估过程文档管理 附录A(资料性)直接标识符示例 附录B(资料性)准标识符示例 附录C(资料性)准标识符识别 附录D(资料性)基于K匿名模型的去标识化效果评估示例 1C

本文件按照GB/个1.1一2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由全国信息安全标准化技术委员会(SAC/TC260)提出并归口。 本文件起草单位:清华大学、中国电子技术标准化研究院、北京大学、绿盟科技集团股份有限公司 上海三零卫士信息安全有限公司、中国软件评测中心、北京天融信网络安全技术有限公司、蚂蚁科技集 团股份有限公司、阿里巴巴(北京)软件服务有限公司、北京市政务信息安全保障中心、深圳市腾讯计算 机系统有限公司、北京百度网讯科技有限公司、中国人民银行数字货币研究所。 本文件主要起草人:金涛、王建民、周晨炜、谢安明、张峰昌、陈磊、查海平、赵亮、王冀、叶晓俊、屈劲 白晓媛、李媛、刘巍然、刘俊河、洪爵、宋玲妮

GB/T35273提出了个人信息去标识化的要求GB 50345-2012标准下载,明确了个人信息去标识化处理的环节和场景, GB/T37964就如何开展个人信息去标识化活动给出了指导。经去标识化处理后的个人信息并不能完 全实现匿名化,仍存在重标识的风险,需结合应用场景进行去标识化效果评估。 本文件旨在依据个人信息能多大程度上标识个人身份(即标识度)进行分级,用于评估个人信息去 标识化活动的效果。个人信息基于标识度分级,有利于个人信息分级别探讨适用场景和安全管理要 求,更有利于个人信息的使用和保护。根据国内外相关研究及实践成果,附录中给出了可供参考的计算 方法和國值推荐。

个人信息去标识化效果评估指南

本文件提供了个人信息去标识化效果分级与评估的指南。 本文件适用于个人信息去标识化活动,也适用于开展个人信息安全管理、监管和评估

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于 本文件。 GB/T25069一2022信息安全技术术语 GB/T35273一2020信息安全技术个人信息安全规范 GB/T37964一2019信息安全技术个人信息去标识化指南

4个人信息去标识化效果分级

基于数据是否能直接识别个人信息主体,或能以多大概率识别个人信息主体,个人信息标识度分级 划分为4级,详见表1,用于区分个人信息去标识化效果。

表1个人信息标识度4级划分

个人信息去标识化效果评估流程

个人信息去标识化效果评估流程见图1,包括以下内容: a) 评估准备: b) 定性评估; C) 定量评估; d)天 形成评估结论。 沟通与协商和评估过程文档管理贯穿于整个评估过程,

个人信息去标识化效果评估流程

评估准备工作包括以下内容。 a) 1 确定待评估的数据集。 D) 确定数据集使用的环境,包括业务场景、组织、人员、系统、已有其他数据等。 ·) 组建评估团队,包括个人信息保护合规专家、去标识化技术专家、相关业务专家等。 1) 开展前期调研,包括数据使用环境的详细调研。 e) 确定评估依据,包括相关的法律法规标准等。 D) 确定重标识风险计算方案及可接受风险阈值: 1)重标识风险计算方案同时考虑数据集及其使用的环境,可基于K匿名模型或是基于差分 隐私模型等; 2) 可接受风险阈值符合相应安全要求,并符合应用需要。

定性评估包括: a) 1 按照GB/T37964一2019中5.3识别标识符,并形成标识符清单(包括直接标识符和准标识 符); b)关 判断数据集是否包含标识符清单中的标识符,如果不包含任何标识符,评为4级,评估结束,否 则继续; ? 1 判断数据集是否消除了标识符清单中的直接标识符,如果含有清单中的直接标识符,评为 1 级,评估结束,否则进一步进行定量评估。

定量评估包括: a) 1 定量计算重标识风险,按照6.1f)确定的重标识风险计算方案进行重标识风险计算; b) 比较计算得到的重标识风险结果与可接受风险阈值,如果重标识风险结果小于可接受风险阈 值,评为3级,否则评为2级,评估结束, 基于K匿名模型的重标识风险计算方案及评估示例见附录D。

形成评估结论包括: 结合定性评估与定量评估结果,形成去标识化效果分级结论; b) 结论获得管理层批准。

在评估过程中与相关方(包括数据提供方、数据接收方等)保持沟通并对沟通内容予以记录,包括: Aa) 13 数据共享目的和数据共享环境的理解确认; b) 重大的数据环境变更通知机制的建立; C) 1 关于重标识风险度量的相互交流信息和意见; d) 相关方已表达的对重标识风险的意见; e) 2 定期/不定期重新评估的计划。

6.6评估过程文档管理

评估过程文档管理包括以下内容。 a)i 评估过程文档包括评估过程中依据、参考和产生的过程文档与结果文档,包括但不限于: 1)评估方案:包括待评估数据集、数据使用的环境、评估人员、评估方法、评估结果的形成和 实施进度等: 2)标识符识别报告:标识符识别的过程及结果; 3) M直 重标识风险计算方案:重标识风险计算方案及重标识风险可接受阈值的确定过程及结果: 4) )评估报告:包含定性评估和定量评估的过程及结果结论; 5)评估记录:评估过程中的各种记录,包括沟通与协商的记录等。 b)文档的管理包括标识、存储、保护、检索以及处置分发等。

C.1识别准标识符的考量

准标识符是微数据中的属性,结合其他属性可唯一识别个人信息主体。通常,准标识符中的信息可 被个人信息主体的熟人所了解,或者存在于某类数据库中。 通常存在一些比较简化的操作方法识别准标识符。例如:将除去直接标识符之外剩余的其他属 性都作为准标识符。这种方法没有考虑属性被数据接收者和其他背景知识(其他外部数据资源)结 合进行关联攻击的可能性,可能会形成过多的准标识符。如果应用K匿名方法进行处理,可能造成 大量的信息丢失,致使去标识化后的数据无法支持原定的应用目的。另一种方法是比较有限的考虑 关联攻击可能性,例如,只有在公开数据集中会出现的属性作为准标识符。这种方法因为对数据接 收者或者攻击者可能具备的额外背景知识判断不充分,可能引起较高的重标识个人信息主体的风 险。因此,识别准标识符的过程需要同时考虑到数据本身的特征和数据使用的环境(应用目的、接收 者以及背景知识等)。

准标识符识别的过程从直接标识符识别之后开始,首先针对数据本身的特征进行初步识别,然后对 据使用的环境因素进行分析,进一步筛选最终的准标识符。 a)利用已有知识快速识别准标识符:通过和公认的常见准标识符进行对比,快速识别候选准标识 符。常见准标识符示例见附录B。 b)通过属性相关性进一步识别准标识符:在目标数据集的属性中,识别相关度较高的属性。例如 在出生注册信息库中,婴儿出生日期和出院日期是高度相关的,而出生日期是公认的常见准标 识符,因此与其高度相关的出院日期也通常被认定为准标识符。又例如:用药和疾病诊断之间 也存在高度相关性,如果其中任何一个属性被认定为准标识符,则另一个通常同样被识别为准 标识符。 c)基于重标识风险筛选准标识符:属性取值的重标识风险可被用来进一步筛选准标识符。对于 每一个属性可计算其取值的独特性,独特性高的属性,其重标识风险较高。也可考虑属性是否 作为准标识符对于整体数据集的等价类数量的影响,影响较大的属性,例如:作为准标识符 后,等价类的数量相对于其不作为准标识符有很大程度的增加,则该属性需要考虑被识别为准 标识符。 d)基于环境风险筛选准标识符:在确定环境风险对准标识符识别的影响时需要同时从拥有更多 背景知识(背景数据)的现状和获得能力以及数据接收者对数据理解和分析能力的角度进行 分析。 1)拥有较多个人信息的企业或者机构,例如保险公司(个人医疗保险)、医院、电商平台等,通 常同时具有较强的个人数据获得能力。因此,通常将此类机构利用背景知识进行关联重 标识的可能性设定为“高”。对于药品或者医疗器械公司,其获取的个人信息背景信息可 能非常有限,所以进行关联性重标识的可能性可设定为“中"或者“低”(取决于具体的案例 需求)。 2)拥有较强的数据理解能力和分析处理能力的数据接收者,进行重标识的风险较高。相

反,若利用其进行重标识所要求的知识和能力超过了数据接收者的知识和能力范围,则重 标识风险较低 通过对环境风险的评估,利用背景信息进行重标识的发生概率低的属性通常不识别为准 标识符·概率高的通常识别为准标识符

附录D (资料性) 基于K匿名模型的去标识化效果评估示例

基于K匿名模型的去标识化效果评估示例

基于K匿名模型的重标识风险计算是综合考虑数据和环境因素的计算过程。先计算数据集每 、整个数据集的重标识风险,进而计算环境重标识攻击概率,最后再结合环境重标识攻击概率计 数据集的重标识总体风险

D.1.2计算每行记录重标识风险

每行记录重标识风险计算步骤如下: a) 确定等价类集合J及每个等价类大小f,其中jJ; b) 一个等价类内所有记录的重标识风险是相同的,按式(D.1)计算给定记录行所在等价类重标 识风险,即为给定记录行重标识风险

式中: 等价类重标识风险; 等价类的大小

D.1.4计算环境重标识攻击概率

环境重标识攻击概率计算有以下两种情况。 a) 完全公开共享数据发布,攻击者对数据集进行重标识攻击的概率为pr(context)=1

表D.1重标识攻击的可能性分析表

2) 数据集包含熟人概率,等于数据集中存在随机熟人的概率,按式(D.4)计

2) 数据集包含熟人概率,等于数据集中存在随机熟人的概率,按式(D.4)计算

式中: pr一一数据集包含熟人概率; P一一所有人中具有数据集中特征的个体的百分比,p的值应由最近的人口统计确定; m一一接收者的熟人数,取值宜为150。 数据泄露概率,等于数据接收方发生数据泄露的概率。数据泄漏的发生概率与数据接收 方的数据安全和隐私控制的能力分级(高、中、低)相关。对于安全和隐私控制能力评估为 低的情况,推荐将数据泄漏概率设定为0.55。对于安全和隐私控制能力评估为中的情 况,推荐将数据泄漏概率设定为0.27。对于安全和隐私控制能力评估为高的情况,推荐将 数据泄漏概率设定为0.14。

D.1.5计算重标识总体风险

重标识总体风险计算需要结合数据共享类型分两步计算。 a) 按式D.5计算等价类门限风险R;

R= ∑1(0;> |

R。 等价类门限风险; I 一一等价类集合; |J| 一一等价类数目; 0; 一一等价类重标识风险; 一门限阀值:完全公开共享数据发布,取值1/20;受控公开共享数据发布,取值1/5;领 地公开共享数据发布旋流井细部结构施工方案,取值1/3; I(0>t)一一判断0是否大于t,是则取值为1,否则为0。 a)根据R。是否为0,结合数据共享类型,重标识总体风险R计算见表D.2。

表D.2 重标识总体风险计算

某医院领地公开共享的一批胃癌患者的用药记录数据集,已经对姓名、年龄等属性 理,见表D.3

表D.3某医院内部的去标识化数据集

表D.3 某医院内部的去标识化数据集(续

该去标识数据集有以下通过判定或获取到的条件: Aa) 定性判定:该领地公开共享数据集采取高级别的风险减缓控制水平,攻击者发起攻击的动机和 能力处于中等; b)根据GCO(GlobalClinicalOperationsT/CEPPEA 5004.6-2020 核电厂常规岛施工图设计文件内容深度规定 第6部分:建筑.pdf,全球临床操作)在线数据库估计,国内胃癌患者约 151万人,占总人口的0.00108(总人口约为140005万人);假设该数据集的接收者认识的平 均人数为150人; C)1 评估医院的安全和隐私控制能力为高,数据泄露的概率设定为0.14; d)重标识可接受风险阈值设定为0.05。

按照第5章所述评估过程评估。 a) 数据包含准标识符(性别、年龄),不是4级,继续评估。 b) 数据不含任何直接标识符,不是1级,继续评估。 C) 1M 数据重标识风险计算: 1)计算表D.3每行记录的重标识风险,首先,确定数据集的等价类,在表D.3中,“性别”和 “年龄”为准标识符(“药物编码”不是标识符),准标识符属性值相同的数据记录行作为一 个等价类,因此一共有5个等价类,然后,计算数据集中每一个等价类的大小,以及相应的 重标识风险,见表D.4;

©版权声明
相关文章