发布日期:2023-03-23 12:26 浏览次数:
本标准描述了个人信息去标识化的目标和原则,提出了去标识化过程和管理措施。
本标准针对微数据提供具体的个人信息去标识化指导,适用于组织开展个人信息去标识化工作,也适用于网络安全相关主管部门、第三方评估机构等组织开展个人信息安全监督管理、评估等工作。
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 25069-2010 信息安全技术 术语
GB/T 25069-2010界定的以及下列术语和定义适用于本文件。
3.1
个人信息 personal information
以电子或其他方式记录的能够单独或与其他信息结合识别特定自然人身份或反映特定自然人活动情况的各种信息。
[GB/T 35273-2017,定义3.1]
3.2
个人信息主体 personal data subject
个人信息所标识的自然人。
[GB/T 35273-2017,定义3.3]
3.3
去标识化 de-identification
通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。
[GB/T 35273-20177,定义3.14]
注:去除标识符与个人信息主体之间关联性。
3.4
微数据 microdata
一个结构化数据集,其中每条(行)记录对应一个个人信息主体,记录中的每个字段(列)对应一个属性。
3.5
聚合数据 aggregate data
表征一组个人信息主体的数据。
注:例如各种统计值的集合。
3.6
标识符 identifier
微数据中的一个或多个属性,可以实现对个人信息主体的唯一识别。
注:标识符分为直接标识符和准标识符。
3.7
直接标识符 direct identifier
微数据中的属性,在特定环境下可以单独识别个人信息主体。
注1:特定环境指个人信息使用的具体场景。例如,在一个具体的学校,通过学号可以直接识别出一个具体的学生。
注2:常见的直接标识符有:姓名、身份证号、护照号、驾照号、地址、电子邮件地址、电话号码、传真号码、银行卡号码、车牌号码、车辆识别号码、社会保险号码、健康卡号码、病历号码、设备标识符、生物识别码、互联网协议(IP)地址号和网络通用资源定位符(URL)等。
3.8
准标识符 quasi-identifier
微数据中的属性,结合其他属性可唯一识别个人信息主体。
注:常见的准标识符有:性别、出生日期或年龄、事件日期(例如入院、手术、出院、访问)、地点(例如邮政编码、建筑名称、地区)、族裔血统、出生国、语言、原住民身份、可见的少数民族地位、职业、婚姻状况、受教育水平、上学年限、犯罪历史、总收入和宗教信仰等。
3.9
重标识 re-identification
把去标识化的数据集重新关联到原始个人信息主体或一组个人信息主体的过程。
3.10
敏感属性 sensitive attribute
数据集中需要保护的属性,该属性值的泄露、修改、破坏或丢失会对个人产生损害。
注:在潜在的重标识攻击期间需要防止其值与任何一个个人信息主体相关联。
3.11
有用性 usefulness
数据对于应用有着具体含义、具有使用意义的特性。
注:去标识化数据应用广泛,每种应用将要求去标识化数据具有某些特性以达到应用目的,因此在去标识化后,需要保证对这些特性的保留。
3.12
完全公开共享 completely public sharing
数据一旦发布,很难召回,一般通过互联网直接公开发布。
注:同英文术语 The Release and Forget Model.
3.13
受控公开共享 controlled public sharing
通过数据使用协议对数据的使用进行约束。
注1:例如通过协议禁止信息接收方发起对数据集中个体的重标识攻击,禁止信息接收方关联到外部数据集或信息,禁止信息接收方未经许可共享数据集。
注2:同英文术语 The Data Use Agreement Model。
3.14
领地公开共享 enclave public sharing
在物理或虚拟的领地范围内共享,数据不能流出到领地范围外。
注:同英文术语 The Enclave Model。
3.15
去标识化技术 de-identification technique
降低数据集中信息和个人信息主体关联程度的技术。
注1:降低信息的区分度,使得信息不能对应到特定个人,更低的区分度是不能判定不同的信息是否对应到同一个个人,实践中往往要求一条信息可能对应到的人数超过一定阈值。
注2:断开和个人信息主体的关联,即将个人其他信息和标识信息分离。
3.16
去标识化模型 de-identification model
应用去标识化技术并能计算重标识风险的方法。
4.1 去标识化目标
去标识化目标包括:
a)对直接标识符和准标识符进行删除或变换,避免攻击者根据这些属性直接识别或结合其他信息识别出原始个人信息主体;
b)控制重标识的风险,根据可获得的数据情况和应用场景选择合适的模型和技术,将重标识的风险控制在可接受范围内,确保重标识风险不会随着新数据发布而增加,确保数据接收方之间的潜在串通不会增加重标识风险;
c)在控制重标识风险的前提下,结合业务目标和数据特性,选择合适的去标识化模型和技术,确保去标识化后的数据集尽量满足其预期目的(有用)。
4.2 去标识化原则
对数据集进行去标识化,应遵循以下原则:
a)合规:应满足我国法律、法规和标准规范对个人信息安全保护的有关规定,并持续跟进有关法律、法规和标准规范;
b)个人信息安全保护优先:应根据业务目标和安全保护要求,对个人信息进行恰当的去标识化处理,在保护个人信息安全的前提下确保去标识化后的数据具有应用价值;
c)技术和管理相结合:根据工作目标制定适当的策略,选择适当的模型和技术,综合利用技术和管理两方面措施实现最佳效果。包括设定具体的岗位,明确相应职责;对去标识化过程中形成的辅助信息(例如密钥、映射表等)采取有效的安全防护措施等;
d)充分应用软件工具:针对大规模数据集的去标识化工作,应考虑使用软件工具提高去标识化效率、保证有效性;
e)持续改进:在完成去标识化工作后应进行评估和定期重评估,对照工作目标,评估工作效果(包括重标识风险和有用性)与效率,持续改进方法、技术和工具。并就相关工作进行文档记录。
4.3 重标识风险
4.3.1 重标识方法
常见的用于重标识的方法如下:
a)分离:将属于同一个个人信息主体的所有记录提取出来;
b)关联:将不同数据集中关于相同个人信息主体的信息联系起来;
c)推断:通过其他属性的值以一定概率判断出一个属性的值。
以上为标准部分内容,如需看标准全文,请到相关授权网站购买标准正版。