查找:                      转第 显示法宝之窗 隐藏相关资料 下载下载 收藏收藏 打印打印 转发转发 小字 小字 大字 大字
【期刊名称】 《互联网法律通讯》
欧盟数据保护工作组关于匿名化技术的意见
【作者】 石丹孙文帅(校)
【作者单位】 北京大学{法学博士研究生}北京大学法学院{法律硕士研究生}
【分类】 法律信息【期刊年份】 2016年
【期号】 3【页码】 46
【全文】法宝引证码CLI.A.1242013    
  欧盟数据保护工作组是依据第95/46/EC号指令第29条设立的,是欧洲关于数据保护和隐私的独立的咨询机构。该份关于匿名化技术的意见于2014年4月10日通过。
  内容提要
  在该意见中,工作组分析了在欧盟数据保护法律框架下匿名化技术的有效性和其存在的不足,并通过考虑目前仍然存在的可识别的风险来为匿名化技术的发展提供建议。
  工作组认识到匿名化技术具有潜在的巨大价值,其可以减少个人对数据使用风险的担忧,与此同时,其可以有效推动数据开放,从而为个人和社会带来福利。然而,现有的案例和研究表明,建立完全匿名的数据集的同时又希望实现其预期的目的十分困难。
  根据第95/46/EC号指令和其他相关的欧盟法律,匿名化是为了不可逆地防止识别而对数据进行处理的结果。因此,数据的控制者需要考虑其自身或任何第三方“可能合理地”采取实现数据可识别的所有方法。
  匿名化是对个人数据的进一步处理,因此,其必须符合法律规定,并且不会妨碍到数据的进一步处理。此外,匿名化的数据不属于数据保护立法的保护范围,但是其仍然受到其他法律条款(比如保护通信隐私等方面)的规制。
  该意见中,匿名化技术主要包括随机化(randomization)和泛化(generalization)。该意见特别讨论了噪音添加(noise addition)、置换(permutation)、差分隐私(differential privacy)、聚合(aggregation)、k-匿名化(k-anonymity)、l-多样性(l-diversity)和t-相近性(t-closeness)。该意见解释了这些技术的原理、优势和不足,以及使用每一项技术过程中常见的错误。
  该意见基于以下三个标准详细介绍了每一项技术的有效性:
  (1)仍然有可能识别到个人;
  (2)仍然有可能将记录与个人相关联;
  (3)可能会推断信息与某个人相关。
  了解每一项技术的主要优势和不足有助于在特定背景下更好地设计一个可以充分实现匿名化的程序。
  关于假名化(pseudonymisation)需要澄清的是:假名化并不是一种匿名化的方法。其减少了数据集和数据主体(data subject)原始身份的相关性,相应的,其也是一种有效的安全措施。
  该意见总结认为,匿名化技术可以提供安全保证,但仅仅是在匿名化技术可以恰当地研发的前提下,这就意味着必须明确匿名化程序的前提条件和目标,即,既能输出有用的数据,又可以实现匿名化保护隐私。最佳的解决办法应当是在个案的基础上进行决定,可能会将不同的技术进行结合,同时应考虑该建议中提出的一些实用性的建议。
  最后,数据控制者应当认识到,匿名化的数据集仍然可能存在可识别的风险。事实上,一方面,对匿名化和重新可识别技术的研究目前十分活跃,一些新的发现也已经公开发表;而另一方面,即便是匿名化的数据,比如统计数据,也可能被用来补充到现有的个人资料中,从而引发新的数据保护问题。因此,匿名化并不是一劳永逸的,其带来的风险应当被定期的重新评估。
  一、前言
  随着设备、传感器和网络产生了大量新类型的数据,数据存储的成本越来越可以忽略不计,对这些数据进行重新使用的需求越来越大,公众也越来越关注。“开放数据”可以为社会、个人和机构带来显而易见的收益,但只有建立在每个人的权利受到尊重,以保护他们的个人数据和私人生活的基础之上
  为了获得数据使用对社会和个人的收益、减小数据泄露的风险,匿名化可能是一个很好的战略。一旦数据集完全匿名化,无法再识别个人,那么欧盟数据保护法将不会适用。然而,从现有的案例和理论研究来看,从丰富的个人数据中建立真正匿名化的数据集,同时还要能够实现其预期的数据使用的目的并不是一件简单的事情。比如,某一个匿名的数据集可能与另一个数据集结合后,就会通过某种方式识别某些人群。
  该意见中,工作组分析了在欧盟数据保护的法律框架下,现有匿名化技术的有效性和不足,并为审慎、负责地使用这些技术进而设计一个匿名化的程序提供建议。
  二、定义和法律分析
  (一)欧盟法律中的相关定义
  95/46/EC号指令序言第26段提到了匿名化,将匿名数据排除在数据保护立法的范围之外:
  “数据保护的原则必须适用于与特定人有关或可识别到个人的任何信息;而认定是否可识别到个人,需要考虑数据控制者或任何第三人可能合理采取的识别特定人的所有方法;如果数据是匿名的,不再可以识别数据主体,那么不会适用数据保护相关原则;在认定数据是否是匿名的,是否不可能识别数据主体方面,第27条的行为准则可以为此提供有效的指导。”[1]
  序言第26段对匿名化进行了界定。根据序言第26段,匿名化的数据必须不得包含可以识别数据主体所需的充分的要素。更准确地说,在数据处理的过程中,数据控制者或第三方使用“所有能够被使用的可能合理的方法”都不能识别一个自然人。一个重要的因素是这一匿名化程序是不可逆的。指令并未阐明去识别化(de-identification)的程序应当或可能被如何运行。[2]对于这一问题的焦点应当在于结果:通过“所有”“可能”和“合理”的方法都不可能识别数据主体。该段落中的行为准则可以被用来设计可能的匿名化机制,让数据可识别不再可能。该指令清晰地设置了很高的标准。
  《隐私与电子通信指令》(2002/58/EC号指令)也同样提到“匿名化”和“匿名数据”。序言第26段指出:“被用来做通信服务的营销或提供附加服务的交通数据在提供该等服务后,应当被消除或匿名化”。第6(1)条指出:“在不妨碍本条第2、3、5段和第15(1)条适用的情况下,公共通信网络或可公开获得的电子通信服务的提供商所处理和存储的用户相关的交通数据,在不再可以实现通信传输目的的情况下,应当被消除或匿名化。”第9(1)条指出:“公共通信网络或可公开获得的电子通信服务的提供商的用户相关的定位数据(非交通数据),只有在匿名之后才可以被使用,或者如果使用的程度和期限对提供附加服务是必要的,那么在征得用户同意后方可使用。”
  这些规定的基本前提是,在现有的技术下,适用于个人数据的匿名化技术可以像消除一样具有永久性。
  (二)法律分析
  目前欧盟主要的数据保护手段中对匿名化的文意分析可以总结为以下四个特征:
  ●匿名化是处理个人数据的结果,这一匿名化程序是不可逆的,以防止可识别到数据主体;
  ●目前已经有一些匿名化的技术手段,但是欧盟立法中尚未有规范的标准;
  ●必须考虑数据控制者或第三方“可能合理地”使用的“所有”方法,特别关注在现有技术条件下,“可能合理地”的具体情形(基于数据计算能力和处理工具的不断发展);
  ●在评估任何匿名化技术的有效性时应当考虑风险因素,包括对任何匿名数据可能的使用,应当评估其风险的严重性和可能性。[3]
  该意见中提到了“匿名化技术”的概念,而非“匿名”或“匿名数据”,其指出了任何旨在实现数据匿名化的技术措施内在的、可能的、重新可识别的风险。
  1、匿名化程序的合法性
  首先,匿名化是适用于个人数据的技术手段,该程序是不可逆的,是为了实现去识别化。因此,该技术适用的前提是个人数据必须遵守有关保留资料的法律规定以可识别的刑式收集和处理。在本意见中,匿名化程序是指对个人数据的处理,使其实现匿名,是数据进一步处理的过程。因此,这一程序必须符合兼容性测试,符合工作组在03/2013号意见中对目的限制(purpose limitation)的指南。[4]
  这就意味着,原则上,如果数据质量符合指令第6条的要求,且适当考虑特定的情形和工作组对目的限制的所有要求,[5]那么第7条可以为匿名化提供法律基础(包括数据控制者的合法利益)。
  另一方面,95/46/EC指令第6(1)条(以及《隐私与电子通信指令》第6(1)和第9(1)条)中阐述了保留对数据收集和进一步处理不再必要的可识别的个人数据的一系列要求。
  这一条款确定了一个强有力的观点,个人数据至少应当“默认”匿名(鉴于不同的法律规定,比如《隐私与电子通信指令》中对交通数据的规定)。如果数据控制者在数据收集和进一步处理的目的实现后仍然希望保留数据,那么就需要采取匿名化技术。
  相应地,工作组认为匿名化程序在可被信赖地输出匿名信息的条件下,对个人数据的匿名化处理可以被认为是符合数据处理的最初目的的。
  此外,还应当强调,欧盟法院(ECJ)在C-553/07案件(College van burgemeester en wethouders van Rotterdam诉M. E. E. Rijkeboer)判决中指出匿名化必须遵守法律的限制,以可识别的形式保留的数据须符合某些要求,比如确保数据主体可以行使权利。ECJ指出:“95/46号指令第12(a)条要求成员国确保享有获得数据接收者或接收群体信息的权利,确保享有获得包括现在和过去披露的数据内容的权利。成员国应当设置信息存储的时间限制,并且在信息获取方面平衡两方面的利益,一方面,保护数据主体隐私相关的利益,尤其是保护其申诉权和诉诸法律途径的权利;另一方面,考虑向数据控制者施加存储信息的义务是否会造成过度负担。”
  这与95/46号指令第7(f)条的规定尤其相关,数据控制者在匿名化方面发挥重要作用。必须平衡数据控制者的利益和数据主体的权利与基本自由。
  比如,荷兰DPA在2012-2013年对四个移动运营商使用的深度数据包检测技术进行的调查指出95/46号指令第7(f)条为数据收集后尽快对交通数据进行匿名化处理提供了法律依据。事实上,《隐私与电子通信指令》第6条规定公共通信网络或可公开获得的电子通信服务的提供商所处理和存储的用户相关的交通数据,必须尽快被消除或匿名。在荷兰的该调查中,由于《隐私与电子通信指令》第6条为其匿名化处理提供了法律依据,《数据保护指令》(95/46号指令)提供了相应的依据。但是,如果《隐私与电子通信指令》第6条不允许某一类数据处理,那么《数据保护指令》第7条也就不能适用。
  2、匿名化数据潜在的可识别性
  工作组在4/2007号有关个人数据的意见中为个人数据进行详细地界定,着重解释了95/46/EC号指令第2(a)条的定义,包括定义中“被识别或可识别”的含义。在本意见中,工作组也将匿名化数据总结为“匿名化数据之所以匿名,在于其原本是可以指向特定的人,但是匿名化之后不再具有可识别性”。
  工作组阐明了指令中所指出的“使用合理方法”测试作为一项标准是为了评估匿名化程序是否可以充分实现匿名,可识别性是否在合理情况下是不可能的。
  正如已经强调的,研究能力、计算能力和技术都在不断发展,不可能在穷尽列举所有情形后可识别都是不可能的。但是,仍然有一些关键要素需要考虑和解释。
  首先,数据控制者应当关注对匿名化技术十分必要的具体的方法,尤其是涉及采取这些方法的成本和技术,以及可能性和准确性的评估等方面。比如,数据控制者需要平衡匿名化所需要付出的成本(时间和资源成本)和识别个人的技术手段越来越容易获得并且成本较低,以及其他数据集越来越容易获得(数据开放政策下数据集更容易获得)。不完全的匿名化会使得数据仍然具有可识别性,可能会给数据主体带来不可挽回的影响。[6]需要指出,可识别的风险随着时间的推移会逐渐增加,并且其取决于信息和通信技术的发展状况。法律规定必须站在技术中立的立场上进行制定,考虑信息技术的发展潜力和动态变化。[7]
  其次,“可能合理使用的来确定个人是否可识别的方法”是由“数据控制者或任何第三方采取的”。因此,当数据控制者并不在事件层面(event-level)上删除原始(可识别)数据,并将数据集的一部分转移给他人(比如在移除或掩盖可识别数据之后将数据转移给他人)时,那么最终的数据集仍然是个人数据。仅当在数据控制人将数据聚合到无法识别个人的程度时,这一数据集才符合匿名的标准。比如,如果某一个组织收集有关旅行的个人数据,那么只要数据控制人或任何第三方仍然可以获得原始数据,那么即便在转移给第三方时将数据集中直接的标识符号已经移除,事件层面中的个人出行方式仍然属于个人数据。但是,如果数据控制人删除了原始数据,仅仅向第三方提供高水平的汇总统计资料,比如“X轨道上周一是周二人流量的1.6倍”,那么这就属于匿名数据。
  一个有效的匿名化的方法是无法让任何人根据数据集识别出某一个个人,避免一个数据集(或两个独立的数据集)中的两个记录相互关联,并避免推断出任何信息。因此,一般来说,直接移除数据集本身的识别要素并不能确保不可再识别出数据主体。通常都依据匿名化数据处理的背景和目的而有必要采取更多的措施来避免可识别性。
  例:基因数据是一种个人数据,由于其特殊属性,如果仅仅使用了移除捐献者身份的技术手段,那么就存在可识别的风险。现有文献[8]已经表明,将公开可获得的遗传资源(比如家谱登记人、讣告、在搜索引擎上的搜索结果)与DNA捐献者的元数据(捐献时间、年龄、居住地)相结合,那么即便DNA是匿名捐献,也仍然可以识别出特定个人。
  数据随机化和泛化[9]这两种匿名化技术都存在缺点,但是,在不损害数据主体的隐私的同时,基于特定的情形和背景,两种技术可能都可以实现预期的目的。需要明确的是,“识别”不仅仅指恢复一个自然人的姓名和/或地址,也包括潜在的指向性、关联性和推断性。此外,数据控制者或接收者的目的为何并不重要,只要数据是可识别的,那么就会适用数据保护规则。
  当数据控制者将原始数据进行匿名化处理并转移给第三方,第三方在处理这样的匿名数据时,只要这一数据集无法(直接或间接)识别数据主体,那么其就不需要考虑数据保护的要求。但是,第三方在决定如何使用,特别是如何使用匿名数据来实现自身的目的时,须考虑前面所提到的背景和偶然的因素(包括原始数据控制者使用的匿名化技术的特定特征),因为这会带来不同可能的结果。这些因素和特征会带来识别数据主体的不可接受的危险,那么这样的数据处理就可能还是会受到数据保护法的规制。
  以上列举的情形并不是穷尽的,而仅仅是为对给定的匿名化的数据集的可识别性评估提供一般性的指导。数据控制者在进行匿名化处理、第三方在使用匿名数据集来实现自身目的的过程中都可能要考虑上述所有因素,平衡各方面的风险。
  3、使用匿名数据的风险
  当考虑使用匿名技术时,数据控制者必须考虑以下风险:
  第一,有人会混淆假名数据和匿名化数据。“技术分析”部分将解释假名数据并不等同于匿名数据,因为前者仍然允许识别某个数据主体,允许将不同的数据集相关联。假名数据仍然具有可识别性的,因此其属于数据保护的法律规制范围。这在科学、统计或者历史研究中尤其相关。[10]
  举例:误解假名数据的典型例子是被普遍知晓的“AOL (America On Line)事件”。2006年,某个包含了超过65万用户的超过3个月的2000万个搜索关键词的数据集被公开,仅有的隐私保护措施是利用数值属性替代AOL用户的ID。这导致某些用户的身份和地址公司被泄露。假名化的搜索引擎的查询字符串,尤其是在与其他属性,比如IP地址或者其他客户端配置参数相结合后,具有很强的可识别性。
  第二,有人会错误地认为匿名数据(已经满足上述提到的所有条件和标准,不属于数据保护指令界定的保护范围)就不需要再给个人提供任何的保护措施,这主要是因为其他相关的法律规定仍然可能会涉及对使用这些数据的规制。比如,《隐私与电子通信指令》第5(3)条禁止在没有用户同意的情况下可在终端设备上存储和访问任何类型的信息(包括非个人信息),这是通信保密原则的一个延伸。
  第三,在某些情形下,会忽视了匿名数据对个人的影响,尤其是在进行个人情况剖析时。《欧洲人权公约》第8条和欧盟《基本权利宪章》第7条规定了个人隐私生活的范围;即便数据保护法律不适用于匿名数据,但是第三方使用匿名和转手的数据集仍然可能会损害法律所保护的隐私。不管在什么情况下使用信息(通常是与其他数据相结合),处理匿名信息可能会对个人造成影响的(即便是间接的)都需要给予特别的注意。正如本意见所指出的,以及工作组在03/2013号意见中所特别阐明的“目的限制”[11]的概念,应当根据相关的背景因素评估数据主体对与他们相关的数据进一步处理的合理预期,比如数据主体和数据控制人关系的性质、承担的法律义务和数据处理过程的透明。
  三、技术分析、技术有效性和常见错误
  不同的匿名化做法和技术有着不同程度的有效性。该部分将讨论数据控制者在进行匿名化处理过程中需要考虑的主要的几个方面,尤其是考虑现有技术状况下某一技术所能达到的效果,考虑对匿名化至关重要的三个风险要素:
  (1)指向性(singling out),这对应着在数据集中将可识别个人的部分或全部记录相分离;
  (2)关联性(linkability),指两个与同一数据主体或一组数据主体(在同一数据库或两个不同数据库中)相关的记录相关联的程度。如果一个入侵者可以在针对同一群组的两个记录之间建立关联性,但不会指向该群组内的个人,那么该项技术就符合指向性的要求,但不符合关联性的要求;
  (3)推断性(inference),指从一组其他属性值中推断另外一个属性值具有极大的可能性。
  应对这三种重新识别的风险的方法就是发展数据控制者和第三方可以使用的最有可能和合理的技术的有效性。工作组强调,去识别化和匿名化技术是现有研究的对象,而现有研究表明没有哪一项技术本身完全没有缺点。一般来说,实现匿名化有两种不同的方法,一个是随机化,另一个是泛化。该意见还明确了假名化、差分隐私、l-多样性和t-相近性。
  本部分使用了下列的术语:一个数据集包括了与个人(数据主体)相关的不同的记录。每一项记录都与一个数据主体相关,每一个属性(attributes)(比如年份)都包括一系列属性值(values)(或“条目”,比如:2013)。一个数据集是一系列记录的组合,可能通过一个表格(或一组表格)或一个加注释曲线图/加权图来表现,这一表现形式如今愈加普遍。本意见会使用表格举例,但其也会适用于其他图解的形式。与一个数据主体或一组数据主体相关的属性的结合可能成为准标识符(quasi-identifiers )。在某些情况下,一个数据集可能有同一个主体的多条记录。“攻击者”(attacker)是指偶然或故意获取原始记录的第三方(比如,既不是数据控制者也不是数据处理者)。
  (一)随机化
  随机化是一种改变数据准确性的技术,以消除数据和个人之间强有力的关联性。如果数据不是完全准确,那么就不再能推断出特定的个人。随机化本身并不能减少每一项纪录的特性,因为每一项纪录仍然来源于单一的数据主体,但是其可以消除进行推断的攻击/风险,其与泛化技术相结合可以提供更有力的隐私保护。不过,可能还需要其他技术的使用来保证一项纪录不会识别到个人。
  1、噪声增加(noise addition)
  噪声增加技术让数据集中包括了一些修改后的属性,其可以在保留数据集整体的布局的同时减少其准确性;当某些数据的属性可能对个体造成重大的不利影响时,噪声增加技术就尤其的有用。在处理一个数据集时,观察者往往会假定属性值是准确的,但这仅仅是在一定程度上正确。比如,某个数据集是有关个体最初测量的身高数值,匿名数据集就可能将身高数值精确到+-10厘米。如果这一技术可以有效地应用,那么第三方将很难识别到个体,也不能修正数据或者发现数据被怎样修正过。
  通常来说,噪声增加技术会与其他诸如消除明显属性和准标识符等匿名技术相结合。所增加的噪声的级别取决于所保护信息的重要性和对个体隐私的影响的水平。
  (1)保证(guarantees)
  ●指向性(singling out):即便所记录数据的可靠性有所下降,但仍然有可能发现某个人相关的记录。
  ●关联性(linkablity):仍然有可能找到同一个体不同记录的关联性,但是这些记录是不太可靠的,因此一个准确的记录可能会与人工添加的记录(噪声)相关联。有些情况下,错误的属性可能比正确的属性给数据主体带来更大的风险。
  ●推断性(inference):推断的风险仍然存在,但是成功的概率有所下降,一些虚假的正相关(和虚假的负相关)可能是看似合理的。
  (2)常见的错误
  ●增加不连续的噪声:如果增加的噪声并不符合数据集本身属性的逻辑或者与其他数据不相称,那么攻击者就能够过滤噪声,某些情况下,还有重新生成缺失的条目。另外,如果数据集过于稀疏,[12]那么有可能会将干扰的数据与外部的信息相关联。
  ●认为增加噪声足以实现匿名:噪声增加是让攻击者难以恢复个人数据的补充性措施。除非干扰信息多于数据集原本包含的信息,否则难以认为噪声增加可以作为独立作为匿名化的方法。
  (3)噪声增加方法的不足
  一个非常著名的重新识别的实验是针对视频供应商Netflix的用户数据库进行的。这一数据库包括了大约500000用户对超过18000部电影的超过1亿份1-5的评级,公司根据其内部的隐私政策在进行匿名化处理后公开了这一数据库,其将除了评级和日期之外的全部用户识别信息移除,研究者们分析了这一数据库的几何特性(geometric properties)。这一匿名化处理通过轻微提高或降低评级来进行干扰。
  然而,实验发现,通过8部电影的评级和误差允许14天的评分日期作为标准,99%的用户可以被识别;如果降低标准(通过两部电影的评级和3天的误差),68%的用户可以被识别。[13]
  2、置换(permutation)
  置换是通过扰乱表格中属性值,将某些属性人为关联到不同的数据主体,这一技术可以有效地保持每一个属性准确的分布。
  置换可能被认为是噪声增加的一种特殊形式。在典型的噪声技术中,每一个属性被赋予了随机的值。增加持续的噪声较为困难,而略微修改属性值可能并不会充分地保护隐私。置换技术则通过在数据集内部进行记录的置换来改变属性值,可以成为匿名化的另一种方法。这种置换在改变属性值和个人直接的联系的同时,保留了原有值的大小和分布。如果两个或两个以上的属性存在逻辑上的关系或统计上的相关性,那么置换之后,这种联系就会遭破坏。但是,需要注意的是,置换过程不能破坏逻辑联系,否则攻击者可能会识别出置换的属性,从而恢复到置换前的状态。
  与噪声增加类似,置换本身可能无法实现匿名,往往还需要与消除明显属性/准标识符的方法共同发生作用。
  (1)保证
  ●指向性:与噪声增加技术相同,仍然有可能将记录指向到个人,但是记录不再那么可靠。
  ●关联性:如果置换影响了属性和准标识符,那么可能消除了属性之间正确的关联性,但是因为一个真实的记录可能是与另一个数据主体相联系的,所以会做出错误的关联性判断。
  ●推断性:仍然可能从数据集中做出推断,尤其在各个属性相互关联或存在较强的逻辑关系时;然而,由于不知道哪些属性被置换,攻击者不得不考虑推断是否是建立在错误的假设下,因此仅仅能做出概率推断。
  (2)常见错误
  ●选择错误的属性:置换非敏感性或非风险性的属性并不能带来保护个人数据的效果。如果仍然可以将敏感性/风险性的属性进行关联匹配,那么攻击者还是可以提取个人的敏感信息。
  ●随机置换属性:如果某两个属性十分相关,随机置换属性就不能确保将这样的属性有效地置换。这一点将在表1中阐述。
  ●认为置换足以实现匿名:与噪声增加类似,置换本身并不能提供匿名,其需要与消除明显属性等其他技术共同作用。
  (3)置换技术的不足
  下面这个例子就表明随意置换属性仍然可能不会消除不同属性之间的逻辑关系,因而不能提供有效的隐私保证。在尝试匿名化之后,根据职业和出生年份仍然可以推断个人的收入。比如,直接观察数据可以得出,表格中的CEO最有可能出生在1957年,收入是最高的,而无业者可能出生在1964年,收入最低。

┌──────┬──────────┬──────────┬─────────┐
│年份    │性别        │职业        │收入(置换)    │
├──────┼──────────┼──────────┼─────────┤
│1957    │男         │工程师       │70k        │
├──────┼──────────┼──────────┼─────────┤
│1957    │男         │CEO         │5k        │
├──────┼──────────┼──────────┼─────────┤
│1957    │男         │无业        │43k        │
├──────┼──────────┼──────────┼─────────┤
│1964    │男         │工程师       │100k       │
├──────┼──────────┼──────────┼─────────┤
│1964    │男         │经理        │45k        │
└──────┴──────────┴──────────┴─────────┘

  表1:置换相近属性无法实现匿名化的示例
  3、差分隐私(differential privacy)
  差分隐私[14]也是一种随机化技术。数据控制者在保留原始数据复件的同时使用差分隐私的方法生成匿名化的视图。这样的匿名化视图往往是通过特定第三方查询信息的子数据集生成的,在向第三方反馈的匿名化的子数据集时会包括一些事后故意添加的噪音。差分隐私会告诉数据控制者需要增加多少的噪声和以怎样的形式可以获得必要的隐私保证。[15]在这样的情况下,持续地监控(至少对每一个新加的查询)尤为重要,以及时发现在查询结果数据集中识别个人的可能性。需要说明的是,差分隐私技术并不改变原始数据,因此,只要原始数据保留,数据控制者仍然可以识别个人。
  这一方法的好处在于其是根据特定的查询需求而将结果反馈给第三方,并不需要把数据集转交给第三方。而对查询需求也可能进行匿名化处理,包括噪音添加或替换,来进一步保护隐私。探索一个良好的交互式的查询-反馈机制,即既能公平准确地(指以较少干扰的方式)回复查询又能保护隐私,仍然是一个开放的研究问题。
  为了减少推断性和关联性,有必要追踪查询需求,观察数据主体获取的信息。相应的,差分隐私数据库不应当在开放的搜索引擎中使用,否则将无法追踪。
  (1)保证
  指向性:如果输出的仅仅是统计数据,且数据集的处理过程选择了恰当的规则,那么就不会将处理结果指向个人。
  关联性:通过多个查询请求,有可能在不同的查询结果之间建立关联性。
  推断性:通过多个查询请求,可能推断个人或群体的信息。
  (2)常见错误
  未插入足够的噪音:为了避免与背景信息相关联,就需要提供尽可能少的有关特定数据主体或特定群体的数据主体的信息是否在数据集之中的相关证据。从数据保护的角度来说,主要困难就是在其中增加多少的噪音可以既以保护隐私又可以保持查询结果的有用性。
  (3)差分隐私的不足
  独立对待每一个查询需求:将多个査询结果相结合可能会披露某些隐私信息。如果不保留查询的历史,那么攻击者就可以提出多个查询问题,进而可以不断缩小输出样本的范围,最终就很有可能或确定地获得单个或一组数据主体的特征。此外,值得警醒的是,毕竟数据控制者仍然可以通过使用所有可能合理的方法在原始数据库中识别数据主体,因此要避免错误地认为数据对第三方是绝对匿名的。
  (二)泛化
  泛化是另一种匿名化技术。这一方法包括通过改变相对规模或数量级(比如使用地区而非城市的地理范围,使用一个月而非一周的时间跨度)泛化或稀释数据主体的属性。泛化技术可以有效地避免指向到个人,但并不能在所有情况下都能实现有效的匿名,尤其是其还要求特定的、复杂的方法来消除关联性和推断性。
  1、聚合(aggregation)和k-匿名化
  聚合和k-匿名化技术旨在防止单个数据主体被识别。这一技术下,属性值被泛化,使得多个主体拥有同一个属性值。比如,将地理属性的范围从城市扩大到国家,将更多的数据主体包括进来。个体的出生日期可以泛化到一组日期,或者按年份或月份分组。其他的数字属性(比如工资、体重、身高或药物剂量)可以通过区间值表现(比如工资为20000-30000欧元)。
  (1)保证
  ●指向性:因为有k个用户拥有同样的属性,那么就很难指向个人。
  ●关联性:虽然说在泛化技术下,进行关联较为困难,但是仍然有可能对k个用户的记录进行关联。另外,在一个群组中,将两个记录与同一个假标识相关联的概念是1/k (可能明显高于其不具有关联性的可能性)。
  ●推断性:k-匿名化模型的主要瑕疵在于其不能消除任何推断性风险。事实上,如果k个用户在同一群组中,而一旦知道某一个个体属于哪个群组,那么就很容易恢复属性值。
  (2)常见错误
  ●忽视某些准标识符:k-匿名化的一个重要系数就是k的值。k值越大,隐私保护就越强。一个常见的错误是人为增加k值,而减少所考虑的准标识符数量。在选择进行泛化的属性的时候不考虑所有的准标识符是错误的。如果某些属性可以用来指向k组中的个人,那么错误的对其他属性进行泛化就无法保护个人隐私(见表2的示例)。
  ● k值过小:如果k值过小,等价类中的记录就越少,推断成功的概率就会提高。比如k=2,两个个体拥有同样属性的情况下推断成果的概率就高于k>10情况下的概率。
  ●数据块不均匀:在对个体进行分组时,各个属性分布不均匀也存在问题。数据集中个体记录的影响是不同的,在一项条目下,某些人可能具有明显的特征,而某些人的特征相对不明显。因此必须确保k值足够大,这样个体的特性就不会凸显出来。
  (3) k-匿名化的不足k-匿名化技术主要的缺陷是不能消除推断性风险。在下面的例子中,如果攻击者知道数据集中某个个体出生于1964年,那么其就会知道其患有心脏病。此外,如果我们知道这个数据集是由一家法国组织提供,那么由于巴黎的邮编前三位数字是750,我们由此也会知道这些人居住在巴黎。

┌───────┬──────────┬──────────┬────────┐
│年份     │性别        │邮编        │诊断      │
├───────┼──────────┼──────────┼────────┤
│1957     │男         │750*        │心脏病     │
├───────┼──────────┼──────────┼────────┤
│1957     │男         │750*        │胆固醇     │
├───────┼──────────┼──────────┼────────┤
│1957     │男         │750*        │胆固醇     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │心脏病     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │心脏病     │
└───────┴──────────┴──────────┴────────┘

  表2: K-匿名化无效的示例
  2、l-多样性/t-相近性
  l-多样性是在k-匿名化基础上发展而来,要求每个等价类(equivalent class)中每个属性都有1个不同的取值,这可以避免推断性的风险。
  这一技术是为了避免出现等价类中属性缺少多样性,从而面临攻击者在掌握特定数据主体的背景信息后进行推断的风险。
  l-多样性可以实现属性值的均匀分布,有效地保护个人数据免受推断性风险。但是,需要强调,如果某个数据块不均匀分布,或者某些属性相近时,这一技术不能避免信息泄露的风险。那么l-多样性会受到概率供给。
  针对L-多样性的不足,又提出了t-相近性模型,要求属性值在每个等价类中的分布于其在匿名化表中的全局分布差异小于t。这样,在等价类中,至少有1个不同的属性值,同时,每个属性值都会尽可能地反映属性的原始分布。
  (1)保证
  ●指向性:l-多样性和t-相近性可以确保记录不会指向数据库中的个体。
  ●关联性:在关联性方面,l-多样性和t-相近性并没有多大的改善,这一问题仍然存在,某一相同的记录属于同一数据主体的可能性高于1/N (N代表数据主体的数量)。
  ●推断性:与k-匿名化相比,l-多样性和t-相近性的主要优势在于:不可能再以100%把握对其进行推断性攻击。(2)常见错误
  ●通过将敏感属性值相混合来保护敏感属性:集群中的一个属性只具有两个值不足以提供隐私保证。事实上,敏感数据的分布应当与其在全局中的分布类似。
  (3) l-多样性的不足
  在下表中,“诊断”这一属性下具有l-多样性,但是,当知道某人出生于1964年时,仍然可能认定其极有可能患有心脏病。

┌───────┬──────────┬──────────┬────────┐
│年份     │性别        │邮编        │诊断      │
├───────┼──────────┼──────────┼────────┤
│1957     │男         │750*        │心脏病     │
├───────┼──────────┼──────────┼────────┤
│1957     │男         │750*        │胆固醇     │
├───────┼──────────┼──────────┼────────┤
│1957     │男         │750*        │胆固醇     │
├───────┼──────────┼──────────┼────────┤
│1957     │男         │750*        │胆固醇     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │心脏病     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │心脏病     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │心脏病     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │胆固醇     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │心脏病     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │心脏病     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │心脏病     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │心脏病     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │心脏病     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │心脏病     │
├───────┼──────────┼──────────┼────────┤
│1964     │男         │750*        │心脏病     │
└───────┴──────────┴──────────┴────────┘

  表3: l-多样性表,“诊断”属性值未均匀分布

┌──────────┬─────────────────┬─────────┐
│姓名        │出生日期             │性别       │
├──────────┼─────────────────┼─────────┤
│Smith        │1964               │男        │
├──────────┼─────────────────┼─────────┤
│Rossi        │1964               │男        │
├──────────┼─────────────────┼─────────┤
│Dupont       │1964               │男        │
├──────────┼─────────────────┼─────────┤
│Jansen       │1964               │男        │
├──────────┼─────────────────┼─────────┤
│Garcia       │1964               │男        │
└──────────┴─────────────────┴─────────┘

  表4:了解到这些人位于表3后,攻击者可以推断其患有心脏病。
  四、假名化(Pseudonymisation)
  假名化是指将数据集中原有的某一个属性(往往是独特的属性)进行替换。自然人仍然有可能间接地被识别,因此单独进行假名化并不会生成匿名数据集。然而,由于存在很多误解,所以本意见对假名化进行讨论。
  假名化降低了数据集与数据主体原始身份的关联性,其是一种有效的安全措施,但并非匿名化的方法。
  假名化最常用的方法有以下几种:
  ●使用密钥加密:在这样的情况下,因为个人数据仍然存在于数据集中,密钥持有者可以通过数据解密轻易地重新识别数据主体。如果使用了最先进的加密方法,那么只能拿到密钥之后才能解密。
  ●哈希函数(hash function):其可以将任意大小的信息(可能是单一属性或一组属性)转化为定长的信息,且这一过程不可逆。这就意味着不存在逆向解密的风险。然而,如果已知数值的长度,那么通过哈希函数计算最终会得出正确的数值。比如,一个数据集通过重新排列身份证号码实现假名化,那么可以通过使用哈希函数计算所有可能的输入值并导出结果,然后将数据集中的数值与结果进行比较。哈希函数通常是为了相对更快地计算出结果,但也会受到蛮力攻击。[16]目前可以通过事先建立表格存储大量的哈希值,通过快速查询可以破解加密的哈希值。
  使用加盐哈希函数(salted-hash function)(“盐”是一个随机值,被加入哈希后的属性值中)可以减少计算出输入值查询表的可能性,不过,使用合理的方法计算加盐哈希之前的原始的属性值仍然是可能的。[17]
  ●密钥哈希函数(keyed-hash function)并存储密钥:将哈希计算中增加密钥(其不同于加盐哈希计算,因为“盐”通常是非秘密性的)。数据控制者可以使用密钥对属性进行计算,但是攻击者在不知道密钥的情况下就很难破解哈希函数,其必须通过足够大量的计算测试各种可能性,这是不切实际的。
  ●确定性加密或删除密钥的密钥哈希函数:这一技术是选择一个随机数来作为数据库中每一个属性值的假名,然后再删除随机数与属性值对应的表格。这一方法[18]消除了不同数据库同一个体相关数据相互关联的风险。由于这一密钥已经无法得到,所以在目前的算法的发展水平下,攻击者必须测试所有可能的密钥,因此很难再进行解密。
  ●标记化(tokenization):这一技术往往应用于金融领域,用对攻击者来说无用的数值替代身份证号。这往往是基于单向加密机制的应用或通过指数函数随生成遗传数字。
  (1)保证
  ●指向性:因为仍然可以通过某一独特的属性(假名后的属性)识别个人,因此仍然可能指向某些个人的记录。
  ●关联性:仍然很容易使用同一假名后的属性找到不同记录的关联性从而推断其是关于同一个人。即便对于同一数据主体的属性使用的是不同的假名,但仍然可以通过其他属性找到关联性。只有当没有其他属性可以用来识别数据主体,并且无法找到原始属性和假名属性的关联(包括删除原始数据),才无法使用不同的假名属性来相互参照两个数据库。
  ●推断性:仍然存在推断性风险,在一个数据库内或跨不同的数据库对同一个数据主体使用相同的假名属性,或者假名本身未能掩盖其原始的身份,那么就可以进行推断。
  (2)常见错误
  ●认为假名数据集就是匿名的:数据控制者通常会认为消除或替代一个或多个属性就足以使数据集匿名。但事实并非如此,如果准识别符仍然在数据集中,或者其他属性值仍然具有可识别性,那么仅仅改变ID号码并不妨碍对数据主体进行识别。很多情况下,假名数据集和原始数据集一样容易识别个人。为了实现数据集的匿名,仍然需要采取其他步骤,包括消除和泛化属性,或删除原始数据,或高度聚合数据。
  ●使用假名化减少关联性常见的错误:
  ◇在不同的数据库使用相同的密钥:消除不同数据库之间的关联性很大程度上依赖于密钥的使用和差异化的假名属性。因此避免使用相同的密钥对减少关联性十分重要。
  ◇对不同的用户使用不同的密钥(“旋转密码”,“rotating keys”):一般会对不同组用户使用不同的密钥,并且每次使用时会改变密钥(比如,对相同用户的十项纪录使用相同的密钥)。但是,如果这一过程未妥当地操作,那么可能会损害预期的效果。比如,对特定主体适用特定规则的旋转密码,将会便于发现特定主体不同记录之间的关联性。匿名数据周期性的同时消失、新的数据的出现可能会意味着这两部分数据与同一个主体相关。
  ◇保留密钥:如果密钥与假名数据一起储存,那么攻击者就可能轻易将假名数据与原始属性相关联。如果密钥单独储存,但是未做好安全保障,那么情况也同样如此。
  (3)假名化的不足
  ●医疗

┌─────────┬──────────┬────────┬────────┐
│1.姓名、地址和出生│2.享受特殊医疗津贴的│3.身体体重指数 │6.研究队列引用号│
│日期       │时间        │        │        │
├─────────┼──────────┼────────┼────────┤
│         │<2年        │15       │QA5FRD4     │
├─────────┼──────────┼────────┼────────┤
│         │>5年        │14


  ······

法宝用户,请登录后查看全部内容。
还不是用户?点击单篇购买;单位用户可在线填写“申请试用表”申请试用或直接致电400-810-8266成为法宝付费用户。
【注释】                                                                                                     
©北大法宝:(www.pkulaw.cn)专业提供法律信息、法学知识和法律软件领域各类解决方案。北大法宝为您提供丰富的参考资料,正式引用法规条文时请与标准文本核对
欢迎查看所有产品和服务。法宝快讯:如何快速找到您需要的检索结果?    法宝V5有何新特色?
本篇【法宝引证码CLI.A.1242013      关注法宝动态: