查找:                      转第 显示法宝之窗 隐藏相关资料 下载下载 收藏收藏 打印打印 转发转发 小字 小字 大字 大字
【期刊名称】 《华东政法大学学报》
数据到底属于谁?
【副标题】 从网络爬虫看平台数据权属与数据保护【作者】 丁晓东
【作者单位】 中国人民大学法学院{副教授}未来法治研究院{副院长}
【分类】 科技法学
【中文关键词】 数据权属;数据保护;网络爬虫;隐私;不正当竞争
【期刊年份】 2019年【期号】 5
【页码】 69
【摘要】

网络平台数据已经成为互联网企业的核心资产,但平台数据常常包含大量的个人数据。平台数据既可以被认为个人所有、平台所有、个人与平台共有,也可以被认为是互联网空间的公共数据。无论是法律条文和法律教义的分析,还是基于正当性与后果主义的分析,都无法完全明确界定数据权属。究其原因,平台数据具有多重属性,而且其属性高度依赖场景。对平台数据进行确权,应当遵循场景化的规则制定方式,以理性规则和个案来自下而上地推动数据规则体系演进,而非寻求数据的统一性规则。在实体判断上,应当综合考虑平台性质、数据爬虫行为等多种因素,最大限度推动数据流通与数据保护的平衡。

【全文】法宝引证码CLI.A.1278272    
  
  

目次

一、网络爬虫与数据争议

二、数据权属的四种观点

三、数据权属:法律条文与教义分析

四、数据权属:实用主义的后果分析

五、数据权属的场景化界定

六、结语

数据对于互联网企业的发展具有举足轻重的作用。一个互联网企业与平台拥有的用户数量越多,它就可能吸引越多的用户,在和其他互联网企业与平台的竞争中,它就越可能处于有利地位。这种滚雪球式的网络效应使得互联网企业往往将数据视为竞争中的核心资产。[1]哪家互联网企业掌握了更多的数据,对数据进行了更好地利用,哪家互联网企业就可能在竞争中具备领先优势。

或许正是由于数据的重要地位,近年来关于数据的争议问题层出不穷。在华为与腾讯的数据之争、[2]顺风与菜鸟之争的接口门事件、[3]新浪诉脉脉案、[4]大众点评诉百度案、[5]淘宝诉美景不正当竞争纠纷案、[6]美国的Craigslist v.3Taps案、[7] hiQ v. LinkedIn案[8]中,各方所争议的核心问题都是数据:当一个网络平台通过技术手段获取另一个平台的数据时,这种行为是否合法与合理?或者更为简单地说:平台的数据到底属于谁?[9]

对于这个问题,法学界已经有不少研究,但此类研究主要从部门法的角度切入,对平台数据权属问题进行部门法分析。例如,有的学者从反不正当竞争法的角度分析数据爬虫的合法性,[10]有的学者从民法财产权的角度分析企业数据的财产权保护,[11]有的学者从知识产权角度分析企业数据保护。[12]此类研究虽然从不同角度对思考数据权属问题提供了深刻的洞见,但没有从整体性的角度思考数据权属特别是平台的数据权属问题。[13]而经济学的文献虽然越来越关注数据权属问题,为分析数据权属问题提供了很多有益的见解,[14]但数据权属问题仍然不是一个纯粹的经济学问题,其正当性无法奠定在纯粹的效率分析的基础上。例如,从纯粹的效率视角来看,数据权属划归为平台最有效率,因为数据的集中化运用与规模化运用可以有效地化解数据的外部性问题与交易成本问题。但此类分析进路并未考虑到个人隐私问题和更大范围公共领域的数据流通问题,一种极端的想象的例子是,平台可以利用个人隐私类数据来驱使与威胁个人劳动,从而促进效率,但此种制度安排显然并不一定合理。[15]因此,经济学的文献虽然为平台数据权属问题提供了有益的分析,但这类分析只能是更为整全性分析的一部分。

基于上述考虑,本文对平台数据权属问题进行较为全面的分析。具体而言,本文从数据争议中的典型技术手段——网络爬虫——切入,思考平台数据的权属问题。所谓网络爬虫,指的是一种按照一定的规则,自动抓取万维网信息的程序或者脚本的做法。在过去互联网发展的若干年里,网络爬虫与反网络爬虫非常普遍。一方面,很多互联网企业通过网络爬虫来抓取数据;另一方面,有的互联网企业为了防止其他企业爬虫而设置了各种反爬虫技术。从网络爬虫切入,我们可以深入分析网络平台数据的权属与数据保护问题。

本文的分析将表明,平台的数据权属无法进行明确化的界权。平台的数据常常具有多重属性:平台数据包含了大量的个人数据,个人对于此类数据具有数据隐私保护的权利;平台数据是企业所收集的,企业对于平台数据拥有相应的权益;平台数据又可能属于公共领域,无论个人或企业都不具有独占性权利。此外,平台数据的属性又常常高度依赖于具体场景。基于这些特征,本文认为应当对平台数据进行场景化的保护,无论是个人数据还是企业数据,都应当通过自下而上的个案化判断来制定规则。在个案考虑中,需要考虑平台性质、数据性质、数据爬虫性质,努力实现数据隐私保护、企业数据权益保护与数据共享的平衡。

一、网络爬虫与数据争议

网络爬虫技术最先使用和最常使用的场景是通用搜索引擎,如谷歌、百度、搜狗和必应。对于通用搜索引擎而言,其对爬虫技术的使用基本上是一个双赢与多赢的过程。对于搜索引擎而言,搜索引擎通过爬虫技术实现了信息的高效获取与汇集;而对于被爬虫的网页而言,这些网页也通过搜索引擎的链接而得到了推广。

但在网络爬虫的行为中,被爬虫的一方不希望其数据被爬的情形很快出现了。互联网行业的从业者逐渐发展出了两种通行的手段来反爬虫。其一,他们发展出了一套君子协议:robots协议(机器人协议或拒绝机器人协议),即由网站所有者生成一个指定的文件robot.txt,并放在网站服务器的根目录下,这个文件指明了网站中哪些目录下的网页是不允许爬虫抓取的。具有友好性的爬虫在抓取该网站的网页前,往往会先读取robot.txt文件,对于禁止抓取的网页不进行下载。其二,互联网行业的从业者还发展出了技术性的反爬虫手段,通过设置各种技术手段来防止爬虫机器人的访问。例如,可以进行技术设定,当某一网站访问过快时,就要求该网站输入验证码,以此确定排除非人工的访问。再比如,网站也可以不定期改变HTML标签,使之无法与Web排序匹配来限制爬虫。

在互联网企业进行爬虫与反爬虫斗争的同时,围绕着数据的法律争议也开始展开。2000年,Bidder’s Edge公司的网站对Ebay网站进行了网络爬虫,Ebay公司据此向加利福尼亚北区法院提起诉讼,控告Bidder’s Edge公司对其网站的爬虫行为违反了robot协议,具有非法侵入(trespass)、计算机欺诈和滥用、不公平竞争等违法行为。最终,法院认同了非法侵入这一项控告,认为被告未经授权干扰原告在计算机系统中的占有权益,这种行为直接导致原告受到损害。[16]

在此案中,Bidder’s Edge公司给自身的辩护理由是,Ebay网站的信息都是公开可访问的,因而不存在非法侵入的问题。对此,法院的意见是,Ebay公司的服务器是私人财产,其给予的公众访问权限是授予的,Ebay一般不允许爬虫机器人进行访问,而且此案中Ebay明确告知Bidder’s Edge公司不许对其网站进行爬虫。因此,此案中存在非法入侵。法小宝

在访问权限问题上,中国的案件与Ebay案的判决思路较为一致。例如,在新浪诉脉脉案、[17]大众点评诉百度案[18]等案件中,法院都认定,未经对方授权进行网络爬虫,大量获取对方网站的数据,属于违法行为。在这些案件中,法院常常援引《反不正当竞争法》的规定,认为此类行为具有“扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为”,违反了《反不正当竞争法》第2条所规定的“经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德”。

当然,也存在思路不同的判决。在HiQ诉领英案中,[19] HiQ公司对领英网站实施了网络爬虫,但加利福尼亚北区地区法院的法官认为,这种爬虫行为并不违反法律,因为领英网站上的数据是公开数据,对于公开数据,即使违反对方设置的robot协议,也应当是被法律允许的。这就像在白天推开一家未锁门的商店进去看看,并不能将其认定为非法侵入。[20]因此,法院最后不仅没有认定HiQ公司的爬虫行为违法,甚至反过来认定领英的反爬虫技术违法,要求领英公司移除针对HiQ的接入壁垒。

使得网络爬虫中的数据争议变得更为复杂的是,网站的数据常常来自个人,因此网络爬虫又常常面临数据隐私的问题。例如,在上文提到的新浪诉脉脉案中,新浪对于脉脉公司的指控除了脉脉违反其robot协议,还包括脉脉公司的网络爬虫未得到用户的授权。在HiQ诉领英案中,领英也提出了数据隐私保护的问题,指出HiQ对于领英数据的爬虫会影响个人的数据隐私保护。对于抓取网络平台上的数据是否需要个人授权,法院也给出了不同的判决,例如,在HiQ诉领英案中,法院认为爬虫并不会影响公民的隐私保护,但在新浪诉脉脉案中,法院则明确了平台授权之外用户授权的必要性。

在今日头条与微博的网络爬虫与数据之争中,今日头条突出了用户具有的个人数据权。在该争议中,微博认为其网站数据被今日头条非法爬虫,[21]但今日头条认为此类数据属于用户,不属于微博,只要用户授权,网站就可以名正言顺地进行爬虫。今日头条认为其爬虫不具有违法性,因为头条页面具有邀请用户授权的选项,只有当用户开通此功能选项,授权今日头条抓取用户发在微博的数据后,头条才会进行网络爬虫,帮助用户将微博所发布的内容定期自动发表在头条旗下的产品微头条上。

二、数据权属的四种观点

通过上文对若干数据爬虫案例的简介分析,我们现在可以对数据权利归属的观点进行归纳,对于拥有大量个人数据的平台,可以将平台数据权属的类型或观点归纳为四种。

(一)数据个人所有

数据权属的第一种类型或观点是数据属于用户个人。在上文提到的今日头条与微博之争中,今日头条的意见是此种观点的典型代表。今日头条认为,微博并不具备对用户数据的任何权利,因此只要爬虫是在用户授权的情形下进行的,那么即使头条违反了微博的robot协议,此类行为也不违法。毋庸置疑,微博可以起诉用户特别是某些大V用户违反协议,因为微博的使用协议写明了微博享有对用户内容的独家使用权,而且微博和某些大V还签订了非常明确的合同。这样一来,微博用户特别是大V用户在使用微博平台发布内容又授权今日头条使用时,微博就可以起诉,要求法院认定此类行为属于违约。但即使法院如此认定,今日头条也可以声称今日头条的行为并不违法,用户与大V行为可能违法,但他们违法与今日头条无关。

事实上,如果强化用户数据个人所有权,将用户对个人数据的权利更多视为人格权而非财产权,[22]或者将此种权利视为法定的消费者权利,那么微博设置的用户协议可能自始无效。一旦将数据个人所有权视为不可让渡的人格权,那么数据的收集者与使用者就不得限制这种数据权利的自由行使。就像私人之间不得通过合同限制公民对个人姓名的自由使用一样,[23]企业也无法通过合同而要求个人放弃其数据权利。

欧盟新近确立的数据携带权可以被视为这种个人数据权利的另一佐证。如果认同欧盟《一般数据保护条例》中所确立的数据携带权,那么平台不仅不能对个人数据进行限制,还需要对个人数据的自由流转提供帮助。《一般数据保护条例》规定,“数据主体有权获取其提供给控制者的相关个人数据”,而且,这种个人数据格式应当是“经过整理的(structured)、普遍使用的(commonly used)和机器可读的(machine-readable)”,数据主体有权“从其供给的一个控制者那里无障碍地将此类数据传输给另一个控制者。”[24]按照这一数据权利,个人甚至可以要求微博对其他平台开放端口,以实现其个人数据的自由移转。

(二)数据平台所有

数据权属的第二种类型或观点是数据属于平台。此种观点最为典型的是今日头条与微博之争爆发后微博所发布的新用户协议,该用户协议规定,“用户在微博上发布的信息,包括但不限于文字、图片视频、音频等,不论微博内容是否构成著作权法意义上的可保护客体,用户同意不可撤销地授权微博平台作为微博内容的独家发布平台,用户所发表的微博内容仅在微博平台上予以独家展示”。[25]这一新用户协议实质上将数据的权属界定为平台所有,排除了用户对于微博内容进行再次授权使用的权利。

可以想见,数据完全归属平台的观点并不受欢迎。在微博发布新的使用协议后,这一协议就受到了用户与媒体的猛烈抨击,而微博也对这一新的使用协议进行了澄清,并且修改了用户使用协议。更新后的用户协议规定,用户对于其所发的内容拥有版权与著作权,微博作为发布平台只享有一定范围的使用权。用户对于自己具有完全权利的内容可以根据自己的意愿发布到其他平台,无须微博批准、审批、同意。但即使如此,更新后的用户协议仍然强调,未经微博平台同意,自行授权、允许、协助第三方非法抓取已发布的微博内容,仍然属于违法。[26]因此,调整后的微博用户协议意味着微博不享有相对于用户的数据权利,但享有相对于其他平台的数据权利。

(三)数据个人与平台共有

数据权属的第三种类型或观点是数据属于个人与平台共有。在中国法院的判决中,这是较为常见的一种观点。例如,在新浪诉脉脉一案中,法院认为,数据开放的前提是必须获得用户个人与平台的同时授权。而且,法院为了强调个人数据保护的重要性,还提出了“用户授权”+“平台授权”+“用户授权”的“三重授权”模式,即数据的提供方首先取得用户同意而收集数据,在数据提供方向第三方平台授权使用此类信息时,第三方平台还应当明确告知用户其使用的目的、方式和范围,再次取得用户的同意。[27]法院的这一判决理由意味着,个人和平台对于数据都拥有一定的权利主张,数据在一定程度上为个人与平台所共有。

当然,在数据个人与平台共有的情形中,个人与平台的权力划分与权利边界仍然是一个问题。在具有竞争关系的网络平台进行爬虫时,双重授权或三重授权的规定具有较强的合理性,而且也具有较强的现实操作性,但在其他场景下,要求平台与个人进行双重授权或三重授权可能会面临种种困境。例如,个人将平台的数据用“复制—粘贴”的方式大量拷贝到其他平台,此种行为显然没有获取平台的授权,但此种行为是否违反了数据的共有产权?此外,当平台所属的网络发生产权变更时,此时产权的变更是否需要获取用户同意?2018年,人人网被出售给多牛传媒公司,其出售的资产包括了用户数据,但在这一出售过程中,人人网并没有履行征求用户同意的环节。无疑,要求人人网出售前征求所有用户的同意,这并不现实。[28]

(四)数据公众所有

数据权属的第四种类型或观点是数据属于公众所有。这种观点认为,一旦平台介入互联网,就意味着平台数据具有了公共属性,不为任何私人或企业所有。在上文提到的HiQ诉领英案中,HiQ公司聘请了哈佛大学法学院的劳伦斯·却伯(Laurence Tribe)教授作为顾问,却伯教授认为,数据与信息的访问权是一种言论自由的权利,受到美国《宪法》第一修正案的保护。根据这种观点,数据的本质其实是一种言论,而言论的本质就是流通与共享,具有公共属性。因此,对数据的抓取就不需要网络平台授权或个人授权。[29]

对于互联网的公共属性,网络法学者奥林·科尔(Orin Kerr)教授曾经有过经典描述。在他看来,互联网的一般原则是开放性,这种开放性允许世界上任何人发布信息或数据,数据可以被任何人访问,而无须进行身份验证。当计算机所有者决定在其机器上设置Web服务器,使文件可以通过Web访问时,这就推定了大众都可以访问这些文件。[30]科尔教授还打了一个比喻,把网络服务器连接到互联网就像在公开交易会上出售商品,任何人都可以访问网络上的数据或交易会上的商品。[31]只有在比较特殊的情形下,例如当网站设置密码时,网页才会从开放网页转化为封闭网页。[32]

我国的互联网评论家方兴东曾表达过类似的看法。方兴东认为,从互联网的前身阿帕网(ARPAnet)到后来的TCP/IP协议,以及一系列网络治理机制和技术标准组织,“都坚定地确立了互联网开放、共享、自由、平等的核心价值观和技术规则”与“无歧视、无选择、无条件的互联互通”。但当前中国互联网行业对数据与流量却采取了越来越多的“高筑墙”行为。因此,方兴东认为,无论是淘宝拒绝百度搜索店铺页面信息,百度试图通过Robots协议拒绝360搜索的“3B大战”,微信频频对滴滴、淘宝、今日头条、抖音等竞争对手进行选择性的屏蔽,还是百度大规模自我导流,甚至不再显示搜索结果中外部网站的地址,都与互联网的精神背道而驰。[33]

三、数据权属:法律条文与教义分析

平台数据权属的四种观点哪个更有道理?对此我们可以首先从法律条文与法律教义的角度分析个人数据权利与企业数据权利的界限,而这种分析将表明,个人数据与企业数据的权利界限均不明确。

(一)个人数据权利

首先,个人数据的范围、个人数据权利均存在很大的不确定性,这使得平台数据中的受保护的数据范围存在不确定性。本来,中国与世界其他各国的法律都规定了个人数据保护的法律,企业、社会与政府也都对个人数据保护的优先性具有一定的共识。例如,在腾讯与华为数据之争、菜鸟与顺丰数据之争、今日头条与微博数据之争等案例中,各方都视个人数据保护为重中之重,各方都强调获取用户的授权。但问题在于,用户在平台上所生产的各种数据是否属于个人数据?在不同应用场景下的个人数据是否都应当受到同等程度的保护?

按照个人数据或个人信息的通行定义,个人数据或个人信息为已识别个人或可识别个人的数据。[34]例如,我国《网络安全法》规定个人信息是指“以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息。”[35]欧盟《一般数据保护条例》将个人数据界定为“任何已识别或可识别的自然人相关的信息”。[36]但按照这一通行的定义,网络平台的各类用户所产生的数据却既可能属于个人数据,也可能不属于个人数据。这是因为,平台的用户数据既可能直接识别个人或结合其他信息间接识别个人,也可能基本无法识别个人。是否可以识别个人,这高度取决于具体应用场景、识别主体与识别难度。[37]以平台的用户评论数据为例,此类数据在平台上匿名化显示之后,对于一般人可能难以识别。但如果结合该用户的其他购买记录、行踪轨迹等信息之后,此类数据就有可能变成可以识别个人的数据。而对于该用户周围的人群来说,甚至可能单凭一条用户评论就可以识别个人。

此外,个人数据权利的边界也存在不确定性,个人很难确立对于自身数据的排他性权利。数据隐私的思想创立者阿兰·威斯丁(Alan Westin)曾经将数据隐私或信息隐私界定为个人对于信息的控制。[38]这一思想框架后来被各国与各地区的立法所接受,构成了当前各国各地区的数据隐私法的基本思路。[39]但问题在于,在不同国家和地区、不同场景下,法律对个人进行数据赋权的差异巨大。法律可能赋予个体数据访问权、数据安全权等权利,[40]也可能赋予上文所提到的被遗忘权、数据携带权等新型权利。[41]无论是各国之间还是专家学者都未对此问题达成共识。

个人数据的这些不确定性特征使得个人数据与企业数据的权利边界变得难以划分,甚至使得一些初看上去较为明确的划分也可能会面临质疑。例如,在关于企业数据的研究中,不少研究将数据区分为原始数据与加工数据,认为原始数据常常包含个人数据,而加工数据则由于加工和去标示化而不再属于个人数据。例如基于个人数据而进行统计的数据,人们常常会认为其不属于个人数据,其权属应当属于企业。但此类区分还是会面临一些挑战。如果赋予个体数据删除权,个体要求彻底删除其个人数据,或者个体明确要求撤回对其个人数据的处理,那么企业基于原始数据而得出的加工数据或统计数据可能就会面临争议。[42]

(二)平台数据权利

就平台的数据权利而言,对照各国法律对于企业数据的保护,可以发现各国法律与法律教义对于平台数据的保护聊五分钱的天吗

  ······

法宝用户,请登录后查看全部内容。
还不是用户?点击单篇购买;单位用户可在线填写“申请试用表”申请试用或直接致电400-810-8266成为法宝付费用户。
【注释】                                                                                                     
©北大法宝:(www.pkulaw.cn)专业提供法律信息、法学知识和法律软件领域各类解决方案。北大法宝为您提供丰富的参考资料,正式引用法规条文时请与标准文本核对
欢迎查看所有产品和服务。法宝快讯:如何快速找到您需要的检索结果?    法宝V5有何新特色?
扫码阅读
本篇【法宝引证码CLI.A.1278272      关注法宝动态:  

法宝联想
【相似文献】
【作者其他文献】

热门视频更多