查找:                      转第 显示法宝之窗 隐藏相关资料 下载下载 收藏收藏 打印打印 转发转发 小字 小字 大字 大字
【期刊名称】 《交大法学》
数据生产理论
【副标题】 数据资源权利配置的基础理论【作者】 高富平
【作者单位】 华东政法大学法律学院{教授,法学博士}【分类】 民法分则
【中文关键词】 数据生产;个人数据;数据财产权;数据权利配置
【英文关键词】 Data Production; Personal Data; Property Right Related to Data; Right Allocation of Data Resource
【期刊年份】 2019年【期号】 4
【页码】 5
【摘要】

人类正在进入数据驱动的时代,数据成为社会的基础资源,但数据一直被认为处于公共领域并妨碍着数据权利化,困扰着数据资源利用秩序的建立。描述特定对象的数据并不是天然存在的,而是被生产出来的,并将数据价值(预测分析、发现新知)的实现过程界分为原始数据生产(采集)、数据集生产(汇集性处理)和数据分析(分析性处理)三种行为,并将前两个行为称为数据生产,提出数据生产理论。数据生产理论首先应区分数据生产和数据分析,原始数据的生产是建立在分析原材料提供者基础之上,应承认其价值并配置适当权利,以满足各种分析目的的数据集的生产。同时,数据生产还应区别数据来源,来源于个人的数据并不一定是个人生产的,只有个人在提供或创制了数据时才是数据的生产者。因此,数据生产理论是在将数据视为一种资源的情形下为数据上权利配置提供理论支撑,通过配置相应权利,构筑从原始数据生产者到数据集生产者,再到数据分析者的数据利用秩序。

【英文摘要】

With the coming of a data-driven society, data has become the fundamental resource of society. However, data has always been considered to be in the public domain and hinder the data rights, which has puzzled the establishment of the order of data resource utilization. In this paper, it is argued that data, a digital record describing an object, is produced by a human being or by a machine other than is a natural existence. Data production(data collection),dataset creation(data assembling process)and data analysis(including AI)constitute the three processes for the realization of the data's value. The first two behaviors are called data production, and the theory of data production is put forward. The data production theory differentiates data production from data analysis. It holds that the subject of raw data production is the raw material's analyst. Therefore, the value should to be recognized and appropriate rights should be allocated to them to meet the production of datasets for various analytical purposes. At the same time, data production is also different from the data's origin, which implies that when the data's origin relates to a person, it does not mean the person produces that data. A person is a data producer only when he or she provides or creates data. This theory aims to provide a legal foundation for the right allocation for data usage as a resource. The legal order of data usage is constructed through the right allocation between the raw data producer, the dataset creator and the data analyst.

【全文】法宝引证码CLI.A.1280781    
  

目次

一、引言

二、数据的产生:原始数据的生产

(一)数据化:数据的生产

(二)数据来源与数据生产的区分

(三)个人数据的生产:机器(系统)与人的作用

三、数据的加工处理:数据价值的“生产”

(一)数据汇集处理:数据集的生产

(二)数据分析处理:数据挖掘四、数据生产理论

(一)数据生产理论的内涵

(二)数据生产理论的价值:数据权利配置的理论基础

一、引言

信息和通信技术发展到今天,尤其是随着网络技术的普遍和深度应用,人、物(自然界、机器等)、组织的活动或运行数据被各种网络系统、传感器和智能设备记录下来,形成可以数字化再现世界状态和运行的数据世界。今天,我们不仅可以全息地数字化记录(即数据化)人类所处的物理和社会环境、物或人的轨迹或行为,而且具有处理和分析海量数据所需要的运算能力,这便是大数据技术。[1]大数据分析可以克服传统基于统计学数据分析的局限性,实现对海量、动态和多样化的数据分析,由此人类被认为进入到大数据时代(本文称为数据时代),开启数据驱动的经济(data-driven economy),[2]或称为数据文明时代。[3]数据时代(数据文明、数据经济)的标志是数据成为社会基础资源、经济活动的要素,成为比土地、资本、劳动力等更为核心的要素,它被比作“石油”。事实上,现在个人和组织均已经开始重视并利用数据资源,尽可能多地获取和控制数据,并利用各种数据处理工具分析数据(包括人工智能),应用于科学研究、社会治理、商业活动等领域。可以说,数据之所以被视为资源就在于其具有分析价值,单个数据可以直接描述对象的某个或某类特征,但海量数据相互联系,就可能够抽象出数据对象背后的普遍特征,通过其透析客观世界或分析对象的规律、特征,预测未来的价值。

每个社会主体所掌握的数据是有限的,而要形成足够大、满足各种使用目的的数据集,[4]就必须利用他人掌握的数据(掌握数据的主体,称为数据控制者),[5]同时也要让他人利用自己的资源,即实现数据的社会化利用,而不只是自我利用。显然,在数据资源化、资产化的背景下,已被公开的公共数据(特指公开可自由利用的数据)的利用价值是有限的。因此,必须给控制者一定的激励,才有可能实现数据的社会化利用。这便是困扰数据经济发展的数据赋权问题,即通过赋予产权来实现数据的商业化(市场化)利用。

但是,在人类文明的长河中,信息一旦被公开即被认为处于公共领域(public domain),是任何人可以自由利用的公共资源,任何利用者也不能排他支配或独享。[6]而且数据一直被认为是非竞争性的,也不适合私人独享。这是因为人类社会是在不断认识世界的过程中进步发展的,而人类对客观事实的认识需要借助符号、文字等工具,使用这些工具(即数据)对世界的客观描述(即信息)不能为任何个人所垄断,否则会妨碍人类共同生存和进步。[7]按照人类知识或智慧的DIKW(Data-Information-Knowledge-Wisdom)经典表述,“智慧源于知识,知识源于信息,信息源于数据”。[8]人类借助数据表述各种含义(信息),而对信息的应用组成知识,人类学习知识之后形成了智慧,于是人类文明呈“数据→信息→知识→智慧”递进式结构。为了激励人们的知识创造,设计出了知识产权制度来对创新成果给予有限度的保护,以激励创新,但这种保护给予的是对创新成果的商业性使用的专有权,而不是对知识内容(信息)或构成要素(数据)的专有权。[9]另外,信息自由也关系到言论自由、政治民主等内容的实现。因此,对信息的任何私权利均与人类社会的基本价值观相悖。因此,在DIKW体系下,法律一直拒绝赋予或承认私人对信息的排他性支配权,[10]更不用说作为信息载体的数据。爱法律,有未来

在当今数据时代,人类获取知识的能力和方式发生了巨大变化。数据时代的数据已经不再是传统的人类文明公共元素意义上的数据,也不是人类观察、测量、计算形成的对自然和社会现象的客观描述或记录,而是利用信息和通信技术(网络设备、传感器、智能设备等)生产出来的描述特定对象和客观现象的数字化记录。这些大规模和多样化的数据为人类自身识读分析的可能性极低,但通过汇集一定量的数据进行关联分析,可以分析挖掘特定对象的特性、规律或趋势。这种数据分析处理技术被称为大数据分析或数据挖掘。借助这种新型数据处理技术(包括人工智能),从各种网络设施和各种传感器(sensors)形成的大量和复杂的数据,成为大数据分析(人工智能分析)的原材料。这些原材料不再需要加工成为信息、形成知识再由人来理解、形成对各种事务的判断或分析,而是通过各种算法直接得出结论、预测或分析,以支撑各种决定——也就意味着,数据直接成为智慧的来源。本文分析数据时代人类知识或智慧生产新方式中数据本身生产利用的新特征,认为此种意义上的数据不是天然处于公共领域的,而是被生产出来的,由此提出数据生产理论,为数据时代的数据权利配置提供理论支撑。

二、数据的产生:原始数据的生产

数据时代是全息数据化的时代,无时无处不在网络上形成多样性海量数据,成为大数据分析(智能分析)的原材料。只有数据生产者愿意提供数据给他人,才能有充分的数据供应,满足大数据分析之需要。这需要对数据生产者角色的肯定,并确认和保护其数据权利。

(一)数据化:数据的生产

从2009年开始“大数据”(big data)成为互联网技术行业中的热门词汇。“大数据”是需要一种全新处理模式,才能成为具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”是指无法使用传统流程、工具处理或分析的信息,用来定义那些超出正常处理范围、大小和迫使用户采用非传统处理方法的数据集。实际上,人们早已发现,互联网本质上是一台超级数据生产机器,它将所有用户输入、传输、存储、交互的信息(内容)及这些行为的过程(元数据)记录下来。首先是每个用户利用网络生成、制作和交流的文字、图片、照片、音频、视频等内容都被记录下来并通过网络传播,形成网络数据的重要来源,称为用户生成的内容(user-generated content)。其次是用户利用网络发布这些内容的行为本身也被记录下来,比如人们利用网络发送电子邮件、即时通讯,从事网络社交、购物、接受服务等行为均被网络自动地记录下来,被称为元数据,成为网络中最为重要、最有价值的数据。这两方面的数据使网络成为数据的生产机器。互联网产业之所以兴起且多以无偿模式运营,就是因为用户是其最重要的资源,而用户资源本质上在于有关个人的数据。

2012年是标志大数据时代到来的重要年份,这是因为此时各种传感器、智能设备和终端的大量出现,尤其是移动互联网、物联网等技术出现,使得网络不仅可以收集人的数据,[11]而且还可以收集机器运行、自然界变化、组织运行等数据,人类开始进入了万物互联(Internet of everything,简称IoE)[12]的时代。今天,我们的电子终端都是智能化的,智能手机、智能手表、谷歌眼镜等可以随时感应和记录我们的时间、位置、活动、行走轨迹等信息。从地铁到智能马桶,几乎所有的设备机器均成为数据源。即使用户没有联网,因到处布设、互联的传感器也会留下用户的数字轨迹。除此之外,智能终端又进一步推动了巨量级的网络社区、电子购物、物流网等出现,线上业务与线下业务相融合,产品服务智能化不断升级,经济或商业模式转型升级,数据收集系统不断普及,网络数据开始出现海量集聚,真正的大数据时代由此而生。正如Microshare公司的两位作者指出:信息科技在不断生成和处理数据。直到最近,这类数据管理的增长还是线性的、可管理的和可预测的,但是,世界已经达到数据奇点——数据的体积、速度和种类呈现非线性激增。我们生活在一个产生、传输和存储额外一个字节数据的边际成本几乎为零的世界,并且正因为边际成本几乎为零,所以每一个能够生成数据的事件所做的就是:生成数据。[13]“大数据不仅指数据的绝对规模大,还指就某主题的综合性数据集而言,相对规模也大。”[14]大数据技术首先意味着以复杂多样的数据形式并以惊人的速度产生新数据,我们可以用“数据化”来描述这一伟大的社会变革。

上述所讲的数据化有两个要素:一是数据有关或描述的对象(主题),即数据源(data source);二是对该对象的数字化记录、描述和呈现。数据是对现实世界(构成要素)的记录或描述,而不是现实世界本身。将位于某处的树木拍摄下来,形成有关于树木的数据,成为分析树木本身或某位置有什么的数据;将机器运行过程或轨迹记录下来,成为有关机器及其性能的数据;对用户网络浏览、订购商品或服务内容及其时间、地点等信息可以描述勾勒一个用户的特性、偏好、轨迹等。这些人、物等本身是一种现实存在,而数据则是它们的数字化呈现(图片)或数字化描述。我们将数据与所描述对象的分离过程(即数据化过程)称为数据生产。数据生产即数据采集——通过技术手段将特定对象本身及其行为或过程以数字形式记录下来,形成用“0”和“1”记录的数据。数据生产旨在说明数据并不是天然存在的,而是通过各种网络设施和设备记录生成的。在英文中,一般用“generate”来描述数据生产(该词的本义是“产生”或“源自”),以区别于物之生产(加工制造)。

在大数据语境下的数据包括人“生产”的信息(比如,人写的文章或作品、用户创制内容等),但是更多的是机器生产的数据。这里的机器包括网络设施、传感器、智能设备等能够自动数字化记录特定对象活动、周边环境等的任何机器设备(或系统)。在笔者看来,大数据分析时常会用到两类数据,即人创作或制作行为生成的数据(信息)以及机器生成的数据。但是,作为一种数据类型,大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集,而如此巨大的数据量显然也非人力可采集。大数据是指机器自动生产的数据。机器生产的数据是人类文化史上不曾有的独特数据,是当今数据化客观世界的主要力量。我们仍然可以采取大量田野调查、实验记录等人工观察和记录的方式来描述世界(生成数据),但是借助计算机系统、网络系统、传感设备等来记录、感知、抓取活动对象或描述对象的行为或变化,形成可用的数据,已成为数据化客观世界的主流。这种将特定对象转化为数字化的信息(数据)的过程,就是本文所称的数据生产。因此,数据生产就是产生独立于描述对象的数据,使我们通过数据的处理和分析即可以了解该对象。为此,我们首先需要区分数据来源与数据生产。

(二)数据来源与数据生产的区分

数据生产与数据来源有密切的联系。研究者多从来源角度研究数据的产生。例如,联合国经济和社会事务署统计局曾提出,将数据分为源于人的数据、源于组织运营的数据和源于机器的数据。[15]显然,这样的分类是依据数据源头或描述对象的一种分类,而不是从数据生成或生产的角度进行分类。为了更加清晰地揭示数据的生成,我们需要从理论上区分数据来源与数据生产。

在数据时代,任何数据皆有源,甚至数据必须有源,没有源就丧失了作为大数据分析的价值,因而数据的来源问题是数据最为重要的“标签”。正因为数据总是对特定对象进行描述,所以才成为现实世界的再现工具。作为一种社会资源,数据一定是对特定对象的描述或者是关于特定对象的,这便是数据来源。数据有源,可以用来分析其描述对象,揭示其规律,预测其行为,因此就具有价值。数据来源实际上只是数据“关于”的对象、可识别(认知或描述)的对象,而不涉及数据如何生成。数据描述的对象包括个人(自然人),也包括组织、物、机器、天体等非个人。这些对象是将数据与现实世界关联起来的“媒介”,所谓的数据分析,即通过数据本身逻辑演算来认识或识别、预测数据描述的对象(来源)。因此,标记数据的来源和确认其可描述或分析的对象是非常重要的。

当数据不能指向或联系特定对象时,该数据就是抽象的存在,不具有分析价值,数据也会因为时间推移而丧失对特定对象的分析价值,尤其对于时间敏感的数据。[16]当数据不具有分析特定对象的价值时,就会进入公共领域,成为任何主体都可以自由利用的数据。在网络世界存在着大量来源不明或者难以归属某个对象的数据,这样的数据也可能具有潜在的价值。但是,它需要新的技术或劳动来挖掘其价值。就相当于在以语言文字、符号、图形等为载体的人类文明中存在公共领域,在数据世界中我们也承认公共领域的存在,以给人们再次开发与利用数据提供公共空间。

一旦我们承认资源性数据是对特定对象的数字化记录,而这些数字化记录又不是天然存在的,不是从数据描述对象自然“流出”的,那么我们就必须承认数据生产。数据生产意味着数据是外在力量作用的结果,而不是数据源于自然的产物。在具有分析价值的数据应当被作为一种资源背景下,数据生产就成为构筑整个数据资源利用秩序的基础,以此可以构筑后续数据加工处理、流通交换和分析利用秩序。如果不承认数据生产,数据加工处理、数据的流通利用秩序就没有起点,整个数据社会化利用的秩序大厦就无从构建。

既然存在数据生产问题,那么我们就应当区分数据来源者和数据生产者。数据描述的对象只是数据的源头,而并不一定生成、产生数据。为了更准确地表述数据,我们将数据描述的对象(主题)称为数据源或数据来源者,而将设计数据采集工具系统或设备、从事数据采集的活动称为数据生产,而将对数据生产做出实质贡献的主体称为数据生产者。数据的生产活动实现数据与描述对象之间的分离,形成与描述对象的独立存在,形成供数据分析的原始数据(raw data)。

数据描述的对象为数据采集的对象,也是数据的来源“主体”。实际上,描述的对象即数据主题(subject)。根据数据描述的对象(主题),数据大致分为关于人的数据(描述人身份、属性、行为等的数据,即个人数据)、关于组织的数据(描述组织基本情况、运营情况等,即组织数据)和关于物的数据(描述自然界和物的属性及其变化或运行轨迹等)。这些描述人、组织和物的数据均是由特定的主体生产出来的。这里的生产既包括人(自然人)的录制,也包括人或组织通过网络设施、智能设备和传感器等(统称为机器)记录或生产。此处先分析后者——机器自动产生的数据,前者将归入个人数据部分一并进行分析。

在数据描述自然界、机器设备的情形下,该数据是对自然现象、机器运行的记录。该记录存在两种情形:一是对设备之外的物体结构、运行等的记录,此时记录对象和记录设备不同;另一种情形是,数据来源于机器记录本身,是对机器自身运行的记录,此时记录的对象和记录设备本身是一体的。前者,如传感器对气温、空气质量、天气变化的测量和记录;后者,如飞机对自身飞行状况的记录、汽车对自身运行状态的记录等。因此,机器设备既可以感知和记录外部,也可以记录机器本身的运行(智能设备具有该功能),形成了源于机器的数据。在这两种情形下,数据全部来源于或产生于机器。在这里,数据经历了从无到有的过程,也可以说是机器生产出了数据。只是我们在用“数据生产”一词的时候,主要目的在于确定是由谁“生产”或“制造”出了数据,而不是机器本身。由于自然界和物本身不是主体,说数据来源于机器,不如说是设置和运营机器的主体(组织或个人)生产出数据。对于来源于系统、设备等的关于物的数据,系统、设备的所有者、运营者就是数据生产者。来源于物的数据的初始权利配置相对比较简单,我们可以单纯基于数据生产将数据控制权配置于数据生产者。

当数据描述对象是组织和人时,因为组织和人的主体属性,这些主体可能参与到数据的生成与生产过程中,因而存在这些主体是否是数据生产者或享有何种权益的问题。

当数据关于组织本身时,组织是该数据主体,但同时,组织也是该组织数据的生产者。[17]在这里,来源者与生产者也高度合一。一旦我们认可组织数据也具有价值时,那么作为组织数据的生产者,亦应当保护其利益。在传统法律框架下,除非关于组织的数据落入商业秘密范畴,对于组织产生的数据一般不予保护或者法律上没有明确如何保护。在数据时代,在各个企业建设自己的信息系统或者上云接受云服务的情形下,企业运行所形成的大量关于自己的数据以及该数据对外提供服务和利用问题也是今后值得关注的。因此,我们有必要确认组织作为自身数据生产者的地位,以便解决今后组织数据的赋权问题。需要指出的是,当组织生产关于自身的数据时,数据来源者与生产者是合一的,数据来源者(组织)的合法权益可以归并到数据生产者权益中加以保护;而当组织生产关于其他组织的数据,如果其他组织对该数据享有权益,那么还存在数据来源者的保护问题。原则上,作为数据的生产者,只要不侵害数据上组织主体或个人主体的权益,那么数据生产者即享有关组织或关于个人的数据生产者权益。至于组织数据的生产者是否享有权利、享有什么样的权利,不是本文的主题。

当描述的对象是个人时,因人是具有能动性的主体,需要给予特别考量。

(三)个人数据的生产:机器(系统)与人的作用

人是有思维、能创造的主体,人有获取数据和分析数据的能力,从而创造了人类灿烂的文明。进入数据时代,由计算机和网络生成的各种数据,成为海量数据的来源。从数据生产的角度,关于特定个人的数据大致分为两类:

一类来源于人的创制,即个人可以通过录制、拍摄、汇编、制作等创制、创作形成的各种数据,不论这些是否构成作品,均成为大数据分析的原材料。同时,人类在利用网络进行各种形式的“创作”过程反映了创作者的思想,其创作的成果因满足作品构成要件而受著作权保护。但是,受著作权保护(保护思想的表达)并不妨碍创作内容(信息)作为数据分析的对象。也就是说,来源于用户创制的内容即使受著作权保护仍然具有分析价值,构成重要的(大)数据资源。数据分析是挖掘信息本身所蕴含的来源主体的个性或行为特性的过程,而非信息所表达的思想内容。对于数据分析来讲,能够联系到特定创作主体的信息(即使构成作品),既可以分析作品内容本身,还可以分析信息生成的时间、地点、方式等创作行为本身,以形成创作主体或分析相关事物的特性。例如,各类网络交易或网络服务平台上的用户点评信息,不管是否被认定为作品,都具有分析该用户特性和被点评商家或商品(服务)特性的价值。这便是用户创制内容的价值所在。除了此类信息来源于用户外,用户在从事各种网络交易、接受各种服务过程中还会主动提供有关个人的一些数据(通常是个人身份信息、联系方式、账户等),被称为用户提供的数据。总之,用户提供的和用户创制的信息构成用户个人为数据分析生产的原料。

另一类数据是关于特定个人因人使用计算机和网络的行为过程被网络服务器记录下来而形成的行为轨迹或过程数据。此类数据并不是来源于人的创制(生产),而是来源于人的数据。它属于关于人的数据(个人数据范畴),但人只是被动地参与到数据生产中,而没有积极地提供和生成数据。在这种情形下,人是被记录的对象,而人的行为、事实或事件的数据化是由系统设备完成的,是机器生产了数据。个人行为或运行过程转化为数据,并不一定是主体本身实现的,而是设备拥有者架设系统环境,通过技术手段形成的。这一过程实质上就是对数据的采集,即本文所称的“生产”。我们将架设基础设施、形成描述来源对象的数据的主体,称为数据的生产者。数据生产者就是将来源者(人-对象)本身状态和行为以数字方式记录下来,形成可供进一步分析该对象的数据主体。因为数据描述的对象是人,是主体,但是此时的主体并没有发挥其主观能动性来创设数据,只是数据的源头。也就是说,数据主体只是来源者(描述对象)而不是数据生产者。此时我们需要区分数据来源者和数据生产者。数据来源者是数据描述的对象,而数据生产者完成了来源者的数据化。

在海量的关于个人的数据资源中,大多数数据属于后一类型,即人在利用各种网络设备从事各种活动过程中,由系统、物、设备记录所形成的轨迹数据或行为数据。虽然个人只是数据来源者,没有产生数据,但是没有人的参与,光有网络设备也是不

此人家庭地位极低
  ······

法宝用户,请登录后查看全部内容。
还不是用户?点击单篇购买;单位用户可在线填写“申请试用表”申请试用或直接致电400-810-8266成为法宝付费用户。
【注释】                                                                                                     
©北大法宝:(www.pkulaw.cn)专业提供法律信息、法学知识和法律软件领域各类解决方案。北大法宝为您提供丰富的参考资料,正式引用法规条文时请与标准文本核对
欢迎查看所有产品和服务。法宝快讯:如何快速找到您需要的检索结果?    法宝V5有何新特色?
扫码阅读
本篇【法宝引证码CLI.A.1280781      关注法宝动态:  

法宝联想
【相似文献】
【作者其他文献】

热门视频更多