内容提要:衍生数据是数据处理者在原始数据的基础上,通过深度分析、过滤与提炼整合等处理活动生成的高附加值数据形态,具有显著的经济价值与社会价值。衍生数据构成与原始数据相互独立的新数据,其识别标准是衍生数据产权配置规则得以展开的前置性问题。衍生数据应同时满足实质改变、价值显著增值与不可逆转三重标准。实质改变标准是指衍生数据与原始数据在数据结构、内容或形式等维度存在实质差异;价值增值标准意味着衍生数据的使用价值和交换价值相较原始数据显著提升;不可逆转标准则要求衍生数据无法在经济成本或技术难度的合理范围内通过逆向工程还原为原始数据。衍生数据的产权配置规则可以类推适用民法典第322条,遵循意思自治原则确定权属,在当事人没有约定或约定不明确时,则可基于贡献赋权原则与“数尽其用”原则,由数据处理者享有持有权、使用权和经营权等数据权利。在数据处理者未取得原始数据使用权而实施加工行为的情形,在先权利人有权依个人信息权益请求权、不当得利返还请求权或侵权损害赔偿请求权获得救济。
关键词:衍生数据;原始数据;加工;识别标准;产权配置
一、问题的提出
随着信息技术的飞速发展,数据已然跃升为驱动经济发展、社会治理和技术创新的核心生产要素。广泛的数据采集与利用催生了众多前沿技术和新兴业态。根据处理程度不同,数据可分为原始数据和衍生数据(derived data)。衍生数据由对原始数据的加工处理而生成,并已发生结构性改变且实现性能提升。原始数据往往未经深度分析过滤和提炼整合,结构性较弱且来源较为复杂,难以充分释放其数据价值。衍生数据作为具有高附加值的数据形态,是数据价值生成的高点。数据加工者对原始数据进行清洗、整合与结构化等处理,并运用统计分析、机器学习等数据分析技术挖掘数据中隐含的模式、关联和趋势,提升其结构性和可用性。这一过程将原始数据转化为具有高度价值的信息和知识,实现了数据由量变到质变的飞跃,为实际应用场景直接提供智慧与洞见。产业实践中,衍生数据的生成和应用场景十分广泛,如电商领域的淘宝“生意参谋”、京东“京准通”,搜索引擎领域的“百度指数”“谷歌趋势”,以及交通领域的“高德交通大数据平台”“百度地图慧眼”等。广州首个公共数据授权运营的数据产品“企业经营健康指数”,已在普惠金融场景中为金融机构提供融资信用支持。 衍生数据已成为数字经济产业发展的重要议题。目前,国家政策层面已高度认可衍生数据的重要意义,2022年《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》(下文简称“数据二十条”)第7条,特别强调了经加工、分析等形成数据或数据衍生产品的经营权。国家数据局于2025年3月发布的《数据领域常用名词解释(第二批)》将衍生数据定义为:“数据处理者对其享有使用权的数据,在保护各方合法权益的前提下,通过利用专业知识加工、建模分析、关键信息提取等方式实现数据内容、形式、结构等实质改变,从而显著提升数据价值,形成的数据”。在地方立法探索上,《黑龙江省促进大数据发展应用条例》《福建省大数据发展条例》《杭州城市大脑赋能城市治理促进条例》等地方性法规,均认可衍生数据作为一种独立的数据类型。由此可见,当前国家政策、地方立法和数据产业实践均对衍生数据给予高度重视,并积极探索其开发利用,以此提升产业效能和社会治理水平。 在当前的数据产业实践与司法裁判中,衍生数据的识别与权利配置问题日益凸显。首先,衍生数据的识别涉及如何区分衍生数据与原始数据。司法实践中,法院已逐渐认可衍生数据的独立性及商业价值,并在肯定数据处理者技术投入和创造性劳动的同时,关注衍生数据的权益归属问题。然而,衍生数据的识别标准仍待明确。其次,在数据产业发展的诸多场景中,均存在衍生数据相关参与方的产权配置和利益平衡问题。例如,在数据爬取场景中,数据处理者对基于爬取行为取得的原始数据加工生成衍生数据;在用户授权互联网平台企业加工处理的场景中,不论互联网平台的加工行为是否处于用户授权范围内,均可能基于数据处理行为生成衍生数据。此类问题的核心在于,投入劳动和资源的数据处理者是否对衍生数据享有产权,以及该数据产权的内容和边界如何;数据处理者获得原始数据的途径合法与否,是否会影响其对衍生数据的权利,以及如何对在先权利予以救济。 衍生数据的精准识别与产权配置是大数据产业实践与数据产权制度建构中的关键问题,其核心在于如何在原产权保护与新投入激励之间求取平衡。然而,既有研究整体上仍较为初步,对衍生数据的识别标准与权利配置尚缺乏体系化展开。基于此,本文从衍生数据识别标准的建构出发,在明确权利配置对象边界的基础上,结合具体生成场景,进一步探讨衍生数据的产权配置规则与在先权利保护路径,以期为充分实现数据要素价值、促进我国数据产业与数字经济的健康发展提供法律保障。 二、衍生数据的识别与产权配置困境 (一)衍生数据的识别症结 衍生数据的识别是衍生数据产权配置的前置性问题。尽管衍生数据应与原始数据相区分已渐成共识,当前司法裁判和理论研究仍缺少可普遍适用的衍生数据识别标准,即经由何种程度的数据处理,衍生数据才能在规范意义上被评价为已经发生质变,需要重新进行产权配置。 司法裁判在承认有必要区分原始数据与衍生数据的基础上,对衍生数据的识别侧重点不尽相同。在“淘宝诉美景案”中,法院将衍生数据界定为:数据处理者在巨量原始数据的基础上,通过特定算法深度分析过滤、提炼整合而形成的以趋势图、排行榜、占比图等图形呈现的指数型、统计型、预测型的衍生数据。对衍生数据的识别标准,法院提出了三点:其一,数据是否经过区别于简单收集或整理的深度加工;其二,加工结果是否与原始数据之间不具有一一对应关系;其三,该加工结果能否独立产生显著的经济价值。不过,法院对何谓深度加工,数据清洗、去重或均值计算是否属于深度加工,“不具有一一对应关系”应如何理解,是否意味着任何统计性结果均可被视为新数据等问题,并未作出进一步阐释。在“爱拼诉学而思案”中,法院对衍生数据的认定呈现出更为细化的分析路径,认为需要考量以下两点:其一,数据处理者是否通过数据清洗、别名识别等技术,将原始数据整理成标准化的有效信息。例如,该案中,原告识别归类广告、虚假等异常数据并剔除无效数据,合并整理重复数据;通过别名识别技术统一原始数据中的多元化用词和名称;通过脱敏技术对原始数据重新编排和统一,使其“不会体现、回溯或复原到”原始数据。其二,数据处理者是否在此基础上进一步引入大数据分析与计算模型,对整理后的基础数据进行深度分析,进而生成具有预测功能的统计结果。例如,该案中,原告通过建构应用计量经济学和信息经济学模型,使用获取到的上亿级别的原始数据建立各维度的薪酬指数模型,从而预测学校未来的薪酬指数变化趋势以及该校学生的就业行业情况。 总结而言,两案均将“深度加工”作为衍生数据的识别标准,“爱拼诉学而思案”较之“淘宝诉美景案”,更加突出对原始数据的不可回溯性处理,以及衍生数据本身的功能独立性。然而,两案都未能进一步抽象出何种程度的数据清洗、结构化或模型分析足以构成衍生数据的普遍标准,其裁判理由主要服务于个案判断,尚不足以为衍生数据的识别提供稳定的规范指引。 在理论研究层面,学界普遍认识到,衍生数据是指通过对原始数据加工处理所生成的具有一定价值的数据。联合国国际贸易法委员会第四工作组(电子商务)“缺省规则”第10条中,衍生数据被定义为“由数据接收者通过处理在合同项下提供的数据而生成的数据”。全国网络安全标准化技术委员会的定义与之接近,认为衍生数据是指经过统计、关联、挖掘、聚合、去标识化等加工活动而产生的数据。对于原始数据经过何种程度的处理方形成衍生数据、如何确定衍生数据的基本特征等问题,尚未形成共识。其中,价值说将价值属性作为衍生数据的核心特征,主张衍生数据相较原始数据产生了价值增值,并因此将衍生数据称为“增值数据”。贡献度说则以贡献程度作为标准区分原始数据与衍生数据,认为数据处理者对衍生数据的生成作出了实质性贡献,或在此过程中发挥了主导作用。 综合来看,裁判实践与理论讨论对衍生数据的认识具有一定的基本共识,即衍生数据之所以不同于原始数据,在于经由加工活动使原始数据在规范意义上发生了实质性改变。然而,何谓实质改变,以及这种改变应当如何从量变中生成,其究竟表现为功能上的独立化、可识别性上的脱离、价值上的显著提升,抑或仅在具备创造性或独创性时方可成立,相关讨论尚未形成一套可供适用的规范要件体系。正是在此意义上,衍生数据的识别有必要从具体案件与技术场景中抽离,转向更为系统的学理探讨,以对上述关键问题作出进一步澄清与清晰界定。 (二)衍生数据的生成场景与产权配置困境 就衍生数据的权利归属而言,相关争议并非普遍存在,而是高度集中于数据加工者对原始数据的使用权基础存疑的情形。诚然,衍生数据既可能产生于数据处理者对自有数据的加工,也可能产生于其对他人数据的加工,但在前一类场景中,数据处理者的加工行为具有充分的权利基础;在后一类场景中,原始数据权利人对加工成果的利益期待,往往已经通过合同或授权安排得以体现,因此衍生数据的权属通常不会引发实质性争议。真正引发规范困境的,是数据处理者未合法取得原始数据,或虽取得数据但其加工行为未经授权或超越授权范围的场景,相关场景大体有两类。 第一类是数据爬取,即数据处理者使用自动化工具访问、收集网络数据的行为。数据处理者通过爬虫程序自动化地收集海量网页数据,将其应用于自身的数据产品或服务中,并可在此基础上加工生成衍生数据。然而,在非法爬取情形,数据处理者对原始数据不享有相应的权利基础;但同时衍生数据的形成往往依赖数据处理者投入大量算法能力、算力资源与分析劳动,具有不可忽视的价值创造属性。此时,数据处理者能否对该衍生数据主张数据权利,涉及数据处理者与原始数据权利人之间的利益平衡。 第二类是数据处理者虽经授权加工但超越授权范围或授权终止后仍加工等场景。用户通过签署用户协议的方式赋予企业在特定范围内使用其数据的权利,企业基于该授权开展数据处理,应受用户授权范围的约束。若加工方式或加工目的明显超出用户合理预期,便可能引发关于衍生数据归属的争议。以“马某与北京某科技有限公司个人信息保护纠纷案”为例,原告发现其在使用被告运营的流行语检索软件时,即使未实际阅读《服务协议》和《隐私政策》,系统仍自动勾选了“已阅读并同意服务和隐私政策”选项。法院认为,被告未采取足够措施确保用户知悉隐私政策内容,且自动勾选的方式不符合“自愿”“明确”的同意要求,因此判决被告删除所收集的原告个人信息。在该案中,自动勾选不能构成有效的用户授权,此时数据处理者加工形成的用户画像数据就属于超越授权范围生成的衍生数据。数据处理者能否取得衍生数据产权,应否承担相应的返还、删除或赔偿责任,均有待进一步厘清。
三、衍生数据的三重识别标准 衍生数据基于对原始数据的加工处理而产生,该加工行为与传统有体物的加工具有相似性。加工制度的核心目的虽在于确定加工物的归属,但其同时也提供了判断何为加工物的标准。对于衍生数据的识别与规制,可以借鉴民法典物权编中的添附制度,充分考虑二者的共性与本质差异,在衍生数据领域制定专门的识别标准。 (一)衍生数据三重识别标准的确立 1.外在识别标准:数据实质改变 衍生数据系在原始数据基础上,经由分析、挖掘与重组等处理活动而形成的“新数据”。这一生成机制在规范结构上与传统物权法中的加工制度具有高度相似性,二者均以既存对象为基础,通过特定主体的加工行为,生成具有相对独立性的成果。在传统加工制度中,加工通常以他人所有的动产为对象,以加工人实施加工行为并形成具有独立性的“新物”为核心事实构成,并将加工后是否产生实质性价值增量,作为评价加工结果法律性质的重要因素。在此意义上,衍生数据系由原始数据经处理活动生成,原始数据可类比为加工制度中的“原物”,而数据处理行为则对应于物权法上的加工行为。 在罗马法传统中,加工(specificatio)被理解为将原材料转变为“新种类之物”(nova species)的过程。加工物是否已构成新物,核心在于加工结果是否存在实质性改变并在社会评价中脱离原物而独立存在。具言之,有学者认为加工会使物产生新的形态,而新形态的概念称谓是否改变,可以作为判断是否形成新物的标准。也有学者提出不同观点,或认为加工制成新物意味着改变原物通常的用途;或认为社会经济观念和交易习惯可能起到决定性作用;或认为是否在社会评价中被认定为“脱离原物”,在于其名称或其经济机能已经不同。根据《欧洲示范民法典草案》提出的新物判断标准,符合下列标准之一即可构成新物:其一,形式、外观或设计变化;其二,功能或用途变化;其三,性质或特征变化;其四,名称变化;其五,价值增加。“缺省规则”第10条第2款b项指出,衍生数据能否作为原始数据的替代品,应作为判断其能否对外提供的标准之一。 将上述新物认定逻辑延伸至衍生数据领域,所谓“实质性改变”并非要求数据处理成果在所有层面均发生变化,而是指其已经在足以影响数据识别、利用与评价的关键维度上脱离原始数据,从而不再仅是原始数据的附随形态。足以影响数据识别、利用与评价的关键维度包括三个方面:一是数据结构变化。数据必然以特定的组织结构与存储方式得以呈现,加工活动使数据在访问方式、组织结构和存储方法等方面发生变化,从而脱离原始数据的使用路径。二是数据内容变化。内容变化会使数据的功能、用途发生变化,不同的数据内容对应不同的应用场景。当加工结果已不再服务于原始数据的既有用途,而是支持新的分析目标或决策功能时,即表明数据在内容层面发生了实质转化。三是数据形式变化。数据不仅可以原始记录的形式存在,也可通过可视化、指数化或模型化等方式呈现。形式的改变并非仅具表达意义,而是可能重塑数据的理解与使用方式,使其在实践中被作为独立的信息产品加以利用。 2.内在识别标准:数据价值显著提升 除制成新物外,加工导致的价值显著增值同样被认为是判断是否构成物权法上加工的关键因素。在我国民法中,构成新物、价值显著增值是否作为动产添附制度中加工行为的构成要件,尚存争议。一种观点认为,新物要件或价值显著增值要件二者满足其一即可。另一种观点认为,随着加工制度发展,新物已不再是确定加工人能否取得加工物所有权的标准,应当考量加工物价值是否显著增值。还有一种观点则主张,仅以制成新物作为加工的构成要件,价值显著增值并非加工的构成要件,而是判断加工物所有权归属的参考因素。比较法上亦存在不同观点。德国民法典第950条将制成新物作为加工取得所有权的积极要件,并以加工或改造的价值不明显低于材料价值为消极要件;《欧洲示范民法典草案》第8-5∶201条仅要求制成新物;而日本民法第246条则仅规定了加工增值,未要求制成新物。 虽然民法典物权编中的加工要件存在争议,但现有观点总体认可将加工是否产生显著价值增值作为决定加工成果是否构成“新物”的重要因素。价值显著提升不仅影响加工物所有权的归属判定,更用于回答加工成果是否已经“值得”脱离原物、进入新的法律评价层次。从数据的价值生成机理来看,引入价值显著提升作为衍生数据的识别标准尤具合理性。美国科学哲学家艾可夫于1989年提出著名的“数据—信息—知识—智慧”模型(DIKW模型),并阐释了从数据中产生智慧的过程:数据是信息的载体,信息是知识的源泉,而知识则是智慧的基石。在此基础上,经济合作与发展组织于2015年发布的报告《数据驱动型创新——大数据促进增长和福祉》进一步指出,数据的社会价值与经济价值主要生成于两个关键环节:一是通过数据分析将数据转化为知识与洞见;二是将该知识进一步用于决策并付诸行动。其中,决策阶段在价值实现过程中具有尤为重要的意义。 在数据价值生命周期框架中,数据主要经历价值发现、价值创造和价值实现三个关键阶段。价值发现阶段的核心任务是对原始数据进行识别、预处理、清洗、格式化和整合,为后续的数据分析奠定基础。价值创造阶段通过应用数据挖掘和分析技术深入处理数据,挖掘出有价值的知识与洞见,从而将原始数据转化为具有更高价值的衍生数据。数据价值的实现则依赖于将这些衍生数据与实际应用场景相结合,将洞见转化为实际成果,以实现数据的最终价值。由此可见,数据价值的提升是数据分析挖掘等数据处理活动的必然结果,从数据中获取知识、洞见和智慧是数据要素市场的核心目标。正是在这一意义上,价值显著提升构成价值创造阶段的内涵,并自然成为衍生数据成立的识别标志之一。若某一数据成果虽在形式上发生变化,但未能产生信息增量或新的应用价值,其规范评价仍应停留在原始数据层面,难以被认定为具有独立法律意义的衍生数据。 相较于通常不易直接利用的原始数据,衍生数据可以结合具体应用场景进行分析处理,可以更加直接且具有针对性地提供决策支撑。为实现数据价值的显著提升,需要对原始数据进行深入分析和挖掘并形成衍生数据,以创造新知识、提供新智慧,从而支持更科学、更精确的决策制定。司法实践中诸多判决已经明确认可衍生数据的价值属性。例如,在“京准通—DMP案”中,法院认为衍生数据可用于消费分析和预判,不仅具有独立的数据价值,还具有巨大的商业价值。在“爱拼诉学而思案”中,法院认为涉案衍生数据具有较强的经济价值和社会价值,故应当受到法律保护。因此,对于数据而言,价值显著增值要件具有与“新物”要件同等重要的地位,应成为识别衍生数据的独立判断因素。 3.消极识别标准:不可逆向还原为原始数据 衍生数据识别的不可逆向还原标准,是指衍生数据相较原始数据已发生实质性改变,在通常或合理条件下难以通过逆向工程还原为原始数据,或者难以被用于生成在实质上可合理替代原始数据的其他数据。在既有司法裁判中,法院通常将这一要求表述为,衍生数据“不会体现、回溯或复原到”原始数据。 能否恢复原状曾是罗马法中判断加工物是否构成新物以及是否因此发生所有权变动的核心标准之一。罗马法中有关加工物所有权的归属主要存在三种观点:萨宾派认为物的性质存在于原料中,故否认通过加工取得所有权,主张原料的所有者应保留对新物的所有权;普罗库勒派则认为新物的所有权归加工者;折中理论基于萨宾派的观点,提出按照物是否可还原为原料来确定所有权。折中理论最终得到了优士丁尼的接受。罗马法提出恢复原状标准的主要原因在于,一旦加工物已无法恢复原状,意味着原物在社会评价与权利归属意义上已被根本消解,其所承载的原所有权人的主观价值、用途期待亦随之消灭。在此情形,继续以原物为中心配置权利已缺乏现实基础,反而有必要承认新物的独立地位,并据此重新分配权利。 在衍生数据的识别语境下,能否逆向还原具有不可替代的重要意义。数据加工与传统有体物加工的差异在于,有体物经加工转化为新物后,原物因添附等行为而不复存在;而基于数据的可复制性特征,原始数据在加工生成衍生数据后仍然存在,其不仅不会消灭,还能够被多个数据主体平行持有并实现重复利用。同时,原始数据权利人对于原始数据享有的权利于加工前后并未发生变化。正因如此,衍生数据是否构成“新数据”,取决于加工结果在规范评价上是否已足以脱离原始数据的范畴。若此时衍生数据可以在成本可控的条件下通过逆向工程还原为原始数据,则意味着该衍生数据在功能上仍然承载着获得原始数据的可能性。更进一步而言,相较于有体物,数据与信息具有高度的一体同构性,数据天然承载着更多源自数据主体的主观价值。这种主观价值不仅体现为一般意义上的使用偏好或行为选择,更可能直接关联个人信息、人格利益乃至隐私权益。正因如此,原始数据往往凝结着特定主体的行为轨迹、决策模式与价值取向,而非单纯的“原材料”。此时,若衍生数据能够在技术与成本可控的条件下逆向还原为原始数据,则意味着原始数据所承载的主观价值并未因加工而真正消解,所谓衍生数据不过是原始数据的另一种表达形态或中介载体,而非在规范意义上脱离原始数据的独立对象。此种情形下,衍生数据并非单纯的新数据形态,而更接近于原始数据与加工结果的复合载体。无论是实际控制该衍生数据的加工者,还是后续持有、使用或经营该数据的第三方,其行为都可能通过衍生数据这一媒介,对原始数据产权及既有权利秩序造成实质影响。正是基于上述考虑,衍生数据的识别有必要引入不可逆转这一消极标准,以尽可能削弱甚至阻断衍生数据与原始数据之间的潜在还原路径,从而确保衍生数据在规范意义上真正独立于原始数据。比较法上,“缺省规则”第10条第2款a项亦将衍生数据是否可以逆向还原,作为数据接收方能否向第三方提供该数据的重要判断标准。 需要进一步区分的是,不可逆转与匿名化或不可识别并非同一层面的要求。二者虽均以防止数据被逆向处理或复原为目标,但其技术路径与规范侧重点存在明显差异。匿名化通常通过去除或破坏可识别性标识符来实现对个人的不可识别性,其结果往往以显著降低数据可用性为代价。不可逆转则侧重于防止通过技术手段还原出原始数据本身,即防范衍生数据重新转化为原始数据的可能性。正如美国学者保罗·欧姆所言,“数据可以有用,也可以完全匿名,但二者无法兼得”。在不可逆转要求已足以实现防止衍生数据被还原为原始数据这一规范目的的情况下,若进一步要求衍生数据必须达到完全不可识别或匿名化的程度,反而可能不当压缩衍生数据的可利用空间,削弱数据加工活动的激励效果。因此,判断衍生数据的消极要件,满足不可逆转标准即可,而不必另行设置不可识别或匿名化作为必要条件。 (二)衍生数据三重识别标准的展开 据此,衍生数据的识别应同时符合实质改变标准、价值增值标准和不可逆转标准。下文围绕这三重识别标准的具体运用展开。 1.实质改变标准的判断:数据结构、内容或形式等实质改变 数据结构的实质改变,是指通过数据处理活动,将原本缺乏逻辑结构或内部关联的数据重组为具有明确组织关系和层次结构的数据形态。计算机科学领域通常将数据结构界定为数据的组织形式及其相互关系,通过关系表格、栈、堆、树和图等结构化方式对数据进行组织和存储,有助于提升数据的可处理性与可利用性。在衍生数据识别的语境下引入数据结构变化的讨论,旨在判断加工结果是否在法律评价上已脱离原始数据的既有形态与用途,从而具备独立评价的可能性。实践中,自然语言处理领域通过命名实体识别、命名实体消歧和命名实体链接等方式,从杂乱文本中提取实体并建立实体之间的关系结构,使原本以文本集合形式存在的数据转化为具有明确逻辑关联的数据形态。例如,在搜索场景中,谷歌对来自于自由基(Freebase)、维基百科(Wikipedia)和世界概况(CIA World Factbook)等数据源的数据进行分析处理,构建了包含超过5亿个实体和35亿个事实的知识图谱,将原本以文本集合形式存在的数据重组为以具体实体及其关系为核心的结构化数据形态。当用户搜索“taj mahal”(泰姬陵)时,系统能够区分其为纪念碑、音乐家还是餐厅,同时显示其地理位置、建造者和相关历史背景等信息,从而提高搜索结果的相关性和实用性。此类处理方式可能导致数据在组织结构和可利用方式上发生显著变化,从而构成衍生数据意义上的结构实质改变。 数据内容是否发生了实质改变,取决于数据所承载的信息是否发生了质的转变。在具体判断时,可以从信息增量与应用场景转换等维度加以综合考察。一方面,信息增量关注加工后数据是否产生了原始数据所不具备的新信息,该新信息通常源于分析、推理或归纳等过程,能够揭示原始数据中隐含但未直接呈现的规律或结论,如由消费记录进一步形成消费偏好模型。另一方面,应用场景转换则强调数据功能与用途是否发生改变,即加工前后数据是否分别服务于不同的问题域与决策任务。例如,社交媒体文本经情感分析形成公众情绪指数后,其用途由交流内容转向舆情监测与风险研判。上述判断在个案中可以借助语义相似度计算、特征向量比对、模型性能对比等技术手段,为数据内容变化的事实状态提供一定的客观说明,并结合行业专家意见进行事实层面的辅助判断,但数据内容是否构成实质改变,仍应基于数据的功能与用途作出规范评价。 数据形式的实质改变,是指数据在表达和呈现方式上的变化已足以影响其被理解、使用及评价的方式。数据通常以机器可读的形式存在,其原始形态往往依赖特定系统或技术环境方可被直接利用。通过数据处理活动,数据可以由抽象的代码或数据表形式,转化为更具直观性或语义指向性的表达方式,从而改变数据的理解路径与使用方式。例如,可视化技术可以将抽象数据转换为长度、位置、形状和颜色等物理视觉,从而帮助人类更好地观察和理解数据。通过数据可视化大屏技术,可以将海量业务数据以动态和直观的方式呈现,如用城市建设数据进行三维建模、将车辆运动轨迹数据转化为动态的轨迹图,以及将订单分布数据转化为热力图或气泡图等形式。通过可视化或语义信息提取等方式,数据可以在“机器可读”与“人类可理解”之间实现转换,进而提升数据在分析、判断和决策中的可用性。需要指出的是,形式变化本身并不当然构成衍生数据。只有当形式变化使数据不再主要依附于原有的技术系统或使用场景,而能够以新的方式被理解、解释或利用,从而在社会交往和决策实践中被视为不同于原始数据的独立数据形态时,形式改变方可能具有衍生数据识别意义上的“实质性”。 2.价值增值标准的判断:数据使用价值与交换价值的显著提升 通常而言,物的价值可以通过使用价值和交换价值两个维度衡量,数据的价值也可以从这两个角度进行评估,以判断其价值是否显著增加。数据的使用价值主要体现在两个方面:一方面,数据能够提供知识、智慧和洞见,为当下的决策提供实用和及时的支持;另一方面,数据的使用价值还体现在数据的分析和挖掘能力,即数据经过进一步加工处理后所增加的价值。以电商领域为例,“生意参谋”“京准通”等衍生数据产品通过深度处理原始的购物行为数据,形成用户消费特征、习惯和广告潜力等衍生数据,帮助商家根据经营目标选择产品组合和精准定位投放人群,从而提升销售业绩和盈利能力。数据的交换价值则体现为其作为商品或服务在市场上的交易流通能力。衍生数据的组织和存储形式离散性更低、结构性更强,且与实际应用场景的结合更为紧密,因此较易获得市场认可,实现交换价值增值。 对于数据价值增值显著程度的认定,可以参考民法物权的加工物所有权归属规则。对此,主要存在两种立法例:一是材料主义,规定加工物的所有权原则上属于原材料的所有权人;二是生产主义,规定加工物的所有权原则上属于加工者。无论何种立法例,均以加工增值与材料价值的比例作为判断依据。法国、日本、意大利等多数国家和我国台湾地区均认可当加工增值高于材料价值时,加工物归加工人所有,反之则归材料所有人所有。我国对构成显著增值的判断标准也是加工增值超过材料价值。少数国家如德国,则规定在加工增值不明显低于材料价值时,加工人可获得加工物所有权。德国联邦最高法院将加工的基本最低价值确定为60∶100。对于衍生数据价值增值程度的判断,可借鉴德国物权法经验,不要求数据加工增值一定大于原始数据价值,只要劳动投入导致其价值有相当程度之提升,即满足要求。毕竟,数据加工并不导致被加工的原始数据灭失。 3.不可逆转标准的判断:数据逆向还原风险不具有合理可能性 当前学界关于数据不可逆转的探讨较为有限。个人信息保护法第73条在界定匿名化时,提出“无法识别”与“不能复原”两项条件。其中,“不能复原”并未被理解为技术意义上的绝对不可逆,而是强调在现实条件下对特定主体而言,逆向还原已不具有可行性。围绕该条款的学术讨论亦普遍指出,鉴于数据的高度关联性与信息的外部可得性,完全消除还原可能在事实上几乎无法实现。英国信息专员办公室也指出,当相关个人已经无法被识别或者不再处于可识别状态时,可以认为该数据已实现有效匿名化。同样,现实案例揭示了无论数据处理者如何对数据进行匿名化处理,拥有正确外部信息的对手都可以利用数据的剩余效用对数据实现逆向还原。因此,对“不能复原”的理解应当立足风险评估,要求还原技术难度和时间成本远超一般主体所能接受或完成的范畴,即还原风险低至可接受水平。 尽管衍生数据的不可逆转标准并不等同于个人信息保护法意义上的匿名化要求,衍生数据也不以脱敏或匿名化作为成立要件,但匿名化理论中围绕“不可复原”的讨论,仍可为衍生数据不可逆转标准的构建提供重要的方法启示。衍生数据中的不可逆转应当被理解为一种规范意义上的不可逆转,而非技术上的绝对不可逆。具体而言,该标准至少涵盖两种情形:其一,衍生数据相较原始数据已经发生永久性改变,无法通过逆向工程还原为原始数据;其二,即便在理论上存在逆向还原的可能,但该还原需要付出极高的经济成本或技术代价,已超出一般理性主体的可行范围。 对于何为还原风险低至可接受水平,各国提出了不同的判断方式。美国《健康保险携带和责任法案》(Health Insurance Portability and Accountability Act, HIPAA)提出了专家标准和安全港标准。前者是指让具备相关知识和经验的专家负责进行个案判断,后者则通过列举18类识别符,认为只要相关信息不再包含这些识别符,且信息处理者在一般合理预期使用情境下无法识别信息主体,即可依法认定该信息已依安全港方法完成去标识化处理。英国信息专员办公室提出了“有动机入侵者测试”(the motivated intruder test),用于判断匿名化的还原风险。该测试假设有明确目的的入侵者希望从公开的匿名数据集中重新识别个人,其具备普通人可获得的资源,但不具备专家技能且没有事先掌握相关信息。若假设的入侵者不能识别出个人,则认为还原风险低至可接受水平。然而,在衍生数据场景下,专家标准过于依赖技术专家的主观评估,缺乏客观性和稳定性。安全港标准仅通过列举识别符,未能充分考量删去识别符后的还原风险,同时也可能存在识别符不能穷尽的问题。有动机入侵者测试则不能充分应对衍生数据场景下的还原风险。大型企业等数据主体拥有技术能力较强的专家团队,拥有远超有动机进行衍生数据还原的普通人的专业技能,仍可能对通过测试的衍生数据造成较高的还原风险。 相较而言,欧盟提出的“合理可能性”标准更适合用于衍生数据不可逆转标准的判断。欧盟早在1995年发布的《数据保护指令》序言第26条中就提出了合理可能性标准:“要确定一个人是否可被识别,应该考虑数据控制者或任何其他人可能合理使用的所有手段来识别该人”。以此为基础,欧盟委员会内部咨询机构“第29条数据保护工作组”于2007年发布了《关于个人数据概念的意见》,进一步明确在判定合理可能性时要综合考虑各类相关因素,包括识别成本、预期目的、处理方式的结构、数据控制者所期望的利益、个人所涉及的利益,以及组织失职(例如违反保密义务)和技术故障的风险等,还应当考虑数据存储期间的技术进步。欧盟2018年《通用数据保护条例》序言第26条沿用了合理可能性标准,其参照上述思路对该标准进行具体化,指出在判断匿名化数据是否可能被重新识别时,应当考虑识别成本、时间量、可用技术和技术发展等客观因素。 衍生数据通常为特定场景研发,对于相应场景有极高的价值,但相较原始数据其分析挖掘的潜力较弱。例如,网购场景中,企业可以从客户购买行为数据中生成“客户忠诚度评分”这一衍生数据,用于预测客户的回购率,该评分能为企业制定营销促销策略提供有力参考,但企业依靠忠诚度评分无法挖掘出客户其他维度的消费行为特征,此时企业更希望获取原始数据进行分析处理。可见,企业有着充分的动机将衍生数据还原为原始数据,进而可能对原始数据权利人的合法权益产生较大风险。因此,对于衍生数据,需要借鉴合理可能性标准,全面且多维度地衡量还原风险,包括但不限于现有技术条件下还原的时间成本、经济成本、预期目的以及技术进步导致的还原风险变化等。 此外,对于重新识别风险的判断,我国《信息安全技术 个人信息去标识化效果评估指南》(GB/T 42460—2023)指出,应充分考虑数据集及其使用环境,并可利用K-匿名模型或差分隐私模型等方法进行量化评估。在衡量衍生数据的还原风险时,也可利用定量方法辅助判断。
四、衍生数据的产权配置规则与在先权利保护 (一)衍生数据的产权配置规则 数据处理者取得衍生数据产权不以享有原始数据使用权为前提。从民法物权的添附制度来看,加工的成立并不以加工人对原材料享有使用权为前提。添附事由既可基于当事人的合意安排发生,也可基于一方的侵权行为或无因管理行为发生,还可基于第三人行为或者自然力发生。正是在缺乏合意或权利基础的情形,添附制度通过直接配置加工成果的权利归属,发挥其稳定法律关系以及激励价值创造的制度功能。衍生数据产权规则的规范目的亦是如此。实践中,除数据处理者基于授权对原始数据进行加工的情形外,还广泛存在未经授权的数据加工场景,其中尤以数据处理者基于合法或非法爬取所得原始数据进行深度加工的情形为典型。在此背景下,若将数据处理者享有原始数据使用权作为其取得衍生数据产权的前提条件,不仅难以涵盖现实中普遍存在的多样化数据加工情形,也将削弱对数据加工劳动及其所创造新价值的承认。因而,类比物权法上的添附规则,数据处理者取得衍生数据产权,并不当然以其对原始数据享有使用权为前提。即便在数据处理者超越授权范围或者通过非法爬取等方式获取原始数据并实施加工的情形,该等行为的违法性亦主要影响其责任承担,并不当然决定衍生数据这一新成果的产权归属。 1.衍生数据权属已有约定 衍生数据的权利归属遵循意思自治原则,双方有约定的应依约定。有关民法典第322条添附规则属于任意性规范抑或强制性规范的问题,学界存有争议。笔者认为应采任意法规范的理解,当事人得以意思排除或变更之。一方面,强制性规范说违背私法自治原则。若材料加工为新物后,法律将所有权强制性地转移给加工者,可能违背原材料所有者或加工者的真实意愿。另一方面,现代经济中大量加工行为涉及生产链条的分工合作,若强制规定所有权归属一方,不仅会破坏交易秩序,还与商业实际不符。强制性规范说试图以赋予加工者所有权的方式将法律解释简化为客观标准,但这不仅难以实现预期效果,反而可能引发更多法律不确定性和体系上的不一致。 基于“数据二十条”的三权分置理念,当事人可以通过合同对衍生数据产权的转让范围与方式作出约定。当然,数据交易中的意思自治仍应受民法基本原则及数据治理基本要求的约束,衍生数据的权属约定应遵循平等、自愿、公平和诚信原则,并兼顾数据与网络空间领域的安全原则。其中,公平原则在数据交易场景中具有尤为重要的约束意义。由于数据具有可复制性和非竞争性特征,同一数据集原则上可被多个主体同时使用而不发生物理损耗,若完全放任强势一方通过合同单方面配置衍生数据权益,可能导致数据价值分配的失衡。比较法上,欧盟《数据法》在第8条中要求数据持有者在向数据接收者提供数据时,应当以公平、合理和非歧视(FRAND)的条款和条件,并以透明方式达成数据提供安排,否则相关条款可能因构成不公平合同条款而无效。同时,其解释性说明第59—60条进一步引入了专门针对单方面强加条款的“不公平性测试”,旨在防止大型企业利用其竞争优势地位,滥用数据共享机制而损害中小微企业利益。需要指出的是,该不公平性测试仅限于与数据提供直接相关的合同条款,尤其是关于数据访问、使用以及责任与救济的约定。基于我国民法中公平原则、诚实信用原则及合同效力瑕疵规则的既有框架,在审查衍生数据权属约定效力时,可以参照 FRAND原则与不公平性测试规则,对违反公平、合理与非歧视要求或者显著损害弱势一方利益的条款作出效力上的否定评价。 2.衍生数据权属无约定或约定不明确 在当事人未就衍生数据的产权归属作出明确约定的情况下,若法律已就特定数据加工关系中加工成果的权利归属作出明确规定,则应当依照法律确定归属。例如,在数据清洗、标注、分析等处理活动构成委托处理关系的情形,即便当事人未就衍生数据的归属作出具体约定,亦可参照承揽合同或委托合同的规范意旨处理。鉴于受托方的劳动投入系以实现委托方利益为目的,其数据处理行为亦直接服务于委托事务的完成,故在无特别约定的情况下,数据受托方因完成委托事务而直接产生的数据成果,原则上应归数据委托方。 实践中更为常见的情形是,既无当事人的有效约定,亦缺乏法律的明确规定,尤其是在多主体参与的数据加工合作中,相关法律关系往往难以被简单地纳入既有合同类型,有必要在既有私法规范框架内,遵循一般原则对衍生数据的产权配置进行规范建构。从规范目的看,衍生数据产权配置规则至少应当回应两项核心目标:其一,合理确认并保护数据处理者在数据加工过程中的劳动价值与创造性贡献,以形成稳定预期并持续激励数据加工活动;其二,通过明确权利归属,促进对衍生数据的进一步流通与利用,最大限度释放其潜在的经济与社会价值,实现数据要素的高效配置与“数尽其用”。上述目标取向,与“数据二十条”强调的“谁投入、谁贡献、谁受益”的数据要素收益分配原则相契合,亦与民法典第322条就加工物归属确立的“充分发挥物的效用”原则在价值层面具有内在一致性。尽管衍生数据不同于有体物,但其作为数据加工活动的产物,同样面临由何主体控制、利用更有利于其持续开发与价值实现的问题。通常而言,实施加工行为的数据处理者在技术能力、算力资源、应用场景及持续运营方面具有明显优势,更有条件对衍生数据进行流通利用与深度开发。基于上述制度目的,在当事人未作有效约定且法律无明确规定的情形,将衍生数据的产权配置于实施加工行为的数据处理者,在整体上更符合促进数据流通、激发数据要素活力的规范目的,具有较为充分的正当性基础。 首先,从贡献理论的视角来看,将衍生数据的产权配置于数据处理者,更有助于准确反映各参与主体在数据价值形成过程中的实际贡献,并实现对数据加工活动的有效激励。所谓贡献理论,是指根据不同主体在资源生成或价值增值过程中所投入要素的贡献程度,决定相应权益的配置方式,从而将增量价值的权利赋予贡献显著的一方。这既符合公平分配的基本理念,也在资源配置最优层面,鼓励高效率地配置私权以实现创造资源和有效管理资源的目标。从贡献理论的角度看,决定衍生数据产权配置的关键,不在于何者最先产生原始数据,而在于何者对数据价值的实质性增量作出了决定性贡献。就衍生数据而言,原始数据的产生确实构成了衍生数据形成的前置条件。然而,衍生数据并非原始数据的自然延伸,而是数据处理者在此基础上,通过算法设计、模型构建、算力投入与专业分析等多重要素,对原始数据进行系统加工后形成的新型数据成果。衍生数据体现的核心价值在于通过分析、推演与结构化处理实现的信息提炼与预测功能。正是在这一过程中,数据的经济价值实现了显著跃升。鉴此,将衍生数据的产权赋予对数据价值形成具有更多实质性贡献的数据处理者,更符合社会整体福利最大化的目标。 其次,由数据处理者享有衍生数据产权,更有利于实现衍生数据的有效利用并释放其潜在价值。根据我国民法典第322条,在判断加工物归属时,应当综合考量充分发挥物之效用与保护无过错当事人利益的要求。衍生数据作为数据加工行为的产物,其权属配置同样可以参照上述规范逻辑加以考量。在个人授权企业使用原始数据的情形,企业通常通过“授权+付费”的方式取得使用数据的权利基础,并在此基础上进行深度加工。相较于个人数据主体,数据企业在技术能力、计算资源与应用场景方面往往更具优势,能够更有效地利用衍生数据。将衍生数据的产权配置于数据处理者,有助于形成稳定的权利预期,促使其放弃短期机会主义行为,转而通过持续投入实现衍生数据的长期价值,从而更有利于实现“数尽其用”的制度目标。 需要进一步指出的是,即使在以非法爬取所得数据作为原材料的加工场景中,数据处理者对加工所得衍生数据依然享有完整的数据产权。原因在于,衍生数据的内容、结构和形式等方面发生了实质改变,且无法还原为原始数据,这使得衍生数据的持有、使用和经营通常不会侵害原始数据的财产性权利。鉴于衍生数据与原始数据之间的实质性差异,衍生数据不会对原始数据产生替代效果,不会对原始数据权利人的财产性权益造成威胁。此时,数据处理者可以对该新数据享有完整的数据权利。 此外,衍生数据的权利取得应基于对数据加工行为的客观结果进行认定,而与数据处理者的主观善意或恶意状态无关。传统民法依据加工者是否明知原材料系他人所有之主观状态不同,区分善意加工和恶意加工两种情形。数据加工场景中也存在恶意与善意的不同情形。网络数据不会凭空产生,往往是源于原始数据产权人的数字劳动以及数据处理者的收集、整理和加工形成。因此,在数据爬取情形,数据处理者通常明知存在在先权利人却仍爬取原始数据并进行加工,应被定义为一种恶意的数据加工行为。在个人授权数据处理者进行数据加工的情形,若数据处理者明知超出授权范围或授权已经终止但仍对原始数据进行加工的,亦属于恶意加工的范畴。善意的数据加工可能存在于数据处理者出于误解或其他事由超越授权范围或违反授权目的而加工等情形。 尽管就有体物恶意添附中加工物的归属存在争议,但对于数据恶意添附,笔者认为加工物的归属不应因加工者善意或恶意的主观状态而有所区别。理由在于,在有体物加工情形,恶意加工人明知原物不属于自己,仍对原物实施加工,意味着恶意加工人在探知原物的产权成本几乎为零的情况下仍选择改变原物的形态或用途。此类加工行为不仅可能侵害原所有权人的主观价值与个性偏好,而且其加工后的经济价值并不必然优于原物价值与主观价值之和,甚至可能导致社会整体财富的减损。因此,通过否定或限制恶意加工人取得加工物所有权,可以避免在明知侵权的情况下进行低效率甚至具有负外部性的加工活动。即使在此种背景下,多数主张仍支持有体物的恶意加工者基于“物尽其用”的效率原则可以取得添附物所有权,对于无过错的原所有权人可以在补偿上获得更多的考虑。然而,对数据添附而言,原始数据在生成衍生数据后并不会因加工行为而灭失、贬损或被替代,其权利人仍可继续持有、使用并实现其原有价值。在此意义上,数据加工行为不会“使社会财富变得更糟”,而仅在于“在既有价值基础上实现了多少增量”。正因如此,即使数据处理者明知所用原始数据为他人所有,也不会影响对新数据权利归属的判断。 综上所述,衍生数据的持有权、使用权和经营权归属于生成衍生数据的处理者,有助于实现我国数据要素收益分配制度的政策目标,并可在不侵犯原始数据产权人权益的基础上,鼓励数据处理者开展数据分析挖掘,充分释放数据要素价值。 (二)原始数据上在先权利的保护 衍生数据规则的设定需要同时保障原始数据权利人的在先权利。在衍生数据开发利用过程中,衍生数据权利人应受到原始数据上权利及其负担的限制,根据数据的性质合理开发利用,确保数据的使用不侵犯他人的在先权利。 1.原始数据上的在先权利 由于衍生数据的构成不必然以去标识化和匿名化为要件,衍生数据中仍可能存在可关联至原始数据权利人或其他特定个人的信息,由此可能产生在先权利人个人信息乃至隐私权的保护问题。对此,应当对原始数据上附着的信息人格性权益和数据财产性权益加以区分讨论。数据与信息虽具有一体两面之紧密联系,但仍需对二者进行分类规制,赋予其不同的权利类型。在对待衍生数据的问题时亦是如此,为数据赋予财产性权益,为信息赋予人格性权益,同时还应坚持二者应予区分但不能割裂的规范立场。对于衍生数据可能承载的人格性权益而言,个人信息主体行使人格权通常不涉公共利益,也不应受到数据处理者对衍生数据所享有的财产权利的限制,个人信息主体依然可以对其主张访问、删除和更正等人格性权益。但对于财产性权益而言,鉴于衍生数据是相对原始数据发生实质改变的新数据,有关原始数据产权人能否向数据处理者主张财产性权益,以及能否参与衍生数据的收益分配等问题,则需要另加讨论。有观点认为,尽管个人对衍生数据生成的贡献可能不及数据处理者,但这并不足以完全否定个人在数据价值创造中的作用,个人仍有权参与衍生数据的收益分配。笔者认为,在二元权利分割模式下,衍生数据独立于原始数据存在,其财产性权益已与原始数据完全分离。数据处理者通过“授权+付费”的方式已经获得了原始数据的使用权,个人对数据的财产性权利应限于原始数据。即使衍生数据不以匿名化为必要,并且可能包含个人数据,个人对衍生数据也不再享有财产性权益。 2.原始数据产权人与数据加工处理者之间的求偿关系 对原始数据进行加工的衍生创造主体若未得到原始数据产权人的同意,则数据加工将引发原始数据产权人与数据加工处理者之间的求偿关系。结合前述衍生数据的生成场景,不同场景中数据处理者的返还范围应有所区别。在数据处理者对非法爬取的数据进行加工、未经授权加工等情形,数据处理者因侵犯原始数据权利人的使用权这一合法权益而获利,构成权益侵害型不当得利。在数据处理者超越授权范围、授权无效或被撤销以及授权终止后加工等情形,数据处理者因请求人的给付行为而获利,构成给付型不当得利。 在超越授权、授权无效或被撤销的情形,构成给付型不当得利,其返还范围应为给付的价值。此时,若授权人仍愿授权,则衍生数据权利人应返还其原合同约定的数据使用费;若授权人不愿再授权,则衍生数据权利人原则上应返还数据、恢复原状,但此时面临返还是否仍有意义、能否补偿原始数据权利人的利益以及若返还影响衍生数据应如何处理等问题。数据具有非消耗性与即时使用性,在数据场景下,返还制度的核心目的从填补损害转化为剥夺得利。由于受损方并未失去对数据的物理控制,所谓返还对权利人而言仅是获得了一份副本,并无实际增益;数据返还的真正意义在于,使不当得利人丧失对该数据的控制与使用能力。故而,所谓返还原始数据,是指通过让数据处理者停止使用、删除原始数据副本等方式,消除其对原始数据所形成的持续持有与使用状态,使得原始数据权利人对原始数据使用的支配状态得以恢复。同时,数据已使用说明存在价值转化,简单的删除已无法消除其已产生的价值。此时,需要同时匹配价值额偿还规则。然而,这种价值额返还不是指将衍生数据直接移转给原始数据产权人。不当得利只解决“取之不当”,不解决衍生数据产权归属问题,遑论衍生数据的价值是原始数据与加工者的技术、算法、资本和智力投入相结合而产生的。若要求返还全部衍生数据,无异于让原始数据权利人无偿占有了加工者的全部创造性劳动成果。因此,价值额偿还应指向原始数据的使用费,即假使双方当初进行的是合法、善意的数据授权交易,就本次具体的使用目的和范围所应得的许可费。在使用费用难以确定时,应综合数据自身的性质、稀缺性与不可替代性来确定。 在非法爬取数据的情形,则构成权益侵害型不当得利,其与给付型不当得利中原始数据产权人不愿再授权的情形理论路径不同但结果类似。通常情况下,返还的客体仅限于被侵害权益本身的客观使用对价即数据使用费,而不包括得利人利用该权益所获的利润。但当爬取的数据与最终形成的衍生数据在贡献度、爬取数据的稀缺性与不可替代性上具有相当因果关系时,应按原始数据的贡献度,将由衍生数据产生的部分利润也纳入返还范围。 此外,依衍生数据加工人主观状态是善意还是恶意,其不当得利返还范围亦应有所区别。善意得利人的责任范围严格限定于现存利益。若该利益已不存在,则返还义务消灭。在数据场景下,若原始数据或简单聚合数据的副本仍存储于得利人处,该控制与使用可能性本身即构成现存利益,其返还方式表现为彻底删除与销毁,以剥夺其不当控制状态。若原始数据在生成衍生数据的过程中已被自动、不可恢复地删除,且其价值已完全、不可分割地融合于新产物中,作为一个独立价值单元的利益已告消灭,此时善意得利人无需承担价值偿还义务。恶意得利人则应承担加重返还责任。通说主张,为达到对良善行为的正面导向目标,可突破“损失—利益孰低”的限制,通过类推适用无因管理中的不法管理规则,要求其返还全部得利。具体而言,恶意得利人首先负有删除其所持数据的义务。在此基础上,不法管理规则旨在剥夺故意侵犯他人权益者从违法行为中获得的全部利润,即便该利润中掺杂了得利人的劳动付出。不过,要求返还全部利润并非绝对,其边界在于利润与侵权行为之间必须存在相当因果关系。在恶意得利的情形,数据处理者因具备主观过错,其加工行为同时符合侵权责任的构成要件,因此可能产生不当得利返还请求权与侵权损害赔偿请求权的竞合。若权利人选择主张侵权损害赔偿,则可依民法典第1184条,请求原始数据在公开市场中可交易的价格,或按交易习惯确定原始数据的使用费。 结 语 衍生数据作为高附加值的数据形态,系数据处理者在原始数据基础上通过深度分析、过滤与提炼整合等处理活动生成,在数字经济运行中日益展现出重要的经济价值与社会价值。从规范构造上看,衍生数据的生成过程可以类比有体物的加工行为,故可借鉴物权法中的加工制度建构其识别标准与产权配置规则。衍生数据的识别标准构成产权配置问题得以展开的前置性判断,只有当数据加工结果在规范意义上构成独立于原始数据的“新数据”时,才具有进入产权配置讨论的必要性。 衍生数据的识别应当同时满足实质改变、价值增值和不可逆转三重标准。实质改变标准作为外在识别标准,要求加工结果在数据结构、内容或形式等方面形成与原始数据实质不同的独立数据形态;价值增值标准作为内在识别标准,要求衍生数据在使用价值和交换价值等方面相较原始数据实现显著提升;不可逆转标准则强调衍生数据无法在经济成本或技术难度的合理范围内通过逆向工程还原为原始数据。唯有当加工结果同时符合上述三重标准时,方可在法律意义上将其界定为衍生数据。 当事人未作约定或约定不明确时,基于贡献赋权原则与“数尽其用”原则,衍生数据的产权应归属于衍生数据处理者,该权利的取得并不以其对原始数据享有使用权为前提。但在数据处理者未取得原始数据使用权而实施加工行为的情形,在先权利人可依个人信息权益请求权、不当得利返还请求权或侵权损害赔偿请求权等获得救济。如此,方能在肯定数据处理者智力劳动与要素投入的同时,兼顾原始数据权利人的合法利益,促进“数据资源—数据集合—数据产品”三阶段的良性流动,进一步激活数据作为生产要素的制度潜能,推动我国数据要素市场的高质量发展。
来源:《法学研究》2026年第1期

