中国法学正在迎来“大数据”“人工智能”的研究热潮。“数字法学”“计算法学”等各类新词汇层出不穷,但研究者们却并不都是在同一内涵和外延下使用这些概念。因此,本文有必要在开篇之初先设置一套分类法,对既有的学术研究成果加以归类,从而明确本文在既有研究中的坐标位置。笔者将既有的相关研究分为如下四大类:第一类称作“学科论”,此类研究看待技术的视角最广,其目标是希望厘清法学+数字技术的最大学科边界;
本文旨在回答大数据技术如何才能成为法学研究的方法,如何与法律实证研究、规范研究这两大传统的方法实现有效的互动。关于此,左卫民在《迈向大数据法律研究》一文(以下简称为“左文”)中较早地提出了“大数据技术如何作为法学研究方法”这一命题,在“方法论”层面为将大数据技术引入法学研究当中起到了重要的推动作用。同时,笔者认为,以下方面仍值得进一步探讨:第一,“左文”中提到“从研究范式看,大数据法律研究可能推动实证研究的跨越式发展,特别是机器学习方式的引入,会使法学研究从法教义学、社科法学和实证法律研究等范式转向数据科学式的法学研究”。
上述延伸和思考,一方面是对话,另一方面是形成本文研究的路径。本文的基本立足点在于:大数据分析技术如果对法学研究有影响的话,那么主要是使得法学更加社会科学化、更重视实证的方法、更习惯从大数据中探索法律世界的规律。这些贡献决定了大数据技术在法学研究方法体系中的位置,其既是对以统计学为基础的法律实证研究的接力,更是对以法教义学、立法论研究为核心的传统规范研究的助力。在这一基本立场之下,本文首先对前大数据时代的实证研究方法、研究对象作一番回顾;接着结合笔者担任大数据分析师的经历,针对技术细节作梳理;然后在这些基础之上,就如何实现大数据技术、定量的实证研究、规范的法教义学研究三者间的互动提出一套初步的方案;最后,鉴于当前学界在相关概念上存在较多的混用现象,本文就此作一些观点上的澄清。
一、前大数据时代的法律实证研究
关于什么是实证研究,目前虽然尚无统一定论,但在“基于模型和数据的方法”这一点上则有比较明确的共识。
(一)以统计为主的研究方法
从研究方法来看,既有的法律实证研究均奉统计学为同宗。通常认为,统计学的方法有描述性统计和相关性分析两大类。结合法学研究的特点,这里稍作更细致的划分。根据笔者的概括,以往的研究成果主要利用了如下三种方法。
方法一:多案例分析。对案例的运用,如果不是针对法条进行解释、对立法提出建议,那么在笔者看来即为一种实证研究的路径。例如陈杭平关于民事诉讼标的的研究,为案件类型化设定了一套分类标准,即诉讼标的的不同含义,纵轴根据不同学说见解区分为三个版本,横轴以诉讼标的的不同领域或场景为标准。
方法二:描述性统计。前述的多案例分析,还很难称得上是严格意义上的实证分析。左卫民的一系列文章有力地推动了法律实证研究向前发展,其主要采用的便是描述性统计方法。例如,他关于审判委员会的研究,统计了某地区的三级法院审判委员会委员的审判经验与学历背景,并将讨论的议题细化到宏观指导议题和个案议题,分别进行统计和分析;
方法三:相关性分析。白建军等人的研究则在描述性统计之基础上,迈向了相关性分析这一相对复杂的层次。相关性研究也被称为推论统计,是将统计学手法与概率理论相融合,对“‘无法整体把握的大的对象’或‘还未发生而未来会发生的事情’进行推测”。
在线性回归、logistics回归这两大常用的回归模型之基础上,法律实证研究方法也根据议题之需推陈出新。首先表现为统计方法趋于高级,例如白建军在其一贯的相关性分析之基础上,对无法观察的变量作了科学处理,
(二)多元测量工具并存
测量工具是指获得数据的方法。数据搜集在统计学中是重要的一环,“所有统计数据追踪其初始来源,都是来自调查或实验”。
工具一:问卷调查。这种测量工具与传统的社会科学方法保持一致,通过设置问题、受调查者回答的方式收集受访者的信息。此种方法在获取受访者主观态度方面效果明显,为学界所常用。例如,程金华在研究过程中为了解检察人员针对检察人员分类改革的认识而发放问卷;
工具二:模拟实验。“实验大多是对自然现象而言的”,
工具三:文本摘录。法律中的文本,其典型形态为裁判文书。在裁判文书大量公开上网后,有人认为数据法学的春天即将到来。的确,裁判文书是记录诉讼过程最终的、有法律效力的、体系最完整的文本。对裁判文书的利用,比如文姬关于信用卡诈骗罪的研究当中有很多维度的信息挖掘,包括审级、行为人出生年等16个变量。
工具四:实地/田野调查。倘若只是单纯采取个案式的访谈记录,则在方法论上一般将之归入定性研究的范畴。但如果是在田野调查中对多个样本进行观察或访谈,采取结构化的方式收集数据,最终对数据进行跨越个案的量化分析,那么也可以被视为实证研究的测量工具之一。此种方式在国内法学研究中不乏实例,比如一份关于当事人法律意识的研究,所主要利用的素材就是在某法院传达室对一百多位当事人进行访谈所收集的数据;
除了采用上述工具之一,实证研究还可以多种测量工具结合、定量和定性方法混用。比如胡铭关于庭审实质化的研究就不仅利用了判决文书,且还通过观摩庭审直播并记录的方式收集数据。
(三)万级以下的样本量
实证研究的论文中约定俗成要报告样本量,而之所以特别指出研究所用的样本量大小,是由于样本量直接关系到根据小样本得出的结论能否推及至更大的范围,因此抽样是统计学中很重要的概念。建立一个好样本的关键,是尽量选择最符合总体的样本,如果样本具有代表性,那么表明样本与总体有十分相似的特性,进而可以通过样本预测出总体具有哪种规律。
法律实证研究中的样本量过去以百级、千级为主,比如文姬关于信用卡诈骗罪的研究所利用的裁判文书样本有2103份,
除了抽样和样本的代表性问题外,前述提及的那些研究基本没有交待如何实现样本的数据结构化。根据笔者自身的数据分析经验,以传统方式处理样本耗时巨大。如果以阅读裁判文书并摘取的形式处理样本,那么一天工作8小时也只能阅读20-40份裁判文书,如此来算,处理千量级的裁判文书样本就得花费数月时间。如果再安排专人抽查数据录入的质量,那么工时还得另计。
(四)留待提升的不足
在研究方法上,相关性分析方法之后难有新的突破;在分析工具上,研究者虽试图推陈出新,但总体变化不大。以构建回归模型做研究为例,中国法学界目前用过的回归算法种类屈指可数。某些研究虽然其方法有一定的创新,比如采用决策树的方法,
测量工具上,以往较强依赖于社会资源的协调能力。中国法学界当前使用的测量工具中,问卷调查、模拟实验的应用较为普遍,而上述二法的共同局限在于严重依赖研究者的社会资源协调能力。很多研究并不避讳利用了作者的挂职身份、承担横向课题的机会、本省司法资源的便利条件等。就数据获取而言,即使只是选择几个投放点,也要付出很大的成本,且若没有较大经费支持则难以做到。上述列举的那些研究成果,因此往往是知名学者的作品。这也造就了一个怪圈:是先成名后做实证研究,还是因实证研究而成名?而在大数据时代,研究者将在一定程度上不再依靠外部资源的协调能力。
以往样本量太小,使得据其发现的规律的代表性不足。前文已经提及,样本量关乎结论的普遍性,统计分析的根本目标在于“推论”。样本量越小,对抽样的随机性要求就越高,而抽样始终是一个难题。造成抽样偏差的成因很复杂,比如抽样空间条目不齐全、抽样单位不正确等,
二、大数据技术运用的各个节点
从实证研究的过程来看,在选择议题、提出假设和设计变量等步骤中,数据的收集和分析是大数据技术最相关的两个环节。其中,数据的收集又包括语料的获取、语料转为数据和数据清洗等步骤。本文认为,大数据分析技术正是借助数据的收集和分析这两点,助力法律实证研究向更高阶段发展。从已有大数据分析的实践经验来看,可大致分为以下几个步骤。
(一)语料的获取
语料获取是应用大数据技术的第一个环节。凡是对立法活动、司法实践有所记录的载体,都可作为实证研究的原始语料。当然,文本仍是当前法律大数据分析主要的语料类型,大数据技术目前还比较难以有效处理图片、音视频等数据。所幸的是,法律文书本来就是记录法律活动最重要的、也是表达相对准确的语言形式。
当前的语料获取问题,应重点聚焦于如何便利地获取法律类文书。研究者作为个体要想获得供研究之用的文本,除逐一复制或下载外,还有两条路径值得重视:一是采取网络爬虫的方式,从数据源自动爬取,业内有句话叫作“可见即可得”,其意思是只要有该网站的访问权限,那么便可获得该数据,包括一般性的网页、API资源、文件资源和媒体资源;
网络上的其他数据资源也不可被忽视。在传统的法学研究中,我们便已看到许多研究者用到法律年鉴、地方志等信息,而此类信息如今已基本实现无纸化、网络化。我们可从以下几个渠道收集与自己研究有关的语料:一是国家及地方各公立机构的官方网站,比如图书馆、档案馆、财政局等行政事业单位;二是各行业的商业机构网站,比如上市公司财务报表的披露网站、各行业的商业情报网站等;三是一些人气活跃的社区论坛,比如在司法公信力、媒体和司法之关系等研究议题中,我们关心的案件舆情就在论坛社区中有丰富的表达。网络资源可有效弥补裁判文书这一测量工具的局限性,因为法治事件的真实场景变量复杂,法律文书只能反映其中的一小部分。
(二)语料转为数据
传统的实证研究是统计学思维,处理的是阿拉伯数字。这一点在大数据的语境下没有本质变化,即机器学习仍然难以根据文本直接构建模型,数据分析的对象仍是结构化数据。
将语料转为数据的过程,本质上是将自然语言转化为机器语言。处理自然语言的工具,大致可分为基于概率和基于规则两类。前者是通过人工标注一定的语料,再由机器模型识别剩余部分的语料,得到的是一个结果的分布概率;后者的典型代表是正则表达式,因其结果更为准确,故而成为当前适用广泛的提取方法。学术研究要求较高的准确性,因此基于规则的方法更为现实可取。正则表达式,在技术书中被定义为“一门袖珍编程语言的通用模式表示法,赋予使用者描述和分析文本的能力”,
语言表达方式虽然具有多样性,但也并非无穷无尽,常见的文字表达类型是可以由正则表达式囊括的。实践中的通常做法为:先人工阅读一部分文书,枚举语言表述的类型→通过正则表达出每种类型→正则遍历文书,筛选出被命中的文书→再次阅读部分未经匹配的文书→优化正则表达式→再次遍历剩余未被命中的文书。多次循环后,正则表达式将会得到很大的改进,信息提取的准确性也会随之提高。数据的获取任务至此完成,这也是大数据技术相较于传统实证研究在技术上的巨大变革之处,即数据的获取不再高度依赖于外部资源的多寡,只要研究者掌握了一定的编程能力,那么就可以从最大的数据资源库即互联网中获取自己想要的各类数据。
(三)数据清洗
数据清洗面临两种情形,一种是从文本到数据的过程中存在信息的遗漏,另一种是有些文书信息虽然被提取了出来,但存在错别字或其他不当之处。处理信息残缺的方法,至少有以下几种:第一种是根据信息有残缺的文书编号,追溯至该份文书,人工阅读发现原因并修正提取的方法。这和上文提及的不断优化正则、扩大匹配的范围的做法很接近。第二种是统计学中处理残缺值的传统方法,比如用平均值替代、剔除该样本等。第三种是借助Excel表格中的工具、pandas等第三方库对数据逐一进行修正,通过人工的个别修正使数据回归正常。例如裁判文书中存在诸多错别字、语病等错误需要清洗,笔者曾遇到过某一罪名在裁判文书中,有十余种错误的文字表述、八种不同的“零”写法,这些均属于若无人工预判则机器便无法自动识别的情形。
数据清洗,主要面对的是如何处理自然语言中不同词汇的相同意思(同义问题),以及一个词汇在不同背景中有不同的意思(多义问题)。
(四)数据分析
若要从数据中产生规律性的知识,则还要依赖于数据分析的工具。以统计学思维看待数据分析的方法,主要有描述性分析和相关性分析两大类。
大数据时代的分析环节,仍有运用描述性统计的必要。大数据时代虽然样本量呈几何式增长,但试图把握司法实践之一般规律的需求并未改变。而描述性分析是最有利于把握案件整体情况、聚焦重点案件类型的方法。
关于相关性分析,大数据技术主要借助于机器学习,“根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:‘监督学习’和‘无监督学习’”。
用大数据的机器学习方法建模,最好采取Python语言编写程序。该语言可调用各类第三方库,statsmodels、scikit-learn等第三方库中已内置有大部分的常用算法,调用接口即可满足现有的研究需要。在大数据时代,获取的数据样本量将轻松突破万级,例如研究某些社会高度关注的案件的网络舆情,从微博、论坛中获取的评论数甚至可以很轻松地突破百万条。自己编写程序做大数据分析,在面对大样本时,能更好地满足个性化的研究需求。
(五)前述流程的局限
大数据技术并非没有局限性,它是一把双刃剑。“技术不是敌人,我们的敌人是寄居在技术里的浪漫又革命的‘解决问题兽’”。
第一个局限在于,大数据技术更难以关照到个案的细节之处。这也是左文中提到的大数据时代的一个特点,即样本量变大后,做不到人工查看每个样本。此为一个明显的缺陷。大数据分析所反映的只是数据间的相关性,但要解释此种相关性,还要依靠外部其他角度的素材。当回答为什么出现数据间存在显著相关性这一问题时,特别离不开对一些典型个案作具体的剖析。如前所述,大数据技术不再要求人工逐一阅读,便可将文本信息转为数据信息,但是小样本时代,逐一阅读案例,恰恰是发现有价值细节、启发研究灵感的历程。因此,大数据时代的法学研究,在用数据说话的同时,仍然少不了要深入到对典型个案的阅读中。
第二个局限在于,计算机技术的使用门槛较高,许多研究者面临着计算机技术有关知识匮乏的挑战。首先,在数据获取上,研究者最好能够掌握一些网络爬虫的技巧。从笔者的实战经验来看,爬取一般网站论坛上的数据相对容易,但爬取微博、微信公众号等数据就比较困难,这是因为后者设置了很多反爬虫的措施。再以法学研究常用的裁判文书为例,中国裁判文书网为确保正常访问,采取了一系列的加密措施,而这意味着研究者根本无法一劳永逸地解决数据获取的问题。其次,当前在研究成果发表时,法学期刊通常并不要求同步公开研究所依据的数据样本,也就是说,同行无法获知所采集的数据库详情、数据清洗的程度等。这是大数据法学研究早期阶段的特点。在大数据法学研究的成熟阶段,各研究者可能反复使用同一批大数据,并有一系列量化的模型衡量指标。
第三个局限在于,机器学习所用的部分算法,在变量参数和影响路径的可解释性上,不如那些简单的统计学算法。这部分是由于一些自身原理所造成的,比如机器学习中可能嵌套多层级函数,其目的是提高模型的拟合度。以神经网络的一般模型为例,有(d+l+1)*q+l个参数需确定,d、l、q分别代表输入、输出、隐层的神经元个数,神经网络的学习过程,就是根据训练数据来调整神经元之间的连接权,即参数值。
综上,笔者对待大数据技术的整体态度是,获取更大规模、更多类型的数据,对外部资源的依赖程度降低,是其最主要的贡献点,同时也要警惕研究过程中脱离个案细节、技术门槛提高、复杂模型的可解释性弱等风险。有效化解上述风险的策略包括:在跨越技术门槛上,可考虑借鉴其他学科团队式研究的模式,吸纳技术人员参与,改变过去一些法学期刊所认为的合署论文便有“搭便车”嫌疑的前见;在克服脱离个案细节这一问题上,则可以多采取混合研究的方法,即定性的方法和定量的方法相结合,实证研究和规范研究相结合;在数据分析时的算法选择上,则应尽可能选择一些原理简单、可解释性强的算法。
三、大数据技术对于实证研究而言是一场接力
大数据技术对于实证研究而言有一种接力的价值,两者的共性大于差异。大数据技术主要应定位于加强实证研究的某些环节,但并不改变实证研究基本的方法论框架。本文认为,大数据技术的接力作用,主要体现为:(1)降低了数据获取的难度,作为本文第一节中介绍过的那五种测量工具之外单独的一种数据获取途径,以网络爬虫、文本挖掘为代表的大数据技术,在获取数据上具有时间成本和经济成本更为低廉的优势。(2)加强了描述性统计的能力,适合探索性的量化研究。若对实证研究作描述性分析和相关性分析的二分,则大数据技术更擅长概览式地描述研究对象。(3)拓展了可量化研究的议题,使得某些议题的论证更加充分和有说服力。
(一)拓新数据获取的重要渠道
任何定量研究均离不开信度可靠、效度可行的数据来源。对大样本的追求,在统计学上称为“一致性”,费希尔(Stanley Fischer)用数学公式说明了“你得到的数据越多,你计算出的统计量越有可能接近参数真值”。
首先,把互联网视为数据获取的来源时,主要是将互联网视为一个“知识库”。互联网沉淀了人类活动的大量数据,其中一些是与法律有关的行为数据,例如裁判文书是对司法过程和结果的一种记录,网友针对某一热点案件的留言是司法民意的表达。这些数据的特点是它们的产生最初并非为了供研究之用,故而只能提供有限的数据项,研究者需迁就网络数据可用的数据维度进行研究设计。利用裁判文书开展大数据分析就十分典型,裁判文书的数据维度并不是为研究所设计的,因此在选题时,就要充分考虑裁判文书中所体现的信息是否足够用于回答该问题、有无其他数据源可作补充。
其次,进一步拓宽数据获取的思路,还可以把互联网视为形成数据的“实验室”和“协作平台”。大数据技术可以把互联网作为提问数据和实验数据的来源,即前述实证研究测量工具中的实验方法、问卷和田野等方法也可以在互联网中大规模使用。通过网络发送调查问卷,在学术界目前已经有一些成功的研究案例。例如,在一项针对累犯成因机制的研究中,通过给刑满释放的研究对象发放智能手机,大数据采集平台每天向研究对象发送问卷收集数据,并与定位数据、短信数据等数据源相结合,分析再犯罪的成因机制。
(二)提高实证研究的描述分析能力
社会科学所立足的成熟的研究范式,目前仍是提出假设、并用定量的统计方法加以验证的过程,
首先,大数据分析技术主要提高了研究对象的整体描述能力。实证研究中的描述性分析,针对研究对象设计变量,统计平均值、方差等。除这些外,大数据分析技术还有其他可供选择的方法,比如通过词频的计算提炼文本的关键词、通过情感分析的技术反映某些文本的正负情感及强度、通过文本摘要的技术浓缩海量文本的内容,分析的结果可以用词云、动图等多样的可视化方法来呈现。这些技术与实证分析中的描述性分析非常接近,只是起到丰富描述分析工具箱的作用。
其次,现有以统计学为基础的相关性分析,所用的算法仍将保持主流地位。统计学中最基本的线性回归、对数回归等模型,仍是当前最为成熟、较适合社会科学研究使用的方法。这并非法律实证研究特定阶段的现象,例如对美国在政治学、社会学领域最权威的6本期刊于2001-2010年间发表的实证研究论文所采用的方法进行统计后发现,最小二乘法(OLS)和logit回归的方法之和占比最高,达到六成。
最后,应清醒地认识到,某些大数据分析技术之所以难以引入到实证研究中,是因为大数据技术的发展动力来自商业市场的需求,其初衷不是为学术研究而开发的。因此,要区别大数据技术在工程领域和在学术领域的使用差别。工程领域要求大数据模型有较强的结果预测能力,不太重视输入变量与输出结果间发生联系的路径。这使得技术开发的着力点在于如何能够准确预测未来,例如市场中多款量刑辅助的产品提供给办案人员的,是一个案件未来可能判处的刑期结果,而不是提供充分的说理。而学术研究更关心法律现象背后的社会成因机制,希望揭示出现象背后的原因。上述二者虽有共同点(进行精准预测的前提,也要有一个基于历史案件的模型),但考核模型表现优劣的标准是极为不同的。知晓此种差异后,研究者才能对当前眼花缭乱的大数据分析技术有所甄别,优先选择那些具有较好可解释性的机器学习算法。
(三)加强某些议题的论证力度
数据源和样本量的扩大,分析能力的增强,使得某些研究议题有机会变换新的角度、充实更有力的论据、得出更有说服力的结论。大数据技术作为一种方法并不直接产生新议题,但是能够增强旧有议题的论证能力,为原先难以量化研究的重要议题开启新的篇章。本节选取“法治中国”这一研究议题,尝试构想一个引入大数据技术后的学术发展新空间。
“法治中国”在近年来备受关注,是我国法学研究中的一个重要议题。一般认为,“‘法治中国’的内涵比‘法治国家’更加丰富、更加深刻、更具中国特色”,
大数据技术可以在归纳中国法治实践中发挥大作用。具体可勾连几个看似不相关但实则联系密切的议题。一是近年来强调“中国问题”的学术反思。2011年举办的“中国法学研究之转型”研讨会上,诸多学者曾呼吁法学研究范式应该转变,认为“当前对中国特有的问题关注不够,缺乏中国问题意识”。
四、大数据技术对于规范研究而言是一种助力
法学实证研究和传统的规范研究间如何衔接和对话,是一个困扰研究者和期刊编辑的共同问题。有期刊编辑抱怨说,很多看似眼花缭乱的定量研究,最终得出的结论却不那么新奇,其言外之意是不需如此费劲,读者也早已知道这样的结论。还有学者坦言,实证研究和传统的规范研究间缺少对话,存在“平行线”难题,法学实证研究存在“叫好不叫座”的现象,即便高质量的实证研究,其被引用率也不高。
(一)拓宽了解释论的问题边界
法律规范之所以需要解释,其原因在于“制定法的真实含义不只是隐藏在法条文字中,而且隐藏在具体的生活事实中”,
首先,法律大数据所挖掘的信息,为规范研究提供了问题意识,为解释设定了起点。规范之所以需要解释,是因为存在疑义。此种疑义并非凭空而来,而是在法律的具体适用中凸显。在过去,此种凸显主要依靠典型案例的被发现而引起学术界的重视。如今,大数据技术的兴起,缩短了该种疑义被发现的进程,并克服了主观选择案例的片面性。这是因为,研究者可不再依赖于司法机关筛选出的指导案例,或者主观随意地挑选案件,而是通过公开的裁判文书进行全样本的大数据分析,挖掘出研究者所关心的司法实践的某一侧面情况。在评价中国的法教义学之缺陷时,有学者指责在中国看不到“法学与司法之间的深入对话”,进而强调中国学者应当虚心、耐心和诚心地向中国法官学习。
其次,大数据方法赋能后的实证研究,为研究者提供了法律概念的社会语境。解释的最终目标是达致“裁定之案件获得公平的处理”,
当然,法教义学同样也给大数据分析以有价值的课题,规范研究者可以将其感兴趣的问题传递给法律大数据的分析者。如此一来,“这些学科的研究对象和知识兴趣就受到教义学的影响了,或者,也会引发交叉学科的研究课题的产生”。
(二)为立法论提供效果评估工具
2011年3月,时任全国人大常委会委员长吴邦国在十一届全国人大四次会议第二次全体会议上宣布“中国特色社会主义法律体系已经形成”。
这里主要探讨立法评估的方法,重点考察大数据技术是否有助于提升立法评估的广度和精度。当前的立法评估方式包括征集公众意见、问卷调查、实地走访等。例如在一份对地方法规的评估中,其研究者主要是在政府机构的主导下,通过第三方评估机构,推动各部门和区县自查、设计和布置调查问卷、文献梳理、重点走访和调研等方式,
首先,大数据技术有助于更好地收集来自社会各界的反馈。笔者在研究中访问了全国人大和多个地方人大的网站,发现它们目前都还停留于前大数据时代的意见收集模式。大数据时代很注重对信息的标签化收集和处理,产业界将此称为“打标签”。
其次,在立法有关材料的文本清洗和分类中,大数据技术也将提供更多的工具。在各地的立法评估实践中,会面对大量的文字材料。根据某省立法部门的反映,他们缺乏的是针对各方面立法意见的信息汇总和分类的能力。立法机关当前仍然停留于通过传统的“人工看、人工做统计”的方式来获悉各方面的反馈。大数据技术中的词频统计、主题分析、情感分析等相关技术,可以对庞杂的立法建议作清洗、聚类,而这些立法意见的文本处理能力是可积累和可复用的,根据过往的立法意见所构建的筛选模型,例如征集到的立法反馈有哪些意见类型、主要针对立法的哪部分提出意见、意见提出者的身份等,通过机器学习,可以应用于今后对立法意见的高效筛选之中。
最后,就立法评估的时间节点而言,大数据技术更能发挥作用的应该是立法后的评估。立法前评估与立法后评估的区别在于,立法前评估主要评估立法的必要性、合法性、协调性和可操作性,而立法后评估则重在考察法律法规对经济、社会和环境的实际影响。
上述主要讨论立法部门引入大数据技术展开立法评估,此外,大数据技术还应赋能学者的立法论研究,为研究提供检验成效、提示风险的能力。在一些西方学者看来,实证研究的前提为认同法律乃是一种工具,且由此对它可以用一种实证性的方法来加以检验。
结 语
揭开大数据技术的面纱,我们可以看到,作为法学研究的一种新方法,大数据技术增强了我们获取数据、分析数据的能力,使得在更大时空范围内研究法治实践的规律成为了可能。
笔者认为,“数字技术+法学”应区分不同的细分场景展开讨论,不同的法律场景具有不同的特点。例如,首先应区别工程和学术,在学术研究中引入大数据技术,模型设计有充裕的时间,过程的可解释性要求较高。其次应区别学科和学术,作为法学研究方法的大数据技术,只是学科论中的内容之一。有学者认为,“计算法学的研究方法中最主要、最具特点的方法还是本文所指的运用计算机科学智能化处理大量法律数据以解决法律问题的方法”。
(本文为文章摘录版,如需引用,参阅原文)
文章来源:法学家 2021,(06)