“大数据”一词肇始于商界,世界零售业巨头沃尔码通过分析消费者的购物习惯数据后成功将啤酒与尿不湿捆绑销售;互联网巨头谷歌公司通过观察人们网上搜索记录成功预测了几周后会爆发甲型H1N1流感。大数据分析是当今社会所独有的一种新型能力,其通过对海量数据进行分析,获得有巨大价值的产品、服务或深刻的洞见,“斯诺登事件”就是应用大数据分析的典型代表。([1])虽然大数据的应用价值在商业领域早已被熟知,但在司法审判领域仍似沉封已久的宝藏鲜为人知,即便裁判文书上网、审执信息公开、庭审视频公开等“天平工程”项目正逐步推进,社会公众逐步揭开了司法审判的“面纱”,但这些数据由于各自孤立仍属各家法院局部的“小数据”,难以形成庞大的数据信息网,致使全国各家法院海量有价值的审判信息长期处于休眠状态,成为一座座“信息孤岛”。而与此同时,我们的“法律职业共同体”成员——律师界,正在以迅雷不及掩耳之势开拓着司法界的大数据领域,如天同律师事务所“无讼”团队通过对裁判文书网上的大数据进行提取,可以精确地向法官推送与案件类似的裁判文书和相关法律法规,并自动在线生成文书模板,([2])这无形中倒逼法院改革传统的司法统计方式,运用大数据唤醒司法信息的“宝藏富矿”,助推提升司法公信力。
一、思维变革:大数据前景VS司法统计现状
(一)洞察:大数据的本质及其特点
大数据(Big Data)并非仅仅指代“数字”,而是通过运用新型智能算法实现对传输、收集、储存在电脑上的一切文本、声音、视频等信息关键字的挖掘,是体量巨大、类别众多的数据集合,([3])是人们获得新的认知、创造新价值的源泉,是改变市场、组织机构,以及政府与公民关系的方法,其核心是揭示隐藏的历史规律与预测未来发展态势,(如图一)具有 “5V”特点,即Volume:数量大,达到PB级别且持续增加,如当事人的存款、车辆、不动产、股票期权、消费情况、另案情况等信息均可被检索;Velocity:速度快,具有实效性,方便法官对当事人的资产须臾执行,防止其转移财产;Variety:种类多,数据来源、传感器与承载方式多样,当事人信息可以文字、图片、声音、视频的方式保留;Value:价值密度低,需要进行数据挖掘与提纯,由于信息海量,过于良莠不齐,需要法官花费大量时间甄别;Veracity:获取方式具有真实性,既可能是法院主动获取,也可能是当事人的日常行为与搜索所遗留的记录与痕迹。将“大数据”思维运用到司法审判领域,司法信息已不再只是每月一张的司法统计报表上静止的数字,而是从全国各家法院每个案件产生的数据中提取的关键对象,用于分析案件质效情况和预测审判运行态势。与传统“小数据时代”相比,“大数据时代”具有如下思维变革:
图一:大数据的定义
1、不是随机样本,而是全体数据。大数据分析的是与某事物相关的所有数据,而非少量数据样本。过去由于信息处理能力受限,缺乏用来分析收集数据的工具,因而采用随机抽样的方式,但样本与总体之间微观细节的差别会造成对某些特定子类别进一步研究能力的丧失。如今由于感应器、手机导航、网站点击和Twitter等被动地收集了大量数据,计算机可以轻易地对这些数据进行计算和制表。
2、不是精确性,而是混杂性。过去由于收集的信息量有限,数据库采用结构化查询语言SQL,细微的错误会被放大,甚至有可能影响到整个结果的准确性,所以必须确保记录下来的数据精确。而当非关系型数据库出现可掌握大量新型数据时,便不再依靠海量的人工输入,即使精确性下降,也可以掌握事物发展趋势。
3、不是因果关系,而是相关关系。过去人类的研究活动总是建立在“假设——实验——被证实”的基础上,关注事物间的因果关系。大数据时代不再需要人工选择一个或一小部分关联物来逐一分析,而是通过超强的数据计算能力找到某个现象的良好关联物,提示事物内部的运作机制、捕捉现在和预测未来,建立在相关关系分析法基础上的预测是大数据的核心。 ([4])
(二)审视:现行司法统计方式之不足
目前法院系统对司法统计数据的研究利用还完全停留在“小数据时代”,大数据时代对司法信息的挖掘、整合与预测需求正在不断冲击着仍处于“手工作坊”阶段的传统司法统计方式,传统司法统计的缺陷正在与大数据之间的矛盾中持续暴露升级。
缺陷一:对司法数据收集不充分,研究结果具有片面性。目前的司法统计报表系统仍属于十几年前开发,即使偶有补丁升级,但仍延续旧的框架;信息化应用效率落后,仍属于抽样统计阶段。这样统计调查得来的信息范围窄、统计指标少,内容也仅能反映案件数量信息,体现不出法院全部的司法活动,更反映不出与案件相关的社会政治经济信息。
缺陷二:对司法数据的处理能力有限,数据挖掘与预测能力有限。每月司法统计报表经由“基层→中院→高院→最高院”的流程逐级汇总,但法院之间案件信息管理系统相对封闭,数据承载信息数量有限、缺乏共享与整合,难以做到互联互通,系统数据不对接导致各家法院信息沉睡为个个信息孤岛,反映法律实施情况的信息项较少,静态的对统计资料的信息搜集与罗列功能难以满足对动态的案件信息进行监测预警、综合分析、提供咨询的需求,反哺审判工作、服务审判管理、协助领导决策的功能未能体现。
缺陷三:司法数据统计过程中人为因素过多,分析结果具有主观性。现行司法统计仍由各庭内勤手工报送,统计基础不牢,数据的准确性受内勤的责任心、业务能力水平的制约,基础数据的核实与稽查环节缺失,再加上对司法统计员的业绩考核标准不明确,使统计数据的客观性、真实性、准确性难以保障。([5])
二、模型初现:大数据思维下对民间借贷纠纷案件的统计分析
笔者凭借在T市H区法院审判管理办公室工作能够浏览全院卷宗、质效指标、庭审实况等先天优势,选取H区法院2011-2015年受理的1001件民间借贷纠纷案件作为研究对象,以“解剖麻雀”的方式为民间借贷案件的审理、执行情况建立多个模型,力图模拟如何运用“大数据思维”对该类案件进行分析的全过程。
(一)原理:大数据思维获取数据的策略
利用传统的小数据思维对民间借贷案件的大数据关键特征挖掘,过程耗时较长,无效结果较多,效率较低。因此,有关学者提出可基于Apriori算法对民间借贷纠纷案件的大数据关键特征进行挖掘,删除其余冗余特征,其公式如下:
上述公式中,winm指描绘民间借贷纠纷案件关键特征的数据在大数据库中所占的比例,R指能够用来描述全部大数据关键特征的数目。([6])对民间借贷纠纷案件关键特征的挖掘可详细表述为:1.选取“民间借贷”作为数据挖掘的对象,并将其在网络大数据中作为聚类中心;2.通过“过滤器”运算获取与“民间借贷”词汇相关联的新数据;3.对获取的不同数据的关联性进行考察,若其关联性小于设定的域值则为新的聚类中心,若其关联性大于设定的域值则保留其为“民间借贷”大数据的关键特征;4.对多次运算获取的聚类中心进行筛查,删除多余冗繁数据,降低数据挖掘的复杂性,最终筛选出多个与“民间借贷”关键词相关的大数据关键特征(如图二、图三)。
图二:大数据的获取策略
图三:传统司法统计方法与大数据分析方法的对比
(二)建模:以民间借贷纠纷案件为视角的大数据分析模型
1、数据查询:通过搜索关键词获取案件信息的基本模型
这一“基本模型”处于“看趋势”阶段,即观察关键词对象“民间借贷”数据的图表曲线趋势,数据是升还是降;关联的其他相关曲线,是否呈现了应该有的关联性;环比同比百分比如何等。通过在法院信息管理系统上搜索关键词“民间借贷”,可将2011-2015年H区法院受理的民间借贷纠纷案件共计1001件全部搜索出来,共建立与案件有关的审判质效指标模型四个,由于该四个模型均为通过法院信息管理系统搜索出来的数据建立,故该模型只是基本司法统计的“小数据”模型。
模型一:案件新收数量、立案标的情况发展趋势
模型一是司法统计最为基础、普遍的模型,由此模型可以看出近五年来H区法院民间借贷案件呈大幅上升态势。2015年收案291件,比2011年上升122.14%,涉案标的从1808.6321万元飙升至17680.62828万元,同比增长8.78倍。这期间,2012年和2013年的收案增幅放缓、略有下降,但2014年开始反弹。由此可见,民间借贷纠纷正处于高位运行阶段。
模型二:审限扣除情况分布
模型二是审限扣除情况模型。由此模型可看出近五年来“公告”是进行审限扣除的首要原因,且占绝对主导地位。近五年来公告案件呈逐年上涨态势,这与民间借贷案件增多且被告多查找不到有关。而以“管辖权异议”、“鉴定”、“调解、和解”为由进行审限扣除的案件数量较少且较为稳定。
模型三:结案方式
模型三为结案方式模型。此模型需结合模型二看待,公告案件与以判决方式结案案件数量呈正比,且判决结案处于绝对主导地位,其次是以调解方式结案。近五年来各种结案方式变动幅度不大。
模型四:平均审理天数
模型四是平均审理天数模型,可结合模型一、二、三来综合分析。由于民间借贷案件数量呈逐年上涨的趋势,且查找不到被告的情况居多,不得不采用公告的方式送达,公告送达至少需要90日,耗时较长;由于被告的缺席,法院无法调解,只能以判决的方式结案。另外,新型疑难案件的增多,造成判决难以“出手”,这也是平均审理天数呈逐年上涨态势的原因。
2、深度监控:通过检索关键词的关联词频获取案件信息的特殊模型
这一“特殊模型”处于“寻找变异”阶段,即找到单一数据中的异常值,或关联数据中非关联的异常部分。仅仅对案件浮于表面的审判信息进行司法统计不足以满足了解该类案件审执动态运行情况的需求,因此需要将该类案件相关诉讼、执行情况进行检索,将词频高度一致的关键词筛选出来,可建立以下三个模型,该模型已不限于单纯对某法院的法综系统数据局部搜索,需要对多个数据库的搜索结果进行比对,因此该模型为介于小数据与大数据之间的“中数据”模型,以下三个模型为笔者通过对H区法院案件管理系统、H区法院执行指挥系统和中国裁判文书网案件信息进行检索所得。
模型五:串案情况统计
模型五为串案情况模型。其中,多案同为原告或被告、多案互为原、被告(申请人和被执行人)均属串案。由上图可见民间借贷纠纷串案数量基本上呈上升态势,这缘于一人向多人放贷或举债、相互担保,当事人人数众多,矛盾尖锐,且多数串案是由于放贷人以借贷的形式掩盖其高利贷融资的真相,涉及到非法吸收公众存款罪、集资诈骗罪等,被告多被关押至看守所或监狱,开庭审理困难,刑民交织使案件事实认定难度增大。另外,三角债现象普遍,借贷主体相互交叉,在一案中的原告在另案是被告,法律关系复杂,利益格局混乱。
模型六:被告情况
模型六为被告情况模型。民间借贷的借款人为了吸引大量资金流入,约定的利息畸高,一旦资金链断裂,部分债务人为逃避债权人追索而选择跑路,这些债务人多为外省户籍人员,法院穷尽一切办法查找不到不得不采用公告方式送达,造成调解困难,最终缺席判决,印证了模型二结案方式以判决为主。另外,通过对T市全市法院案件信息数据库的搜索,查找出被执行人在其他法院胜诉获赔的信息,方便法院执行。以上模型图由于受目前司法统计方式局限,只能以估值表示。
模型七:案件执行情况
模型七为案件执行情况模型。由于被执行人下落不明,法院判决书往往成为一纸空文,还有的被执行人恶意隐匿、转移财产,难以查找到被执行人可供执行的财产,执行标的额较大,动辄几十万、几百万甚至数千万元不等,而借款人缺乏必要的抵押、担保,案件不得不以终结本次执行程序的方式结案,案件虽执结但申请人的实质性债权却难以实现,因此借助互联网查找被告的婚姻状况、房屋车辆、公司规模、抵押担保、信用评价等情况犹为重要。此模型可以克服对被执行人公开信息“开发挖掘不足”的弊端,“海淘”出执行线索,为后续的执行提供方便。
3、预测分析:与关键词相关的背景与未来趋势模型
这一“趋势模型”处于“分析原因”和“制定对策”阶段。发现异常值,需要分析造成这一异常的原因。看异常发生的时间节点,看内部和外部的关联活动,看问题发生原因的构成,并把原因分解成独立的元素一一列出,标出权重,哪些是相对影响较大的,哪些又是可能的原图,在正确分析了相关原因后,给出解决的方法和对策。大数据开启了一次重大的时代转型,对于法院生活、工作和思维的变革也正在蓄势待发,法官可通过提取案件信息获得潜在价值和收益。在大数据思维指导下,可通过提取互联网上有关目标关键词的时政新闻,检索出与其相关的政策文件及形势数据,探讨关键词发生的背景和未来发展趋势,可预测未来法院该类案件的发展情况,因此该模型可称为扩展司法统计的“大数据”模型。
模型八:案件历年发展形势
模型八为民间借贷纠纷历年发展形势模型。由以上数据可知,民间借贷纠纷案件数量持续处于高位,诉讼标的额也逐年上升,([7])已成为我国民事诉讼继婚姻家庭之后的第二大案由,这组“惊人”的数据是与国际国内经济形势分不开的。国际金融危机余威尚在,钢铁、矿产等行业的不景气导致项目搁浅,部分中小企业资金链断裂,而国家货币政策从紧,中小企业、个体工商户向银行等金融机构融资困难,而老百姓手中有充裕的闲散资金碍于股市与楼市的投资风险无法找到稳定的投资渠道,双方互有供需,但随着民间放贷规模扩大,多级转贷、高利贷等投机行为增多。在金融泡沫破裂后,由于社会诚信的缺失,债务人因资不抵债大多选择“跑路”,导致民间借贷纠纷骤增,审理难度加大,给民事审判工作带来空前压力。
模型九:未来发展趋势
模型九为未来发展趋势模型。由于民间融资的活跃,给我国金融市场秩序带来较大冲击,也为法院的审执工作带来较大影响。受互联网发展的影响,越来越多的散闲资金已不仅仅满足于传统的民间借贷方式,而更多的投向于网络借贷P2P。由于缺乏相应的风控配套机制,互联网信息不透明、信用数据缺乏,导致广大的个人投资者承担着网贷泡沫破裂的巨大风险,2015年底中国最大的“庞氏骗局”e租宝以涉嫌非法吸收公众存款罪被公安机关立案侦查就是最典型的案例。可以预测,未来随着民间借贷主体的广泛化和借贷方式的多元化,将会有大量新型民间借贷纠纷成讼,因此,一方面需尽快明确P2P网络借贷平台责任,另一方面在审理这类案件时可通过运用大数据采集更多信息(如模型九),以规范互联网借贷环境。
三、成果转化:大数据思维对民间借贷纠纷案件司法统计的应用
(一)破除最后一道藩篱,化解执行难
对于仅是亲友之间的小额借贷行为,积极促成当事人间作出让步,达成调解、和解。对于有偿还能力而拒不履行判决的行为,要加强信用惩戒措施,落实财产查控机制,2014年最高院正式开通了执行指挥系统,既方便了对案件的管理,又方便了运用网络查控被执行人情况,并对失信被执行人进行公开与信用惩戒。因此,在大数据时代,要继续充分利用大数据挖掘与云计算技术的信息采集与存储功能,将法院案件信息管理系统与房管部门、银行等进行信息共享建成网络化、自动化的查控平台,不仅审查被执行人名下财产,还要将调查范围扩展至其配偶和成年子女,防止其借假离婚等方式转移财产规避执行。将案件信息管理系统与征信系统联网,采用上失信被执行人黑名单、限制高消费等方式,加大曝光力度,用舆论迫使敦促其履行债务;对长期下落不明的,主动和公安、社区等开展联网查找财产和被执行人线索。在大数据时代,获取被执行人信息渠道更加多元化,被执行人的通信、社保、银行、交通、交易、社交及各种碎片化的APP搜索历史记录都是待采集的数据源。
(二)舆情分析
民间借贷纠纷已从传统的单纯基于地缘、血缘产生的熟人-熟人间的直接借贷行为演化成小额贷款公司、“影子银行”等职业放贷人大量吸收民众资本形成复杂的利益链条,涉及人员众多、辐射面广,一旦资金无法收回,极易发生群体性事件,法院裁判结果也极易在互联网上酿成舆情,激化社会矛盾。因此,可借助百度、谷歌等搜索引擎运营商,从后台数据库中提取“民间借贷”作为搜索词的对应搜索量,并将海量数据进行凝练和萃取,一旦发现有舆情热点事件及时预警,避免触发损耗社会资源管理的“火药桶”。
(三)司法建议
法院可通过向社会发布有关民间借贷纠纷的典型案例、召开新闻发布会等形式向社会公众宣传增强民间借贷风险意识,对重要事项作出明确约定,从源头上预防和减少类似纠纷发生。另外,可向银监会发放司法建议,继续深化金融改革,创新个人金融理财产品、鼓励民间将闲散资金投放到正规金融机构,加大对中小微企业的融资信贷扶持力度,拓展融资渠道。引导企业加强内部投资监管,在技术上创新,不断提升核心竞争力,助推企业转型升级。
四、放眼未来:建立司法视域下的“大数据思维”司法统计方式
国务院《关于印发促进大数据发展行动纲要的通知》系统地部署了我国大数据的发展战略。在大数据时代,人类的一切行为包括司法审判都是以数据的形式被存储与处理,上文以民间借贷纠纷案件为视角的分析证明了大数据思维对司法审判领域创造了新价值,为庞大的司法统计数据与信息资源注入了新活力。由此可见,在司法视域下的大数据并非仅是海量的案件数据信息的层叠,更重要的是一种思维方式的转变,它为法官在研判案情、认定事实与法律适用的方法上开拓了一种新的范式,因此改变传统的“小数据”司法统计方式,建立宏观的“大数据”思维统计方式具有必要性。
(一)宏观维度:转变传统的“小数据”观念与决策方式
1.决策者要树立大数据的司法理念。看到媒体、律所等民间机构已然通过运用大数据对法院工作报告形成了“倒逼”的紧迫态势,如若法院系统仍然采用传统的依靠经验和抽样分析等粗放式的统计方法,则似逆水行舟、不进则退,被大数据浪潮湮灭。因此,需要法院决策者尽快树立“大数据思维”、发展“大数据战略”,摆脱传统的调查问卷、抽样分析、个人经验与长官意志的研究方法,转变为用“让数据发声”来指导决策方式,避免只埋头办案不注重数据积累,要从海量的司法审判数据中挖掘相关的审判态势,揭示案件背后的真实法律状态,为法院的司法决策、审判管理、体制改革、队伍建设、理论研究发挥重要作用。
2.司法统计工作要迎合大数据的客观潮流。正如前所述,在大数据时代受冲击最大的当属司法统计工作,传统报表汇总的信息收集方式已难以满足服务审判管理的需求。大数据“数量大”的特点决定了司法统计工作任务的繁重,不仅要采集案件信息,还要采集与案件有关的社会风险评估、当事人认同度、经济社会发展信息、国家政策意见、社会公众舆论与网络舆情等数据信息;大数据“速度快”的特点决定了司法统计数据要实时更新,高效为司法审判服务;大数据“种类多”的特点决定了司法统计工作需要通过运用多种工具和技术对法院系统的司法信息数据进行搜索、挖掘,还可通过购买、委托咨询机构的方式采集相关社会数据;大数据“价值密度低”的特点决定了司法统计工作要注重服务领导决策和审判管理;大数据“获取方式真实性”的特点决定了要树立“数据真实是司法统计生命”的观念,司法统计工作的指标体系、统计标准、关键信息采集与筛查等内容需要更客观、更专业、避免受人为干预。
3.发挥信息技术的引擎作用。司法统计工作要想迎合大数据时代的改革与创新,必须加快推进发展信息化技术建设的脚步,使司法统计的角色定位从“幕后”走向“幕前”,尽快形成以大数据为基础、以数学模型为支撑、以分析预测、决策参考为核心的完整的司法统计体系。但是法院干警对海量信息化数据的采集分析技术较弱无疑掣肘着大数据潜能的发挥,因此,为了要让大数据不仅“看上去很美”,而且“用起来很实”,要加大与高校、科研机关、名企软件公司的合作,引进先进人才,利用其先进的信息化技术和大数据资源,构建符合法院自身特点的大数据平台。同时加强与检察院、公安等司法机关的数据信息交流共享,把握形势,提高预警预判能力。([8])
(二)微观维度:构建符合法院特点的司法统计“大数据库”
1.构建全国法院案件信息管理数据库。传统的司法统计月报表层层报送与汇总的模式已经无法满足法院审判管理与决策的需求,司法统计模式亟待创新,必须以改革司法信息的采集为基础。可将案件审判管理信息系统、裁判文书上网系统、庭审录音录像系统、电子卷宗系统、审判流程与执行信息公开系统等诸系统强化整合至一个全国统一、共享开放、动态更新的全国法院案件信息管理数据库,有效的连接全国法院案件数据信息,形成“互联网+”的“智慧法院”。全国法院都是该数据库的构成单位,既为数据库提供素材和报备,也享受海量数据资源。通过快速智能地收集、提取、筛选这些案件信息,可全面、准确地反应案件审理过程中产生的各类信息,对其进行分析、归类与总结,并对混杂性数据进行关联性分析,判断审判工作中易被忽略的难题与趋势。随时自动生成案件司法统计报表,避免传统手填报表导致的数据不真实、不完整的弊端。
2.将信息化的“大数据思维”引入审判管理。目前的司法统计指标多集中于案件质效情况,鲜有宏观管理与审判流程指标的设置。建议构建全网覆盖、互联互通、数据共享的信息化体系,在全国法院推广实现网上办公办案,将案件从立案到执行各个环节全部纳入最高院数据库统一管理。做到案件的每个流程节点信息能实时录入、动态更新,既方便对各家法院的审执工作进行事后监控,“一案到底”,也方便对案件海量数据进行分类、检索与对比分析,发挥事前、事中的预测与分析功能。与此同时,还要注意不同地域、不同审级法院在人员、物资等基础条件方面的区别,“数字”仅是“体检表”不是“成绩单”,要及时关注“大数据”所反映出的不同法院之间的特色亮点与薄弱环节。([9])
3.以大数据为依托助力法院司法改革。当前司法改革过程中,很多法院对于法官员额与辅助人员的测算是以实际结案数为依据,而忽视了案件难易程度等,造成人员分配比例失衡,工作效率低下等弊端。因此,可以大数据为依据,综合考量案件难易程度,推行繁简分流,科学设置绩效考评指标,同时可根据大数据库自动生成文书模板,推行令状式、要素式裁判文书,倡导简案快办。通过对海量数据的挖掘分析构建各类案件的裁判模型,为法院裁判案件提供参考,达到对数据“二次利用”的目的,在执行工作中也可引入大数据思维,将案件信息与社会信息有效对接、形成合力,实现全社会信息共享与联动,让“老赖”无处遁形,破解执行难问题。([10])
结 语
“大数据是一种资源,也是一种工具。它告知信息但不解释信息。它指导人们去理解,但有时也会引起误解,这取决于是否被正确使用。” ([11])大数据思维的建立既需要从领导决策上得到认同,又要在软件和硬件上做到双重开发利用。我们相信在深化司法体制改革的大背景下,司法统计队伍会得到越来越大的重视,大数据时代的到来使法院正在蜕变成为“云端上的法院”,而司法统计数据作为审判过程中遗留的最珍贵的“宝藏”,在遇到大数据搜索引擎、社交平台、云计算时,其应用前景会愈发广阔。(本文获全国法院二十八届学术讨论会三等奖、天津市2016年度学术研讨会论文二等奖)