当前位置: 首页 > 司法调研 > 调研园地
全国法院系统第三十二届学术讨论会一等奖
作者:周莉、成文武  发布时间:2021-11-10 18:14:02 打印 字号: | |

“案”以类聚:人工智能辅助下

类案推送质量的路径优化

——以信息维度提高用户需求为视角

 

论文提要:

裁判文书上网的井喷式增长使传统类案检索难以满足法官用户的办案需求,加快类案推送的智能化、精准化,为法官用户提供准确类案推送服务迫在眉睫。本文以定量调查为基础,初步呈现了类案推送在审判中的多重异象:推送平台的功能弱化、推送范围的适用不一、办案需求的有限满足、推送受众的运用失灵,由异象得出“类案推送质量不高”的结论,进而从集合质量、内容质量、效用质量、形式质量四个维度出发,深入描述了导致类案推送结果偏离用户需求的质量短板。文章引入质量控制为理论框架,提出以法律思维融入、用户特征挖掘、用户反馈引入为切入点纠正质量偏差,实现“数据-用户-结果”全流程优化,实行反复过滤与深度加工的数据提炼,通过法官用户画像的勾勒进行个性化推送,围绕相似度、历史参考采纳率、案例生效时间对呈现结果进行改进,将用户反馈作为类案推送的最后一道屏障。

主要创新点

    本文通过实证分析发现类案推送存在四个异常现象,得出异象是由类案推送质量不高所导致的初步结论,深入剖析类案推送存在的质量短板,认为质量短板的存在共同造成了“类案推送结果偏离用户需求”的后果,提出应从法律思维融入、用户特征挖掘、用户反馈三个方面纠正质量偏差,才能实现类案推送的真正价值,提出应围绕类案推送流程进行优化,从源头上打破了数据壁垒,以用户特征和微观行为勾勒法官用户画像,通过挖掘用户真实需求实现个性化推送,结合相似度、历史参考采纳率、案例生效时间对类案呈现结果进行改进,设计了类案推送的最后屏障——用户反馈。

“同案同判”表现了法律适用上的平等,是正义的核心。

——【德】阿图尔·考夫曼

 

 

“提升类案推送的智能化、精准化水平”是最高人民法院《关于统一法律适用加强检索的指导意见(试行)》(以下简称《指导意见(试行)》)中明确提出的要求。从关键词主动搜索到类案智能推送,类案智能平台确实已实现了从0到1的突破,但仍有学者认为,“这些类案推送平台仍处于只有人工没有智能的层面。” 亦有学者认为,“如果不将算法与法律思维相融合,这些类案推送平台将是没有灵魂的技术躯壳,不会在司法实践中发挥出其应有作用”。目前,学术界对类案推送的研究成果不多,主要集中在类案推送的制度构建、算法构架上,对类案推送在司法实践中的实际效果如何、如何提高类案推送质量等方面鲜有研究。为此,本文从类案推送质量的不同维度出发,通过控制类案推送的每道关键工序,确保类案推送结果尽可能贴近法官用户真实需求这一质量要求。

一、初:类案推送在审判实践中的实然状态

      为考察类案推送在审判实践中的实际运行状况,笔者通过人民法院官网报道、本院法官座谈会、面向Z市法官随机发放100份调查问卷等方式搜集资料,以定量调查方法呈现法官用户使用类案智能推送系统的真实感知。其中,调查内容涵盖:(1)遇到何种情况时,需要使用类案推送;(2)通常在哪个阶段需要使用类案推送;(3)基于哪些原因使用类案推送;(4)对类案推送哪些方面表示满意。

(一)推送平台的功能弱化

    如果说通过主动输入关键词进行类案检索的平台属于初代类案智能平台,那么在以中国裁判文书网、法信为代表的初代类案智能平台之后,主要出现了三种类案推送平台:一是进阶的“类案检索”,通过细分案由、拆分关键词进行检索,虽能得到更准确的推送结果,但仍需法官进行人工甄别;二是初级类案推送,即通过图像识别、语义理解抓取案件要素,但不能适用于规范化低的复杂案由,往往准确性不高;三是交互频繁设计的类案推送,即通过设计多层级前提条件,法官通过多轮交互对话获得精确结果,但每一次的交互对话都容易与原意偏离。可见,在初代类案智能平台之后,各种类案智能产品仍没有实现真正意义上的人工智能推送。

 

(二)推送范围的适用不一

   《指导意见(试行)》第二条对类案检索适用范围予以明确,在一定程度上避免了全面检索给法官带来的负累。2019年,全国法院法官人均办案228件,同比增长13.4%,有些地方法院法官人均办案数量甚至超过500件。在案多人数的今天,办案法官并不会对全部案件采用类案检索,全面推送显然也缺乏推广土壤。然而,《指导意见(试行)》没有对“其他需要进行类案检索的”这一条文进行明确规定,容易导致审判实践中出现适用不统一的情形。如图1所示,办案法官对《指导意见(试行)》规定的三种类案检索情形基本达成一致意见,但对其他需要进行类案检索的情形产生了一定的分歧,遇到新型案件需进行类案推送有74人,遇到自由裁量权行使中存在裁判尺度不一需要进行类案推送有58人,遇到拟作出的裁判与本院或上级法院的类案裁判可能发生冲突有51人,遇到其他情形有33人。

 

 (三)办案需求的有限满足

如表2所示,从庭前准备阶段到案件审理阶段,再到结案阶段,办案法官都有类案推送的需求,且在不同的庭审阶段会有不一样的需求。然而,现行类案智能推送系统只能满足办案法官的部分需求:一是在庭前准备阶段,能辅助搜索类似案例,仍需要办案法官自行整理审理要点;二是在案件审理阶段,能提供大量相似事实情节的案例样本,但无法根据法官类型、个人偏好进行及时的个性化推送;三是在结案阶段,能提供类案集合的基本事实、争议焦点、证据认定、判决结果等,但无法对裁判结果预判、对裁判偏离度提示、对类似裁判思路总结。可见,现行类案推送还不算真正意义上的人工智能推送,只能有限满足办案法官的办案需求。

 

(四)推送受众的运用失灵

      类案智能推送系统是人工智能与法律深度融合的产物,而法官则是法律与技术之间的连接者,也是类案推送产品的质量检测员。为了通过窥视法官对类案智能推送系统不同方面的满意程度,进而呈现类案推送质量短板所在,笔者在调查问卷中融入以下评价指标:1.相关性,即智能推送的案例与法官需求很相关的;2.权威性,即智能推送的案例是令人信服的;3.准确性,即智能推送的案例是准确的、无错误的;4.精简性,即智能推送结果简练、直观、一目了然;5.易懂性,即智能推送结果易于理解;6.广泛性,即智能推送的案例很多,涉及法院广泛;7.审判辅助效用,即智能推送的案例有利于辅助审判工作。由图2可见,现行类案推送在相关性、准确性方面明显存在质量短板,在易懂性、广泛性、精简性、审判辅助效用方面亦有待提高。

 

二、偏差:类案推送在审判实践中的阿喀琉斯之踵

“信息质量维度是指信息满足用户要求和使用目的的基本质量特性。”类案推送结果属于信息的一种,自然可通过不同信息质量维度进行评价。为深入考察类案推送在审判实践中的运行困境,需从不同维度对类案推送进行质量评估,具体如下:

 

(一)集合质量之维:数据冗余导致类案推送遗漏

类案推送系统的数据主要来源于中国裁判文书网,如果缺少过滤、整合的过程,过多冗余信息会导致有效资源难以提炼,造成推送遗漏的窘境。

    1.公开时间的断层。中国裁判文书网于2013年才开始逐步建立,此后生效裁判文书才开始集中上传至这一平台。囿于案卷电子化的时间较晚,上网案例的发布时间大多在2013年之后,造成当前的数据库缺乏“历史底蕴”,可推送数据仅局限于2013年至今的上网裁判文书,以致推送结果存在年份上的遗漏。

    2.公开地域的失衡。浙江、山东、安徽、河北、陕西公开结案比超过60%,而有些省份如黑龙江、西藏要低于20%,总体看,经济发达省份的公开文书量不仅超过经济落后省份,公开比例也相对更高,导致推送数据库的完整性受到掣肘,可推送数据存在地域上的遗漏。

    3.公开技术的掣肘。类案推送目前采用搜索为主的推送方式,通过叠加多个关键词,在一定程度上限定搜索范围,以达到推送目的。然而,缺乏核心法律技术细节设计支撑,最终推送结果只是机械包含搜索关键词的大量文书,而非真正意义上的类案,无法解决业务核心难点。

    (二)内容质量之维:类案甄别失真徒增时间成本

    1.类案标注不全面,导致结果失真。目前的类案推送系统主要通过关键词搜索方式运行,即用户通过检索关键词的形式达到推送目的。若争议焦点、亟需解决的法律问题段落没有被设置成相应的要素标签,且数据库中文书包含的表达词汇与用户键入的关键词不一致时,即使该文书实际上有关于该争议焦点或疑难法律问题的专段论述,也无法出现在最终推送结果中。

    2.类案要件不标准,引发重复筛选。通过相关性选项排序的推送结果,往往是数据库文书与用户搜索关键词的一致性体现结果,有的仅是案件特征形式上相似,实质法律关系上却与待决案件大相径庭,无法精准满足用户的推送需求。虽然通过多次筛选、甚至全文检索逐一比照,用户也能得到所需信息,但会耗费大量时间成本。

    可见,只有采用更精准的信息抓取方式、更先进的个性化推送技术,才是当前类案推送在人工智能辅助下的应有之意。

(三)表达质量之维:推送呈现无序引发用户质疑

    最高法第一批指导性案例于2011年12月发布,至今已发布21批共112件指导性案例。但审判实践中遇到的疑难问题千差万别,大部分超出指导性案例的涵盖范畴,故类案推送结果大部分来源于已公开的裁判文书,需要法官结合自身经验对推送结果进行甄别。一方面,在类案推送系统中,指导性案例和典型案例等没有区别标识,混杂于普通案例之中;另一方面,未对普通案例文书进行筛选,很多数据存在错别字、要素不全等形式上的缺失,又或存在不同程度的说理不清、论证不明的情况。类案推送呈现结果若没有经过滤、筛选、排序等流程,必然会导致法官用户由于甄别耗时过长,引发对类案推送的信任断裂,最终对类案推送结果产生质疑,这既有违类案推送系统设计的最初意图,也有悖借助类案推送提高裁判文书质量的初衷。

(四)效用质量之维:推送结果偏离用户需求

    如果说统一裁判尺度是类案推送的基本要求,那么,在人均办案任务数日益增长的今天,基于过程和效果的整体考量,类案推送的主要目的应定位在效率上。

    1.精准推送的制约。法官真正需要的是某个疑难问题的主流观点、案件裁判思路以及论证说理的方法等,而现行类案推送只能识别具有相似性的文书字段。现阶段文书格式化程度并不高,某一特定字段可能与检索者的实际需求相去甚远,且类案推送系统的数据获取方法过于简单,缺乏深层加工,易导致结果偏差。

    2.智能推送的不畅。在全文显示的推送模式下,法官需要花费大量时间去逐一甄别法律争点,通过阅读上述文书中的论证说理部分,自行提炼相关裁判思路、观点,对多篇文书中不同的裁判思路、观点进行对比,选择最符合自身需求的文书论证说理部分采用。也就是说,传统类案推送系统中的推送结果并非用户最终的需求,只是从数据库中完成了部分数据的初步筛选。如果不结合法官自身的二次人工筛选,原始推送结果可提供的只是案件与法官之是点对点的推送,而不是具有不同价值取向或裁判规律的类案模块与法官之间面与点的对接。

    正因为大海捞针般的检索可能远不如按既有经验判决来得快,所以在衡量时间成本与效率价值后,很少会有法官愿意花费大量时间用于类案检索以规避“质量”隐患。

三、改进:人工智能辅助下类案推送的优化思路

只有了解人工智能辅助下类案推送的真实当下,才能预判和迎接它的可能未来。在清楚知道类案推送在审判实践中存在的质量短板后,下一步才能从宏观层面到微观层面对类案推送进行优化。

(一)法律思维与类案推送架构的融合

    “法律人工智能产品如果没有立足法律人活动的场景需求,没有尊重法律思维和体现法律方法,那么在实践运行中难免水土不服并产生一系列问题,进而导致无法充分发挥法律人工智能产品的积极效能。”首先,要将法律科学技术与法律业务场景紧密结合起来,确定标签体系的合理性,类案推送的结果才能具有最佳的数据匹配效果;其次,需要具有法律业务知识的人加入法律知识图谱的建立队伍中,完善现有类案推送系统的知识架构体系,用“司法话语”充实类案推送知识图谱,尽可能贴近法官思维规则和司法推理过程。“法律知识图谱的提炼不仅需要足够优秀的专业法律知识,而且更是一项复杂工程。”最后,要将裁判思维方法与类案推送相糅合,以民商事案件为例,曾有法官归纳了七种典型的民商事裁判思维,分别是回流型、往返型、衡平型、循环型、同步型、逆向型、顺向型。在请求权为基础的裁判思维指导下,根据不同类型案件的审理步骤,尤其是针对重大疑难复杂案件、新型案件进行裁判思路的归纳。

 

(二)用户特征与类案推送模型的糅合

在人工智能辅助下,类案推送结果应是基于科学的模型及算法产生的,相较于传统类案检索方式而言,不受用户检索操作水平的掣肘,能够有针对性地为用户提供经过筛选的推送结果。就法官用户而言,每个法官都有自己独特的特征,如何捕捉法官用户的多维特征,进而挖掘其真实需求,对于类案精准推送至关重要。一是用户的静态特征,所处庭室、从事审判工作时间、受教育程度等。例如,在最高院发布新的典型案例时,或是通过智能对比识别,发现类案数据库中有文书与某位法官用户主办的待决案件相似度较高时,根据不同案例类型对不同庭室的法官进行精准化类案推送。二是用户的动态特征,所处庭审阶段、检索习惯、查询领域等。根据案件所处不同庭审阶段,对法官用户进行个性化类案推送,以便于法官用户理清审判要点。只有将用户特征与类案推送模型深度糅合,才能挖掘用户的真实需求,使用户逐步脱离“个体经验”依赖,建立对类案推送结果的信任关系。

(三)用户反馈与类案推送优化的交互

    类案推送是人工智能与法律深度融合的产物,而法官不仅是类案推送产品的使用者,亦是类案推送产品的质量检测员。一方面,对于类案推送结果在审判实践中运行效果如何、存在哪些不足等问题,法官更有话语权。根据法官用户的反馈意见,对类案推送系统进行针对性调整、优化,能让类案推送结果更加切合法官用户的真实需求;另一方面,建立一套科学的、操作性强的评价体系,既可以规范推送的模式、便于量化执行,亦能提高推送结果的采纳度、匹配度,满足法官用户更高层次的需求。通过量化评价体系,对推送结果从多个方面结合进行质量评价,用户能从最终的综合评分中,自行评估结果的参考价值度,从中筛选采纳所需的推送结果。

四、纠偏:人工智能辅助下类案推送优化的具体路径

为达到质量要求,在质量形成的全过程的每一个环节所采取的作业的技术和活动称为质量控制。“广义上的质量控制就是确定系统过程的状态以及纠正质量过程的状态以及纠正质量过程偏离质量目标的质量管理活动。”根据类案推送的质量短板,围绕类案推送的特点,提出把握每个环节的关键点,构建类案推送质量控制机制,旨在保障类案推送的相关性、准确性、易懂性、及时性和可用性。

(一)源头治理:通过“三增一减”打破数据壁垒

根据《指导意见(试行)》第三条的规定,办案法官要依托中国裁判文书网、审判案例数据库等进行类案检索。假如没有优质的法律数据库,类案推送就犹如空中楼阁,无法为办案提供信息支撑和保障。类案推送并非需要浩如烟海的数据,高质量的数据才是确保类案推送质量高的第一步。

本文认为,可以通过三增一减来建立目标数据库。一是加强全国法院历史裁判档案的电子化,由各个法院对历史数据进行逐步整理,实现司法数据系统化、完整化,减少时间跨度上的缺失和断层,从中提炼经过时间验证的司法经验,以应对日益增长的新型、疑难、复杂案件的推送需求;二是加强全国各地法院裁判档案的公开化,尤其是针对上网文书公开率偏低的地区法院,以避免目标数据库在地域上的失衡,更合理;三是加强法律法规、司法解释、指导意见、指导性案例的填充,及时更新目标数据库的数据;四是减少重复冗余信息。类案推送系统的数据库可以基于中国裁判文书网、审判案例数据库,但不能完全复制沿用上述数据,在筛选目标数据库的准入数据时,要以是否具有参考价值、参考价值高低作为准入标准。目标数据库的筛选队伍应配备相应的法律专业人士,对无法抓取裁判思路的、论证说理过于简单的类案文书予以排除,对重复的类案文书进行过滤、整合,以此降低用户获取有用信息的时间成本,提高推送效率。

(二)流程设计:以用户为中心,提升智能化、精准化水平

针对类案数据库中的数据庞大、质量参差不齐且均为非结构化数据的特征,本文认为,流程设计应从数据、用户和结果为主体出发,以用户为中心,实现类案推送流程智能化、精准化。

1.以“数据深度加工”塑造法律知识图谱。

1)加载法律专有名词词典,将类案数据库中的文书样本数据与待决案件的起诉状、答辩状等电子档案中的非结构化数据进行深度加工;(2)构建法律同义词词表,并基于语言转换策略实现同义关系的抽取,即将同义词、近义词进行汇聚归类;(3)利用Jieba工具包的分词功能和词性标记功能,对文本数据进行分词以及词性标注,避免出现分词时将法律专有名词分开的情况,并对名词集中的非领域概念进一步剔除。通过数据的深度加工,进一步规范文书框架与文字表达,将类案数据库的文书与待决案件自动生成为个案知识图谱。

 

 

 

 

 

5:法律知识图谱在类案推送中的简单示例

2.以“用户特征+微观行为”勾勒法官用户画像。

“门诊式”审判新模式下,不同审判团队的审判方向各有不同,即便在同一个审判团队中,由于法官的性格、办案经验、办案风格各具特色,对类案推送的需求偏好,亦各有不同。“用户画像的刻画通常涵盖用户的多个属性--需求、行为、兴趣、心理、性格等。”通过用户画像的构建,可以通过挖掘用户的真实需求,可以有效提升类案推送的精准度和智能度。具体过程如下:

1)用户特征分析。采集与法官用户相关的多源数据,包括用户的姓名、性别、所属法院层级、审判团队的类别、负责案件类型、年龄、办案年限、办案经历、推送需求偏好数据等;

2)微观行为挖掘。透过类案推送系统中的用户日志信息,可以采集法官用户的微观行为信息,以此挖掘法官用户偏好。从法官用户在事实查明、说理论证、法条引用、判项表述等各部分停留的时长以及用户复制引用的样本结构频率等微观行为信息中,可以提取用户关注的重点模块。例如:用户在阅读类案文书时,在说理论证部分耗时最长,且复制引用的样本多为类案数据中的说理论证部分,则可以得出该用户重点关注说理论证部分的结论。在此后的推送中,可提高说理论证部分相似度的推送权重和赋值,并以区别字体、颜色显示该部分推送内容。将用户的行为信息利用神经网络进行建模,模拟微观行为和宏观交互信息,捕捉各类行为序列对推荐结果的影响力,得到行为偏好向量,即为实时的用户画像行为特征;

3)用户画像聚类。依据用户的微观行为特征进行实时的用户画像更新,通过用户的相似度计算,在已构建单个用户画像的基础上,进行用户聚类,形成聚类用户画像。

 

6:家事审判庭初任法官画像与资深法官画像

3.以“分类逐层检索”重塑推送呈现。

在推送过程中,效力层级、地域范围、推送类型、案件相似度、裁判日期均是优先推送所需要考虑的因素。为提高推送精准度和推送质效,可实行“分类逐层检索”的方式。

一方面,对于不同层级的案例,可以参考《指导意见(试行)》第四条进行排序。在第一层级中,与新的法律、行政法规、司法解释相冲突或者为新的指导性案例所取代的,一律不予推送。除第一层级外,均遵循已推送前一层级的类案,可不再推送后一层级的类案这一原则进行,并在推送结果中标明相应的层级信息。若在上述规定的范围内无法找到类案,本文认为,可以对本省其他法院(除本市)裁判的案件、全国其他法院(除本省)裁判的案件进行推送。

另一方面,对于同一层级的案例,需要结合相似度、历史参考采纳率、案例生效时间等因素进行排序,可以将因素权重初始设定为:相似度>历史参考采纳率>案例生效时间,通过融合算法形成最终的类案推送权重,并据此按照降序进行排列。(1)相似度:指的是与待决案件在基本事实、争议焦点、法律适用问题等方面的相似程度。(2)历史参考采纳率:对推送结果的采纳过程,实际上也是用户对推送类案文书样本的检验过程。一篇类案文书被参考采纳入待决案件裁判文书的次数越高,该文书质量高的可能性越高。(3)案例生效时间:法不溯及既往,法律条文更新的速度日新月异。裁判文书生效时间越新,运用已废止、已修改法律条文的可能性就越小,蕴含的法律思维也会符合主流观点。《指导意见(试行)》亦规定,优先检索近三年的案例或案件。

 

(三)质量保障:基于人机交互的质量动态量化评分机制

类案推送系统与法官用户之间更多体现为一种单向互动,而法官用户在推送过程中的认知和需求是一个不断变化的过程,应意识到法官用户对系统实时反馈的重要性,设计一种人机交互的动态评分机制,用于监控推送质量,在法官用户提供反馈的过程中不断对系统进行调整和优化。

根据法官用户的真实需求,将类案推送质量拆分为以下几个构成因素,进一步测度指标权重,对质量进行评分。1.相关度,指的是推送结果和用户需求的匹配度,简言之,就是推送案例与用户需求的相关程度。推送案例与待决案件越相关,代表推送结果质量越高; 2.准确度,即推送的案例是准确的、无错误的,小到字体错误、格式错误等,大到事实认定错误、证据采纳错误等。推送案例错误越少,准确度越高;3.易懂度,即推送结果简练、直观、一目了然,易于理解。法律知识图谱越层层递进、越环环相扣,易懂度越高;4.及时性,即推送案例是否及时更新。假如推送案例所依据的法律条文内容或呈现的裁判观点早已发生变化,则类案推送质量较低;5.采用度,即根据推送样本被采用的次数,对其进行相应的评分增减。采用次数越多,则该项评分越高。根据以上五个因素对推送结果的影响力及重要性,可以将因素权重初始设定为:相关度>准确度>易懂度>及时性>采用度,根据权重比例智能生成推送结果的质量估分。在法官用户使用过程中,根据类案推送结果的满意度,参与到推荐结果的反馈评分中,对质量估分进行动态调整,以实现人机交互的交流反馈,最终让推送结果与法官用户期望值不断贴近。

 

 

对于办案法官而言,真正的需求是发散裁判思路、寻找类案裁判规律,而不是大量案例的简单汇总。目前,市面上的类案推送平台不能算是真正意义上的类案推送产品,不能满足办案法官的真实需求。本文将信息维度与用户需求相结合,提出以质量控制为视角,通过控制类案推送的每道关键工序,从而促使类案推送结果真正符合办案法官的真实需求。碍于笔者理论水平不足的限制,本文中的建议不够严谨完善,但希望能引起理论界和实务界更多的关注与研究,为审判实践提供有益的指引。


 

 
责任编辑:李凌岩