源社会科学文摘2023年第10期P17P18
作者单位浙江大学光华法学,摘自法学论坛2023年3期,李树民摘
新一代法律智能系统在演化过程形成了机器学法律大数据的法律人工智能道路与逻辑推理法律专家知识的法律逻辑道路。大数据驱动的法律人工智能使用深度学算法挖掘法律文本大数据,推动了法律文本分析又称法律文本挖掘研究,辅助类案检索判决预测法律文书自动生成等任。生成式人工智能ChatGPT就是利用深度学算法构建预训练大模型,从大数据学人类的知识并自动化生成文本,同样在法律文书写作等任有良好的表现。法律逻辑道路在兰德尔C.Langdell时期受到公理化思想的影响,启发法学理论从法律概念法律原则法律规则三个维度构建法律系统。在弗雷格G.Frege之后,受到现代逻辑的影响,法律逻辑学刻画了权利与义可废止性模糊性等属性。基于规则或案例的法律专家系统实现了法律推理的自动化,论辩的人工智能研究又推动法律逻辑学研究法律论证的分析和评估理论。
新一代法律智能系统的融合体现在大数据驱动的法律人工智能与法律逻辑学的融合。两种路径各有优缺点,在融合上可以借鉴对方的优点弥补自己的不足。法律逻辑学突出法律人的演绎式思维,而大数据驱动的法律人工智能突出法律人的归纳式思维,法律人进行决策往往需要综合这两种思维。因而,两种路径的融合本质上是源于两者的相互需要,法律逻辑学有助于解决大数据驱动的法律人工智能的不可解释性和黑箱算法等问题,而法律人工智能系统弥补了法律逻辑学的知识表达缺陷,提升了推理和计算结果的表现力。
新一代法律智能系统的融合思路是发挥两者的优势弥补对方的缺陷,表现在法律推理与法律文本大数据分析的优势互补。在符号主义与联结主义路径相融合的背景下,法律逻辑学对大数据驱动的法律人工智能的可解释性问题给予了理论阐释,融合路径上既可以将法律推理的逻辑属性嵌入法律文本分析当,构建符号神经网络等新方法,也可以从先例文本学逻辑关系并预测新的逻辑属性,从而自动化地发现结论前提及其关系,实现对结论可信度的自动化评估。
一法律大数据分析的符号化研究
法律大数据分析的符号化思想是在法律文本大数据分析嵌入因果关系等符号化要素,即通过在法律大数据驱动的机器学嵌入逻辑推理,使得输入和输出之间呈现出因果等逻辑关联的特征,从而提升可解释性。在法律人工智能领域,学者们很早就关注到神经网络与符号推理之间的关系。菲利普斯L.Philipps就试图融合神经网络和模糊推理刻画法律推理理论,神经网络和模糊逻辑之间有诸多相似之处,它们之间可以互相适应,神经网络可用于调整模糊逻辑,两种方法应用于法律推理的运行机理有高度的相似性,也可以联合构成一个混合系统。阿什利K.Ashely也尝试在案例推理和文本信息抽取两个方面建立起联系,设计了一种SMILEIBP的算法程序预测司法判决结果。这套技术的运作思路是通过从已经判决的案例当抽取文本描述信息,然后再应用这些信息去预测新案例的结果。该程序首先选取一些决定法律结果的要素,接着对法律问题相关的事实文本描述进行分类,而后在这些分类之下,程序进一步评价和解释如何从此前已经分类的案例当预测当下法律问题的结果。
法律文本分析符号化的主要目的还在于从法律文本数据获取知识,法律知识图谱成为获取和组织法律知识的新方法。法律知识图谱构建将法律概念看作图谱的实体,将实体之间的关系看作法律概念之间的逻辑关系。法律知识图谱将法律文本的法律知识以一定的法律逻辑关系联结起,从而形成法律概念法律规则案件事实和证据之间的逻辑关联。技术机理上,知识图谱采用图谱向量化表示方法将法律知识转换为计算机能够理解的知识表示,再使用不确定性推理技术构建可解释和可回溯的推理模型。知识图谱需要建立高效且稳定的法律知识获取表达和推理机制,探索从海量多源异构的大数据当大规模自动化地获取知识,实现大规模的法律知识图谱计算。大规模知识图谱构建采用深度学等算法将知识图谱的语义信息输入到深度学模型,将离散化的知识表示为连续化的向量,最新的研究还尝试将法律知识图谱与图神经网络的结合,采用注意力机制等构建知识图谱,使得实体之间的关系具备一定的可解释性。然而,传统知识图谱的实体关系仍然没有体现出推理的逻辑相关性。
以ChatGPT为代表的智能系统采用深度学算法,数据输入和结果预测之间缺乏清晰的逻辑关联,探索将知识图谱与数据学的方法相结合,使得机器既知道统计关联性,也理解因果关联性,是未预训练大模型具备人类智能的一条路径。
二可解释的法律论证挖掘研究
大数据驱动的法律人工智能与法律逻辑学的融合路径还可以从法律文本数据自动化地挖掘法律论证,法律论证本身包含了多样化的法律推理,因而法律论证挖掘能够自动化地获取法律文本大数据的推理。由于法律信息抽取法律文本分类法律检索不能直接识别和给出支持论证或反对论证,因而法律论证挖掘需要识别法律论证的基本单元,并检测基本单元之间的逻辑关系。通常认为,论证的基本单元是由前提集结论以及推论规则三个部分组成,这些基本单元的组合方式决定了前提与结论之间的逻辑关联,这往往表现为单一型联合型收敛型序列型等论证类型。有机结合形式论辩与现有大数据和机器学技术,有望在一定程度上突破现有技术瓶颈。法律论证挖掘在识别法律论证基本单元的基础之上,通过机器学算法分类器对不同结构的法律论证进行分类。
法律论证挖掘综合应用了法律信息抽取法律文本分类和法律预测技术,技术使用的步骤如下首先,法律文本分析需要对训练集法律文本数据的法律论证的基本单元进行标记,主要是论证的前提论据和结论主张论点,再标记出不同类型和结构的法律论证。其次,识别法律文本数据的论辩性成分,主要识别论辩性的句子,由于论辩性句子可能包含论辩性成分和非论辩性成分,因而还需要识别论辩性句子的边界,明确论辩性句子在文本的起始位置。再次,识别论证间的关系,主要是论点间的支持关系和攻击关系,方法上可以通过表达推理关系的指示词识别,例如,如果某个命题A能够推导出命题B,那么A和B之间有支持关系。最后,采用SVM朴素贝叶斯逻辑回归深度学等算法训练模型,从而预测前提结论以及论点间的支持关系和攻击关系。随着BERT模型LSTM循环神经网络条件随机场CRF等模型的联合应用,法律论证挖掘的准确率和召回率等都有了较大幅度的提升。
法律论证挖掘被用于提升法律文本分析的可解释性,数据间的统计相关性被转化为法律论证前提和结论的逻辑相关性。有学者在一种CN2算法的基础之上加入论证理论构建了新的ABCN2算法,研究思路是使用这种机器学算法对论证解释进行分类。新算法旨在提高学过程的效率,同时提高机器得规则的统计准确性和可理解性,使得领域专家能够理解和解释机器所学到的规则。默斯M.Moens等针对两种语料库研究了法律论证挖掘,Araucaria语料库是由Dundee大学开发用于支持论证构造的结构化数据库,而ECHR是由欧洲人权法庭的判决文书构成的数据库,研究使用朴素贝叶斯分类器最大熵模型以及支持向量机三种算法实现了在Araucaria语料库74的准确率以及ECHR语料库80的准确率。
综上,新一代法律智能系统的可解释性体现在逻辑推理与神经网络等机器学算法的融合当。法律文本分析符号化的基本思路是对神经网络等技术的符号化,使用逻辑符号表达神经元并构建神经网络隐藏层之间的映射关系,进而将逻辑规则的结构化信息转化为神经网络的权重,由此神经网络结构被描述为符号神经结构。法律论证挖掘在于教会机器理解和预测法律论证,通过检测法律文本数据的论证基本单元以及单元之间的关系,提取不同的论证结构和论证图式,为法律推理的计算模型提供机器可处理的结构化数据。法律论证挖掘的前提和结论之间的逻辑关联提升了法律文本分析技术的可解释性。