法律 ·大数据·人工智能通识讲座之一：司法大数据与小样本的衔接

【来源】北京大学法律人工智能实验室

【声明】本文仅限学习交流使用，如遇侵权，我们会及时删除。

壹

2018年1月12日晚七点，由北京大学法律人工智能实验室/研究中心主办的“法律·大数据·人工智能通识讲座”第一场在北京大学法学院凯原楼307会议室成功举行。本次讲座的主题为“司法大数据与传统小样本的衔接”，由华宇元典法律研究院首席业务专家侯晓焱博士担任主报告人。讲座由北京大学法律人工智能实验室/研究中心副主任、北京大学法学院江溯副教授主持，吸引了众多观众到场聆听。

讲座伊始，江溯老师首先介绍了建立北京大学法律人工智能实验室/研究中心的缘起和宗旨，然后讲述了创办“法律·大数据·人工通识讲座”的初衷，这一系列的讲座旨在让更多的人关注法律人工智能，未来会邀请人工智能、知识图谱、语言识别、人脸识别等方面的专家来发表演讲。

贰

本次讲座的主报告人侯晓焱博士首先以科幻电影《Arrival》的主题做类比，描述了人工智能如外星人一样突然降临所带来的陌生与困惑。以大数据为养料的人工智能，一方面带给我们便利——网络购物时，根据以往的购物行为数据推荐符合心愿的商品。新闻阅读时，新闻平台根据数据推送符合读者偏好的资讯；另一方面，人工智能也给人们带来忧虑，甚至是恐慌，因为在某些领域重复、低附加值的工作岗位会被人工智能取代。侯晓焱博士认为，无论怎样，科技的发展是不可抗拒的趋势。对于人工智能，我们必须有所了解。在发展和使用人工智能的道路上，我们不能回避，也不能功利，我们需要面对和担当。

然后，侯晓焱博士介绍了我国法律人工智能的现状。我国政府非常重视人工智能的发展，特别是国家科技部在2017年11月宣布开启了几大人工智能平台建设，其中包括依托百度建设的自动驾驶创新平台、依托阿里建设的智慧城市建设、依托腾讯建设的智能医疗等。在法律领域，人工智能也开始落地运用，华宇元典研发的服务于智慧审判、智慧检务的应用系统，已经在实践中平稳运行，为提高司法效率、促进“同案同判”、辅助疑难案件裁判提供助力。

法律领域的大数据有多种表现形态，以数字化形式呈现的裁判文书、图片、音频以及视听资料等都属于大数据的范畴。当前影响最大的是最高人民法院创办的中国裁判文书网，其公布的裁判文书已达4000多万份。这为各界利用大数据查询和开展研究提供了丰富资源。

人们根据大数据具有的体量大、多维度、实时在线等特点，勾勒了大数据时代开展研究的美好愿景：第一，借助大数据的全样本，可以避免以往的小样本以偏概全的缺点。第二，通过大数据进行相关性的分析，获得新的知识，以弥补认知方面的盲区。第三，通过机器学习提高我们的研究效率，人工智能可以帮助我们从很多低端的重复的劳动中解脱出来，去专注地进行更高的智力投入的领域研究。第四，大数据实时在线的特点，可以通过数据的更新将研究成果实时呈现。

随后，侯晓焱博士通过近期研究体会，介绍了如何利用大数据开展法学研究。面对海量数据时，最大的挑战是精准定位作为研究对象的文书。以非法证据排除为例，常用的文书检索方式是关键词检索，但在全文进行关键词检索时，会将不属于“非法证据排除”争议而仅仅是对这项权利告知的文书检索出来，不相关的文书会误入。如果针对特定段落进行关键词检索，匹配会精准，但会有遗漏。这其中的主要原因在于：现实中的裁判文书对同一法律概念的表述方式纷繁复杂，不同文书采用的表述位置也因人而异。为此，简单关键词匹配检索难以满足语义检索的需要。

侯晓焱博士指出，对于上述困难，我们需要借助计算机专业中的自然语言处理技术，通过语义识别和以知识图谱为依托的法律认知引擎技术来解决，即识别待检索词语的含义，它会被归入特定的构建完成的知识图谱，依托该知识图谱支持的法律认知引擎检索到研究对象。以检索“雇凶杀人”案件为例，查询这一词语的真实需求可以被归属到故意杀人罪的知识体系，进而运用故意杀人罪的知识图谱支持的法律认知引擎完成相关案例检索。这是法律学科与科学技术的融合，包含了运用知识图谱对法律文本进行标注的工作。数据标注是构建数据库、开展机器学习的重要环节。谷歌云的首席科学家李飞飞女士就曾经带领团队用了三年时间，完成了1500万张图片的标注，构建了数据库中的巨无霸，提供了培育计算机大脑的重要资源。

然后，侯晓焱博士分享了她所在的团队通过法律知识与计算机技术的结合，对非法证据排除、索债型非法拘禁两个项目研究的具体分析过程。大数据具有的全样本呈现之优势，可以使研究者观察到研究领域的全貌，发现规律、特点或者问题，还支持逐级下钻进行深验证、预测或分析，多种数据维度的检视视角，有助于研究者跳出制度层面、个案层面和小样本观察的局限，对现状获得丰富、生动的认知。

不过，侯晓焱博士特别指出，大数据时代依然不能忽略小样本的价值。大数据、大样本由小样本汇集而成，大数据可以验证基于小样本提出的假说；大数据擅长呈现全貌、趋势，小样本可以展现细节、涉及价值判断的方面，支持对原因的探究。同时，无论是全样本还是小样本，都属于实证研究的一种方式或资料，用数据和事实来说明问题，有助于发现法律的真实面貌；实证研究与法教义学共同作为法律学习的方式，服务于社会，推动制度完善。

最后，侯晓焱博士谈到，法律学科、法律行业在保留着传统特点的同时，无法回避科技发展日新月异所带来的影响，其正在经历着重大的变革，某些改变甚至是颠覆性的。这种变化已经为国内外所认知。截至2017年底，包括北大在内的国内若干知名法学院正式开展法律科技领域的研究和探索。与此同时，美国大陆已经有几十家法学院开设了法律创新课程。的确，法律人需要用跨学科的知识装备自己，才能更有准备地迎接未来。从自身来说，人生的上半场做法律传统职业，是出于对数据研究的热爱；下半场投入法律科技行业，也是希望自己以另一种方式与法律工作在一起。

叁

江溯老师对侯晓焱博士的发言进行了总结，并阐述了自己对人工智能的理解。