文/中国农业银行全球反洗钱中心 马中捷 连航宇 朱丹青
基于“风险为本”的原则,金融机构需要持续优化反洗钱模型以应对复杂多变的洗钱风险。由于线上和线下环境的数据分布可能存在显著差异,故现行依赖线下测试的模型优化效果评价机制难以准确反映模型上线后的实际效果,容易产生对于模型性能的“幻觉”,影响金融机构对洗钱风险的认识和控制能力。针对这一问题,本文提出将A/B实验方法引入反洗钱模型优化效果评价过程,通过利用部分线上数据对模型进行实验,该方法避免了数据分布差异对模型效果的干扰,有效减少模型评价误差,能准确评估优化后模型真实效果。
反洗钱模型优化效果评价存在的问题及原因
在反洗钱模型设计工作中,合理且准确的模型评价机制至关重要。好的评价机制能准确反映模型的真实性能,并为模型优化提供正确的反馈,帮助金融机构不断更新反洗钱模型以应对洗钱风险的动态变化。然而,现行对上线前模型的评价机制以线下测试为主,评价结果经常与上线后不一致,导致无法准确判断模型优化效果。
造成上述问题的原因有两点。一是设计和测试使用的数据是“静态快照”。模型设计过程未考虑时间和外部环境变化对线上和线下数据分布的影响,使用的静态数据无法反映线上的动态变化,导致评价指标偏离实际表现,从而对模型性能做出不准确的估计。二是缺少测试手段。一些需要人工参与的评估指标难以在线下测试过程中获取,例如,评价客户尽职调查模型的性能,需要统计下发尽调任务数量及结论,而下发尽调任务的情况复杂,一般由尽调专职人员处理,线下测试无法模拟这一过程,造成部分模型评价指标缺失。
如果采用线上测试,即新旧模型在生产上并行运行,虽然能准确评价新模型,但在成本、合规等方面会面临很大的挑战。故本文提出将A/B实验方法引入模型评价体系中,通过统计分析手段,科学选择部分线上数据对模型进行测试,有效解决数据分布造成模型评价不准的问题,在控成本和合规的基础上确保反洗钱模型的实际应用效果。
A/B实验及其在反洗钱模型优化效果评价中的应用
在理想情况下,当需要比较两种模型的好坏时,假设某一批受试者同时存在于两个完全相同的时间、空间。我们可以对其中一个时空的受试者施加模型A,另外一个时空的受试者施加模型B,对比其表现就能证明模型的好坏。
这种理想情况显然是不存在的,A/B实验是对该种理想情况的近似。A/B实验采用控制变量法进行对照实验,即在实验过程中,除模型不同外,控制两组实验的数据分布、运行环境等其他可能会影响实验结果的因素均保持一致。由于受试者是随机分流的,根据大数定律,当组内受试者数量足够多时,组内均值收敛于总体均值,因此实验组和对照组受试者的平均表现可以近似为两个平行时空下的受试者随机表现。
对于反洗钱模型来说,A/B实验在生产环境中运行,首先将全量线上数据科学地划分为实验组与对照组,分别应用不同模型。再对比实验组和对照组的表现差异,最后应用假设检验来检查结果的统计可靠性,实现准确的模型优化效果评价。
相较于模型线下测试方法,A/B实验有如下优点:一是验证模型优化与表现间的因果关系,确保模型优化迭代始终向着提高风险识别能力的方向迈进。二是根据各组实验数据,计算出模型评价指标增加幅度的精确比例,提供了评价模型优化效果的量化依据,实现了对模型优化效果的定性与定量评价。三是能够获取需要人工参与的评估指标,不需额外协调人工测试资源,控制了实验成本。
反洗钱模型优化效果评价中A/B实验过程
总体流程如图所示。下文以K模型为例,具体介绍A/B实验过程。

1. 设定实验评价指标。A/B实验的目标是通过对比验证,评估新模型是否优于旧模型。在实验设计中,需明确实验组和对照组的模型配置:通常将待验证的新模型作为实验组,旧模型作为对照组;选定一个或多个目标指标(如高风险率、涉案率等),作为模型性能的评价指标。本实验以优化后的K模型作为实验组,原K模型作为对照组,高风险率作为评价指标。
2. 设计实验方案。实验方案的设计分如下两步。
(1)选择分流方式。一般来说,分流方式以互斥分流最为普遍。但考虑到反洗钱模型的特殊性,若新模型性能未达预期,则实验组客户风险可能会未被识别。为规避此类缺陷,选择重叠分流方式,即旧模型覆盖全量客户,新模型抽样部分客户作为实验组,被新旧模型同时评估(见表1)
表1 两种分流方式的优点与缺陷

(2)明确分流规则。需先计算最少样本量,进而确定实验组所需最少的客户数量,最后确认每组划分的客户数量。
最少样本量表示能够确保实验结果可靠的最少样本数量。实验期内实验组的样本量均不能小于最少样本量,否则结论不具备统计意义。
按目标指标类型的不同,最小样本量估算方法分为均值类与比值类(见表2)。其中,n代表最少样本量,表示实验组与对照组均至少需n个样本;代表标准差,表示数据的波动情况,在计算时使用实验期内一段时间内的标准差;代表实验组与对照组模型目标指标的预计差值;α表示第一类错误的概率,一般取0.05;β 表示第二类错误的概率,一般取0.2; p A 、 p B 分别代表对照组和实验组模型的目标指标值(见表3)。
表2 目标指标不同类型时的最少样本量计算公式

表3 参数的获取方式

以K模型为例,其目标指标为高风险率,采用历史数据计算得到对照组模型的高风险率为14.00%,估算得到实验组高风险率为15.54%。利用表2中的比值类公式计算得到最少样本量为13815,即每组均最少下发13815个任务。
由于此前最少样本量公式中的部分参数是通过估算得到,不能完全代表真实情况。实验结束后,应根据真实数据重新计算参数,得到真实的最少样本量。如果实验期间未达到真实的最少样本量要求,则需继续实验,补足缺少的样本量。
3. 进行实验、收集数据。A/B实验方法包含A/A实验,A/B实验,B/A实验三个阶段。
(1)A/A实验,防止数据分布干扰实验结果。确定分流规则后,需进行A/A实验,即旧模型同时应用于实验组和对照组,以验证两组的客户数据无显著差异,避免数据分布干扰实验结果。
可通过假设检验方法评估两组在目标指标上的差异。若有显著差异,表明组间数据分布存在差异,须调整分流规则;反之则证明分流规则控制了组间数据分布相同,这一步确保了后续A/B实验结果的可靠性与科学性。
(2)A/B实验,测试模型优化效果。A/B实验阶段,将新模型应用于实验组数据,旧模型应用于对照组数据,得到两组的目标指标,随后进行假设检验。若实验组的目标指标显著优于对照组,则表明实验组模型显著优于对照组;反之表明模型还需要继续优化。通常情况下,为控制风险与成本,A/B实验阶段实验组分配的客户量较小,对照组分配的客户量较大。
(3)B/A实验,观测长期提升效果(可选)。由于A/B实验的观测时间有限,短期内的正向结果不足以代表长期提升效果。故利用B/A实验长期观测在模型上线后,目标指标的提升是否符合预期。其核心点是将新模型作为对照组分配较大客户量,旧模型作为实验组分配较小客户量,作为长期实验,可周期性检查结果。
4. A/B实验结果分析。通过假设检验以确定新模型的目标指标是否显著优于旧模型。由于目标指标(高风险率)为比值型,应采用Z检验的方式。
Z为随机变量,查标准正态分布表确定P值。表4展示了对各组目标指标的检验结果。实验组的客户高风险率高于对照组,且P值小于0.05,可以证明新模型对潜在高风险客户更敏感,识别能力更强。
表4 K模型A/B实验结果

从客户量情况看,实验组以10%的客户量参与实验,并得到了显著的实验结果,说明A/B实验能够以很少的实验成本和影响面得到新模型的线上真实结果,解决了“离线评估和线上表现不一致”的问题。
本文提出的A/B实验可以应用于反洗钱模型优化效果评价,通过统计方法合理设计模型评估流程,有效地解决了“离线评估和线上表现不一致”的问题,科学论证模型优化的有效性。除反洗钱模型外,该方法可用于金融机构其他模型的优化,应用前景广阔。
(此文刊发于《金融电子化》2025年9月上半月刊)
4001102288 欢迎批评指正
All Rights Reserved 新浪公司 版权所有
