如何评估互联网贷款质量 | Vintage和KS视角

如何评估互联网贷款质量 | Vintage和KS视角
2020年11月18日 15:48 消金界

作者|北落师门

来源 | 自然与商业评论

信贷资产质量的好坏,传统的评价指标有很多,其中不良贷款率是最常用的指标之一。各商业银行每年的报告都会披露不良贷款余额以及不良贷款率,各类报道和研报都会用这个指标来衡量信贷资产质量的好坏。就一家成熟的商业银行而言,这一指标的使用有较强的参考意义,然而对于快速发展、资产规模增长很快的互联网金融公司、消费金融、现金贷企业而言,不良贷款率的指标款率往往不能真实反映这家企业的风控水平和资产质量,有时还会获得完全相反的结果。

不良贷款率的偏差及扭曲 

当业务处于一个快速增长期,或者处在大量获取新客阶段时,贷款不良率并不能完全反应真实的资产质量,主要原因在于贷款业务有较长的表现周期。在前期,贷款的余额一直在增加,分母一直在变大,但由于每一笔不良贷款都需要12个月(有的甚至更长,具体看贷款品种)才能完全表现出来,比率其实一直在缩小。

为简单起见,我们举例分析用不良贷款率衡量信贷质量产生的巨大偏差。简单设定贷款不良率=不良贷款本金余额/当前本金余额,逾期超过90天的贷款,视为不良贷款,计为D90+。以下是某家互金公司3个不同阶段的贷款不良率。我们统一假定信贷产品为3个月等额本息产品,每个月发放的贷款中,D90+后第一期应还本息对应的不良率为1%,第二期对应为2%,全部贷款到期后的所有不良贷款金额,占每个月的放款金额的3%。例如:2016年1月放出去的贷款,到2016年4月贷款全部到期,到2017年7月后,所有逾期贷款都进入90+,假设这个D90+的比例为3%。

表一:每个月放款金额持续上升,到2016年12月底,贷款不良率仅0.6%。

表二:每个月放款金额一直保持稳定,到2016年12月底,贷款不良率9.3%。

表三:每个月放款金额一直下降,到2016年12月底,贷款不良率92.6%!

从表中可以看出来,贷款不良率跟放款金额的趋势有紧密关系,因为分母为当前余额,分子是逾期超过D90+的贷款余额,一笔贷款要完全进入D90+,需要贷款全部到期后3个月,但是分母中的当前本金余额,则是包含那些放出去但未到期,或者还款表现还不完整的资产。

贷款不良率这个指标,更多的是用来反应资产的当期组合的静态状况,通过当期放款金额和不良贷款余额,可以获知金融机构的放款增长趋势。但并不能完全反应真实的坏账风险,尤其是对于一家新兴的互联网金融公司,在放款金额处于快速上升阶段时,其贷款不良率会被稀释的很低。

另一方面还会造成反向的负偏差,对于某些期限较短的产品,这个指标显示的风险比实际的会放大很多。

例如对于1个月的贷款,当前本金余额基本上是最近1个月的放款金额,但是不良贷款余额是会随着时间的累积,会把前面很多期的不良贷款余额累积起来,造成贷款不良率会越来越高。而实际这部分不良贷款已经在利息收入中进行了弥补,因此实际资产质量并未如不良贷款率所反映得那么差。例如,最近媒体报道的马上消费金融公司不良率为33%事件,以及某城商行ABS逾期率事件,都是因为这个原因造成的。

基于账龄的Vintage分析法 

在某些情形下,贷款不良率不能正确反映信贷产品的风险。对于贷款笔数巨大,单笔金额小的互金公司和现金贷企业而言,使用Vintage统计,更能真实反映一个多期信贷产品的全部风险画像。

Vintage 统计是关注于过去和当前逾期状况的分析方法,即Now+Ever。这类指标常常用于在授信风险管理里的监控、建模以及预测资产变化趋势。这种口径下,逾期率的分母包含一个时间段内所有放款的金额或者人数,分子是在这段时间段内对应的资产在一个固定表现窗内的逾期金额或者人数。

例如“宜人贷财报中,关于逾期90天以上借款的累计净坏账率:截至2017年12月31日,2015年促成所有借款的累计净坏账率为9.3%”,这个指标就接近于Vintage指标。严格的来说,当我们定义Vintage指标的时候,对于不同申请日期或者不同放款日期的资产,要有相同的performance window也就是常说的表现窗,这样定义出来的Vintage指标才具有更好的纵向比较的性能。对比不同时期内所放款资产的质量水平,才能更好地判断其风险趋势和真实的风控水平。

举例说明,信贷产品仍然与上面的相同,假定分母为每个放款月的放款本金,分子有两组定义方式。一种是期末时点逾期金额(now),一种是期中逾期金额(ever)。

(一)期末时点的分子定义如下

D(1-90):截止期末时点,逾期天数在1-30/31-60/61-90天客户的所有剩余未还本金,也可计为M(1-3)

D90+:截止期末时点,逾期时间在91天及以上的客户的所有剩余未还本金,也可计为M4+;

(二)期中逾期的分子定义如下

即只要在这一期中发生过M1,M2,M3,M4+逾期的金额。两者的区别是,第一种只统计期末时点,即某一期最后一个还款日的客户逾期状态,第二种是当期的逾期数据包含M1-Mn期的数据,即Mn=逾期,均计入分子统计。

由于第二种统计方法包含了前期的累积逾期数据,因此它对分析当前状况有利,但对分析历史当时阶段性变动状况不利,在Vintage曲线上表现非常不直观,需要结合其他工具才能看出风险变动趋势,所以实务中通常采用的指标为第一种。

如下为某个12期产品的Vintage逾期率报表。

从表中可以看到每一期的还款表现,以及每一期的新增逾期趋势,根据趋势判断产品风险主要集中在欺诈风险还是信用风险。如果M1首期逾期(客户不想还)很高,但是后面期数风险明显降低(M2-M4),则客户欺诈风险集中;如果首期逾期低,但是逾期越来越高(客户没钱还),则说明客户的信用风险集中。

从M1->M2->M3->M4+的迁徙率,可以看到客户逾期不同阶段的回款情况,如上表中,平均只有40%左右的M1逾期转化到M2,但是超过80%的M2,转化到了M3,说明客户逾期1-30天内,回款概率还是相对较高的,一旦超过30天,概率就比较低了。

从M4+可以看到各月份的真实不良情况,当产品全部期满,再过一定的追偿期限(如90天),在表中即是MOB15的M4+逾期率,它反应了一笔贷款放出去,最后转化成不良贷款的比例。

几家互金公司的Vintage曲线 

为了更好说明Vintage曲线的使用,我们选取了几家互金企业的招股说明书数据,分别选取M1,M3,M6项下的Vintage Delinquency Rate。

(一)下图是乐信在招股说明书里披露的M6+资产质量情况。横轴是每一笔资产质量的账龄情况。纵轴是M6+的坏账率,每一条曲线代表每个季度当期放款的业务在不同时间段下的逾期表现。

从2015年的第一季度开始,以每个季度为单位,M6+坏账实际上稳定在2%以下。乐信在它的招股书中描述,从2015年、2016年以及2017年的前9个月,他们180天坏账率分别是1.25%,1.73%和3.5%(按照年化后测算)

总体来说,乐信的资产质量是相对不错的。但其中有两条很危险的曲线要注意。2016年第2季度曲线和2015年第4季度的曲线一直在往上飙升,曲线斜率越来越大,没有减缓的趋势,这两条线代表当时的业务可能有问题。

(二)下图是凡普金科在招股书文件中披露的2015及2017年期间的 M3+ Delinquency Rate。

凡普金科这里披露的是M3数据,由于本身是有场景的现金分期的产品,我们可以看到几个非常特殊的现象:一是它的Delinquency Rate跨度非常大,在1%-20%之间分布,二是在12个月之后其逾期率仍然出现上升势头且没有减缓,三是可以明显看到业务初期的逾期率显著高于后期的贷款。

从曲线来看可以说明凡普金科的几个问题:该公司的反欺诈做得较好,但可能产品定位比较下沉,客户群体的整体信用风险较高。由于在12M之后仍然有上升的曲线,可以看出凡普金科的信贷产品的分期期限较长。同时,公司在2015的风控模型做得较差,后续曲线的集中分布且位于曲线下方,说明在2016年,公司对风控模型进行了优化,且基本未再调整过。

 (三)再来看看拍拍贷上市前的招股说明书,M1+稳定在4-4.5%左右,但曲线斜率较为集中平滑,说明其风控模型与其风险偏好有较强稳定性,不能说拍拍贷资产质量就很差,很可能是其采用了人为 放松风险偏好,依靠利率来弥补其损失的模式,只要Vintage曲线集中且平滑,就说明其风控水平较好且稳定。

我们从以上案例发现,不同公司的Vintage曲线形状都类似,这跟Vintage 曲线原理有关。后续的催收效果会对M1+的逾期有一定程度的回收,因此曲线在不考虑欺诈情况下趋近于平缓。Vintage图上所有的点,都是按照这个模型生成的,后面的点均在前面点基础上进行叠加。

Vintage是最好的方法吗 

如果回答是,那么我们会发现,“发薪日贷款”的资产质量可能比拍拍贷的还要好。因为“发薪日贷款”产品的特性就是一次性还款,因此Vintage就是等于单期催收后损失,不存在分期表现的叠加。基本上行业很多公司能把新旧客户的损失控制在4%左右,即任一时间回溯下,其Vintage接近4%,低于拍拍贷招股书上披露的数据。

然而这结论与我们所认识的现状不同。主要原因是贷款期数的影响。举个例子,一个A元的贷款,分n个月还款,每期A/n元。按照递推计算,每期的待还本金分别是A,A(1-1/n),A(1-2/n)…,一直到第n个月为0。设定,考虑A为12000元,n为12期的情况,此时P=6.5,这里的P意义上类似于债券投资久期的概念。也即不考虑利率现值的情况下,这种分期还款方式收取的利息金额等效于本金一次性放款在P期间产生的利息,也称P为加权合同现金流期限。由于还款期的不同,导致P的差异会影响到Vintage的分析走势,因此较为科学的方法是计算每种产品的等效利息期(加权合同现金流期限),将其全部折算成同一个P项下,再进行Vintage分析。这种情况下分期产品的Vintage曲线会全部按1/P斜率压缩,此时不同互金公司的Vintage对比才更有对照意义。

评估风控模型的关键指标 

衡量一家互联网贷款行业的风险控制水平,最核心的是按照其场景构建风控模型,并在该场景下不断对风控模型进行迭代,以期搭建出最优模型,以使得在该场景下的各种独有关键维度变量能够表征该场景下借款人的各种行为数据和交易数据,达到最大区分度的目的。

当然,理论上的方法由于时间和成本影响不可能较快地衡量出一家互联网贷款企业的风控水平。另一个思路是,我们没有必要自行搭建风控模型进行对照,但可以采用评价指标来评价其风控模型的稳定性和准确性,也就是说,我们没有必要去建模,只需要对他的模型进行评价。这可以节省大多数助贷机构或者分析机构判断其场景风控模型的时间成本和人力成本。

基本二分类法

违约概率是衡量互联网贷款客户的核心指标,然而互联网贷款是基于场景方内部和外部的大数据做出的共性判断,因为我们从来不会判断某一个具体单一客户的违约概率如何,而是判断这一个群体的客户群的违约概率如何,其分布函数是什么样的,用什么方法能找出其共性并在风控模型变量中予以筛除。基于这种思维,可以将客群简化为二分类,也即“非好即坏”,好客户与坏客户区分了对其贷款违约与否。根据拟评价的模型,一旦定义了好客户和坏客户以及其分值,就有可能评价这种模型下评分的质量,即风控模型的质量好坏。

这里我们常用的指标有几种,首先是基于累积分布函数的指标,如Kolmogorov-Smirnov、Gini index以及Lift; 其次是基于似然密度函数的指标,如Maha- lanobis distance距离函数。有兴趣的同学可以参考以下详细相关论述:Wilkie (2004), Giudici (2003) 或者Siddiqi (2006)。

这些指标中,最简便和常用的指标是Kolmogorov-Smirnov(KS指标),

我们假定每个客户的模型评分均适用于以下分类:

那么通常情况下好客户的评分值的累积分布函数(CDFs)满足如下关系:

其中,Si表示第i个客户的模型分值,n 为好客户的数量,m 为坏客户的数量,I为指示函数,其中I(true) = 1,I(false) = 0。坏客户的比例可以表示为pB=m/(n+m),坏客户的比例为pG=n/(n+m)。那么所有客户分值的累积分布函数可以表示为:

其中,N=n+m为客户总数量,这时一个常用的衡量模型(分值函数)质量的指标就是Kolmogorov-Smirnov统计指标,即KS值,它可以表示为:

它的含义是,在给定的一个二分类模型中,基于该模型的某个评分值,低于该评分值(或者高于,其实是一个意思😳)时的好客户与坏客户分布函数之差,当该差达到最大值时,这个值就是该模型的KS值。

直观的图示如下:

分布函数及KS值

从图上可以看出,当模型评分值为2.5时,大约包含了30%的好客户和70%的坏客户,那么该模型的区分度(模型的质量)相对较好,基于该模型下做出的风控策略能够在筛选出最大的坏客户数量(当然前提条件是要满足好客户最多的情况下,否则取值为5分,即使低于5分的客户全部拒绝,但实务中没有任何意义)。

除了KS值外,洛伦兹曲线(LC,Lorenz Curve)也常用来衡量评分模型的区分度,如好客户和坏客户、有效或者无效(医学临床试验药品时常用)等。洛伦兹函数可以简单表示如下:

可以用下图表示:

以信用评分模型为例,如上图该曲线上的每一点代表了给出的评分值,如果我们假定图上的P点为临界值,可以看出被拒绝的坏客户和好客户的比例——该模型拒绝了20%的好客户,同时却拒绝了60%,直观地反映为曲线上的某一点微分的最小值,在该点上该模型最优。因此对于不同模型的迭代,也可以用LC来衡量优劣。除了KS、LC指标外,我们也可以用AUC、Gini、lift等指标来衡量,只是在信用评分模型中应用不见得那么直观罢了。

“场景”对商业银行助贷业务的重要意义

我们知道了如何用简易指标来衡量某一模型的好坏,那么仅仅靠模型评价就能完全区分模型优劣吗,不同的模型仅仅是函数建模的区别吗?我们知道选择不同的变量对模型有影响,但是相同的模型评分下,再回溯判断变量的选择是否有价值呢。

抛开实际意义谈数据模型,对于判断互联网企业贷款的风控质量一定是舍本逐末的。这是因为决定人信用违约的核心指标、变量维度有很多。一个人的购买行为、交易习惯、生活习惯等等构成一个人的画像,成千上万的维度变量要区分出判断信用能力的指标是件难事,但最关键的变量指标是行为数据、交易数据两大类。这就引申出了场景的问题,这在互联网贷款平台中是至关重要的。例如天猫购物、京东、滴滴打车、美团外卖的这些场景核心数据就是它的核心场景,这些场景是体现了交易行为和习惯,能够依靠其构建一个模型来区分其信用状况。

随着互联网贷款管理办法、网络小贷公司的监管办法、民间借贷四倍LPR上限的出台,头部平台的不断聚集。虽然目前商业银行对于助贷业务已经过了疯狂发展的阶段,但由于资金方对资产方的争夺越来越激烈,很多狸猫换太子的网红资产方到处找资金。这些平台属于既无场景(不论是交易场景还是行为场景),也无自生客户的“双无”平台,仅仅依靠外购流量赚取二道差价。

这里的问题就在于他们也有风控,但他们的风控模型是基于外部数据来搭建的,不具有场景方提供的内部核心数据(没有哪家头部平台愿意开放这些数据,而且这也涉及隐私问题),虽然对外宣称几百个变量,但都是外围变量,不能表征其交易习惯和行为习惯。一个极端的例子是,如果某家垄断了公共厕所企业,它能拿到人们上厕所的所有数据,包括时间、频率、数量😂等,然后对外输出这些流量,宣称可以通过上厕所的数据搭建了一个KS值0.6的信用风控模型,有任何资金方敢合作吗?

这种变量构建的模型,可能也有较高的KS值,但其稳定性和相关性较差,一有事件就将极大影响模型的准确性,这些都是无法用历史数据来判断的,只能跳过数据剖析其实质,凸显场景在变量选取中的极端重要性,才能有效降低商业银行在助贷业务中的风险。

文中观点系作者自身观点,不代表消金界平台观点。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部