多头借贷风险分析与建模
风控业务背景
多头借贷(Multiplatform Loan),是指借款人在两家或两家以上申请借款的行为。通常,多头借贷客户大多是因为出现资金困难,失去还款能力,被迫只能依赖于“以贷养贷”维持,即多头负债。
信贷风控核心在于识别两个维度,即还款能力(收入、负债)和还款意愿。因此,多头负债数据对于风控具有重要意义。本文系统分析了多头借贷数据的采集机制、加工方案,以及一些分析建模思路。
目录
Part 1. 多头借贷数据采集
Part 2. 多头借贷变量加工
Part 3. 多头借贷人群细分
Part 4. 多头借贷数据建模
Part 5. 总结
致谢
版权声明
参考资料
Part 1. 多头借贷数据采集
如图1所示,我们系统梳理了借款人、金融机构、其他辅助机构等多方之间的交互行为,或许能帮助我们分析潜在可用的数据源。
整个生态系统可以描述为:
- step 1:借款人通过手机App填写资料,向金融机构发起借款申请。
- step 2:金融机构根据借款人基础信息,向第三方征信数据服务商查询借款人借贷信息。
- step 3:第三方征信数据服务商综合多个金融机构查询记录,加工生成多头借贷变量。
- step 4:金融机构综合多头借贷等数据,对借贷人进行信用评分,给出放款或拒绝通知。
- step 5:若借款人得到放款,每期还款需经过支付通道代扣,形成代扣金额流水记录。
- step 6:若借款人逾期未还,催收机构将通过短信、电话通知借款人及时还款。
在清楚整个流程后, 我们尝试分析每一环节潜在的数据源:
step 1:借款行为需要依赖手机App这个渠道,那么就可以考虑对App进行分类,尤其是借贷App,可参考《 手机App数据挖掘实践思路》。如图2所示,借贷App集中了借款人可能的借款平台。我们就可以思考:安装借贷App的数量、平台类别、安装时间等数据的获取和使用。
step 2:由于存在竞争关系,各金融机构之间通常不会共享借贷数据,这就会形成数据孤岛。中介行业在信息不对称的土壤中萌芽 。第三方征信数据服务商则扮演一个云平台角色,将各方数据打通整合,形成某种意义上的合作。
数据服务商与各金融机构之间存在着一个互利共生的生态关系。当接入机构数越多、机构查询越频繁时,申请记录数据的行业覆盖率将会越来越高,这帮助金融机构更全面把握借款人的共债信息,提高风控能力,继续促进更多机构接入和调用。因此,这就形成一个良性循环♻️。
数据服务商维护着金融机构的接入和退出,因此也将动态维护一个机构名单分类表,常见类别包括:消费金融公司、P2P公司、互联网小贷公司、银行信用卡中心等等。名单库的意义可参考《 信贷风控中的名单库挖掘、使用和维护》。
step 3:如图3所示,各金融机构的查询请求可形成一张申请记录流水表。这是一块具有巨大价值的数据,记录了借款人的借款行为轨迹。
第三方征信数据服务商将对申请记录初步加工,即常见的RFM特征,可参考《 时间滑窗统计特征体系》。一方面,可简单统计数量,确保在面向下游客户服务,保证解释性;另一方面,也可深度加工处理,输出信用评分。
step 4:金融机构在通知借款人审批结果的过程,依赖于某种媒介,比如借款App推送通知、短信。这就同样会留下一些记录。如图4所示,在不同时间点,借款人存在不同的审批记录。
step 5:支付代扣服务商将对接金融机构,按客户还款计划表,对客户选定的银行卡定期划扣还款金额(本金+利息)。若银行卡金额不足,将出现划扣失败记录。这些流水数据将有助于我们了解借款人的银行卡余额和负债情况。
step 6:若借款人未能按时履约还款,出现逾期。金融机构将通过内部催收部门或第三方催收服务商对借款人进行催收。此时又产生交互行为。显然,运营商数据和手机本地通话记录将直接反映出来。当然,利用这部分数据就得考虑如何将催收号码与其他正常号码区分开。
需要强调的是,目前随着数据合规性的要求,我们必须以合规的方式来获取和利用这些数据,并更好服务于金融风控行业。(强烈的求生欲.jpg)
Part 2. 多头借贷变量加工
我们以第三方征信数据服务商提供的多头借贷变量为例,分析使用过程中可能存在的问题,以及解决方案。如图7所示,根据申贷流水记录,我们可以按时间窗切片,统计在某个时间窗的申请平台次数cnt。因此,可得到以下原始变量:
借款人最近7天、1个月、3个月、6个月、12个月、18个月、24个月的(某类平台)借贷次数/机构数。
根据动态维护的机构分类名单库,我们既可以整体统计,也可以分类统计,比如:消费金融公司、P2P公司、互联网小贷公司、银行信用卡中心等等。
那么,我们如何根据这些原始变量进一步挖掘信息?
纵向维度:例如,最近7天的多头借贷总次数 / 最近1个月的多头借贷总次数
以此可判断借款人的时间维度上的借贷行为分布。该比值越大,代表最近一个月的申贷记录集中在最近7天,借款人最近资金短缺。因此,也可以考虑作为用户提单需求预测模型的变量。
横向维度:例如,最近1个月的银行信用卡中心借贷次数 / 最近1个月的多头借贷总次数
以此可判断借款人在机构维度的借贷行为分布。数值越大,可认为越趋于正面。正面和负面的参考标准主要来自各金融机构面向客群。通常,银行客群较好,互金客群较差。
综合维度:例如,最近1个月银行信用卡中心借贷次数占比 / 最近3个月银行信用卡中心借贷次数占比
以此可判断借款人在不同时间段的借贷机构的变化情况。当前期借款人在银行借款占比较大,说明用户资质较好,但后期若占比变小,可能是因为借款人质量恶化。我们需要关注到这种差异性。
对于数据服务商而言,由于拥有原始流水记录,可挖掘的信息更多。例如:
- 按天粒度统计,对上述统计特征进行更为细致的加工衍生,包括CV(变异系数)等。
- 利用word embedding算法,训练得到各机构的embedding向量,并加权映射到用户维度。
- 对机构进行更为准确合理的分类,使得统计结果更为真实、客观。
Part 3. 多头借贷人群细分
分析借款行为轨迹可以帮助提炼不同的用户画像。人群细分,分而治之,可用于优化风控流程、风控模型等。例如,根据借款次数和频率这2个维度,可以对多头借贷人群进行细分:
借款次数:
如图8所示,在相同的借款频率下,客户A比客户B(每天)借款次数更多。通常而言,多头借贷次数较高的客户风险较高,因为共债链条更长,系统越复杂,崩溃的可能性也就越高。曾见过不少借款老哥在小纸条上记录不同机构的负债金额、还款日,但仍是记不过来,最终导致逾期。
借款频率:
如图9所示,(每天)在相同的借款次数下,客户A的行为上不规律,偶然会集中性借款,大部分时间处于静默状态。这种客户的风险往往更大,因为风险来自于不确定性。而客户B则有规律地持续借贷。显然,金融机构会更喜欢客户B,这是因为:
- 始终保持旺盛的借款需求,通常可以为我们带来足够的利润收益。
- 借款行为有规律,还款资金有保证,以贷养贷链条齿轮衔接稳定。
那么如何量化呢?我们可以考虑计算两条申贷记录之间的间隔时间,得到一个关于时间的分布,提取该时间分布的特征,如均值、最大值、最小值等。
结合以上分析,可以考虑细分为4个人群。高低、多少等定性定义,具体需要结合实际数据来制定合理的阈值。
- 借款频率高、 借贷次数多
- 借款频率高、借贷次数少
- 借款频率低、借贷次数多
- 借款频率低、借贷次数少
Part 4. 多头借贷数据建模
1. 违约风险预测模型
违约逾期风险(PD)模型用以预测在放款后借款人的逾期表现。例如,是否在前3期出现逾期行为?可参考《 贷中行为评分卡(B卡)模型》。
由于多头借贷变量涉及到共债信息,与还款能力挂钩,对于违约逾期风险的识别效果通常较好。为保证风控模型具有强稳定性,我们在建模中需考虑到一些因素影响:
- 金融市场环境影响:
前文提到,数据服务商维护着金融机构的接入和退出,沉淀一个机构名单库。因此,在使用这些变量时,需考虑接入的金融机构数的变化。若接入机构数在增长,名单库在扩大,机构命中率将升高,大盘人群的多头借贷指数也会往高分段偏移;反之,往低分段偏移。因此,我们需考虑剔除大盘的影响,也就是不使用绝对值,而使用相对值。
- 风控流程策略影响:
模型重,策略轻。某些时候来不及做模型,策略可能就会使用一些多头变量来快速调整。那么,在做模型变量筛选时,我们就要考虑到该因素的影响。尽量不使用同类变量,避免策略调整对模型稳定性产生强干扰。有时你会发现,策略往往选用区分度强的变量,而其他变量不足以让模型有一个好的表现。因此,如何协调和改善这一流程,是我们需要思考的业务问题。
- 数据服务变动影响:
数据服务商可能存在多家,我们不可强依赖于一家,避免在黑天鹅事件下受到影响,因此可以考虑对接多家数据服务商。这就会涉及到外部数据的测算、降级、分流、校准等,可参考《 外部数据风控建模评估分析》。
2. 多头借贷预测模型
有道是,放款前,金融机构是爸爸;放款后,借款人是爸爸 。因此,如果我们能提前预估到借款人贷后的多头借贷情况,那么在贷前就可以采取相应的措施,防患于未然。也就是说,贷中管理只是减少损失,但贷前管理能避免损失。
多头借贷与逾期风险之间的关系非常微妙。 对于贷后多头借贷较高的情况:如果借款人资金紧张,则在催收时就可能遇到“哪家催得急,就优先还哪家”的情况,造成逾期;反之,可按时还款,并带来利润。在某些时候,有些机构在给借款人一笔放款后,还会鼓励借款人再去其他机构多头借款,相当于把包袱扔给下一家。
不同于违约风险预测模型只能以放贷样本建模,多头借贷预测模型好处在于可以利用申贷样本建模。因为,其主要目的在于拟合贷前和贷后之间的多头关系。利用该模型,我们可用于人群细分:贷前多头(高/低)、贷后多头(高/低)。
Part 5. 总结
每一枚硬币都有正反两面。一方面,多头借贷可能带来潜在的高逾期风险;另一方面,也能带来更多的利润收益。因此,如何处理和多头借贷人群的关系是一个值得思考的问题。风险管理永远是在矛盾中寻求平衡点。
本文系统介绍了多头借贷数据的采集、加工和应用场景。多头借贷数据的产生,也是一个打破数据孤岛的成功实践。目前,央行征信、百行征信等,都是在致力于推动公共基础数据的整合,更好服务于金融设施。
在如今数据隐私越来越重视的时代,一些新型技术框架也开始发展,如联邦学习(Federated Learning)。
致谢
所有参考资料中的各位作者,感谢给我的启发。文中仍有理解不到位之处,在此抛砖引玉。
版权声明
欢迎转载分享,请在文章中注明作者和原文链接,感谢您对知识的尊重和对本文的肯定。
原文作者:求是汪在路上(知乎ID)
原文链接: https://zhuanlan.zhihu.com/p/109649516/
⚠️著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处,侵权转载将追究相关责任。
参考资料
关于作者:
在某互联网金融公司从事风控建模、反欺诈、数据挖掘等方面工作,目前致力于将实践经验固化分享,量化成长轨迹。欢迎交流