信贷风控笔记3——信贷风控模型实操（面试准备11）

一.模型设计：需要考虑模型细分，样本选取（样本排除：观察期排除和表现期排除；观察期：产品（特殊产品如学生卡）/客群（VIP）/政策（年龄/无人行/欺诈等）/风险异常（如业务风险异常波动的时点，即某个月份坏账率较大的要排掉）评价标准：F检验（检验模型的整体显著性）/t检验（检验模型各个系数的显著性）/AIC/BIC（后两个均是衡量统计模型拟合优良性的一种标准）模型复杂度增大k增大，L也增大，AIC减

爱学习的uu

1245人浏览 · 2025-05-14 16:00:33

爱学习的uu · 2025-05-14 16:00:33 发布

风控笔记
模型篇（重点是学一下贷中贷后的区别以及实操中存在的一些问题）
目的：要在稳定性（变量不能太多）和区分度（变量不能太少）之间平衡
一.模型设计：需要考虑模型细分，样本选取（样本排除：观察期排除和表现期排除；样本范围：样本时间窗口（观察点、观察期、表现期））；Y定义（如果没有明显拐点可以用相对增速的拐点或者把所有可能试一遍，比如dpd30（逾期天数30天）+mob3（账龄，即客户从首次开户起的时间，然后模型融合））

样本排除规则如下：观察期排除（产品、客群、政策、风险异常）/表现期排除
分类讨论：
A卡：考虑的排除规则与前置风控规则有关系
观察期：产品（特殊产品如学生卡）/客群（VIP）/政策（年龄/无人行/欺诈等）/风险异常（如业务风险异常波动的时点，即某个月份坏账率较大的要排掉）
表现期：无贷后表现（没有用信发起提款）/有表现但时间不构成/不满足好坏定义(比如逾期程度处于中间地段）

B卡：做风险预警/做风险评估从而调额或者发券
观察点排除：观察点里放款时间间隔短/状态排除：当前不能逾期，否则算到催收评分卡里了
表现期排除：无贷后表现（没有用信发起提款）/有表现但时间不构成/不满足好坏定义(比如逾期程度处于中间地段）

补充：

方法论：可采用逻辑回归+随机森林混合模型，逻辑回归生成基础评分，随机森林捕捉非线性关系

变量：消费行为类（近30天消费频次下降率+夜间消费占比）+负债变化类（信用卡额度使用率突生幅度，阈值设为30%）

C卡：逾期的人，包括迁徙率模型/还款预测模型/失联修复模型，以第一个为例
观察期排除：观察点排除（M0、M1不符合M2-M3）/异常波动排除（催收无大动作的时间窗口，选择迁徙率稳定、客群稳定的时间）
表现期排除：表现期不足，不满足好坏定义

变量维度：催收行为（历史接通率+还款承诺兑现）+失联风险维度（最近7天通话时长下降幅度（阈值设为50%））

分箱策略：采用等频分箱，将客户划分为10组；前3组使用AI催收，后三组转人工外呼

模型细分：
按产品类型（贷款类型，产品额度、定价、还款方式）/合作渠道/客群类型/担保方式/数据维度
原则：风险差异性/样本量足够/数据可用.维护成本

二.模型开发：
1.样本划分：训练集-验证集（调超参数）-测试集（评估模型是否过拟合，与前两个在同一时间范围内）-时间外测试集（不同时间段模型效果是否衰减）
前三个比例6:2:2，对逻辑回归不需要验证集，则7:3，最后一个oot一般预留1-3个月样本量

2.样本抽样：按比例抽样好坏客户，使得比例均衡，一般样本量5万以上，通常采用分层抽样，即好坏分别抽
抽样后要进行样本权重的还原，这样才能和真实样本坏账率比较，而不是只看排序性

3.变量预处理：初筛，按缺失率、众数占比、业务解释性筛，最终评估标准是看模型的区分度和稳定性，区分度看KS/AUC/LIFG，稳定性看oot和train上的差异
缺失率：根据数据类型动态调整，一般>80%的踢掉

影响：
包括横向和纵向的缺失，行样本全部缺失会导致模型极度不稳定（包括有覆盖但未查得以及样本没有全部缺失但后续筛选导致行样本缺失的情况）
如果缺失值太多，模型分会出现双峰形态，因为缺失样本在算法里有默认值，最终模型分一样，就会有个分特别高
KS出现跳跃，虚高
如果缺失值有业务含义，也可以入模，一般不会做填充

处理：
将缺失值变为-999
缺失值和0区分
一般会将缺失值单独分一箱，如果某一正常取值分箱和它一直，则合并

4.变量分箱：等频等距、决策树、卡方、最优分箱，目的要让变量呈现出单调性、可解释性
如图！！！！！！！！！！！！！

等频和等距区别
等频是每箱样本量相同去划分距离，等距直接看最小和最大值多少然后等分

决策树分类算法如图！！！！！！！！！

其中cart最常用
卡方分箱：
思路是如果相邻的区间有类似的分布则可以合并
方法：先分箱，然后两两计算相邻分箱的卡方值，找出最小的一个合并，停止调解室卡方阈值或者分箱数量
最优分箱：
思路：引入凸混合整数规划公式；
方法：先用决策树算法来计算初始分割点，再通过各种约束条件对分箱优化

5.变量精筛：算IV、可解释性、变量间的关系、PSI，一般不多于30个
WOE转化：针对一个分箱的
ln(Badi/Goodi)-ln(BadT/GoodT)
WOE：先分箱并且匹配Y值
意义：WOE越大，bad_rate越高；WOE描述了样本是否属于坏客户的方向和大小
，正值则是坏客户方向，经验值(-3,3)；
含义：每个分箱的坏好比相对于总体/贝叶斯角度：衡量对先验认知修正的增量

优点：
1.增强泛化能力（减少取值数）
2.增强可解释性（代表离散区间样本的好坏程度，数据分布的单调性趋势，便于特征筛选）
3.变量稳定性（消除异常值，统一量纲）
4.IV值计算基础

注意事项：
1.每箱超过5%
2.极值处理（只有坏客户或好客户时分母为0）
3.看坏账率单调性时，缺失值那箱忽略
4.分箱数量不易超过8箱，因为IV是在WOE基础上算出来的，箱数越多，IV越大，对变量筛选不公平
5.分箱合并：如果相邻分箱WOE相同，则合并为一个分箱

IV:对WOE加权，考虑了分组中的样本占整体样本的占比
IV=( (Badi/BadT)-(Goodi/GoodT))*WOEi
整体IV=IVi求和
IV:0.02-0.1弱，0.1-0.3中，0.3-0.5强，0.5以上超强
注意：
1.一般贷中行为变量IV值较高
2.IV考虑相对值
3.分组越多，IV越大，但分组过多会导致每个分组数量变少，导致分布不稳定，且会打破单调性
4.IV值太高（贷前>0.5贷中>1）则检查是否数据穿越
5.当心一箱全是坏客户导致IV异常高

6.相关性：参数统计方法，建立在变量符合正态分布基础上：person系数（只能处理连续型变量）
非参数方法，不建立在变量符合正态分布基础上：斯皮尔曼系数（衡量整体单调性），肯德尔相关系数（计算数值对的协调性）（可以处理有序变量）
person系数：0-0.2非常弱，0.2-0.4弱，0.4-0.6中等，0.6-0.8强，0.8-1.0非常强
实操中：>=0.7则相关性高要剔除
剔除哪个？保留预测能力强的变量(IV大的）

7.多重共线性：
如果观察到变量系数相异，则存在共线性，但反过来不成立
检测方法：VIF=1/1-Ri2,Ri表示Xi作为因变量与其他自变量回归时的R2
标准：如果变量较少，VIF不能超过10，如果充足，不能超过4
处理方法：提前筛选（可以先用相关性筛选）；子集选择（逐步回归，每次加或删一个变量看VIF或者模型系数来筛选）
正则化；

8.逐步回归：（只是一种参考，不一定一定要做）
方法：分为前向（按照贡献度从大到小依次加入）/后向/双向回归（每引入一个变量都要进行F检验，并对已选入变量逐个进行t检验）
评价标准：F检验（检验模型的整体显著性）/t检验（检验模型各个系数的显著性）/AIC/BIC（后两个均是衡量统计模型拟合优良性的一种标准）
AIC=2K-2ln(L）
其中K是模型参数的数量，L是模型在数据上的似然估计值
第一项是对模型复杂度的惩罚，第二项则是似然值越大则拟合的越好。
模型复杂度增大k增大，L也增大，AIC减小，但K过大时，L增速减缓，此时AIC增大，达到过拟合，因此目标是找AIC最小的模型，降低过拟合
注意AIC不能用于模型间比较

BIC=ln(n)k-2ln(L)
n:样本量
区别：当样本量大时BIC惩罚会更严格些。

弊端：
1.容易删除重要变量
2.过于依赖统计显著性进行变量选择，忽略了变量的业务意义或实际影响
3.结果不稳定（不同样本会导致不同的变量选择结果）
4.计算复杂度较大

9.模型拟合
模型效果验证：模型：KS,AUC,PSI/变量：IV,PSI,排序性

10.模型校准：
含义：由于样本经过抽样，因此输出概率不是真实概率，要转化为违约率
便于模型迭代以及多模型作为子模型进行融合

应用场景：
1.样本抽样
2.客群变化但是还不用迭代时可做校准
3.模型融合时让概率可比

方法：
针对前两个场景：本质上没有改变模型的排序，只是模型概率结果的平移，平移至接近真实概率的水平
1.权重还原：按照抽样比例还原
公式如图：其中w是坏样本抽样比例/好样本抽样比例

2.错误分配（修正逻辑回归的截距项，截距项近似于模型开发样本的正负样本比例的对数，降低错误分配的影响）
针对第三个场景：
3.platt scaling：使用逻辑回归模型对模型输出的概率结果做二次拟合，通过某些函数映射变换转化为正态分布，以此标准化模型概率结果。

校准好坏评价：
以输出概率和实际概率为横纵轴，如果数据点几乎落在对角线上则校准得很好。
如图：odds=P坏客户/P好客户

这两种校准方法结果是一样的

11.评分卡模型分数转化
1.公式
score=A-B*log(p/1-p),而几率对数log(odds)实际就是逻辑回归的输出结果，因此可以他通过线性表达式进行放大。
A决定偏移量，B表示odds每增加一倍，分数会变化多少倍
PDO：odds翻倍时对应的分数变化值，因此给出PDO和基准分和初始好坏比可得出AB和公式

2.分数变换和模型校准的区别：
模型校准是让输出概率尽可能接近真实的概率，分数转换是一个放大的映射函数。

变量分数转化
评分卡的灵魂就在于能将变量区间转化为分数
推导：
score=A-B*log(odds)
log(odds)=B0+B1*WOE1+B2*WOE2+...+Bn*WOEn
score=A-B*（B0+B1*WOE1+B2*WOE2+...+Bn*WOEn）
注意，当存在多重共线性时，可能会导致一个变量的符号与业务常识相悖，因为模型会将一个因子的正向作用给到另一个因子。
根据上述公式，可以算出每个变量的公式=-B*beta*WOE
将各变量求和就能得出总分数。

12.生成评分卡：

模型风险概率到分数的变化：
Score = A + B * log(odds)
其中odds：好坏比=(1-p)/p
为了保持与WOE方向一致，一般用正号
A是基准分，B是刻度因子，算的时候要确定A以及odds翻倍时分数的增长倍数

在逻辑回归中，第n个特征的分数=B*β*WOE,其中β为模型截距项

13.生成报告和模型文件

14.模型监控：

A卡：KS大于0.3，AUC超过0.8视为优秀，PSI需大于0.25

从策略维度如何设计模型监控：

1.评分一致性监控：线下与生产评分的一致率，by日、周、月设置阈值

2.业务指标监控：业务指标监控：从入口申请 -授信通过 – 放款业务指标监控，监控psi，

如何排查原因：去看变量，一般设计到数据源、入口进件质量变化、风险策略发生变更等：

比如：

评分人群往低分偏移，则客群变差，考虑策略是否要调严

往高分偏移，则考虑是否被针对性共计，这种智能针对性迭代模型

可以增加维度：如：首贷、复贷、渠道、客户数、授权/放款金额

3.模型性能指标监控：常规指标KS/AUC/Lift/PSI等监控

注意：ks一定会下降，因为策略会用模型结果拒绝掉一批坏人

长期看ks和auc

短期看lift值和坏账率（比如入催率、首逾、逾期1+，逾期4+）

如果后期排序能力出现反转，则看是个案导致还是模型有问题

4.模型特征变量监控：深入到模型内部，定位问题根源，看那个变量导致

5.监控预警机制设计：预警分层设计，不同阈值输出不同预警内容

目标：一致？稳定？有效？策略价值？

如何在小样本上开发模型

原则：psi比ks更重要

模型不稳定的本质：小样本无法代表客群全貌，基于其训练的模型对数据分布的变化极其敏感，随着时间的推移或客群的切换，模型性能与稳定性会剧烈波动

二、解决方案一：迁移学习

对于新开展的业务，或者某类特定客群，在样本量较少时，可以通过寻找不同渠道或不同产品的相似样本来开发模型，并在新业务或某类特定客群上做模型效果验证，具体做法也分为两种：

1．模型开发并迁移至小样本业务上

跨产品、跨渠道样本迁移，利用其他产品或渠道的样本开发模型，并通过在小样本业务上做严谨的验证确保模型稳健可靠。具体操作为：

通用做法：找到与目标业务（即小样本业务）最强相关的业务数据。例如：

1）做小微企业贷，可以迁移使用已有的企业主个人消费贷数据、企业信用卡数据。

2）做某个新兴市场的贷款，可以迁移使用其他相似经济发展水平地区的贷款数据。

3）做高端客群信贷，可以迁移使用中产客群中信用最好、收入最高的那部分人的数据。

核心注意事项：必须进行充分的特征工程和分布分析（计算PSI、关键指标分布等），确保选择的样本和目标样本的特征分布尽可能相似。如：年龄、性别、学历、消费水平、负债、查询机构数等，以及其他关键特征分布相似。

模型开发完成后，在小样本上做充分验证，评估评分模型在小样本上的KS/AUC等评分模型指标，同时，评估评分分布及Lift值，对比与开发样本的差异，同时评估模型在小样本上的指标值是否达到应用的要求。

2．小样本合并其他产品样本一起建模

有时候，其他渠道或其他产品的样本也不多，在这种情况下，按照上面挑选出来的强相关业务样本后，与目标样本（即小样本）合并作为整体样本开发评分模型，此时，两种不同产品样本混合在一起，在评分模型开发完成之后，同样需要在小样本上做单独的验证，评分模型的各项评估指标在小样本上达到要求后才能应用。

三、解决方案二：模型开发各环节施加严格约束

在实际工作中，不同产品之间往往差异比较大，迁移学习的方法不能适用，只能采用已有的小样本开发模型，要防止过拟合与保持稳定性，就必须对模型开发的各个环节加以严格的约束：

（一）建模流程各环节约束

1．建模样本选择：选取满足表现期的全部样本，同时，一定要留OOT样本，留作样本外的验证与评估，确保模型的稳定性和防止过拟合。

2. 坏样本定义：在坏样本定义上，为了能得到更多的坏样本，可以定义表现期内曾经出现过的逾期超过N天的定义为坏样本，如表现期内曾出现过逾期30+，即使当前时间节点无逾期，也定义为坏样本，增加坏样本的数量，让模型尽可能多的学习到坏特征。

3. 算法选择：优先选择简单的逻辑回归模型，线性模型天然简单，过拟合风险最低，且具有无可匹敌的可解释性。树模型相对较复杂，且模型内部是黑箱，小样本较容易过拟合且稳定性较差。

4. 特征工程与WOE分箱：优先构造强业务逻辑的特征变量，避免依赖模型挖掘的复杂交叉特征。在WOE分箱上，分箱不宜过多，确保每个分箱样本占比超过5%，同时，尽量让每个分箱都有一定的坏样本量，这样可以避免坏样本的一两个变动导致WOE趋势的反转；同时，WOE分箱中，一个分箱中样本的占比也不应过大，这样会造成评分分布比较集中。

5. 入模变量挑选：入模变量优先选择内在稳定的特征，如年龄、学历、历史信用记录等随时间变化缓慢的特征，谨慎使用与营销活动、短期经济波动或行业波动强相关的特征。入模变量必须是强业务逻辑的变量，同时必须满足WOE趋势与业务理解一致。

（二）模型验证评估

1. OOT样本：必须留OOT样本，用时间外的样本来验证模型的稳定性与是否存在过拟合。如果没有时间外的样本做验证和评估，开发的模型可能会很好，也没有过拟合，但可能会稳定性差，不适用开发样本以外的其他时间的样本。

2. 模型整体评估：与常规模型开发流程一致，验证模型在开发样本与OOT样本上的指标变化情况，KS/AUC/Lift/PSI等是否一致。

3. 入模变量特征：验证开发样本与OOT样本每个特征PSI的稳定性，以及WOE趋势一致。除此之外，验证每个变量特征在单月WOE趋势的一致性，确保在大部分的月份上，WOE趋势是一致的。验证每个变量在单月的WOE趋势，可以确保评分风险排序的单调性和稳定性。

4. 最终评分验证：除评估开发样本与OOT样本PSI稳定性外，评估单月评分分布的PSI，以及Lift值趋势，确保每月的趋势都是一致的，因为小样本中，坏样本量较少，评分模型较容易因为某个区间一两个坏样本的变动影响评分模型的风险排序性，单月的评估可以验证模型在不同月份的趋势，从而评估模型的稳定性，稳定除了PSI的稳定，还有Lift值趋势，或者说WOE趋势的稳定性。

5. 模型监控与快速迭代模型：小样本开发的模型通常稳定性都相对偏弱，有计划地积累新样本，当样本量达到新阈值时，启动模型重构或优化。只有积累样本后快速迭代模型，如一个月或三个月迭代一次，这样才是解决过拟合和不稳定的最有效方法。

小样本开发的模型，稳键性要优于精准性，即模型的稳定性要优于KS，KS由于坏样本量较少，坏样本量的波动对KS影响也较大，即使在开发样本上，以及OOT样本上，KS均较高，但模型上线后，有可能因坏样本量的变化，KS波动会很大。但是，如果确保了模型变量的稳定性，以及变量WOE趋势的稳定性，评分往往是相对稳定的，评分的稳定，那风险策略的影响相对就没那么大。

四、解决方案三：K折交叉检验等方法

对于小样本建模，还有其他一些方法，但是在实际业务操作过程中，我觉得其实没有那么好用，所以归类到这里，主要有以下几类：

1．K折交叉检验：即把样本划分为K份，例如10份，每一份样本都可以拿来做检验，另外9份样本作为开发样本。这样开发的模型可以解决过拟合的问题，但还是没法解决跨时间样本稳定性的问题。

2．重复抽样：增大样本量的方法，比如样本总量是5000，坏样本量是200，对样本有放回抽样，一次抽一个样本，抽样20000次，这样就可以得到2万个样本，好坏样本量都会相应增加，另外即使抽样了2万次，原样本中还是会有样本没有被抽中，用这部分未抽中的样本作为验证样本。但是这种方法只是样本量的重复，模型没有学习到新的信息，这种方法可以验证模型的稳定性和可靠性。这种方法开发完模型后，在验证样本上该做的评估还是一个都不能少，开发完模型之后，还是得按照解决方案二中模型验证评估部分中的方法做检验评估

3. 拒绝推断：即加入拒绝样本，以增大样本的数量。拒绝推断的方法很多，也涉及到很多操作细节，后续再单独放在【风险模型专题：评分模型中的拒绝推断方法】中介绍。

4. SMOTE方法：Synthetic Minority Over-sampling Technique，即合成少数类过采样技术。核心思想是：它不是通过简单复制少数类样本来增加其数量，而是通过线性插值的方法，在特征空间中“创造”新的、合理的少数类样本。简单的说，就是通过一定的方法，增加坏样本的数量，解决坏样本过少的问题。这种方法我没有用过，不知道效果怎样，但是从这种方法的原理来看，在实际业务中并不一定好用。

拒绝推断

一.模型分类：

1．KGB模型

全称： Known Good Bad

定义：仅包含那些已被放款且已知好坏状态的客户。这是我们唯一拥有真实标签的数据源。

特点：数据纯净，但存在严重的样本偏差。它是所有拒绝推断方法的起点和信息来源。

2．AGB模型

全称： All Good Bad

定义：包含全部申请人群，包括KGB样本（已知好坏）和拒绝样本（推断出的好坏）。

特点：通过拒绝推断技术构建，旨在模拟真实的申请人群分布，是训练最终风控模型的数据集。

简单来说，KGB是“我们看到的世界”，而AGB是我们通过推断试图还原的“真实世界”。拒绝推断的过程，就是将KGB模型转化为AGB模型的过程。

二.AGB具体方法

a）外推法

这类方法稍微复杂，通过构建模型来推断。即通过KGB样本，先开发评分模型，再基于评分模型对拒绝样本做好坏标签推断，最后再合并KGB样本与拒绝样本开发AGB模型。

1）打包法（Reject Inference e.g. Augmentation）

操作：

a）使用KGB样本训练一个初始的风险评分卡/模型。

b）将这个模型应用于全部申请样本（包括通过和拒绝），为每个人计算一个信用分数。

c）假设“分数相同的客户，其好坏概率也相同”。

d）对于每个分数段，根据通过样本中观察到的坏账率，为该分数段内的拒绝样本随机分配好坏标签。例如，分数段600-620区间，坏账率是10%，则这个分数段中的拒绝样本，随机对10%的客户打上坏标签，其余90%为好标签；580-600区间的坏账率是20%，则随机对20%的客户打上坏标签，其余80%为好标签，以此类推。

在业务实践中，会增加一个惩罚系数来调整拒绝样本的坏账率，惩罚系数一般定为2-3倍，假设惩罚系数为2倍，分数段600-620区间KGB样本的坏账率是10%，则认为这个分数段拒绝样本的坏账率为10%×2=20%，即认为拒绝样本的坏账率是KGB样本的2倍，因为在认为当前策略是有效的前提下，拒绝的样本风险要比通过样本高。

2）模糊法

把一个样本拆成两个样本，一个是坏样本，对应权重是0.3，一个是好样本，对应权重是0.7，两个样本除了权重不同，其余信息一致，其他样本也是类似操作，一个样本拆成两个样本，把坏账率作为权重，最后再合并KGB样本与拒绝样本开发AGB模型。

与打包法类似，模糊法在业务实践中也会增加惩罚系数，一般也是2-3倍

b）高级建模法

这类方法将“是否被拒绝”和“好坏表现”整合到一个统一的建模框架中。

1）迭代再分类（Iterative Reclassification）

操作：

a）用KGB样本训练模型M1。

b）用M1对拒绝样本打分，并选择其中分数最高（风险最低）的一部分，暂时标记为“好”。

c）将这部分新标记的“好”样本加入KGB，重新训练模型M2。

d）重复步骤2和3，直到模型稳定或满足停止条件。

逻辑：逐步“挖掘”拒绝样本中潜在的好客户。