鑫宝财经网

Question

如何控制贷款偏离度？

贡钰杰最佳答案

谢邀~ 这个问题问得真是时候，昨天刚跟团队讨论了关于风控模型的偏差问题（其实一直都有讨论）. 首先来说说偏差的定义和分类吧！

1、定义：在数据挖掘或者风险管理中，偏差（英语：Bias）定义为样本估计量对某个特定值的倾斜程度，也就是样本估计值与特定值之间距离的对数值。如果样本统计量的期望值等于这个特定值，即认为该样本统计量是无偏估计，否则为有偏估计。简单地说，就是对于给定的特定值，计算出它的出现概率，然后看实际出现的频率与估计的概率之间的差距。举个例子来解释有偏和无偏：假设我们要估算一棵大树的年龄，而实际这棵树已经400岁了，而我们根据抽样估算的这棵大树年龄为300岁，那么就有(400-300=)100岁的偏差。

2、分类根据偏差产生的原因，我们可以把偏差分为两类：

a. 推断性偏差：由于样本采集过程中存在缺陷所引起的，也叫错误采样偏差；举例来说，我们想要了解某地区用户的移动消费习惯，但是仅仅从该地区抽取的5个用户作为样本进行研究，这样获得的结论是极度缺乏说服力的，因为这样的样本数量不足以反映总体的情况。正确的方法是在整个省份甚至全国范围内随机抽取用户样本来研究。

b. 选择性偏差：因为在样本收集阶段做了故意选择导致的，也叫做挑选样本偏差。举例来说，我们的调研对象仅限于男性用户，这样就导致了样本偏差。又比如我们只调查了年龄介于18岁～40岁的人群，而没有考虑小于18岁或大于40岁的人群，同样造成了样本偏差。当然，前面所说的推断性偏差也会出现在选择性偏差之中。

无论哪种偏差，其结果都会导致我们得到的样本统计数据不能代表整体情况，从而给我们带来的风险就是：对总体的判断受到样本严重扭曲。当然，有了错误的样本，我们就需要重新收集正确的样本，这似乎是一个一劳永逸的办法。然而实际情况远比这复杂，因为影响样本准确性的因素有很多，我们可能需要针对不同因素采取相应的处理方法。另外，有时我们也未必一定要纠正样本的所有错误，因为有时候错误样本的来源可能是可靠的，并且在统计上也是有效的。在这种情况下，我们应该放弃彻底纠正的想法，转而采用“污点清洗”的方式（whitening step），通过变换将样本中的偏差成分转化为无偏的估计量。

发布于 2024/7/6 21:01:51