如何控制贷款偏离度?
谢邀~ 这个问题问得真是时候,昨天刚跟团队讨论了关于风控模型的偏差问题(其实一直都有讨论). 首先来说说偏差的定义和分类吧!
1、定义:在数据挖掘或者风险管理中,偏差(英语:Bias)定义为样本估计量对某个特定值的倾斜程度,也就是样本估计值与特定值之间距离的对数值。如果样本统计量的期望值等于这个特定值,即认为该样本统计量是无偏估计,否则为有偏估计。 简单地说,就是对于给定的特定值,计算出它的出现概率,然后看实际出现的频率与估计的概率之间的差距。举个例子来解释有偏和无偏:假设我们要估算一棵大树的年龄,而实际这棵树已经400岁了,而我们根据抽样估算的这棵大树年龄为300岁,那么就有(400-300=)100岁的偏差。
2、分类 根据偏差产生的原因,我们可以把偏差分为两类:
a. 推断性偏差:由于样本采集过程中存在缺陷所引起的,也叫错误采样偏差; 举例来说,我们想要了解某地区用户的移动消费习惯,但是仅仅从该地区抽取的5个用户作为样本进行研究,这样获得的结论是极度缺乏说服力的,因为这样的样本数量不足以反映总体的情况。正确的方法是在整个省份甚至全国范围内随机抽取用户样本来研究。
b. 选择性偏差:因为在样本收集阶段做了故意选择导致的,也叫做挑选样本偏差。 举例来说,我们的调研对象仅限于男性用户,这样就导致了样本偏差。又比如我们只调查了年龄介于18岁~40岁的人群,而没有考虑小于18岁或大于40岁的人群,同样造成了样本偏差。当然,前面所说的推断性偏差也会出现在选择性偏差之中。
无论哪种偏差,其结果都会导致我们得到的样本统计数据不能代表整体情况,从而给我们带来的风险就是:对总体的判断受到样本严重扭曲。 当然,有了错误的样本,我们就需要重新收集正确的样本,这似乎是一个一劳永逸的办法。然而实际情况远比这复杂,因为影响样本准确性的因素有很多,我们可能需要针对不同因素采取相应的处理方法。另外,有时我们也未必一定要纠正样本的所有错误,因为有时候错误样本的来源可能是可靠的,并且在统计上也是有效的。在这种情况下,我们应该放弃彻底纠正的想法,转而采用“污点清洗”的方式(whitening step),通过变换将样本中的偏差成分转化为无偏的估计量。