本文为台湾地区《住宅学报》 VOL.15-2 民国95年12月 P.65-90的文章,主要谈了一下个人住房抵押贷款申请评分卡的构建过程。原文在这里,现整理如下:
金融机构住宅房屋贷款信用评分系统的构建研究
庄瑞珠 陈穆贞
摘要:本研究主要分析住宅房屋贷款的授信风险,评估最能衡量借款人信用、偿债能力的预测变量,获取房贷授信风险评估因素并由其对信用状况的影响程度给予不同权重,利用似然比估计,确定回归估计系数的权重,建立较完整评估系统与风险量化的研究模型,借以评估授信条件,提高信用良好比例。研究表明:月付比例、贷款成数、过去信用状况、担保关系为影响贷款信用好坏的主要因素。本研究凭借回归分析模型构造了信用评分卡,收到了良好的使用效果。
一、绪论
本部分介绍了台湾金融行业的大背景:90年代初开放台湾地区的银行业,允许本地新的商业银行和外资银行从事存贷款业务,使得竞争日益加剧。而过去五年内的平均存贷利差下降近20%,进一步压缩银行的利润空间。同时,房屋贷款和建设融资两业务处出现过热状况,贷款平均利率却普遍偏低,银行资产投向了利润低风险高的产品,承担不起任何损失。贷款成数过高的贷款宽限期(只付利息不还本金)马上就要集中到期,其中部分人的贷款将出现违约。另外,巴塞尔系资本协议的推行也迫在眉睫,银行开始注重风险管理,开始紧缩放款,对岛内房地产行业可能造成不好的影响。
基于以上估计,作者认为现行比较可能成功的策略是将房贷产品多样化与分散化,产生差异化策略,针对产品划分和信用等级不同,发展独立的风险管理模型。
岛内现有的信用评分系统,只有少数银行在使用。评价信用风险的方法主要有三种:经验法则、信用评级准则和专家系统。本文研究的是信用评分制度。
二、文献讨论
借款人向银行借款时,银行主要关心:1.抵押物的价值,需要有评估抵押物价值的系统;2.借款人的信用状况,如历史上的不良记录。另外,借款人的偿债能力也是重要的,如贷款金额、贷款成数、月偿还利息占月收入比等指标。以上这些指标都将会在模型中反映。
过去决定未来,这是做信用评分时的一个基本原则。凭借技术手段,由过去的数据来研发能预测未来授信客户表现的分数,假设在授信审核时已知的客户特性,将与授信客户未来是否准时还款有关,一旦找出关联的规律性,即可套用现有数据作为未来决策。
Mays的书中对信用评分制度的建立流程进行了叙述。
一般来看,信用评分模型可以分成四大类:申请信用评分(针对新客户违约)、逾期付款信用评分(针对已发生违约的客户预测将来还款的可能)、行为评分(客户的消费行为预测)、行销响应评分(对行销有反应的客户进行分析)
台湾岛内大部分银行零星购买国外的信用评分模型,主要用在消费金融方面。如果自己研发的话,除了征信中心提供的外部负债资料:缴款项、负债类、其他信用申请类、信用长度类与信用类型。
评分卡的主要作用是找出影响住房贷款发生违约的因素,并将这些因素作为分析模式的预测变量,借以建构一个统计上的回归评分模型:结合线性判别分析、Logistic回归、人工神经网络方法和决策树将数据中的相关、模式、聚类和趋势找到。具体方法可在以下文献中找到:
Srinivisan&Kim(1987) Logistic回归
Epley et al.(1996) Logistic回归、 Probit分析和判别分析比较
Henley(1996) 判别分析,但无法解决变量之间共线性的问题
Boyle(1992)决策树,两个以上的目标变量
Yobas(2000)人工神经网络
本文以Logistic回归模式进行分析,以预测概率值作为评估顾客信用分数形成评分基础,对评分模型的构造流程进行了详细地叙述。
三、研究方法
1. 变量说明
客户分群:好、坏、无法判断价值的客户。模型主要是区分好坏客户,对第三类很难判断。
违约的定义:暂时性迟付à拖欠超过90天被认定违约
数据范围:1995年1月——1996年12月 共计508笔
解释变量18个,其中离散型变量11个,连续性变量7个:
贷款人特征变量:性别、婚姻状况、教育程度、年龄、职业、过去信用状况、服务年龄、月收入;
贷款相关类型:有无政府优贷、月付比例、贷款成数、贷款金额、贷款产品类型、保证人状况、担保关系;
房屋抵押物相关:房屋类型、房屋使用用途、屋龄
2. 统计分析方法
类别关联分析
主要反映类别变量与目标变量的关联程度,统计量使用Goodman&Kruskal’s Lamd
Logistic回归
评估模型匹配程度方法:Hosmer-Lemeshow统计量和Deviance统计量
评估Logistic模型区分能力方法
2.4.1.K-S检验
2.4.2.分类表:注意临界点的选取
四、实证结果与分析
1. 描述统计量和二元相关分析
将连续变量也做分组处理,进行单因素方差分析。这其中有一些关联比较明显的变量:
性别、婚姻状况、教育程度、职业、住房用途与类型、贷款金额与成数、月付比例。
另外利用卡方检验和Goodman&Kruskal’s Lamd以检验各个解释变量变动与违约相关性。将以上关联分析作为筛选指标变量的初步过程,并检验变量之间的共线性,进入下一轮。
2. Logistic模型分析
将样本分成:70%的训练样本和30%的测试样本。
计算不同临界点的情况下的模型预测率,确定临界点为0.6。
模型结果显示:与违约最有关的变量有四个:月付比例、贷款成数、信用状况与担保关系。
五、
1. 评分卡模型结果分析
设p为模型预测违约的概率值,则将(1-p) *100作为申请人的信用分数,再以10分为间隔将客户分组,观察在不同分组下违约样本比例。
2. 计分卡适配程度评估
以临界点=0.6下的模型计算Hosmer-Lemeshow统计量和Deviance统计量,检验预测为正常与违约两类群体间是否有明显差异
3. 评分卡模型区分能力分析
通过比较评分分数统计表,确定以60分作为得到的临界值:预测正常客户的准确率为94.9%,预测违约客户的准确率为63.3%。在正常被判为违约的客户中,经观察有一些是暂时性拖欠。
4. 信用结构组合与评级定义说明
利用决策树中CHAID方法来印证回归模型的准确性。
最后一部分是结论与建议(略)。