The Consumer Loanrsquo;s Payment Default Predictive Model: an Application of the Logistic Regression and the Discriminant Analysis in a Tunisian Commercial Bank

Lobna Abid¹amp; Afif Masmoudi²amp; Sonia Zouari-Ghorbel³

Received: 17 September 2015 /Accepted: 12 May 2016

# Springer Science Business Media New York 2016

Abstract Consumer credit scoring is often considered as a classification task where borrowers receive a good or a bad credit status. The current paper attempts to uncover the issue of allocating credits to bad borrowers. In this respect, consumer credit scoring is a measure taken to overcome challenges encountered by Tunisian banks in the process of granting credits. These challenges stand as initiatives to enable banks to predict the future performance of borrowers, to determine the optimal credit limit with regard to the applicantsrsquo; repayment behavior, and to ensure their efficiency through automating the credit-granting decision process.

To reach this end, we use the logistic regression as well as the discriminant analysis in order to develop predictive models that distinguish between Bgood^ and Bbad^ borrowers. The data have been collected from a commercial Tunisian bank over a 3year period, from 2010 to 2012. These data consist of four selected and ordered variables. By comparing the respective performances of the logistic regression (LR) and the discriminant analysis (DA), we notice that the LR model yields a 99 % good classification rate in predicting customer types, and then, a significantly low error rate (1 %), as compared with the DA approach (where the good classification rate is only equal to 68.49 %, leading to a significantly high error rate, i.e., 31.51 %).

* Lobna Abid

lobnabid@yahoo.fr

Department of Economic Development, Faculty of Economics and Management of Sfax,

University of Sfax, Airport road Km 4.5- B.P.3018, Sfax, Tunisia

Department of Mathematics, Faculty of Sciences of Sfax, Soukra Road Km 3.5- B.P. 1171, Sfax, Tunisia
Department of Economic Development, Institute of Business Administration of Sfax, University of Sfax, Airport road Km 4.5- B.P.3018, Sfax, Tunisia

Though the study is limited to a Tunisian commercial bank, it remains an attempt to minimize the rate of nonperforming loans.

Keywords Consumercredit. Credit risk. Logistic regression. Discriminantanalysis . Tunisian commercialbank

Introduction

Credit scoring systems constitute an important and integrative part of the companiesrsquo; risk management. These systems allow the prevention of bad debt losses by identifying, analyzing, and monitoring customer credit risk. In order to measure the default risk involved by sales on credit, customers are ascribed to face certain risk classes based on their individual propensities to payment default.

The default probability can be obtained either externally or based on an internal scoring model. The main internal information source on creditworthiness is the Tunisian Central Bank (TCB), being the main provider of data dealing with customersrsquo; previous payment behavior and their individual characteristics such as age, loan amount, outstanding credit, and socio-professional category.

These features, known as knock-out criteria, normally provide the outright facts on a specific consumerrsquo;s propensity to payment default.

Therefore, such data are used in order to establish a credit scoring model that might allow predicting the probability of new creditsrsquo; payment default. Researchers, such as Crook et al. (2007), assume that the applied standard approach allowing the estimation of these probabilities is the logistic regression (LR) model. However, this method has remained subject to several strict assumptions (see Malley et al. 2012). For instance, when the most important variables and anticipated interactions are not inserted correctly in the model, then problems of model misspecification can appear. Similarly, these researchers have assumed that the standard regression model cannot deal with multicollinearity, i.e., high correlation between independent variables.

Credit scoring is defined as the set of decision models that include some underlying techniques helping lenders in the decision of granting consumer credits. In other words, these techniques are implemented in order to assess the extent to which a borrower deserves to be granted a loan, the amount of money he/she should be allocated, and the nature of the operational strategies enhancing the profitability of the borrowers to the lenders.

For some researchers (Sarlija et al. 2004; Hand and Henley, 1997), the new banking environment requires the investigation of some of the conventional techniques such as the discriminant analysis, the probit analysis, and the logistic regression.

It is worth mentioning that the discriminant analysis and the logistic regression are still adopted in implementing and developing credit scoring models.

Knowing that there exists neither an ideal nor a unique technique for all types of data sets, the main challenge of the current paper is to explore the credit scoring models in an attempt to evaluate credit risks in the Tunisian banking sector. This attempt is conducted through a case study, and the results are obtained by using parametric methods such as the discriminant analysis and the logistic regression.

Hence, we try to empirically compare the performance of the various scoring techniques and to detect the consumersrsquo; payment defaults. Six hundred three borrowers, subscribed in one of the Tunisian commercial banks, constitute our sample in this study.

The frequent use of these techniques in developed countries was carried out along with the academic literature focusing on the benefits and the methodological issues dealing with the different models. However, in developing

全文共39008字，剩余内容已隐藏，支付完成后下载完整资料

消费者贷款的支付默认预测模型：逻辑回归和判别分析在突尼斯商业银行中的应用

收到日期：2015年9月17日/接受日期：2016年5月12日

＃斯普林格科学商业媒体2016年纽约

摘要

消费者信用评分通常被认为是一种分类任务，其中借款人获得良好或不良信用状态。目前的论文试图揭示为不良借款人分配贷款的问题。在这方面，消费者信用评分是为了克服突尼斯银行在授信过程中遇到的挑战而采取的措施。这些挑战主要是为了使银行能够预测借款人的未来业绩，确定与申请人的还款行为有关的最佳信贷限额，并通过自动执行授信决策流程来确保其效率。

为了达到这个目的，我们使用逻辑回归以及判别分析来开发区分Bgood和Bbad ^借款人的预测模型。这些数据是从2010年到2012年从突尼斯商业银行收集的，为期3年。这些数据由四个选定和有序的变量组成。通过比较逻辑回归（LR）和判别分析（DA）各自的表现，我们注意到LR模型在预测客户类型方面产生了99％的良好分类率，然后显着低的错误率（1％），与DA方法相比（好的分类率只有68.49％，导致错误率很高，即31.51％）。

1斯法克斯经济与管理学院经济发展系，

斯法克斯大学机场路Km 4.5- B.P.3018，Sfax，突尼斯

2斯法克斯科学院数学系，Soukra Road Km 3.5 - B.P. 1171，突尼斯斯法克斯

3D斯法克斯工商管理学院经济发展系，斯法克斯大学机场路Km 4.5-B.P.3018，Sfax，突尼斯

虽然该研究仅限于突尼斯的一家商业银行，但仍然试图将不良贷款率降至最低。

关键字Consumercredit。信用风险。逻辑回归。判别分析。突尼斯商业银行

介绍

信用评分系统是公司风险管理的重要组成部分。这些系统通过识别，分析和监控客户信用风险来防止坏账损失。为了衡量信贷销售所涉及的违约风险，客户可以根据其个人支付违约倾向来面对某些风险等级。

默认的概率可以从外部或基于内部评分模型获得。关于信誉的主要内部信息来源是突尼斯中央银行（TCB），它是处理客户以前的付款行为及其个人特征（如年龄，贷款金额，未偿信贷和社会专业类别）的数据的主要提供者。

这些功能称为淘汰标准，通常提供关于特定消费者的支付违约倾向的完全事实。

因此，这些数据用于建立一个信用评分模型，可能允许预测新信用支付违约概率。研究人员，如Crook等人。（2007）假定允许估计这些概率的应用标准方法是逻辑回归（LR）模型。但是，这种方法仍然受到几个严格的假设（参见Malley et al。2012）。例如，当最重要的变量和预期的相互作用没有在模型中正确插入时，那么模型错误指定的问题就会出现。同样，这些研究人员假设标准回归模型不能处理多重共线性问题，即自变量之间的高度相关性。

信用评分被定义为一组决策模型，其中包括帮助贷款人决定授予消费者信贷的一些基本技术。换句话说，这些技术的实施是为了评估借款人应得到贷款的程度，他/她应该分配的金额以及提高借款人获利能力的运营战略的性质，以贷方。

对于一些研究人员来说（Sarlija et al。2004; Hand and Henley，1997），新的银行业环境需要调查一些常规技术，如判别分析，概率分析和逻辑回归。

值得一提的是，在实施和开发信用评分模型时仍采用了判别分析和逻辑回归。

由于知道对于所有类型的数据集既没有理想的也没有独特的技术，本文的主要挑战是探索信用评分模型，试图评估突尼斯银行业的信用风险。这种尝试是通过案例研究进行的，并且通过使用参数化方法如判别分析和逻辑回归来获得结果。

因此，我们试图通过实证比较各种评分技术的表现并检测消费者的付款违约。在突尼斯的一家商业银行中认购的630名借款人构成了我们在这项研究中的样本。

这些技术在发达国家中的频繁使用与学术文献一起着重于处理不同模型的益处和方法问题。然而，在发展中国家，有关信用评分成绩的证据相当有限（例如参见Altman等1979年巴西和Dinh和Kleimeier 2007年越南）。

据我们所知，在这种情况下，我们的研究很可能是第一个在贷款的付款违约方面提供如此广泛的消费者行为分析的研究。

因此，我们的目标是为突尼斯银行找出效能最高的内部信用评分模型，旨在改善目前的预测能力因素。特别是，我们首先选择了银行应该收集的指标。此外，我们展示如何将这些指标结合到信用评分模型中。在来自突尼斯商业银行的603位借款人样本中，结果显示逻辑回归模型显然优于其他评分技术，整体准确率为99％，其次是判别分析（整体分类一致性为68.49 ％）。

此外，虽然我们从一套类似的定性和定量指标开始，但我们的分析表明，允许预测所选突尼斯银行贷款违约的最具统计相关性的变量是贷款金额，未偿还贷款和社会专业类别的借款人。

事实上，尽管目前的研究仅限于突尼斯商业银行由于缺乏数据而对优秀和不良借款人的识别和区分，但它仍然试图将不良贷款降到最低。因此，通过采用更多可能增加评分模型准确性的变量，借款人类型的识别可以推广到突尼斯的其他公共和私人银行。

我们的论文结构如下：BCredit Scoring ^部分讨论信用评分模型。 BMethods ^部分介绍数据来源以及研究方法。 BResults的分析部分提供了结果分析，而B节和透视部分提供了结论和进一步研究的一些建议。

信用评分

信用评分被定义为一组决策模型，其具体的基础技术旨在在向客户提供信贷时为贷方提供支持。它也被视为一种决策支持系统，可帮助管理人员进行财务决策。同样，信用行业的快速发展也使得信用评分模型具有突出的用处，因为它们与信用准入评估的决策高度相关（参见Chen和Huang 2003）。因此，这些模型的实施是为了将信用申请归类为被消灭或者被拒绝，而不同于消费者的特征，如年龄，收入和婚姻状况。此外，贷款人接受或拒绝客户申请贷款的决定取决于申请人能够偿还其财务义务的程度。从这个意义上说，这些模型被用来煽动债权人通过使用先前接受和拒绝的申请来建立分类规则，从而可以预期借款人的信用风险（参见Thomas 2000; Yap et al。2011）。

在此基础上，实施信用评分模型，通过评估贷款申请的信用风险来确定信用申请人偿还其财务义务的能力（参见Emel et al.2003; Lee et al.2002）。因此，研究人员，如西（2000年），李等人。（2002），高等人。（2006年）和Akkoc（2012年）承认信用评分是一种将信贷申请人分为两类的系统：那些很有可能履行其财务义务的系统被标记为Bgood和那些履行这些义务的概率较低的系统被标记为Bbad。^

此外，根据Khashman（2010）的说法，申请评分是使用与信贷申请人相关的财务和人口统计信息的两项评分任务之一。该信息允许贷方将贷款申请分类为Bgood或Bbad风险组。

然而，由于与消费贷款机制有关的各种案件和决定，Khandani等人（2010）承认采用模型和算法而不是人为判断是至关重要的。也就是说，信用评分模型是基于统计技术如判别分析（DA）和逻辑回归（LR）构建的。

据West等人称。（2005年），这些技术需要采用准确的决策支持模式进行信用准入评估，也需要监测信用客户的真实健康状况。因此，信贷决策准确性的具体提高有望降低信贷风险，并应导致重要的未来储蓄（Hand and Henley 1997; West 2000; Chen and Huang 2003; West等2005; Tsai and Wu 2008）。根据Tsai和Wu（2008）的观点，值得一提的是，信用评分被广泛用于会计和金融文献，因为它影响了贷款决策以及金融机构的盈利能力。

通常情况下，信用评分模型是通过使用统计技术来实现的

DA和方法

数据

本研究数据库由一家突尼斯银行创建，处理2010年至2012年期间向其现有客户和新客户发放的603笔消费者贷款。该数据库没有包含处理被拒绝的申请的信息，这可能构成了一个缺点。我们应该注意到，如果信用评分模型仅基于被接受的数据，那么它们通常是有偏见的。因此，有关被拒绝的应用程序的信息可以减少偏见。在这项研究中，我们并没有遇到这样的问题，因为被拒绝的客户只包括那些不符合以下简单法律标准的贷款申请人：如果每月的贷款总额超过他月薪的40％。

如果贷款的所有负债均未按时支付（不良贷款^），并且值为0，那么授予贷款的客户的信用行为由值为1的二元变量定义这并非如此（Bperforming贷款^）。在提供的样本中，只有262份申请（占43.45％）值得信赖，而341份申请（56.55％）则没有。

这显然表明，向这家商业银行提供消费贷款并不是很令人鼓舞。

数据收集基于表1中显示的四个变量。

因变量Yi是默认事件，如果客户i具有值1

显示付款的默认值，否则显示0。一些研究（Hand和Henley，1997; Lee等人，2002; Bensic等人，2005; West等人，2005; Huang等人，2005）使用仅有两个值Bdefault事件或Bno默认事件的趋势。 2006; Tsai和Wu 2008; Khashman 2010; Akkoc 2012; Yap等2011; Blanco等，2013）。分类变量转换为数值（工人，中层管理人员，高级管理人员，退休人员和自由职能人员）。

表2列出了描述性统计分析，包括借款人的年龄，贷款金额，未偿还信贷和社会专业类别。

表2显示了处理我们数据的描述性统计数据。

研究方法论

LR型号

根据托马斯（2000），逻辑回归（LR）模型是一种预测模型，在分类和预测中被广泛采用。这是一个线性回归，其中目标变量是良好概率的非线性函数。此外，据他说，LR模型的分类结果对自变量之间的相关性很敏感。因此，在建立模型中插入的变量不应该强相关。假设信用数据的非线性会降低LR的准确性。在此基础上，LR信用评分模型的主要目标是确定属于一个特定类别的每个应用程序的条件概率（Yap et al。2011）。换句话说，Bgood或Bbad客户是依靠信用的解释变量的价值来评估的

表1建立信用评分模型的建议变量

变量类型变量定义

年龄，X1比例/数字申请人的年龄

贷款金额，X2贷款额度

未偿信用，X3规模未偿贷款

职业类别，X4职业类别

默认事件，Y二进制1（如果有默认付款）

0（否则）

表2描述性统计

变量平均标准偏差（std）变异系数（cv）最小值

（最小值）最大

（最大值）

年龄（年）40.9967 8.5830 0.20935 24.0000 68

贷款金额/（103）

MDT 37.4771 79.2733 2.1152 0.0200 1326

未清信用/（103）

MDT 31.5276 77.6764 0.0100 2.467 1370

社会专业类51.0083 698.3532 13.690 0 9919

申请人。值得一提的是，Lee和Chen（2005）和Akkoc（2012）等研究人员赞成Yap等人的观点（2011），因为他们认为每个申请只会被分配到一类因变量。然而，逻辑回归模型将依赖（响应）变量的预测值的产生限制在零与一之间的区间中。 Logistic回归是一种常用的建模技术，通过使用一组预测变量将申请人分为两组（Akkoc 2012）。 LR模型如方程（1）：

其中pi表示作为特定客户i的Bgood ^的概率，其也是预测变量Xi（X1：年龄，X2：贷款金额，X3：未偿还贷款和X4：社会专业类别）的函数，代表申请人的特点。 beta;0是截距，beta;j=（1，...，4）表示与相应的预测变量Xi（i = 1，...，4）相关的系数; （ln（pi / 1-pi））表示默认事件（Yi），εi是错误的期限。多重共线性是逻辑回归的一个不利特征。不过，这不是一个关键问题，因为信用评分模型仅用于预测。

判别分析

判别式分析旨在找出判别函数，并根据描述这些对象的某些特征将对象分为两个或更多组中的一个。判别分析的主要目的是最大化两组之间的差异，而同一组中特定成员之间的差异最小化。在信用风险模型领域，一个群体由好的借款人（非违约组A）组成，另一个包括坏账组（已经违约 - B组）。通过判别变量得分Z来测量差异。对于给定的借方i，我们计算得分如下：

Zi = Xgamma;jxj; i;

jfrac14;1

其中x表示给定特征，gamma;是估计模型中的系数，n表示多个指标。

DA旨在获得自变量的线性组合。其目的是尽可能准确地将观察结果分类到互斥组中，通过最大化组间组内比率的变化。判别函数具有以下形式：

Z = b0 b1X1 b2X2 b3X3 :::: bm X m;

其中Xj是独立变量，B是独立变量的系数，Z是使两组之间的区别最大化的判别分数。

在这项研究中使用了四个被认为是判别变量的变量。他们被应用于选定的样本，以找出拟合的判别分数，这将代表判别准则，以区分默认和非默认借款人。

结果分析

利用LR分析进行信用评分分析

模型的整体意义及其系数解释

由于logistic回归仅适用于大样本，验证多重共线性问题的缺失是最基本的。然而，在我们的例子中，这个问题并不存在，因为解释变量的数量减少到4个。

在转向估计系数的解释之前，我们可以通过采用Cox和Snell的R平方来问自己关于模型的质量或整体显着性，Cox和Snell用以下公式计算：

全文共12645字，剩余内容已隐藏，支付完成后下载完整资料</p

资料编号：[17381]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

消费者贷款的支付默认预测模型：逻辑回归和判别分析在突尼斯商业银行中的应用外文翻译资料

Lobna Abid¹amp; Afif Masmoudi²amp; Sonia Zouari-Ghorbel³

Introduction

您可能感兴趣的文章

登录

注册

找回密码

Lobna Abid1 amp; Afif Masmoudi2 amp; Sonia Zouari-Ghorbel3

Introduction

您可能感兴趣的文章

Lobna Abid¹amp; Afif Masmoudi²amp; Sonia Zouari-Ghorbel³