优化个人信用评价 促进社会治理创新
发布时间:2018-11-06  |  来源: 信用中国  |  专栏:信用研究

  传统的个人信用评分,主要是针对商业银行个人信贷客户的违约风险进行评价。近年来我国互联网金融的发展催生出各种信用产品,基于互联网的个人信用评分成为了新的热点。更重要的是,随着人们社会生活方式的日益多样化,除金融业务以外的各类经济行为也带来了新的信用问题,这就使个人信用逐渐向社会信用发展,社会信用评分的重要性日渐凸显。因此,个人信用评分方法的科学性、可操作性及其评分结果在社会治理中的运用日益广泛。本文通过对个人信用评分方法的发展及未来趋势的分析,以阐述个人信用评价对社会治理的作用。

  一、个人信用评分模型的发展

  个人信用评分模型实质是基于客观的数学模型,根据已掌握的客户相关信息对其将来可能的信用情况进行判断。随着国内外对信用评分研究的不断深入,个人信用评分模型经历了由统计学方法到非参数方法、运筹学方法再到人工智能方法的演变,同时由单一模型到组合模型逐渐演进。由此形成了种类繁多的评分方法并构成了一个相对完整的体系。

  (一)统计学方法

  判别分析(Discriminant Analysis,DA)源于Fisher对三种鸢尾属植物的分类实验并被DavidDurand首次用来区分信用客户的好坏。判别分析是基于某些分类方法来使同类之间距离最小,异类之间距离最大,通过建立一个或多个判别方程,来判断某一变量的类别归属。当变量服从多元椭球面分布(多元正态分布是其特例)时,线性判别无疑是最优的选择(忽略样本抽样偏差)。BillFair和Earl Isaac于1956年采用判别分析法建立了著名的FICO(Fair Isaac Corporation)信用评分系统,由此带来了判别分析作为经典方法在个人信用评分领域的广泛运用。近年来,HsiangChen于2010年将最新的判别分析方法——SNDA、STDA、SDA、Sparse DA、FDA、MDA分别应用于个人信用评分,以总精确度及错分率为判别指标,指出SNDA、STDA和SDA在个人信用评分领域表现良好。

  回归分析法(Regression Analysis,RA)是起源于Francis Galton遗传学研究的经典统计学方法之一。是在大量已知数据的基础上,来探究一种变量(自变量)对另外一种变量(因变量)的影响,并建立描述二者间相关关系的回归方程,根据已知的自变量的值对因变量的值进行预测。在回归分析法中,应用较为广泛的有Logistic回归分析、Probit回归分析及多元线性回归。与判别分析相比,回归分析的鲁棒性较低,但回归分析对数据分布的要求相对宽松,而且能够提供客户的违约概率,因此获得了大多数学者和银行业的青睐。目前为止,Logistic回归已经成为最常用的统计方法之一。Srinivasan和Kim得出了Logistic回归在分类效果上要优于判别分析的结论。

  (二)非参数方法

  最近邻法(Nearest Neighbors, NNs)是由Fix和Hodges于1952年提出的用于分类问题的标准非参数方法,并由纽约银行最早应用于信用评分领域。其中最常用的是由Hart和Cover于1968年提出的KNN模型,因其能够很好的解决概率密度函数的分类和估计问题,在个人信用评分研究中取得了较好的效果。KNN模型通过计算寻找与待判样本点距离最近的k个信用样本,再根据k个样本的表现,以投票的方式确定待判样本的信用情况。由于最近邻法不用提前学习和训练模型,允许动态地更改客户信息,从而能很好地解决人口漂移问题,而较近的应用研究中则关注了“维数祸根”(Curseof Dimensionality)问题,指出最近邻法在应用于高维数据时,即使样本量很大,散落在高维空间内的样本点仍十分稀疏,难以找到相邻的样本。研究进一步指出,可以通过非线性的数据投影法来降低数据维度或者使用基于排序的最近邻法来解决这一问题。

  决策树法(Decision Tree, DT)由Breiman和Friedman于1973年提出,用以解决一般的分类问题,随后该方法被引入信用评分领域。决策树法以违约的可能上同质性更强为划分标准,将信用申请者划分为两个子类,每个子类再次划分为同质性更强的子类,整个递归过程直到子类达到预设的终止条件为止。决策树算法支持多个参数,会对所生成的挖掘模型的性能和准确性产生影响。Porter首次将决策树用于个人信用评估方法中。考虑到样本属性中包括了数值型数据及非数值型数据,近年来有学者将Boosting算法技术嵌入决策树中,该尝试取得了更好的判别效果。

  数据包络分析法(Data Envelopment Analysis,DEA)是在相对效率评价基础上发展的系统分析方法。它是以相对效率概念为基础,根据多指标投入和多指标产出对相同类型的单位进行相对有效性或效益评价的一种新方法。将数据包络分析法应用于个人信用评估,可将个人的特征向量视为投入指标,个人的信用情况视为产出指标进行分类。数据包络分析法的优点在于能够有效避免主观因素,减少误差,且建立模型前无须对数据进行无量纲化处理,与个人信用指标的特征一致。Cheng于2007年将DEA模型应用于私人融资计划中借款人的信用评分,指出DEA有着能够自动生成相对权重等优点。

  (三)运筹学方法

  在个人信用评分中应用的运筹学方法主要是线性规划法((Linear Programming, LP)。Mangasarian于1965年将线性规划方法应用于分类问题。1981年,Freed阐明了线性规划在判别及分类上的应用之后,该方法才引起了更多的关注。线性规划模型通过找到一组权重值,在给定的临界值的条件下,使得所有“好客户”的得分都在该临界值之上,而所有“坏客户”的得分都在这个临界值之下从而实现个人信用样本的分类。

  (四)人工智能方法

  专家系统(Expert System),作为人工智能方法应用于个人信用评分的成功尝试,其核心为通过一个包含某特定领域知识的数据库和对信息进行递推的规则,分析新情况并给出专家级的解决方案。Talebzadeh,Mandutianu和Winner于1995年介绍了CLUES专家系统的构建,该系统可以决策是否批准住房抵押贷款申请,后被美全国金融公司采用。

  神经网络(Artificial Neural Networks, ANNs)作为对变量进行线性组合和非线性变化,然后循环修正的一种方法,能够模拟人类大脑的决策过程,利用神经元相互触发,建立一种学习机制。Wolpert于1992年在信用风险评测中引入神经网络的方法,2000年Moody's公司公布了一套上市公司的信用风险评估模型,这套模型的主要方法为神经网络。至此,研究者和实践者开始广泛关注神经网络这一方法,很多学术期刊将传统的参数和非参数方法和五种不同的神经网络算法(包括混合专家系统、失真适应响应和多层感知器等)进行了比较分析,其结果是神经网络的稳定性较好。

  支持向量机(Support Vector Machine, SVM)于1995年由Corinna Cortes和Vapnik提出,其核心是通过某种事先选择的非线性映射将输入向量映射到一个高维特征空间,在此空间中根据区域中的样本计算该区域的决策曲面,由此确定该区域中未知样本的类别。

  SVM的出现解决了以往学习方法中存在的小样本、非线性、过学习、高维数、局部极小等实际问题,在个人信用评分中,支持向量机方法评分精度较高,预测能力强,且受变量限制少,具有很强的泛化能力,因此支持向量机不仅在手写数字识别、文本分类、语音辨识等问题上得到了广泛应用,在个人信用评分领域也成为了研究的热点。Huang于2009年指出SVM算法能够更好地捕捉变量间的非线性关系,并在SVM的基础上提出了混合支持向量机算法,通过实证验证了混合支持向量机算法有着更高的精确度,并有效降低了第二误判率。

  (五)组合评分方法

  上述的单一信用评分方法各有优势,由此引发了对组合方法的尝试。Bates和Granger于1969年开始系统地对组合方法进行研究。Clemen于1989年总结了不同领域的大量相关研究,得出组合模型能够取得更高预测精度的结论,这也成为了组合预测研究的一个里程碑。组合方法主要分为线性组合和非线性组合。其中权重的确定是问题的关键,权重的确定可分为固定权重和可变权重。到目前为止,比较常用的方法有简单平均法、胜出法、最优法和回归法。

  近年来国内在个人信用评分组合方法的研究上也取得了不少成果。既发挥了这些具有代表性的单一模型优势,同时减少了由于权重确定产生的误差。

  二、个人信用评分模型应用中的问题及发展趋势

  (一)信用样本有效性及完整性问题

  样本有效性是评分模型在我国信用数据中进行应用面对的首要问题。由于我国消费信用贷款业务发展较晚,信用体系尚未完善,现有的信用数据相当有限,且由于信用信息的提交仍不规范,灰色收入等纰漏的存在,造成信用样本数据的权威性和有效性面临挑战。

  在信用样本的完整性上,已有的个人信用评分模型都面对着一个不可忽视的数据问题——样本偏差(Biased Sample)。样本偏差来自于非随机性的样本获取过程,表现为样本和总体分布的非一致性,其本质是一种样本选择问题(SampleSelection)。在个人信用评分上,样本偏差表现为拒绝推论(Reject Inference)。拒绝推论就是指在个人信用评分的过程中,评估模型是建立在已接受的信用样本之上的,而缺少那些申请被拒绝的样本(拒绝样本)的相应数据。这就导致了信用评分模型所用数据不是随机样本,不能代表整个申请者的“入门总体”(Through-the-doorPopulation),从而导致评估的偏差。

  样本有效性和完整性对个人评分精度有重要影响,因此个人信用样本及样本结构的优化是未来发展的重要方向。一方面,需要在现有的样本下对结构进行优化;另一方面,要考虑如何扩大样本的规模,使样本更接近总体。这事实上对评分模型的处理能力提出了新的要求,既要保证模型具有对大样本数据的处理能力,同时又要保证模型的运算速度。

  (二)信用指标体系合理性问题

  信用评分指标体系的确定是个人信用评分的第一步,对整个信用评分的精确性及信用风险的有效识别至关重要。但我国尚未建立有效的、权威的指标体系。而我国的文化习惯和道德标准与国外相差较大,国内不同地区间经济发展水平、人口结构和生活方式,各民族间文化及道德标准也有着较大差异,这就导致同一指标在不同的实际应用中显著性有着较大的变化,因此针对不同的数据样本,对指标体系中的特征变量及变量的权重有所调整,充分适应实际业务需求十分必要。

  从目前来看,信用指标体系中的人口统计变量较多,而信用记录的变量较少,因此解决这一问题的关键是增加信用记录的相关变量。显然,由于商业银行的信用记录就是单纯的个人信贷还款记录,因此需要从商业银行系统以外寻求信用记录的来源。一方面,随着互联网的不断发展和人们基于网络的经济、社会行为的不断丰富,相关信用记录种类的数据也在不断丰富。

  比如各类交易软件的广泛使用,由此形成的契约关系下当事双方行为构成的履约和违约,是非常重要的信用记录。与此同时,在社交网络中的个体行为也是对个人信用很重要的衡量尺度。另一方面,随着公共信息的不断完善和政府相关部门间的信息融合,包括个人婚姻、生育、交通、纳税和社保等表征个人信用的信息不断完善,这为从社会信用记录角度去充实相关变量和指标提供了重要支持。

  与此同时,上述来源的信息还可以用来充实和补充个人统计变量。因此,个人信用指标体系包括了三个组成部分,即个人统计变量、包括银行信贷和网络交易行为的信用记录、社会信用信息,三个方面的指标使信用评价更具完整性,而且可以相互印证,进一步提高信用数据的质量。

  (三)模型选择及适用性问题

  目前,无论是学术研究还是商业银行的实践都致力于提高个人信用评分模型的精确性、稳定性及解释性,以便有效地进行风险识别并降低信用风险。但已有的模型各具优缺点。

  结合互联网和社会信用体系建设的发展,面对大数据下的评分模型的选择既是对原有方法的继承,同时又面临新的突破,尤其是随着算法的不断完善和处理数据能力的提高,各种模型的集成和融合将成为未来发展方向。

  一方面,由于信用样本的增加,与待评分样本相近样本的数量增加,这就为寻找与之更为匹配的样本集提供了条件,由此可以解决过去一直困扰信用评分的人口漂移问题。例如,可以考虑运用案例推理的方法,通过聚类建立与待评分样本相近的样本集,通过对这一特定的样本集的训练获得更为精准的模型用来进行预测。另一方面,由于人工智能方法的发展,可以充分运用机器学习的优势将不同的模型进行集成,通过集成算法来选择评分精度更高的模型并规避单一模型的缺陷。

  很重要的一点在于,当个人信用评分的范围扩大到商业银行以外的网络信用、社会信用之后,评分的目的也就不仅仅限于对违约概率的预测。例如,网络评分除对违约进行预测外,会更注重于个体的商业价值尤其是潜在价值,而社会信用评分则会侧重考虑个体行为对社会积极或消极的影响。而社会信用评分的发展会衍生出不同的评分使用者,他们各自的诉求也有所不同。例如,招聘单位会看重评分中的个人素质和品德等因素,甚至会关注其社会资源和人脉,网络监管部门则更重视其在上网过程中的不良行为;各类金融产品的提供者则在判断违约概率的同时关注其偿还能力。

  三、个人信用评分方法的发展对社会治理的作用

  (一)提高社会治理的针对性

  随着个人信用评分方法的不断优化,更多的商业银行个人信用评分模型被应用到社会信用评分中,这些成熟的方法结合社会信用相关数据资源的不断丰富,能够更加有效地识别影响社会信用的主要因素,从而有利于推进社会信用体系建设,提高我国社会信用水平。

  如何有效地识别影响我国社会信用的主要因素,建立具有我国特色的社会信用评分指标体系,是我国在开展社会信用体系建设中存在的主要问题。

  随着个人信用评分方法的发展,包括统计方法、人工智能方法等越来越多有效的数据挖掘方法应用到信用评分领域并得到完善,如模糊集算法、粒子群优化算法、粗糙集算法等。能够有效地挖掘影响信用的主要因素,从而更好地指导我国开展有针对性的社会信用体系建设,同时也能够输出社会信用建设中的薄弱因素,使社会治理的目标更加明确,更具有针对性。

  (二)提高社会治理的有效性

  个人信用评分精度不断提高,可以以违约概率作为输出变量用以区分信用度的高低,也可以表示为一个评分值。这就使评分方法在社会信用评分中具有很好的适用性。可以依据社会信用评分的特点和要求,将各类被证明有效的方法进行筛选、修正、组合和优化,应用于个人的社会信用评分,并可以向政府信用、行业信用、企业信用进行扩展,从而使评分更加科学准确,同时提高评分方法对不同类别人群的适用性和针对性,这将极大地加强社会治理的有效性。

  优化的个人信用评分方法可以通过制定统一的评价标准,对个人的信用状况进行准确评价,从而通过采取有效的社会治理措施并形成社会氛围,提高对个人行为的约束力,并对失信者进行有效治理,从而构建“鼓励守信、惩戒失信”的社会治理机制,进而有效地提升社会治理效率。

  一方面,在诸如市场准入、资质认定、行政审批、政策扶持等领域,通过实行信用分类管理,并在依法行政的前提下采取优先办理、简化程序等激励措施,在社会治理领域强化正向激励机制。另一方面,使对失信行为的治理能够有据可依,例如建立黑名单制度和警告制度,同时通过信用评分的比较使不同个体在面对金融、就业、社保等业务和社会资源分配过程中,享受到守信带来的利益。

  (三)推动社会治理的发展与创新

  大数据不仅是一场技术变革,在本质上也是一场社会变革,这种社会变革伴随并呼唤着社会治理体制和社会治理方式的创新。个人信用评分方法在发展的过程中与大数据技术不断地融合发展,多种数据挖掘算法被应用到个人信用评分中。

  通过各地围绕智慧城市的信用信息管理平台建设,可以实现个人信用数据和信用评分等与数字城市“一级平台”的互联互通,同时通过数据挖掘和深度分析达到各系统之间的功能协同和联动,对于防范来自特定个体的安全隐患、开展实时监督预警和社会治理提供支持。

  个人信用评分方法的发展,还能够促进社会治理的信息体系建设,为社会治理模式提供科学技术手段支撑,极大丰富社会治理模式的内涵和外延,有利于促进新兴的生产力和生产关系的和谐。个人信用评分中的识别技术、智能信息技术、云计算技术等都将应用于社会治理,以更加精细和主动的方式实现社会治理,使得社会治理的各个子系统之间更加融合,有利于社会的长期和谐发展,有利于社会治理体系的不断完善,有利于推动社会治理的发展与创新。