想象一下,几乎全国各地都留有我们工程师的足迹。希望能为电力设备的故障缺陷诊断检测贡献我们的微薄力量。分带电演示足迹如下:电网变电站电网输电线路实验室华能电厂发电机厂核电厂铝厂上海紫红光电技术有限公司专注于电气设备的带电检测与故障诊断,现在你要在一个众筹网站上选择以下两个借款人中的一个贷给他2000元:第一个人说“我是一个努力工作的人,主要产品有紫外成像仪、红外热像仪、多光谱成像仪、变电站巡检机器人、无人机挂载紫外成像仪、紫外成像仪测试平台等。公司具有雄厚的技术支撑和丰富的经验,结婚25年了,拥有多名电气、自动化、光信息技术等领域的专业人才,育有两个优秀的儿子。目前我需要2,000元修理我家的屋顶。谢谢你,主要服务领域包括:电力、铁路、石化、森林防火等行业。点击播放 GIF 0.0M,上帝会保佑你!并且我保证我会还钱给你!”。第二个人说“虽然过去一年我们在新家过得非常好,但屋顶现在漏水了,所以我需要借2,000元来支付维修费用。我之前都按时支付了所有账单。”
除了以上申请贷款时提供的文字外,这两个人在人口统计学特征、财务特征、借钱金额以及借钱的原因是完全相同的。你会选择贷款给谁?或者说,你觉得谁更有可能会违约?
是否要给他们贷款取决于你对他们偿还能力的评估。但是这种评估是特别困难的,因为还款时间较长,而在此期间难免有变数。所以,银行和研究者收集了很多借款人的信息试图来判断他们是否会违约,这些信息主要可被分为4类:借款人的金融能力、人口统计学特征(年龄、地理位置)、与借款相关的信息(总额、利率)、与借贷双方交互相关的一切信息。
目前用的比较多的信息是金融数据信息,如像FICO这类硬信息常常被用来预测消费者的信用风险,然而这些数据被证实是不充分的甚至是有偏差的。比如Avery等人在2000年就提出了由于征信分数是依赖于消费者过去的征信行为的,因此它就无法反映出像健康状态、就业时长这类更重要的跟未来相关的因素。
而随着线上借款平台的诞生,在申请贷款过程中产生的本文软信息(例如可以推断出借款人的意图、性格、情境)则为银行提供了一个契机。这些软信息不仅有助于了解借款人过去的行为,而且有助于了解借款人当前的状态以及未来的发展倾向。
来自哥伦比亚学商学院的学者Oded Netzer和Alain Lemaire以及特拉华学的学者Michal Herzenstein试图从文本信息的角度来预测贷款是否会被违约。
文字对人格特质的预测作用
已有研究表明文字可以透露出一个人的人格特质,因为人们往往会通过语言来传达自己内心的情感和自己的故事。因此,即使在本篇文章开头的两个借款人所表述的内容完全一致,但他们的语言风格却是迥异的。
那文字和人格特质到底存在怎样的关联呢?过去的研究将人格特质分为5类:外向性、宜人性、尽责性、神经质和性。外向性人格会更多地使用积极情绪词、神经质则与第一人称单数和消极情绪词的使用有关、性人格会使用更多的文字来阐述自己的观点、宜人性人格则与性人格相反、尽责性人格会避免使用否定词汇。
另外,除了暗含人格特质,文本还能预测一个人的人口统计学特征:年龄、性别、教育水平、收入等等。比如,使用单词越长(超过6个字母)说明受教育水平更高。
人格特质与金融行为
我们已经知道了文字可以展现出一个人的人格特质,可是从文字中推断出来的人格特征又会与怎样的金融行为相关联呢?Anderson等人表明信用评分与人格特质相关。他们发现外向性和尽责性与信用评分之间存在负相关:外向性人格希望拥有令人兴奋的生活方式,因此消费有时会超出他们的能力范围;尽责者的结果有点令人惊讶,因为他们是勤奋和负责任的人,但是由于他们对成就的需求很高,这可能会导致支出于收入。Berneth、Taylor和Walker发现宜人性人格与信用评分呈负相关,因为这些人的目标是取悦,并且不太可能拒绝不必要的开支。
但这些特征对信用评分以外的金融行为的预测程度还仅仅是基于经验,因此本文作者试图从更严谨的角度阐述其科学性。
数据来源
作者从Prosper.com网站上获取了2007年4月至2008年10月期间发布的所有贷款请求数据来研究文本在预测违约中的作用,一共获取了122,479个请求。但作者只关注那些最终成功获得了资助的贷款请求(19,446个请求),样本中的违约率为35%。
该网站是美国目前第众筹平台,拥有超200万的用户和140亿美元的融资无担保贷款。在Prosper上,潜在借款人以他们愿意支付的特定利率提交特定金额的贷款请求,然后贷方以荷兰式拍卖的方式竞标贷款利率。此外,借款人可以随意上传图片,并可以在文本框输入他们想要传达的任何信息。
研究方法
作者采用机器学方法和叠加集成算法来研究上述问题:首先用校准数据训练每个模型,然后建立一个加权模型,以优化组合第一步标定的模型。
第一阶段——训练
作者估计了五种类型的模型。模型因所用分类器和模型变量选择方法而异。这五个模型描述如下,包括两个logistic回归和三个版本的决策树分类器。
1、正则化Logistic回归
= 是n个贷款(贷款偿还)的二元结果变量集,(j|) 是基于logit模型的还款概率,其中t 是贷款j的文本、财务和人口预测因子的向量, 是一组预测器的系数,λ是要使用校准样本的交叉验证来估计的调整惩罚参数,() 是惩罚期。L1和L2模型在惩罚项的功能形式上有所不同(())。在L1中,() =∑ki=1|i|,在L2中,() =∑ki=1i2。
2、决策树方法(随机森林和额外树)
作者建立了两种不同的随机森林模型,一种是方差选择,另一种是最佳特征选择和极端随机树(额外树)。方差选择是选择具有2。额外树是随机森林的一个扩展,在这个扩展中,树中每个特征的分界点(分割)也是随机选择的(从均匀分布中),并且在它们之间选择最佳分割。
3、训练
使用Python中的scikit学包(http://scikit-learn.org/)在80%的校准数据的随机样本上实现五个分类器。
第二阶段——模型叠加与预测
在这一阶段,作者使用剩余的20%的校准数据估计每个模型的权重,来组合模型集合。作者使用了一个简单的二元logistic模型来组合不同的预测模型,尽管可能会使用其他分类器,但逻辑二元回归元分类器有助于避免过度拟合,并且通常会产生优异的性能(Whalen和Gaurav 2013)。
在二元logistic回归模型中,还款是因变量,第一步集合中的五个模型(两个logistic正则化回归和三个决策树方法)中的每一个模型的还款概率作为预测因子。logistic回归的估计参数提供了集合中每个单独模型的权重。具体而言,贷款j的整体还款概率可以写为:
是每个模型的还款概率向量, 是logistic回归分类器中每个模型的估计权重。
作者估计了上述五个模型的集合,并找到了不同模型的以下权重:L1=0.040,L2=0.560,随机森林K-Best=0.218,随机森林方差选择=0.116,额外树=0.066。
预测结果
作者将贷款随机分成10个小相等的组,对9个组的集合算法进行校正,并预测剩余的组。为了评估统计显著性,在每次迭代中使用不同的随机种子,重复10倍交叉验证10次。
表2详细说明了10次随机洗牌10次交叉验证的平均结果。表2中的结果是ROC曲线下面积(或AUC)和Jaccard指数预测指标。按信用等级划分样本,我们注意到文本信息显著改善了所有信用等级级别的预测,且文本信息在改善低信用水平借款人的违约预测方面特别有用。
有趣的是,如果我们忽略财务和人口统计信息,只使用借款人文本信息,我们得到的AUC为66.69%,而只有财务和人口统计信息的模型的AUC为70.72%。也就是说,由借款人提供的文本信息几乎与传统的使用金融和人口信息一样具有预测性。
营销人,你会怎么做?
当一个人的贷款请求所使用的文字很简单但却冗长的时候,你就需要小心了!如果这个时候他还使用了类似:家庭、上帝、机会这类的词眼,那我劝您一定要管住自己的腰包!那么,对于文章开头的问题,想必你此时应该有了答案。
对于贷款机构而言,文本信息或许是一种高性价比的选择,因为借款人在申请贷款时,他怎么藏也藏不住文字流出的汗!
图1:预示会还贷的词语
图2:预示贷款会违约的词语
作者信息
胡怡
武汉学经济与管理学院
市场营销系硕士研究生
编辑:王丽君(武汉学经济与管理学院硕士研究生)
每周二更新原创营销科普文章
敬请持续关注!
参考文献
Netzer, O. , Lemaire, A. , & Herzenstein, M. . (2019). When words sweat: identifying signals for loan default in the text of loan applications. Journal of Marketing Research, 56(6), 960-980.
免责声明:文中图片均来源于网络,如有版权问题请联系我们进行删除!