对于从事信贷数据分析岗位的小伙伴来讲,整理产出业务相关的分析报告是日常工作非常熟悉的内容,例如策略分析、模型监测、客户画像、贷后分析等主题。但是,一份好的信贷数据分析报告,不仅针对样本数据与业务需求,采用有效的分析思路将核心的内容要点总结出来,而且根据不同的分析结果,通过合适的的可视化图表进行展现,这样可以使最终的分析报告具有较高的可读性。

针对数据分析报告的图表生成,我们往往采用excel工具实现,虽然在很多情况下可以轻松获取想要的结果,但是在通过python分析样本数据后还需要将相关数据转入excel中,这有时是显得多余的,而如果在python语言环境直接实现则更为方便,其中matplotlib库的相关功能为数据分析图表的生成提供了很便利的方式。

为了说明多样化的图表展现在数据分析报告的表达效果,本文通过一份实际的信贷产品样本数据,采用常见的图表类型来分析描述下贷前申请客户群体的特征分布,从而构建一份客户画像数据分析报告。

我们先来了解下实例样本数据,来源于某信贷消费产品贷前客户申请的基本信息,包括6000条样本与7个特征,前10条样本的观测数据如图1所示,对应的特征字典如图2所示


业务风控架构是什么 业务风控报告模板_python


图1 样本数据

业务风控架构是什么 业务风控报告模板_业务风控架构是什么_02


图2 特征字典接下来我们通过以上样本的6个特征维度,来描述下客户群体的分布信息。当然,在实际场景中可以采用特征交叉分析,具体需要结合业务需求而定。本文为了便于说明客户的基本信息描述,以及相关可视化图表的展示,仅对单特征维度进行展开分析。对于分析的特征变量中,由于字段age的取值情况较为分散,而且在实际场景中年龄分析往往是以年龄段描述更为合适,因此这里将其以离散区间的形式进行转换,实现过程与取值结果如图3所示。


业务风控架构是什么 业务风控报告模板_python_03


图3 特征转换针对单特征的分析维度,我们通过python语言来依次分析下各特征变量的分布信息,具体采用的图表形式包括直方图、折线图、条形图、散点图、饼状图、面积图,这些可视化图形方式也是我们数据分析与报告整理任务中经常采用的。

1、年龄区间(柱形图)

采用直方图来分析描述客群特征维度“年龄区间”的分布信息,具体实现过程如图4所示,可视化结果如图5所示。


业务风控架构是什么 业务风控报告模板_python_04


图4 年龄区间分析

业务风控架构是什么 业务风控报告模板_折线图_05


图5 年龄区间展示

从以上结果可知,客户群体的年龄分布主要在2540范围,尤其是2535区间较为集中且占比明显较高,而年龄45+以上的群体占比较少。

2、住房类型(面积图)

采用面积图来分析描述客群特征维度“住房类型”的分布信息,具体实现过程如图6所示,可视化结果如图7所示。


业务风控架构是什么 业务风控报告模板_业务风控架构是什么_06


图6 住房类型分析

业务风控架构是什么 业务风控报告模板_折线图_07


图7 住房类型展示

从以上结果可知,客户群体的住房类型以“自置无按揭”数量最多,从这方面说明客群的资产能力较好,而“自置有按揭”与“租房”的情况也相对较多,这也符合实际场景。

3、教育程度(折线图)

采用折线图来分析描述客群特征维度“教育程度”的分布信息,具体实现过程如图8所示,可视化结果如图9所示。


业务风控架构是什么 业务风控报告模板_python_08


图8 教育程度分析

业务风控架构是什么 业务风控报告模板_python_09


图9 教育程度展示

从以上结果可知,客户群体的教育程度主要为“专科”与“本科”两类,且“专科”学历的客户数量最多,从整体上也反映了客群的教育程度表现较好,而对于“硕士”、“博士及以上”的更高学历,虽然数量占比较低,但也完全符合实际情况。

4、申请额度(散点图)

采用散点图来分析描述客群特征维度“申请额度”的分布信息,具体实现过程如图10所示,可视化结果如图11所示。


业务风控架构是什么 业务风控报告模板_python_10


图10 申请额度分析

业务风控架构是什么 业务风控报告模板_折线图_11


图11 申请额度展示

从以上结果可知,客户群体的申请额度以6000居多,且相比其他额度的客群数量差异较大,随后是额度值8000、3000、4000较多,而其他额度值的客群数量占比都比较接近,从这里也可以看出申请客户资金需求的大体范围。

5、渠道类型(饼状图)

采用饼状图来分析描述客群特征维度“渠道类型”的分布信息,具体实现过程如图12所示,可视化结果如图13所示。


业务风控架构是什么 业务风控报告模板_python_12


图12 渠道类型分析

业务风控架构是什么 业务风控报告模板_折线图_13


图13 渠道类型展示

从以上结果可知,客户群体的进件渠道主要为CH01、Android(自然流量),这两种类型的客群数量占整体约65%的比例,而对于渠道ios(自然流量)、CH03、CH04等形式的客群数量占比较低,这种分布情况便于对流量来源的整体分析。

6、户籍地址(条形图)

采用条形图来分析描述客群特征维度“户籍地址”的分布信息,具体实现过程如图14所示,可视化结果如图15所示。


业务风控架构是什么 业务风控报告模板_业务风控架构是什么_14


图14 户籍地址分析

业务风控架构是什么 业务风控报告模板_业务风控架构是什么_15


图15 户籍地址展示从以上结果可知,客户群体的申请地域分布中,数量排前3的省市分别为广东、江苏、浙江,而数量最少的3个省市分别为西藏、新疆、宁夏,从这里也能反映出地域经济实力的差异与客群的资金需求情况有较大关系。同时,根据客户群体的区域分布数据,可以有效对申请范围采取一定的风控审批措施。

以上内容便是根据一份信贷实际样例数据,采用多种图表形式(直方图、折线图、条形图、散点图、饼状图、面积图),依次对样本客户群体的年龄、住房类型、教育程度、申请额度、渠道类型、户籍地址共6个信息维度进行了分析与描述。从中不仅了解到样本群体客户画像的分布信息,而且通过多类图表的应用来提高数据分析报告的可读性。在实际场景中,可以综合业务需求与样本情况,采取更多的特征维度来分析客户群体的画像信息与营销价值,同时利用更多样化的图表来展现数据分析的内容。