不少刚进入风控行业或想转岗的朋友可能都有过这样的困扰,需要掌握哪些代码工具,掌握的程度要求,以及在哪些工作场景是需要应用到工具。解决这类疑问,首先我们得知道有哪些工具。今天小编就以反欺诈模型为例,带大家去了解一二。
全流程反欺诈模型工具应用
在反欺诈模型中,主要是使用哪些工具呢?一般而言,全流程反欺诈模型主要分为数据获取、数据处理、建模、可视这四大模块。其中,无论是策略、模型还是数据分析,都需要对数据进行获取和处理。在以上的这些模块当中,就会使用到以下常用工具:
数据获取
数据获取通常使用的实施SQL工具,一般情况下,如果不去很多关联大表,在自己取数据、看数据的情况下使用SQL是比较方便的。与其相关联的底层数据库,则是各个公司根据自身数据量情况去选择,数据分析人员只需要了解数据库以及知道是从哪些数据库区获取数据就可以了。
在数据获取流程,主要使用以下类型的工具,可供参考:
数据库:SQL,Hadoop,Hive…
爬虫:Python, Java
数据处理
在数据处理层面,SQL同样必不可少。可以说SQL是数据的魔法石,让数据流动,转化,融合,迸发出巨大的威力。
在数据处理流程,主要使用以下类型的工具,可供参考:
**数据库:**SQL, Hive…
**界面型:**Excel, SPASS…
代码型: VBA,Python, R, SAS…
建模
在建模流程,使用的工具更多是偏向于编程类。现在应用较广的是Python,Python容易上手,运行难度也不大。R与SAS也有在使用,R相比SAS而言,优势是扩展包比较大。SAS一般是银行、金融界或数据量比较大、愿意投入成本的企业在使用。
在建模流程,主要使用以下类型的工具,可供参考:
**专用界面型:**SPSS…
**专用代码型:**R, SAS…
**泛用代码型:**Python
可视
可视一般是两种情况在使用。第一种是在写最后的总结报告时就会使用Excel、PPT将其可视化出来,汇报对象也能够直观地了解到过程与结果。第二种是在建模过程中,如选取特征的时候也可以采取可视,大致可以看下样本量的分布、数据特征的相关性等。建模过程中对数据的简单统计分析进行可视化是非常必要的,数据直观的展示出来之后,有些问题/方案就一目了然了。
在可视流程,主要使用以下类型的工具,可供参考:
**离线界面型:**Excel, PowerPoint…
**离线代码型:**R, SAS, Python…
那么,除了全流程反欺诈模型的常见工具应用,接下来小编跟大家分享一下在风控领域通用的4种开发工具和特点,以及相关人员的工具使用技能要求。
常用开发工具
EXCEL
EXCEL是大家最熟悉不过的工具了,大家在上学时就已经接触到,在实际工作中EXCEL也依然是使用频率最高的工具。原因就于Excel功能强大,基本上能够满足部门内容的数据处理分析及数据可视化的能力。
EXCEL主要有以下几个特点:
可以结合Word,Powerpoint 制作分析报告
可视化工具,容易上手
VBA编程块,难度较高
数据较大时,容易卡顿
因此,**EXCEL也是风控人员入门基本功,无论是使用SQL取数后做分析还是使用BI作分析,最后基本都是反馈EXCEL形式。**常用的数据分析如有关联匹配(VLOOKUP)、数据透视表、常用快捷方式等。
SQL
什么是SQL,想必不少朋友是了解的。简单地说,SQL就是访问和处理关系数据库的计算机标准语言。SQL也是反欺诈模型中应用最多的工具,其语句相对容易,上手也比较快。一般简单操作就是取数,复杂一点的操作则是用SQL做聚合函数的计算等。
SQL主要有以下几个特点:
数据库管理,存储工具
提取结构化的数据,必不可少
可以进行简单的数据预处理
由于SQL能使得数据的采集过程变得更加便捷,它就好比是电脑的键盘鼠标,虽说没有了它也能照常运行,但也大大降低了使用者的灵活性。俗话说“巧妇难为无米之炊”,所以,不管是策略还是模型人员,数据库基础语言SQL是一定要熟练的。
SAS
SAS是很流行的统计分析软件,里面有很多数据管理和数据分析模块,在创建报表也有强大的功能。目前来说,在金融行业运用比较广泛。那么,在风控领域,SAS主要是进行风控审批策略数据分析、资产质量量化分析、使用SAS开发行为评分卡模型、模型监控及行为评分卡上线应用等等。
SAS主要有以下几个特点:
医药,金融类应用场景较多
入门简单,可以直接利用proc sql步, 编写sql代码
扩展包较少,非开源
对于想在金融行业从事风控或分析类岗位的朋友,还是有必要掌握SAS的,对于偏向业务的策略岗朋友,掌握SAS是一个强加分项。
Python
Python是一种面向对象、直译式电脑编程语言,也是一种功能强大的通用型语言,目前主流的编程语言越来越集中于Python。Python在建模应用的比较多,由于很多公司的资源问题,Python运行得非常慢,假如循环语言写得不好,则会消耗非常大的资源。所以在建模前,一般建议先使用SQL处理好数据。
Python主要有以下几个特点:
多功能的语言,且开源
第三方包丰富,可处理多种问题
可以处理G以上的大数据量
**作为风控人,像代码能力Python | R | sas,把一门代码类工具运用熟练即可。**就Python而言,像pandas、numpy、statsmodels、sklearn,大家将这几个包学扎实就行。
看完这篇文章是不是觉得反欺诈领域还有很多需要研究的地方?可以搜:金科应用研院,详细了解。如果想更深入地了解量化风控信贷领域的反欺诈知识,包括以策略应用为方向,模型技术为强化手段的反欺诈专家训练,高效应用于真是工作场景。