1.数据挖掘,到底在解决什么问题?
a.什么是数据挖掘?
从数据中找出隐藏的知识,并且产出商业价值。
b.为什么要做数据挖掘?
以海量数据作为行为依据,从不同维度角度去分析解剖客户行为。来获取客户的习惯,让你的一些东西可以自适应客户。类似你是裁缝,你要给客户做合身的衣服,那么必定要去知道客户的身高,腰围等信息。这些信息客户没有直接告诉你。你通过客户的朋友圈,对比周围建筑物高度,来进行模糊匹配。存在过分美图的,但是这些都是干扰数据。你依然可以通过大量的数据去模拟推算出客户的信息。我觉得这就是数据挖掘的魅力。通过大量已知去合理推算出客户下一步,以及能接受的喜好,给以客户更加舒适的体验。
c.数据挖掘的好处?
分类问题。聚类问题。回归问题。关联问题。大数据杀熟是最近兴起的,越是了解你,越是能掌握你的性格。引导你进行消费。从而得到真实的商业价值。每一个技术的驱动,都是这个技术能带来商业价值,或者是更大的商业价值。技术是利益驱动的。
d.数据挖掘怎么做?
CRISP-DM(Cross-industry Standard Process for Data Mining,跨行业数据挖掘标准流程)方法论
6个步骤
1.业务理解 -> 2.数据理解 -> 3.数据准备 ->4.构建模型 ->5.模型评估-> 6.模型部署
1.业务理解。业务是基础,利润是推动。思考的触发点都应该是以业务为根本出发点。
2.数据理解。基本的准备。量大以及准确的数据能有效的推动后续。最简单的方式就是对比。你家产品跟竞品之间的处理。为什么别人做的好,别人产品什么时候,怎么样的方式进行宣传,稳定的客户来源是怎么样。这部分我们是否可以模仿,从而取长补短,让自己的产品占据主动。你需要怎么样分析,然后你要获取怎么样的数据,你对数据是怎么样的理解,这都是导致后面不一样的点。
3.数据准备。你找到你要的数据点,我的理解是 你明白了你想要怎么样的数据之后。就开始处理你能获取到的数据。这个数据准备是关键,因为要准备数据需要具备量大,准确性,以及跟你需求很吻合。看文章之前,有在QQ群看到这样的信息,某个群员想要某个地区的人手机号码,以及准确的人的部分信息。对应身份是进行贷款中间人。简单来说,他需要的是风控信息,贷款人的信用,是否有车贷,房贷,以及经济能力。如果你有很多以及准确的客户信息,那么你可以对客户进行的很大程度上的了解。如果你月收入1w+,住宿以及饮食占据4000,那么还有6000可支配,加上支付宝信用良好,那么贷款2K的是完全不成问题。风控很容易过,但是如果你的日常支出就占据了工资的大部分,那么就需要对你进行进一步审核,甚至于第三方介入进行担保。数据本身就代表极高的商业价值。
4.构建模型。训练模型,如果从程序员角度,就是传入参数,能有稳定准确的出参。对应传入参数次数以及数据不同,并且数量很大。都可以有稳定准确的出参,那么这个模型是相对比较成功的。事情具备偶然性,也就是黑天鹅事件。但是只要能把握住大部分的准确性。那么这个模型已经有很高的价值了。
5.评估模型。步骤4的模型数量会很多,从而进入一个筛选模型以及调整模型的阶段。需要校验模型效果,如果通过那么进行真实的上限部署,如果不通过,则进行迭代更新。(这个本人未正式接触到,没办法给有效共鸣观点)
6.模型部署。数据正式对接真实,从一个假设推论,到拿测试数据校验,这一步已经是正式数据进行校验,是否可以等同认为这一步是真人,而非模拟。是否成功将会影响对应是否有实际商业价值。
后续的基础是描述py的基础,就一起跳过。感兴趣的自己可以搜索并学习网上的py资料。这里不做搬运。
上述,都是自己的感后感。所以文章系列定义为个人喜好。主观去看待事情跟问题,客观等以后足够成长能支撑起对应眼界之后再说吧。对了解的事务事情,没有自己的看法,那么你了解的东西只能依赖讲述人的水平,网络的东西参差不齐。要学会有自己的观点以及看法,才能更好的有思维碰撞的火花。
漫漫长路,一个小周跟他一个小陈朋友一起努力奔跑。