个人简介

给大家介绍下自己吧,个人信息、个人社交(github、知乎、csdn)地址、个人经历、竞赛经历

大家好,我是一枚工作多年先做了奶爸之后才入坑数据挖掘竞赛的新人选手,江湖ID:​​小白Lan​​,目前在长沙工作。

专访lan哥:大龄奶爸学竞赛_数据挖掘

作为一个工作多年并一直对python、数据挖掘的感兴趣的老人。我是2014年从华南理工大学硕士毕业参加工作,但是一直到2019年底在一门python全栈线上课程中才了解到数据挖掘竞赛的。

所以如果有对数据挖掘感兴趣的小伙伴,一定要趁早学习呀。在了解到竞赛后,开始在kaggle跟天池上做一些简单的学习赛。在学习了一段时间后,蠢蠢欲动,参加了DCIC2020跟2020腾讯广告算法大赛,结果被虐得体无完肤。

至此才发现真正的数据挖掘竞赛跟学习赛相差还是有点大的;也是至此才发现作为竞赛新人一定要避开热门的赛事才能获得较好的竞赛体验,比如奖金超高、报名人数超多的赛事,基本都是神仙在打架。以下是我参赛的部分情况:

个人参赛:

  • 2021山东第二届数据应用大赛--供水管网压力预测(6/522)
  • 2020首届数字四川省创新大赛--诈骗电话识别(13/1061)

组队参赛:

  • 2020CCF大数据与计算智能大赛--Serverless工作负载预测(5/2728)
  • 2020第四届工业大数据创新竞赛--水电站入库流量预测(13/879)

其他的如,研习社高铁乘客流量预测rank3、电影票房预测rank1,天池nlp中文预训练泛化挑战top4%,还有大佬丫丫哥带躺的58同城2020第一届AI算法大赛rank7。

个人博客:

  • github:https://github.com/js-lan
  • 知乎:https://www.zhihu.com/people/js_lan

学习过程

知识点的学习过程、对什么方面比较熟悉?

知识点的学习上个人还是比较坚信“learning by doing”会更为有效、深刻。边做边学相当于将学到的知识点直接转化到实际应用中,是非常有意思的一个过程。

整体上,我个人走的是学习赛--实际参赛这么一个边做边学的学习过程。目前参赛过的赛题类型有一般的结构化分类或回归、时序预测、nlp,参加得较多的是shake最普遍存在的时序预测题。

竞赛经历

参加过什么竞赛,有什么收获,或者难忘的经历?

入坑这一年多,大大小小的比赛参与了十余场,可以说每一场都获得了宝贵的经验。特别是top选手的开源,有的选手的解决方案真的可以说是惊为天人。

但在参赛过程中结识一群亦师亦友数据挖掘爱好者,这应该是最大的收获。很幸运在学习的路上能认识一群这么可爱的人,特别是一些大三大四的小伙子让我意识到现在的大学生是多么的优秀!

另外,最有意思的经历应该是做2020CCF的赛事,一路上我们从十几二十名,吭哧吭哧的做到了A榜第九。同时在切榜前的前一天我们提出了一种针对该题的融模方法,该方法不仅让我们的分数得到了提升,更是有效的保证了我们方案的稳定性。最终结果显示,我们的方案在所有前排方案中是最稳定的,A/B榜分数相差最小,稳稳地拿到了B榜第五的成绩。

竞赛分享

可以选一个知识点或者竞赛进行分享。

个人的一点经验总结:建模千万条,EDA第一条;特征不给力,模型两行泪。 关于EDA有多重要,可以给大家介绍一下2021山东第二届数据应用大赛中供水管网压力预测复赛时,我是如何在简单EDA分析后一发入魂锁定rank6的经历。

赛题地址:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=24

数据介绍

  • 初赛:

很常规的时序预测题,给定2018跟2019的全量数据,再给出2020部分时间段的数据预测接下来一段时间的值(部分是与已知数据间隔了几天后的时间段)。

专访lan哥:大龄奶爸学竞赛_数据挖掘_02

  • 复赛:

复赛阶段更新了训练集,提供部分初赛阶段答案,分别为以下时段:

  1. 2020/4/6 - 2020/4/12
  2. 2020/6/1 - 2020/6/7
  3. 2020/9/7 - 2020/9/13

需要选手预测的新时段为:

  1. 2020/4/20 - 2020/4/26
  2. 2020/6/15 - 2020/6/21
  3. 2020/9/21 - 2020/9/27

复赛分析

做过时序题的同学应该知道,如果时序题复赛是有更新数据集的复赛,基本上初赛的模型都不能直接套用,差不多都得推到重来。

然后该次复赛更新了训练集、缩减了预测段,同时持续三天,每天能提交一次。这下问题来了。根据经验,初赛模型是不能用了,那么如何在仅有的三次提交中获得较好的分数呢?这时候EDA就很关键也势在必行了。

EDA分析

既然给了距离最靠近预测段的数据,那就先画图看看每个站点管网压力的波动变化:

专访lan哥:大龄奶爸学竞赛_数据_03

好家伙,这靠近预测段的波动变化简直稳如old dog了。还想啥,删除异常值,直接怼一个规则提交(初赛时已经有选手分享纯规则能上分)!

赛题分数

事实证明简单分析后直接怼规则的思路是正确的,一发入魂7.583分暂时进入第一次提交的top1。最后两次提交尝试了规则加模型融合,然而分数并没有提升。虽然最后三次提交完后名列rank6,但在赛题交流群看了下大家的聊天,前排有好几个选手是靠最后一次提交规则才上去的,哈哈。

专访lan哥:大龄奶爸学竞赛_数据挖掘_04