为什么要选Kaggle?

1 首先是因为钱。

Kaggle经常有各种类型的竞赛,赢得比赛本身就会有奖金。没有钱搞科研是很困难的,也没什么动力。参加竞赛算是很理想的方法:

  • 1 技术强-> 拿钱
  • 2 拿了钱 -> 增加技术投资

2 其模式可以称为一种行业标准

举个例子,任何一个竞赛首先会有一些概要描述,本质上是商业应用的概述。

python kaggle库 python kaggle库能干嘛_数据

提供了应用相关联的规整数据。

python kaggle库 python kaggle库能干嘛_python kaggle库_02


提供了一些思路/教程(相当于参加竞赛的人的一个小社区)

python kaggle库 python kaggle库能干嘛_python kaggle库_03


还有排行榜

python kaggle库 python kaggle库能干嘛_python kaggle库_04

当然kaggle本身也提供了jupyter notebook给用户使用,归纳一下:

  • 1 商业价值:通过发起方做了简要说明
  • 2 数据:已经准备好了
  • 3 建模环境:准备好了
  • 4 排名及奖励:也可以直观的看到。

对于一个数据科学家/算法工程师/建模工程师最希望的就是把精力聚焦在核心的技术上,当然也希望看到报酬。目前国内对于建模的商业应用还没有那么成熟,通常是商业价值和数据准备占了大部分的时间。背后的原因有很多:包括历史的沿革、企业管理者的思路、员工的技能等等。总体上来说,行业整体势头还不错,但是在建模和算法方面还远远未到一个成熟或者快速上升的通道。

我相信未来建模/算法行业也会变成一个成熟的产业,其最终的表现形式可能多样,但背后的逻辑基本就和Kaggle差不多:让专业的人把精力聚焦在该聚焦的地方。

3 超仿真试验场

目前我写的大部分文章是关于结构(架构)的,我希望能搭建一个可靠、高效而又灵活的个人计算平台。从工程的角度来说,如果没有合适的检验或测试场景,很难说一种方法是否成功。

参加Kaggle竞赛的过程也是把各种技术进行检验和糅合的机会,并且其结果几乎等同于实战。(换句话说,就算你的系统不做其他用途,总是能够帮你赢下足够多的Kaggle竞赛,奖金也花不完了。)

4 计划

4.1 在春节之前:找到目标

收集竞赛的信息(可以包括已经完结的),找到一些比较适合的进行分析。竞赛必须和我的研究方向和进度保持一致,这样效率才更高。

  • 1 找到一些测试案例(竞赛)
  • 2 找到自己研究方向可以做出突破的点

4.2 在2021.6之前:验证方法

完成1~3个案例的实测结果,通过自研的技术框架可以获取更好的成绩。(Kaggle允许竞赛之后继续排名)

4.3 在2022.1之前:赢得一个比赛的奖金(金、银、铜都可以)

  • 使用新技术框架,获取比赛的胜利。
  • 将框架固化为可复用服务。

5 Next

  • 梳理竞赛的信息,更新在博客中。