为什么要选Kaggle?
1 首先是因为钱。
Kaggle经常有各种类型的竞赛,赢得比赛本身就会有奖金。没有钱搞科研是很困难的,也没什么动力。参加竞赛算是很理想的方法:
- 1 技术强-> 拿钱
- 2 拿了钱 -> 增加技术投资
2 其模式可以称为一种行业标准
举个例子,任何一个竞赛首先会有一些概要描述,本质上是商业应用的概述。
提供了应用相关联的规整数据。
提供了一些思路/教程(相当于参加竞赛的人的一个小社区)
还有排行榜
当然kaggle本身也提供了jupyter notebook给用户使用,归纳一下:
- 1 商业价值:通过发起方做了简要说明
- 2 数据:已经准备好了
- 3 建模环境:准备好了
- 4 排名及奖励:也可以直观的看到。
对于一个数据科学家/算法工程师/建模工程师最希望的就是把精力聚焦在核心的技术上,当然也希望看到报酬。目前国内对于建模的商业应用还没有那么成熟,通常是商业价值和数据准备占了大部分的时间。背后的原因有很多:包括历史的沿革、企业管理者的思路、员工的技能等等。总体上来说,行业整体势头还不错,但是在建模和算法方面还远远未到一个成熟或者快速上升的通道。
我相信未来建模/算法行业也会变成一个成熟的产业,其最终的表现形式可能多样,但背后的逻辑基本就和Kaggle差不多:让专业的人把精力聚焦在该聚焦的地方。
3 超仿真试验场
目前我写的大部分文章是关于结构(架构)的,我希望能搭建一个可靠、高效而又灵活的个人计算平台。从工程的角度来说,如果没有合适的检验或测试场景,很难说一种方法是否成功。
参加Kaggle竞赛的过程也是把各种技术进行检验和糅合的机会,并且其结果几乎等同于实战。(换句话说,就算你的系统不做其他用途,总是能够帮你赢下足够多的Kaggle竞赛,奖金也花不完了。)
4 计划
4.1 在春节之前:找到目标
收集竞赛的信息(可以包括已经完结的),找到一些比较适合的进行分析。竞赛必须和我的研究方向和进度保持一致,这样效率才更高。
- 1 找到一些测试案例(竞赛)
- 2 找到自己研究方向可以做出突破的点
4.2 在2021.6之前:验证方法
完成1~3个案例的实测结果,通过自研的技术框架可以获取更好的成绩。(Kaggle允许竞赛之后继续排名)
4.3 在2022.1之前:赢得一个比赛的奖金(金、银、铜都可以)
- 使用新技术框架,获取比赛的胜利。
- 将框架固化为可复用服务。
5 Next
- 梳理竞赛的信息,更新在博客中。