大家好,我是小一宝,答应你们的,我做到了!_数据

最近一段时间因为工作上比较忙,所以公众号上并没有输出什么高质量原创文章,相应的,一些简单的爬虫教程倒是写了不少

也有读者看到最近的几篇爬虫文章,有些疑问,私下聊天的时候聊到爬虫这个话题,原话是这样的:

问:我看你好多分享都涉及导了爬虫,实际工作用到爬虫多吗?小一:不多、个别情况吧小一:有些数据需要一个额外的支撑数据,就需要爬虫

这个我稍微举个例子,这个项目是我做的第一个数分项目,看完你就大概明白上面这句话的真实想法了,项目是这样的

有一批用户数据,包括用户的号码、流量、通话等特征,目前需要对用户进行画像,其中一个需求是针对这类用户中的特殊人群进行建模并预测

这里的特殊人群有一些分类,其中一个类别是类似于快递员、外卖员这种通话频次高、单次通话时长较短的用户。

但是当时的数据并没有这类用户的标签,也就说并不知道哪一些用户是快递员、外卖员,没有标签当然也就没法进行建模预测。

当然,如果你的团队能够和外卖平台合作拿到这部分数据那是极好的,但是往往大多数团队、甚至企业都不会花大价钱去买这份数据。

所以,在当时这种情况,爬虫就派上用处了。这里我先说下我们当时的思路,供大家参考:

从用户样本中,进行随机抽样,然后将抽中的用户号码进行爬虫,如果号码有外卖、快递标识的则进行标记,然后用这些用户做训练集进行建模并预测,对预测的结果为外卖、快递表示的用户再次进行爬虫,有标记的用户追加放入到训练集中再次训练并预测...

重复上述步骤,直到模型达到一个较高的准确率。

其中,爬虫能做到的就是获取用户号码的标记数据,这个标记数据大家也经常见过,比如当外卖员给你打电话的时候,手机上会显示:该号码被标记为快递、外卖

这个标记数据获取也很简单,你直接将对应的号码在搜索引擎上搜一下就知道了,这个我专门写过一篇文章:爬虫实战—获取号码标记数据

一年前的文章了,可能以前读过这篇文章的读者也没有想到,这竟然会是我项目中的一个实战部分


其实,上面的数据也不是百分百可靠,毕竟搜索引擎的数据并不是实时同步的,所以会导致你的用户画像相差甚远。

但是,在遇到类似的项目需要数据支撑的时候,爬虫确实是一个不错的好方法,但也仅限于此。