从98年google以搜索技术起家开始,互联网至今,以提供内容为主的互联网企业每一家都离不开小爬虫的帮助,大到互联网巨头,小到刚成立没几天的创业公司, 在早期没有足够内容来撑住自家网站和app时,都会采取抓取手段来补充内容,让自家产品显得内容满满。
一些公司的商业模式就建立在爬虫技术之上的,比如搜索引擎公司、大数据处理公司、网络舆情监控公司,没有数据,他们的公司就没法运转。
另外如今互联网公司的获客成本加速上升,就出现了增长黑客这个概念,里面的大量运营技巧也是要依赖于爬虫技术的手段来驱动,这里不是指抓数据,而是模仿用户请求,模仿用户操作,自动发贴等手法来做新增和刺激活跃。
1.提到爬虫,必然会说起搜索引擎,它是直接利用爬虫抓取信息来构建底层服务的。简单粗暴,但是直接有效,而如今世界上最大的两家搜索引擎服务公司(google和百度),已分别是7千亿和600亿美金市值。
2.已是国民资讯app的今日头条,早期通过抓取数百家机构的新闻源,以技术推荐手段来分发给用户,做到千人千面的阅读体验,现在已是中国互联网公司第三极。
这是一个在早期直接利用爬虫手段成功的典型例子,如果不抓取别人的新闻资讯,今日头条根本不可能成功。
3.做职场社交,获得2亿美金投资的脉脉,早期直接抓取微博用户信息,用来弥补自身用户数量的不足,完成了脉脉早期几百万用户积累,不过脉脉抓取微博用户信息已被法院判决为非法,做社交媒体和舆情监控的估计没几家没抓过微博的数据吧。要小心噢。
当下随着国家知识产权法规越来越完善和严格,这种直接抓取别人信息然后直接商业化的行为够你进去蹲几年了。所以要慎重哦!!!
每个时代都有它所谓的企业原罪,8090年代是企业产权不明,要论互联网时代的原罪估计就是企业早期冷启动时抓取的内容是否应该直接商业化吧。
如果现在再做一个类似搜索引擎或今日头条这样的产品,不解决版权问题,会随时被请喝茶。那么现在爬虫抓取的内容就不能商业化了吗?
也不尽然,比如政府公开的数据是可以直接商用的。
4.在企业工商信息查询领域另辟蹊径的天眼查/企查查。 这两家企业把各个省,市的官方几千万家工商信息抓取出来,结构化整合后提供给用户查询,让人眼前一亮。
这个APP已成为创业者,投资人,老板们的标配APP,查询法人信息,企业股权结构等等一目了然。类似的数据还有商标,专利,法院判决文书等等
另外在电商领域抓取各家电商平台做比价网站一直是一个不错的商业模式,比如即将在A股上市的什么值得买,把各家电商网站的商品和价格抓取过来,把他们的价格差异展示出来,方便用户查看哪家网站的便宜,但是后来各家电商网站都把价格信息图片化、混淆化之后,解析准确价格的难度就加大了不少。
再比如在纳斯达克上市,后又被私有化的去哪儿网,在早期能够崛起成为一个机票和酒店预定的流量入口,就是他的搜索比价模式,实时抓取各家机票和酒店信息,把价格差异展示出来,而这正击中了用户想要买便宜的需求。
我已分享过好几篇靠爬虫技术结构化数据挣钱的个人经历,不过挣的都是小钱,这里面一直是存在做成商业公司的机会的,老板给你布置爬数据任务时,你不妨多问几个为什么,多和运营同事聊聊,开阔你的商业视野,也许某一天你会发现一个结构化数据挣很多钱钱的机会。
用抓取的数据发展成为一个商业模式的例子还有很多,以上举了几个较为知名的,还有我了解的很多个人站长,自由职业者都是靠着抓取和整合数据做出了不错的流量和用户,每年有不菲的收入,在面朝大海,春暖花开的地方,吃着火锅,喝着小酒,以后再为大家一一道来。