如果知识单一的需求,不考虑深度学习的话。大概两个小时左右,大概的流程是,下载安装python,15分钟左右找到爬虫的教程,15分钟pip库,然后就开始复制粘贴修改目标网址和数据存储路径。然后开始爬一直到结束。整个过程2小时。
我觉得带着目的去学习,是最有效的学习方法。
学习python爬虫的话必备知识点如下:
- 最首先要学的是基本的python语法知识
- 学习python爬虫经常用到的几个内之苦:urllib、http这些用于下载网页
- 学习正则表达式re、BeautifulSoup(bs4)、Xpath等网页解析工具
- 之后就可以了解一些简单的网站爬取,可以从百度开始。了解爬取数据的过程
- 在上一步之后就可以了解一些爬虫的反爬机制。header,robot,时间间隔,代理ip。隐含字段等等
- 之后还要了解一些特殊的网站爬取,解决登陆问题比如cookie还有动态页面js模拟等问题
- 学习selenium自动化工具,目的是可以应对异步加载页面
- 在之后就是爬虫和数据库之间的结合,如何将我们爬取的数据进行存储,Mysql
- 还要学习多线程和异步,这样可以提高效率
- 还有要了解的是爬虫的框架
- 如果有较大的数据需求的话,要学习redis分布式
第一个爬虫建议从urllib开始,应该很多人的第一个爬虫代码都是从这里开始的。短短的几行代码就可以搞定一个看似很难的任务。从这里给大家介绍一下:
urllib库:这是python的内置库,可以说爬虫非常重要的一个部分。这个内之苦可以使用的就是完成向服务器发出请求并且获得网页的功能。这里说一下,python2.x和3.x是有一些出入的。
如何用python抓取一个指定的页面?
首先创建一个urllib2_test01.py,然后输入下面的代码:
最简单的获取一个url信息代码只需要4行就可以搞定的,执行写的python代码:
会得到下面的内容:
下面是编辑urllib_test03.py的过程
这里知识一个初步的介绍。
刚刚写的代码,打开之后看的不清楚,又重新更新的了图片。