Python爬虫学习1
Python爬虫简述
首先说明这个专题是博主打算进行正规的系统学习Python爬虫这部分内容,是根据中国大学MOOC中的课程进行的总结和自己的理解。在文章的最后会给出中国大学MOOC的相关链接。
什么是爬虫?
关于这个问题可能大家都会有自己的一些理解,在这里我就给出一个我觉得较为准确又易理解的解释。
网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)[1],蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。网络爬虫始于一张被称作种子的统一资源地址(URLs)列表。当网络爬虫访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们写入一张"待访列表",即所谓"爬行疆域"(crawl frontier)。此疆域上的统一资源地址将被按照一套策略循环访问。如果爬虫在他执行的过程中复制归档和保存网站上的信息,这些档案通常储存,使他们可以被查看。阅读和浏览他们的网站上实时更新的信息,并保存为网站的“快照”。大容量的体积意味着网络爬虫只能在给定时间内下载有限数量的网页,所以要优先考虑其下载。高变化率意味着网页可能已经被更新或者删除。一些被服务器端软件生成的URLs(统一资源定位符)也使得网络爬虫很难避免检索到重复内容。
安装Python
可能对于编程新手来说,看完上文的一大段文字。依旧没有理解什么是爬虫,那么在这里用我的话来说就是 所谓爬虫就是利用相关语言进行编程来实现网络资源的获取解放人手工操作的繁杂。如果还不懂的话,那请出门左转学习HTML5。
其实关于Python的安装网上已经有许多教程了,本来不想累述的但考虑到观看本文的读者可能没有相关的经验又不想去查询其它的博客,所以就在这里进行安装Python的图文参照。
第一步:进入python官网
第二步:点击DownLoads,这里只展示windows下32位的安装并且python版本为3.6.4。
第三步:运行python安装文件
第四步:安装完成
第五步:检测安装,打开你电脑上的命令提示符输入python,出现如下图所示,表示安装成功。
Python IDE选择
安装好Python后,我们就需要一定的IDE工具了,下图展示Python常用的一些IDE。
其中IDLE是我们在安装Python的时候选择了安装的,界面图为下图。
关于其它各种IDE的区别在这里就不一一赘述了,毕竟不是咋们的重点,博主给出相关的链接,有兴趣的朋友们可以参考以下。