在pycharm内部安装、配置scrapy
第一步,创建python项目
首先利用pycharm创建一个python项目,并设置虚拟环境,这一步大家都很熟悉,就不多介绍了。
本文的重点是在一个项目内部创建一个scarpy项目!
第二步,安装scrapy
正常来说,只需要利用pip install scrapy
就可以了。
但是scrapy有个依赖很烦,一般都会报错。
error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”
(其实,现在通过pip安装软件,会自动解决依赖关系,但是,这个依赖需要外部环境。。。,比如lxml包的依赖就自动被安装了)
解决办法
不推荐
一般按照提示是需要安装一个C++14.0的一个库,但是进入网址后,此库总的有4G这么大
推荐解决方法
利用whl文件安装,因为[https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted],已经给我们集成了这个包,可以跳过这库的安装。
打开网址,如下所示,我选择的是python3.6,win64的文件,大家根据自己的环境选择对应的文件下载,文件很小,几MB。
下载后,安装。
打开自己的pycharm,在之前创建项目的终端下,利用pip命令安装即可。
install后面为whl文件的绝对路劲
安装完成后,重新pip install scrapy
即可!!!
第三步,创建scrapy项目
网上有许多教程,都是利用scrapy命令在外面创建项目,然后再用pycharm打开,太麻烦了,其实直接在pycharm的终端上创建即可!
第四步,动手实践
至此,项目也创建了,环境也配置了,就差动手实践scrapy项目了。
大家可以试试腾讯的职位信息。
网址[https://hr.tencent.com/position.php?&start=0#a]
第五步,运行
在pycharm内部,在设置脚本运行scrapy项目,这样就不用通过终端的命令运行了。
- 项目目录下,创建一个py文件,begin,start什么的名字无所谓。
- 输入如下所示的代码,其中tencentPosition是你爬虫的名字,也就是上图genspider后面的名字
- 需要说明的就是这些,偷个懒,后续可参照下面的网址。
()。 - 配置完毕,点击右上角run,可能会报如下错误。直接在之前提到的终端输入,
pip install pypiwin32
即可 - 至此,大公告成!快去完成自己的爬虫项目吧!加油!!!