本次分享一下selenium和scrapy的入门使用
selenium的简单使用
使用场景:自动化测试,已及某些需要自动化的场景
1、需要提前准备一下相应驱动,我用的chrome,下载了一个对应版本的googledriver。
2、python环境,我用的是anaconda+pycharm
3、安装需要的selenium包
随便百度上搜一下就有好多相关介绍,就不做多余赘述
selenium基本操作:https://www.jianshu.com/p/fbb489302ef7
需要了解selenium几种等待方式:
显性等待、隐性等待、强制等待,可参考一下这个博文:
显性等待中会用到EC模块的一些个方法,可参考一下这个博文:
大概了解一下:xpath选择器、css选择器
这些大佬们写的比较全,借鉴一下
scrapy基本使用
给个介绍scrapy和pyspider对比的链接:https://www.crifan.com/use_pyspider_to_crawl_autohome_car_brand_serial_model_data/
我是用的是anaconda+pycharm,cmd进入命令行窗口,进入想要创建项目的目录下,激活conda虚拟环境(提前在conda下创建虚拟环境、安装相应scrapy包)。
#创建爬虫项目(提前进入到指定目录下,或者命令后跟dirname)
scrapy startproject [myproject] [project_dir]
#创建爬虫mydomain为爬虫名字,后边是所要爬的域名或url
scrapy genspider [mydomain] [mydomain.com]
#shell交互式命令窗口,调试的时候会用到,相当于取到url页面的源码,返回的是response
scrapy shell [url]
注意:shell后跟的url地址如果是带汉字参数的,注意不同浏览器编码方式不同,可能取不到相应页面信息,换浏览器试试。
1、创建爬虫后就可以进入pycharm导入项目,在pycharm里编写,在上图的shell窗口调试
2、导入项目后会有一些配置项需要注意的
3、编写好爬虫文件后就可以运行了
4、将爬取到的数据上传至数据库,网上有各种方法,眼花缭乱