电影荒？看看豆瓣排行榜上有没有你想看的电影！

原创

wx60dc219c40eba 2021-07-07 09:44:59 ©著作权

文章标签 Scrapy爬虫 文章分类 前端开发

©著作权归作者所有：来自51CTO博客作者wx60dc219c40eba的原创作品，请联系作者获取转载授权，否则将追究法律责任

Scrapy简介

Scrapy is an application framework for crawling web sites and extracting structured data which can be used for a wide range of useful applications, like data mining, information processing or historical archival.
这是Scrapy官方文档给出的定义，Scrapy是一个快速的的Python框架，用于抓取web站点并从页面中提取大量有用的结构化数据，可以用于数据挖掘、信息处理或是存储历史数据。

电影荒？看看豆瓣排行榜上有没有你想看的电影！_Scrapy爬虫上面是Scrapy的架构图，下面简单介绍一下各个组件

Scrapy Engine：引擎用来处理整个系统的数据流，触发各个事件，是整个系统的核心部分。
Scheduler：调度器用来接受引擎发过来的Request请求, 压入队列中, 并在引擎再次请求的时候返回。
Downloader：下载器用于引擎发过来的Request请求对应的网页内容, 并将获取到的Responses返回给Spider。
Spiders：爬虫对Responses进行处理，从中获取所需的字段（即Item）,也可以从Responses获取所需的链接,让Scrapy继续爬取。
Item Pipeline:管道负责处理Spider中获取的实体，对数据进行清洗，保存所需的数据。
Downloader Middlewares:下载器中间件主要用于处理Scrapy引擎与下载器之间的请求及响应。
Spider Middlewares：爬虫中间件主要用于处理Spider的Responses和Requests。

开发环境

安装Python环境，推荐Anaconda，能减少很多库安装的问题
安装Scrapy 官方文档提供了详细的安装方法
安装MongoDB 使用MongoDB来保存爬取到的网页上的信息，如文章的标题、类别、图片保存路径等等。

爬取实战

工程创建

打开命令行，开启第一个Scrapy项目的实践

scrapy startproject douban

项目创建完成后可以看到在工程创建的位置有了douban文件夹，打开以后包含了上述的组件，可以使用spyder,pycharm等ide打开项目电影荒？看看豆瓣排行榜上有没有你想看的电影！_Scrapy爬虫_02

根据命令行的提示

cd douban
scrapy genspider example example.com

进入douban文件夹，并创建spider,上述命令中的example替换为spider的名字doubanmovie，example.com替换为 douban.com ,输入上述命令之后可以看到多了一个spider的py文件。

代码编写

Settings

需要设置USER_AGENT,假装自己是浏览器访问网页。下面给多个用户代理，随机选择其中之一进行访问，在settings.py中加入以下代码
```
 
```

user_agent_list =[
"Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0",
"Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; InfoPath.3; rv:11.0) like Gecko",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",
"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
"Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
"Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
"Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"
]
USER_AGENT =random.choice(user_agent_list)

编写完pipeline类之后需要继续在settings py中进行配置, 可以配置多个pipeline, 300为优先级, 值越低, 优先级越高, 范围在(0, 1000)内。
```
 
```

ITEM_PIPELINES ={
'douban.pipelines.DoubanPipeline':300,}

Items

在items.py中编写一个item用于存放爬取结果

import scrapy
class DoubanItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# 电影标题
title = scrapy.Field()
# 豆瓣评分
star = scrapy.Field()
# 主演信息
Staring = scrapy.Field()
# 豆瓣排名
rank = scrapy.Field()
# 描述
quote = scrapy.Field()
# 豆瓣详情页
url = scrapy.Field()

Doubanmovie

这里是爬虫的部分，在spiders目录下doubanmovie.py文件中进行编辑，爬虫的逻辑非常简单，这里选择了官方文档推荐的css方法来解析html。Scrapy的CSS选择器
通过对网页源代码的分析, 我们发现我们所要获取的信息都在class为item中的div中, 遍历这些div, 获取相关数据.每一页有有25部电影数据, 当这一页的数据获取完成后, 接着爬取下一页的数据，下一页的链接藏在标签里，同样通过css选择器提取。当然也可以通过xpath，BeautifulSoup来解析网页。

import scrapy
from douban.items import DoubanItem
class DoubanmovieSpider(scrapy.Spider):
name = 'doubanmovie'
start_urls = ['https://movie.douban.com/top250']
def parse(self, response):
for item in response.css('.item'):
movie = DoubanItem()
#Staring = item.xpath('//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[2]/p[1]/text()').extract_first()
Staring =item.css('.bd p::text').extract_first()
rank = item.css('.pic em::text').extract_first()
title = item.css('.hd span.title::text').extract_first()
star = item.css('.star span.rating_num::text').extract_first()
quote = item.css('.quote span.inq::text').extract_first()
url = item.css('.pic a::attr("href")').extract_first()
image_url = item.css('.pic img::attr("src")').extract_first()
movie['rank'] = rank
movie['title'] = title
movie['star'] = star
movie['Staring'] = Staring
movie['quote'] = quote
movie['url'] = url
movie['image_url'] = image_url
yield movie
# 获取下一页的url
next_url = response.css('span.next a::attr("href")').extract_first()
if next_url is not None:
url = self.start_urls[0] + next_url
yield scrapy.Request(url=url, callback=self.parse)