前言
在学习了对网页的基本请求方式以及正则匹配的规则后,可以用现掌握的理论做一些简单的爬虫脚本,本次的目标站点是猫眼电影的TOP100。
首先我们来到猫眼电影的首页,进入开发者模式,然后分析它的URL。
然后我们点击翻页,发现它的URL变化如下:
https://maoyan.com/board/4?offset=0 #第一页
可以得出规律,页数的变化是与url中offset的值相关,从0~90正好10页每页记录10个条目。
现在来对获取一页的功能进行编码:
def get_one_page(url):
try:
res = requests.get(url)
if res.status_code == 200:
print("获取页面数据成功!")
return res.text
else:
print("获取页面数据失败,状态码:%d" %res.status_code)
return None
except RequestException:
print("请求失败")
return None
接下来便是关键的步骤,对页面进行分析。这是爬虫中非常重要的一步,也是很困难的一步。
首先进入开发者模式,由于猫眼电影TOP100的页面构成比较简单,进入Elements选项。
接着展开这个<dd>标签进行分析,找到需要爬取的内容,然后编写正则表达式。
这里我们需要获取序号,片名,主演,上映时间,评分等。
正则表达式如下:
<dd>.*?<i class="board-index.*?>(\d+)</i>.*?<a href=.*?<img src="(.*?)".*?>.*?</a>.*?<p class="name"><a href=.*?>(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<p class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>
my_pattern = re.compile('<dd>.*?<i class="board-index.*?>(\d+)</i>.*?<a href=.*?<img src="(.*?)".*?>.*?</a>.*?<p class="name"><a href=.*?>(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<p class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>', re.S)
results = re.findall(my_pattern, content)
print(results)
输出这个findall的结果,发现每一条目的信息都被保存在一个元组中,并且共同存储在一个列表中。
现在就可以对解析页面功能进行编码:
def parse_page(content):
my_pattern = re.compile('<dd>.*?<i class="board-index.*?>(\d+)</i>.*?<a href=.*?<img src="(.*?)".*?>.*?</a>.*?<p class="name"><a href=.*?>(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<p class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>', re.S)
results = re.findall(my_pattern, content)
return results
拿到每一页的获取信息后,需要将这些信息保存在本地中,所以定义一个写保存到本地的功能:
在这里对获取内容列表的每个元组进行遍历,创建一个本地txt文件,在每次遍历中定义一个字典来记录信息值。由于获得的信息文本仍有冗余的符号如换行空白符等,需要针对特定信息项做特别的处理。
def write_to_file(content):
with open('MaoYan_top100.txt', 'a', encoding='utf-8') as f:
for i in content:
info_dict = {
"num": i[0],
"name": i[2],
"pic": i[1],
"actor": i[3].strip()[3:], # 用strip方法去除文本前后空白字符,再对需要字段进行切片
"time": i[4][5:], # 去除 “上映时间” 字段
"score": i[5]+i[6]
}
# print(info_dict)
#f.write(json.dumps(info_dict, ensure_ascii=False)+ '\n')
f.write(str(info_dict) + '\n')
f.close()
定义主函数:
def main():
for page in range(5): # range(100): 生成[0,100)半闭半开的序列
url = 'https://maoyan.com/board/4?offset=' + str(page*10)
content = get_one_page(url)
items = parse_page(content)
write_to_file(items)
运行后生成文本文件
至此猫眼TOP100的爬虫程序就完成了!
完整代码:
import requests
from requests.exceptions import RequestException
import re
import json
def get_one_page(url):
try:
res = requests.get(url)
if res.status_code == 200:
print("获取页面数据成功!")
return res.text
else:
print("获取页面数据失败,状态码:%d" %res.status_code)
return None
except RequestException:
print("请求失败")
return None
def parse_page(content):
my_pattern = re.compile('<dd>.*?<i class="board-index.*?>(\d+)</i>.*?<a href=.*?<img src="(.*?)".*?>.*?</a>.*?<p class="name"><a href=.*?>(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<p class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>', re.S)
results = re.findall(my_pattern, content)
return results
def write_to_file(content):
with open('MaoYan_top100.txt', 'a', encoding='utf-8') as f:
for i in content:
info_dict = {
"num": i[0],
"name": i[2],
"pic": i[1],
"actor": i[3].strip()[3:],
"time": i[4][5:],
"score": i[5]+i[6]
}
# print(info_dict)
#f.write(json.dumps(info_dict, ensure_ascii=False)+ '\n')
f.write(str(info_dict) + '\n')
f.close()
def main():
for page in range(10): # range(100): 生成[0,100)半闭半开的序列
url = 'https://maoyan.com/board/4?offset=' + str(page*10)
content = get_one_page(url)
items = parse_page(content)
write_to_file(items)
if __name__ == '__main__':
main()
同理,对豆瓣电影Top250也做出相应的信息爬取练习:
import requests, re, json
from requests.exceptions import RequestException
def get_one_page(url):
try:
res = requests.get(url)
if res.status_code == 200:
return res.text
return None
except RequestException:
return None
def parse_page(context):
my_pattern = re.compile('<li.*?<em class="">(\d+)</em>.*?<a href=.*?src="(.*?)".*?</a>.*?title">(.*?)</span>.*?<p class="">(.*?)</p>.*?average">(.*?)</span>.*?<span>(.*?)</span>.*?</li>',re.S)
results = re.findall(my_pattern, context)
# 处理影片描述部分的混乱格式
for item in results:
content = ""
# 切除描述部分的空白字符
for i in item[3].split():
content = content + "".join(i)
content = re.sub('<br>','',content)
content = re.sub(' ',' ',content)
# 返回字典
yield {
"index": item[0],
"name": item[2],
"pic": item[1],
"describe": content,
"score": item[4],
"people": item[5]
}
def write_to_file(content):
with open("douban_250.txt","a",encoding="utf-8") as f:
f.write(json.dumps(content,ensure_ascii=False) + '\n')
f.close()
def main(offset):
url = "https://movie.douban.com/top250?start=" + str(offset)
context = get_one_page(url)
for i in parse_page(context):
print(i)
write_to_file(i)
if __name__ == "__main__":
for i in range(10):
main(i*25)