python爬取电影 Python爬取电影排行榜

转载

码海舵手 2023-08-11 12:45:04

文章标签 python爬取电影 python 爬虫代码段 html 文章分类 Python 后端开发

前言:

网络爬虫无疑会为我们生活带来便利，但是过度的恶意爬取也会造成服务器的负担，这里还是请诸位利用好这把爬虫双刃剑。

一、话不多说，先看代码，随后详谈

1.代码如下:

（1）单个网页爬取

(2)多个网页

2.运行结果 (只是一部分)

二、思路流程

1.正所谓巧妇难为无米之炊，我们要爬取信息得要源代码才行。可以用requests解决。

2.分析源代码，找到包含信息的标签，用beautifulsoup遍历找到。

3.利用beautifulsoup通过标签名字和属性遍历标签，查找到信息。

4.观察网址信息，制作出爬取多个网页的循环，比如说网址的后半段的某些数字的间隔是有规律的，如下所示

二、代码解释

1.代码库的解释

2.代码段的解释

(1)requests代码段的解释

(2)beautifulsoup代码段的解释

(3)整个代码段的解释

三、总结

一、话不多说，先看代码，随后详谈

1.代码如下:

（1）单个网页爬取

import requests
from bs4 import BeautifulSoup
kv={'user-agent':'Mozilla/5.0'}
r=requests.get('https://movie.douban.com/top250',headers=kv)
if (r.status_code==200):
    source=r.text
    soup = BeautifulSoup(source,'html.parser')
    items=soup.find_all('div','item')
    for i in items:
        for j in range(len(i.find_all('span','title'))):
            print(i.find_all('span','title')[j].string,end='')
        print(i.find_all('span','other')[0].string)
        print(i.find_all('p')[0].text.replace('\n','').replace(' ',''))
        if(len(i.find_all('span','inq'))!=0):
            print('评语:'+i.find_all('span','inq')[0].string)
        print('评分:'+i.find_all(property="v:average")[0].string)
        print("\n")
else:
    print("哦豁~目标网站不给予响应")

(2)多个网页

import requests
from bs4 import BeautifulSoup
kv={'user-agent':'Mozilla/5.0'}
page=0
while (page<=250):
    r=requests.get('https://movie.douban.com/top250?start='+str(page)+'&filter=',headers=kv)
    page=page+25
    if (r.status_code==200):
        source=r.text
        soup = BeautifulSoup(source,'html.parser')
        items=soup.find_all('div','item')
        for i in items:
            for j in range(len(i.find_all('span','title'))):
                print(i.find_all('span','title')[j].string,end='')
            print(i.find_all('span','other')[0].string)
            print(i.find_all('p')[0].text.replace('\n','').replace(' ',''))
            if(len(i.find_all('span','inq'))!=0):
                print('评语:'+i.find_all('span','inq')[0].string)
            print('评分:'+i.find_all(property="v:average")[0].string)
            print("\n")
    else:
        print("哦豁~目标网站不给予响应")
print('OVER~')

2.运行结果 (只是一部分)

python爬取电影 Python爬取电影排行榜_爬虫

二、思路流程

1.正所谓巧妇难为无米之炊，我们要爬取信息得要源代码才行。可以用requests解决。

2.分析源代码，找到包含信息的标签，用beautifulsoup遍历找到。

比如我们此次要爬取的电影都在items标签中，所有的电影名字都在title标签中，导演在p标签中等等，都是需要我们需要留心的。

python爬取电影 Python爬取电影排行榜_代码段_02

3.利用beautifulsoup通过标签名字和属性遍历标签，查找到信息。

这里用到了beautifulsoup的find_all利用标签名字和属性遍历，标签的.string和.text属性进行字符提取输出。这里的string和text有所不同，string只能读取含有一个字标签的标签字符，而text可以读取含有多个字标签的所有字符。

4.观察网址信息，制作出爬取多个网页的循环，比如说网址的后半段的某些数字的间隔是有规律的，如下所示:

http://www.gugugu.com/top250?start=0&filter=

http://www.gugugu.com/top250?start=25&filter=

http://www.gugugu.com/top250?start=50&filter=