python爬虫教程 jupyter

转载

hackernew 2025-02-01 11:26:13

文章标签 python爬虫教程 jupyter ide 数据保存数据 文章分类 Python 后端开发

1、爬虫原理：模拟浏览器——往目标站点发送请求——获取响应数据——提取有价值的数据——持久化到数据中

2、爬虫过程：发送请求（request请求库，selenium请求库）

——获取响应数据（注意服务器发送请求，请求通过后返回响应数值)

——解析并提取数据（需要解析库：re.beautifulsoup4.xpath）

——保存到本地（文件处理，数据库，MongoDB数据库）

3、导入requests请求库

4、爬百度网页：

import requests #导入request请求库

response=requests.get(url="https://www.baidu.com/")

response.encoding="utf-8"

print(response.text)

with open('baidu.html','w',encoding='utf-8')as f:
    f.write(response.text)

　5、导入视频：

import requests

往视频源地址发送请求
 response=requests.get(
     "https://video.pearvideo.com/mp4/short/20190625/cont-1568862-14057323-hd.mp4")

# 打印二进制流，比如图片、视频等数据
print(response.content)

保存视频到本地
 with open('视频.mp4','wb')as f:
     f.write(response.content)


'''
1、先往梨视频主页发送请求
https://www.pearvideo.com/
2、解析获取所有视频的id：
video_1570107
re.findall()
2、获取视频详情页url：
'''

import requests
import re#正则 用于解析文本数据

#1、先往梨视频主页发送请
response=requests.get("https://www.pearvideo.com/")
print(response.text)

#re正则匹配获取所有视频id
#参数1：正则匹配规则
#参数2：解析文本
#参数3：匹配模式
res_list=re.findall('<a href="video_(.*?)"',response.text,re.S)
print(res_list)

#拼接每一个视频详情页
for v_id in res_list:
    detial_url="https://www.pearvideo.com/video_"+v_id
    print(detial_url)

    #对每一个视频详情页发送请求获取视频
    response=requests.get(url=delattr())

    video_url=re.findall('srcUrl="(.*?)"',response.text,re.S)[0]
    print(video_url)


    video_name=re.findall('<h1 class="video-tt">(.*?)</h1>',response.text.S)[0]
    print(video_name)


    v_response=requests.get(video_url)
    with open('$s.mp4'%video_name,'wb',)as f:
        f.write(v_response.content)
        print(video_name,'视频读取完成')

　6、抓包分析：打开浏览器的开发者模式（检查）———选中network,找到访问页面横后缀xxx.html（相应文本）

　　　　请求方式：get：直接发送请求获取数据

　　　　　　　　　　post：携带用户信息地址发送请求：{’uesr‘：’tank‘’pwd‘:‘123’}

　　　　　　　　　　状态响应码：2xx：成功

　　　　　　　　　　　　　　　　3xx:重定向

　　　　　　　　　　　　　　　　4XX：找不到资源

　　　　　　　　　　　　　　　　5XX：编码错误请求头信息：

　　　　　　　　　　user_agent：用户代理（证明是通过电脑社设备发送的请求）

　　　　　　　　　　cookies：登录用户真实信息（证明你是目标网址的用户）

　　　　　　　　　　referer：上一次访问的url，证明你是从目标网址跳转过来的

　　　　　　　　　　请求体：post：请求才会有请求体 form data{'user:'"tank"'psw':'123'}

第一页url：
第二页url：

1.发送请求
2.解析数据库
3.保存数据
\
.:从当前位置开始
*：查找所有
？：找到第一个不找

.*？：非贪婪匹配
.*：贪婪匹配
（.*？）：提取括号内数据

1.排名：

'''
import requests
import re

def get_page(base_url):
    response=requests.get(base_url)
    return response
def parse_index(text):
    res=re.findall('<div class="item">.*?<em class="">.*?</em>.*?<a href="(.*?)>.*?<span class="title"></span>.*?导演：(.*?)</p>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价</span>.*?<span class="inq">(.*?)</span>',text,re.S)
    return res
#保存数据
def save_data(data):
    with open('douban.txt','a',encoding='utf-8')as f:
        f.write(data)
#main+回车键
if __name__== '_main_':
    num = 0
    for line in range(10):
        base_url =f'https://movie.douban.com/top250?start={num}&filter='
        num+=25
        print(base_url)
        #发送1请求，调用函数
        response=get_page(base_url)
        #解析文本
        movie_list=parse_index(response.text)
        #保存数据 数据的格式化
        for movie in movie_list:
            print(movie)
            #解压赋值
            #电影排名、电影url，电影名称、导演。主演......
            v_top,v_url,v_name,v_daoyan,v_point,v_num,v_desc=movie
            #v_top=movie[0]
            #v-url=movie[1]
            movie_content=f'''
            电影排名：{v_top}
            电影url：{v_url}
            电影名称：{v_name}
            电影主演：{v_daoyan}
            电影评分：{v_point}
            评价人数：{v_num}
            电影简介：{v_desc}
            \n
            '''
            print(movie_content)
            #保存数据
            save_data(movie_content)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。