python爬虫怎么断点查看 python爬虫怎么找数据

转载

编程梦想编织者 2024-08-23 14:20:57

文章标签 python爬虫怎么断点查看 python 爬虫开发语言 Python 文章分类 Python 后端开发

前言

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

通俗地讲，我们把互联网比作一张大蜘蛛网，每个站点资源比作蜘蛛网上的一个结点，爬虫就像一只蜘蛛，按照设计好的路线和规则在这张蜘蛛网上找到目标结点，获取资源。

那么我们怎么怎么通过爬虫获取数据呢？步骤是什么？

python爬虫获取数据的步骤

python爬虫怎么断点查看 python爬虫怎么找数据_python爬虫怎么断点查看

1、爬取数据，实际上就是根据一个网址向服务器发起网络请求。

获取服务器返回的数据。

2、解析数据，将服务器返回的数据转换成易于理解的样式。

3、过滤资料，从大量资料中筛选出所需资料。

4、储存资料。

实例

from urllib.request import Request
from urllib.request import urlopen
 
# 爬取百度首页
url1 = 'http://www.baidu.com'
# 用一个变量保存
request = Request(url=url1)
response = urlopen(request)
# print(response.read().decode('utf-8'))
# 获取的数据是源代码要用decode进行解码操作
html_string = response.read().decode('utf-8')
with open('baidu.html', 'w', encoding='utf-8') as fp:
    fp.write(html_string)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。