提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


文章目录

  • 前言
  • 一、pandas是什么?
  • 二、使用步骤
  • 1.引入库
  • 2.读入数据
  • 总结



前言

Python 爬虫

随着数据爆炸式增长,信息变得越来越复杂,获取特定有效的数据显得越来越重要。


提示:以下是本篇文章正文内容,下面案例可供参考

一、爬虫是什么?

 爬虫是一个自动运行的程序,用来从互联网上获取特定的数据,便于后期处理。

爬虫用于爬取数据, 又称之为**数据采集程序**。

爬取的数据是公开的、非盈利的。

二、使用步骤

1.爬虫的架构

爬虫由5部分构成

调度器

URL管理器     

网页下载器

网页解析器

应用程序(爬取数据)

处理中心,协调其余四个工作

主要通过内存、数据库、缓存数据库3种方式来实现对待爬取的URL地址和已爬取的URL地址,以及防止重复抓取和循环抓取URL。

通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib,包括需要登录、代理、和cookie,requests(第三方包)

将一个网页字符串进行解析,按照特定需求来提取信息,也可以根据DOM树的解析方式来解析。网页解析器有正则表达式、html.parser(Python自带的)、beautifulsoup(第三方插件等

从网页中提取的数据组成的一个应用

2.爬虫与后端服务器的关系

爬虫使用网络请求库,相当于客户端请求, Web后端服务根据请求响应数据。

爬虫即向Web服务器发起HTTP请求,正确地接收响应数据,然后根据数据的类型(Content-Type)进行数据的解析及存储。

爬虫程序在发起请求前,一般进行伪造浏览器(User-Agent指定请求头),然后再向服务器发起请求, 响应200的成功率高很多。


总结

以上就是今天要讲的内容,本文仅仅简单介绍了Python爬虫架构以及与后端服务器的关系,