动态网页的爬取相比静态网页来说困难一些,主要由于很多网站采用Ajax和动态Html相关技术进行页面交互,导致使用request或urlib是无法获取完整的页面html 内容。下面主要介绍两种抓取动态网页的方法,基本上都是有利有弊。

  • 逆向分析法,使用浏览器开发者工具分析爬取数据的来源,有时需要理解JavaScript
    脚本,需要一定的分析能力和综合能力。
  • Selenium,自动化测试框架,可以获取加载后的页面html,需要专门学习。

一、Ajax和动态Html

Ajax 的全称是Asynchronous JavaScript and XML,中文名称为异步的JavaScript和XML,是JavaScript 异步加载技术、XML以及 Dom,还有表现技术XHTML和CSS等技术的组合。使用Ajax技术不必刷新整个页面,只需对页面的局部进行更新,Ajax 只取回一些必需的数据,它使用SOAP、XML或者支持JSON的Web Service接口,我们在客户端利用JavaScript处理来自服务器的响应,这样客户端和服务器之间的数据交互就减少了,访问速度和用户体验都得到了提升。如注册邮箱时使用的用户名唯一性验证普遍采用的就是Ajax技术。
DHTML是Dynamic HTML的简称,就是动态的HTML,是相对传统的静态HTML而言的一种制作网页的概念。所谓动态HTML(Dynamic HTML,简称DHTML),其实并不是一门新的语言,它只是HTML、CSS和客户端脚本的一种集成,即一个页面中包括 HTML+CSS+JavaScript(或其他客户端脚本)。比如,腾讯新闻详情页首次加载只是加载很少的页面数据,部分数据隐藏在javascript脚本中,使用requests库无法完整获取页面html。

二、动态和静态网页的判定

1、在浏览器设置中开启“禁用JavaScript”选项。以Chrome浏览器最新版为例。点击浏览器的“自定义及控制google chrome”按钮,在左侧“设置”中选择“隐私设置和安全性”;

在右侧栏目中点击“网站设置”,然后选择底部的”JavaScript”;

python动态页面爬虫 动态网页爬虫技术_HTML


鼠标点击“允许(推荐)”后的开关控件;

将选项“允许(推荐)”调整为“己禁止”

完成后关闭设置,打开待爬取的网页,如果页面内容显示不完整或无内容显示。代表网页面是动态网页。读者设置完成后可打开腾讯新闻 https://new.qq.com/ch/ent/,发现网页无内容。

2、使用Requests 库获取目标网页的html 内容并打印输出,将输出内容另存为html.打开本地html,查看页面内容是否完整。以腾讯新闻https://new.qq. com/ch/ent/为例,编写如下代码,将print(r.text)结果另存为d:\news.html。本地打开news.html,查看页面显示效果,页面中缺失的部分就是通过动态网页技术实现的。

import requests
url='https://new.qq.com/ch/ent'
r=requests.get(url)
print(r.text)

import csv
def save(item, path):   # path文件保存路径,item数据列表
    with open(path, "w+", newline='') as f:
        write = csv.writer(f)
        write.writerows(item)
save(r.text,"d:/test2.html")

三、JSON数据解析

Python中使用通常标准库 json来实现从字符串转换为json对象。json模块解析的方式主要有两种,Json.load和 json.loads,其中 json.loads用于将json字符串解析为json对象,而json.load从读取的json文件中将数据转换为json对象。

import json  #导入json模块
jsonstr='{"ccode":"010101","cname":"数据采集与处理","sinfo":[{"scode":"123456","sname":"bob"},{"scode":"123457","sname":"dog"}]}'
obj=json.loads(jsonstr)
print(type(obj))  #obj是字典型
print(obj["ccode"])  #访问属性
print(type(obj["sinfo"]))  #列表
for row in obj["sinfo"]:
    print(row["sname"])

python动态页面爬虫 动态网页爬虫技术_爬虫_02