使用 Python 爬虫获取古诗文网古诗题目

在本文中,我将教你如何使用 Python 编写一个简单的爬虫,来获取古诗文网中的古诗题目。整个过程将分为几个步骤,我们将一步步具体实现。对于初学者来说,掌握爬虫技术是一个有趣且实用的技能。接下来,我们将先列出整体流程和步骤,然后详细介绍每一步需要做的事情及相应的代码。

步骤流程

步骤 描述
1 安装所需库
2 导入库文件
3 发送请求获取网页
4 解析网页内容
5 提取古诗题目
6 输出结果

步骤 1: 安装所需库

在开始之前,我们需要确保已经安装了必要的库,主要是 requestsBeautifulSoup。打开终端,输入以下命令:

pip install requests beautifulsoup4

这里使用 pip 命令来安装 Python 的第三方库 requests(用于发送 HTTP 请求)和 BeautifulSoup(用于解析 HTML)。

步骤 2: 导入库文件

在编写 Python 代码之前,我们需要导入所需的库。创建一个新的 Python 文件(如 crawlers.py),并写入下面的代码:

import requests  # 导入requests库用于发送HTTP请求
from bs4 import BeautifulSoup  # 导入BeautifulSoup用于解析HTML内容

步骤 3: 发送请求获取网页

我们将使用 requests 库发送 GET 请求到古诗文网。以下代码示例将向目标网页发送请求,并获取网页内容:

url = "
response = requests.get(url)  # 发送GET请求
response.encoding = 'utf-8'  # 设置编码方式为utf-8
html_content = response.text  # 获取网页的文本内容

在这段代码中,requests.get(url) 发送一个 GET 请求,response.text 获取网页的内容。

步骤 4: 解析网页内容

接下来,我们使用 BeautifulSoup 对获取的网页内容进行解析。通过解析,我们可以提取出网页中的特定数据,例如古诗的题目。

soup = BeautifulSoup(html_content, 'html.parser')  # 使用BeautifulSoup解析网页内容

步骤 5: 提取古诗题目

现在,利用 BeautifulSoup 提取古诗的题目。通常情况下,古诗的题目会在特定的 HTML 标签内。我们可以通过查看网页源码了解标签结构。

titles = []  # 初始化一个空列表来存储题目
poem_elements = soup.select('.sons .poem-title')  # 选择包含诗题的 HTML 元素

for element in poem_elements:
    titles.append(element.get_text())  # 提取文本并添加到列表

在这段代码中,.sons .poem-title 是基于网页结构的选择器。通过 select 方法,我们选取包含诗题的元素,并将其文本提取到 titles 列表中。

步骤 6: 输出结果

最后,我们将提取到的古诗题目打印出来:

for title in titles:  # 遍历题目列表
    print(title)  # 打印每一个题目

完整代码示例

将以上所有代码片段合并,形成最终的代码:

import requests  # 导入requests库用于发送HTTP请求
from bs4 import BeautifulSoup  # 导入BeautifulSoup用于解析HTML内容

url = "
response = requests.get(url)  # 发送GET请求
response.encoding = 'utf-8'  # 设置编码方式为utf-8
html_content = response.text  # 获取网页的文本内容

soup = BeautifulSoup(html_content, 'html.parser')  # 使用BeautifulSoup解析网页内容

titles = []  # 初始化一个空列表来存储题目
poem_elements = soup.select('.sons .poem-title')  # 选择包含诗题的 HTML 元素

for element in poem_elements:
    titles.append(element.get_text())  # 提取文本并添加到列表

for title in titles:  # 遍历题目列表
    print(title)  # 打印每一个题目

旅行图

journey
    title 爬虫学习之旅
    section 规划
      收集需求       :active, a1, 2023-10-01, 1d
      设计流程       :after a1  , 2023-10-02, 1d
    section 实现
      安装库         :a2, 2023-10-03, 1d
      编写代码       :after a2  , 2023-10-04, 2d
      测试运行       :after a2  , 2023-10-05, 1d
    section 完成
      输出结果       :after a2  , 2023-10-06, 1d
      反思与调整     :after a2  , 2023-10-07, 1d

结尾

通过以上步骤,我们成功地编写了一个简单的 Python 爬虫,提取了古诗文网中的古诗题目。这不仅展示了爬虫的基本原理,也帮助你理解了如何使用第三方库进行网页解析。希望这篇文章能够帮助你入门爬虫开发,并激发你更深入研究数据抓取和处理的兴趣!如果你对爬虫还有更多疑问,欢迎与我交流。