python 爬取最新github

原创

mob64ca12e4972a 2024-08-30 04:08:53 ©著作权

文章标签 数据 python Python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12e4972a的原创作品，请联系作者获取转载授权，否则将追究法律责任

如何用Python爬取最新的GitHub项目

在这篇文章中，我将教会你如何使用Python爬取最新的GitHub项目。我们将通过几个简单的步骤逐步完成此任务，由于我们会使用Python库如requests和BeautifulSoup，在开始之前，请确保已安装这些库。

流程概述

以下是爬取最新GitHub项目的简要流程：

步骤	说明
1. 准备环境	安装所需的Python库
2. 发送请求	使用`requests`库发送HTTP请求
3. 解析页面	使用`BeautifulSoup`解析HTML
4. 提取数据	从解析的内容中提取最新项目
5. 存储/展示数据	显示或保存爬取到的数据

1. 准备环境

首先，我们需要安装所需的库。在命令行中运行：

pip install requests beautifulsoup4

2. 发送请求

我们将使用requests库来发送HTTP请求并获取页面内容。以下是代码示例：

import requests

# 定义GitHub的URL
url = '

# 发送GET请求
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    print("请求成功")
else:
    print("请求失败，状态码：", response.status_code)

3. 解析页面

接下来，我们将使用BeautifulSoup解析获取到的HTML内容：

from bs4 import BeautifulSoup

# 将页面内容传递给BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# 打印HTML的部分内容以确认解析成功
print(soup.prettify()[:500])  # 打印前500个字符

4. 提取数据

在解析后的内容中，我们可以提取所需的数据。通常最新的项目会在某个特定的标签内，我们需要找到它们。

# 查找最新项目的容器
repos = soup.find_all('article', class_='border rounded color-shadow-small color-bg-default p-3 mb-3')

# 提取最新项目的信息
for repo in repos:
    title = repo.find('h1').get_text(strip=True)
    link = repo.find('a')['href']
    print(f"项目名称: {title}, 链接:

5. 存储/展示数据

最后，可以选择将提取的数据存储在文件中，或者直接在控制台展示。

# 存储数据到文件
with open('github_repos.txt', 'w', encoding='utf-8') as f:
    for repo in repos:
        title = repo.find('h1').get_text(strip=True)
        link = repo.find('a')['href']
        f.write(f"项目名称: {title}, 链接:

序列图

以下是进行此操作的序列图，展示了整个流程。

sequenceDiagram
    participant User
    participant PythonScript as Script
    participant GitHub

    User->>Script: 准备环境
    Script->>GitHub: 发送HTTP请求
    GitHub-->>Script: 返回页面内容
    Script->>Script: 解析页面
    Script->>Script: 提取数据
    Script-->>User: 展示或存储数据

甘特图

这是甘特图，展示了每个步骤的执行时间。

gantt
    title 爬取GitHub最新项目的任务
    dateFormat  YYYY-MM-DD
    section 准备环境
    安装库           :a1, 2023-10-01, 01d
    section 数据获取
    发送请求         :a2, 2023-10-02, 02d
    解析页面         :a3, 2023-10-03, 01d
    提取数据         :a4, 2023-10-04, 01d
    section 数据存储
    存储/展示数据    :a5, 2023-10-05, 01d