一、写这个爬虫的目的:
学了一段时间的Python、SQL语句,主要想通过这个爬虫熟悉静态网页站点的爬取,以及将爬取数据在数据库中进行操作的过程。
二、目标网站分析:
人民日报网站是静态网站,其页面跳转是通过 URL 的改变完成的,即所有数据一开始就是加载好的。我们只需要去 html 中提取相应的数据即可,不涉及到诸如 Ajax 这样的动态加载方法。
三、用到的主要第三方库:
通过上述分析,主要用了requests、lxml、pymysql、datetime这几个第三方库。其中,requests 库主要用来发起请求及接受响应信息,lxml主要通过Xpath方法来解析html内容,pymysql主要用于将爬取的数据写入Mysql数据库。
四、代码:

import requests
from lxml import etree
import pymysql
from datetime import datetime,timedelta
import time

def download_people_daily(year, month, day):
    
    #获取目标网页的 html 内容:
    def get_html_text(url):
        headers={
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }
        html=requests.get(url,headers=headers)
        html.raise_for_status()
        html.encoding="utf-8"
        return etree.HTML(html.text)

    url='http://paper.people.com.cn/rmrb/html/'  + year + '-' + month + '/' + day + '/' +'nbs.D110000renmrb_01.htm'
 
    #爬取当天报纸的各版面的链接,将其保存为一个数组,并返回:
    def get_page_link(year,month,day):    
        selector1=get_html_text(url)
        temp_pagelink=selector1.xpath('//*[@id="pageLink"]/@href')    #获取版面相对路径
        pagelink=[]
        for i1 in range(len(temp_pagelink)):
            pagelink.append('http://paper.people.com.cn/rmrb/html/'  + year + '-' + month + '/' + day + '/' +temp_pagelink[i1] )    #获取版面绝对路径,并将其添加到一个列表中
        return pagelink

    #爬取当天报纸某一版面的所有文章的链接,将其保存为一个数组,并返回:
    pageurl=get_page_link(year,month,day)
    articlelink=[]
    for i2 in pageurl:
        selector2=get_html_text(i2)
        temp_articlelink=selector2.xpath('//*[@id="titleList"]/ul/li[*]/a/@href')    #获取文章网址相对路径
        for i3 in range(len(temp_articlelink)):    
            articlelink.append('http://paper.people.com.cn/rmrb/html/'  + year + '-' + month + '/' + day + '/' +temp_articlelink[i3])       #获取文章网址绝对路径,并将其添加到一个列表中


    #爬取当天报纸所有文章的标题、时间版面、正文:
    title=[]
    dateinfo=[]
    content=[]
    for i4 in articlelink:
        selector3=get_html_text(i4)
        single_title=selector3.xpath('/html/body/div[1]/div/div[2]/div[4]/div/h1/text()')      #获取文章标题
        for i5 in range(len(single_title)):
            title.append(single_title[i5])
        single_dateinfo=selector3.xpath('/html/body/div[1]/div/div[2]/div[4]/div/div[1]/text()')     #获取版面时间
        for i6 in range(len(single_dateinfo)):
            dateinfo.append(single_dateinfo[i6])
        single_content=selector3.xpath('//*[@id="ozoom"]/p/text()')      #获取文章正文
        for i7 in range(len(single_content)):
            content.append(single_content[i7])


    # 将获取的信息写入MySQL数据库(不含文章正文):
    for i in range(len(dateinfo)):
        db = pymysql.connect(host='localhost', user='root', password='123456', port=3306, db='spiders')
        cursor = db.cursor()
        sql = 'INSERT INTO people_daily(dateinfo,articlelink,title) values(%s, %s, %s)'
        try:
            cursor.execute(sql, (dateinfo[i],articlelink[i],title[i]))
            db.commit()
        except:
            db.rollback()
        db.close()


def gen_dates(b_date, days):
    day = timedelta(days = 1)
    for i in range(days):
        yield b_date + day * i
        
        
def get_date_list(beginDate, endDate):
    start = datetime.strptime(beginDate, "%Y%m%d")      #开始日期
    end = datetime.strptime(endDate, "%Y%m%d")      #结束日期
    data = []
    for d in gen_dates(start, (end-start).days):
        data.append(d)   
    return data     #获得开始日期和结束日期之间的日期列表
 
            
if __name__ == '__main__':
    '''
    主函数:程序入口
    '''
    # 输入起止日期,爬取之间的新闻
    beginDate = input('请输入开始日期(格式如 20190808 ):')
    endDate = input('请输入结束日期(格式如 20190808 ):')
    data = get_date_list(beginDate, endDate)
    
    for d in data:
        year = str(d.year)
        month = str(d.month) if d.month >=10 else '0' + str(d.month)
        day = str(d.day) if d.day >=10 else '0' + str(d.day)
        download_people_daily(year, month, day)
        print("爬取完成:" + year + month + day)
        # time.sleep(1)        # 怕被封 IP 爬一爬缓一缓,爬的少的话可以注释掉

五、爬取效果:

1、编译器中的结果:在编译器提示下输入想要爬取数据的开始日期、结束日期后等待爬取结果。每完成一天的爬取,程序会在窗口中自动显示“爬取完成:********(当天日期)”。

python 链接爬库 python爬取网站数据库_python


2、Navicat中Mysql的数据写入结果:在上述窗口显示所有日期的爬取均已完成后,在数据库中刷新表单后可以看到数据的写入结果。

python 链接爬库 python爬取网站数据库_lxml_02