一、Python的第三方库 requests

网页有很多种打开方式,最常见的是GET方式和POST方式。在浏览器里面可以直接通过输入网址访问的页面,就是使用了GET方式。还有一些页面,只能通过从另一个页面单击某个链接或者某个按钮以后跳过来,不能直接通过在浏览器输入网址访问,这种网页就是使用了POST方式。

1、GET方式

html_str = requests.get('网址').content.decode('编码格式')

编码格式有几十种,但最常见的是“UTF-8”“GBK”“GB2312”和“GB18030”。

2、POST方式

data = {'key1': 'valuel',
			'key2': 'value2'}
html_str = requests.post('网址', data=data).content.decode('编码格式')

data这个字典的内容和项数需要根据实际情况修改,Key和Value在不同的网站是不一样的。而做爬虫,构造这个字典是任务之一。
提交的内容需要是JSON格式的,因此post()方法的参数需要进行一些修改:json=data

二、多线程爬虫

multiprocessing.dummy

用python打开一个网页 python打开网页的方法_用python打开一个网页


线程池的map()方法接收两个参数,第1个参数是函数名,第2个参数是一个列表

线程选择:在需要操作的动作数量不大的时候,单线程和多线程两种方式的性能没有什么区别,但是一旦动作的数量大量增长,多线程的效率提升就会下降,甚至比单线程还差。而到那个时候,只有异步操作才是解决问题的办法。

三、常见搜索算法

深度优先
广度优先

四、阶段案例——小说网站爬虫开发

从https://www.kanunu8.com/book3/6633爬取《球状闪电》所有章节的网址,再通过一个多线程爬虫将每一章的内容爬取下来。在本地创建一个“球状闪电”文件夹,并将小说中的每一章分别保存到这个文件夹中。

import requests
import re
import os

start_url = 'https://www.kanunu8.com/book3/6633/'
html_str = requests.get(start_url).content.decode('GBK')
# 常见的编码格式“UTF-8”“GBK”“GB2312”和“GB18030”


def get_toc(html):
    toc_url_list = []
    toc_block = re.findall('正文(.*?)</tbody>', html, re.S)[0]
    toc_url = re.findall('href="(.*?)"', toc_block, re.S)
    for url in toc_url:
        toc_url_list.append(start_url+url)
    return toc_url_list


def get_article(html):
    chapter_name = re.search('size="4">(.*?)<', html, re.S).group(1)
    text_block = re.search('<p>(.*?)</p>', html, re.S).group(1)
    text_block = text_block.replace('<br />', '')
    return chapter_name, text_block


def save(chapter, article):
    os.makedirs('球状闪电', exist_ok=True)
    with open(os.path.join('球状闪电', chapter+'.txt'), 'w', encoding='utf-8') as f:
        f.write(article)


if __name__ == '__main__':
    html_list = get_toc(html_str)
    print('开始')
    for html_str_temp in html_list:
        html_str = requests.get(html_str_temp).content.decode('GBK')
        chapter_str, article_str = get_article(html_str)
        save(chapter_str, article_str)
    print('完成')

遇到的一些问题

1、安装了requests库,在PyCharm中却提示没有安装,发现是软件设置虚拟编译器。
2、不知道用GET方式还是POST方式爬取网页,没理解两种方式的差别。
3、混淆网址与字符串,在使用get_article(html)函数时参数用了网址
4、忽略、不理解错误提示