一、Python的第三方库 requests
网页有很多种打开方式,最常见的是GET方式和POST方式。在浏览器里面可以直接通过输入网址访问的页面,就是使用了GET方式。还有一些页面,只能通过从另一个页面单击某个链接或者某个按钮以后跳过来,不能直接通过在浏览器输入网址访问,这种网页就是使用了POST方式。
1、GET方式
html_str = requests.get('网址').content.decode('编码格式')
编码格式有几十种,但最常见的是“UTF-8”“GBK”“GB2312”和“GB18030”。
2、POST方式
data = {'key1': 'valuel',
'key2': 'value2'}
html_str = requests.post('网址', data=data).content.decode('编码格式')
data这个字典的内容和项数需要根据实际情况修改,Key和Value在不同的网站是不一样的。而做爬虫,构造这个字典是任务之一。
提交的内容需要是JSON格式的,因此post()方法的参数需要进行一些修改:json=data
二、多线程爬虫
multiprocessing.dummy
线程池的map()方法接收两个参数,第1个参数是函数名,第2个参数是一个列表
线程选择:在需要操作的动作数量不大的时候,单线程和多线程两种方式的性能没有什么区别,但是一旦动作的数量大量增长,多线程的效率提升就会下降,甚至比单线程还差。而到那个时候,只有异步操作才是解决问题的办法。
三、常见搜索算法
深度优先
广度优先
四、阶段案例——小说网站爬虫开发
从https://www.kanunu8.com/book3/6633爬取《球状闪电》所有章节的网址,再通过一个多线程爬虫将每一章的内容爬取下来。在本地创建一个“球状闪电”文件夹,并将小说中的每一章分别保存到这个文件夹中。
import requests
import re
import os
start_url = 'https://www.kanunu8.com/book3/6633/'
html_str = requests.get(start_url).content.decode('GBK')
# 常见的编码格式“UTF-8”“GBK”“GB2312”和“GB18030”
def get_toc(html):
toc_url_list = []
toc_block = re.findall('正文(.*?)</tbody>', html, re.S)[0]
toc_url = re.findall('href="(.*?)"', toc_block, re.S)
for url in toc_url:
toc_url_list.append(start_url+url)
return toc_url_list
def get_article(html):
chapter_name = re.search('size="4">(.*?)<', html, re.S).group(1)
text_block = re.search('<p>(.*?)</p>', html, re.S).group(1)
text_block = text_block.replace('<br />', '')
return chapter_name, text_block
def save(chapter, article):
os.makedirs('球状闪电', exist_ok=True)
with open(os.path.join('球状闪电', chapter+'.txt'), 'w', encoding='utf-8') as f:
f.write(article)
if __name__ == '__main__':
html_list = get_toc(html_str)
print('开始')
for html_str_temp in html_list:
html_str = requests.get(html_str_temp).content.decode('GBK')
chapter_str, article_str = get_article(html_str)
save(chapter_str, article_str)
print('完成')
遇到的一些问题
1、安装了requests库,在PyCharm中却提示没有安装,发现是软件设置虚拟编译器。
2、不知道用GET方式还是POST方式爬取网页,没理解两种方式的差别。
3、混淆网址与字符串,在使用get_article(html)函数时参数用了网址
4、忽略、不理解错误提示