目录



一:selenium的基本用法:

1:控制浏览器截图:

from selenium import webdriver

# 1: 创建浏览器驱动对象
driver = webdriver.Chrome()
# 2: 使用浏览器驱动发送请求:
driver.get("http://www.baidu.com")
# 3: 执行浏览器操作:
# 获取百度的截图
driver.save_screenshot("./百度.png")
# 打印浏览器的标题
print(driver.title)
# 4: 退出浏览器
driver.quit()

2:无界面浏览器驱动:PhantomJS

  • 注意:无界面版本的截图是长图,而使用有界面的截取的是能看到的界面。
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get("http://www.baidu.com")
driver.save_screenshot("./百度.png")
driver.quit()

3:模拟百度搜索:

import time
from selenium import webdriver

# 1: 创建webdriver驱动:
driver = webdriver.Chrome()
# 2: 发送url请求
driver.get('https://www.baidu.com')
# 3: 操作页面:
driver.find_element_by_id("kw").send_keys("python")
driver.find_element_by_id("su").click()
time.sleep(2)
driver.save_screenshot("python.png")
driver.close()

4:driver对象的常用属性和方法:


  • 1:获取网页渲染后的源代码: driver.page_source()
  • 2:获取当前网页的url : driver.current_url()
  • 3:关闭当前网页:driver.close()
  • 4:退出浏览器:driver.quit()
  • 5:页面向前:dirver.forword()
  • 6:页面向后:driver.back()
  • 7:页面截图:driver.screen_shot(img_name)

5:driver对象获取标签元素的方法:


  • 1:find_element_by_id (返回一个元素)
  • 2:find_element(s)_by_class_name (根据类名获取元素列表)
  • 3:find_element(s)_by_name (根据标签的name属性值返回包含标签对象元素的列表)
  • 4:find_element(s)_by_xpath (返回一个包含元素的列表)
  • 5:find_element(s)_by_link_text (根据连接文本获取元素列表)
  • 6:find_element(s)_by_partial_link_text (根据链接包含的文本获取元素列表)
  • 7:find_element(s)_by_tag_name (根据标签名获取元素列表)
  • 8:find_element(s)_by_css_selector (根据css选择器来获取元素列表)

爬虫---selenium的使用_百度

6:对标签元素的操作:


  • 1:单击:element.click()
  • 2:文本框输入数据:element.send_keys(data)
  • 3:获取标签的文本信息:element.text
  • 4:获取标签的属性值:element.get_attribute(“属性名”)


案例:获取首页元素,对元素进行操作。

from selenium import webdriver
import time

driver = webdriver.Chrome()
# 向发送请求
driver.get("https://www.csdn.net/")
time.sleep(2)

# 1:定位精选头条:
elements = driver.find_elements_by_class_name('card_title')
# 2: 打印文本信息:
for element in elements:
print(element.text)
print("--------------------")
# 3:使用Xpath再次获取:
elements = driver.find_elements_by_xpath('//*[@id="floor-choosed-top2_412"]/div/div/div[1]/div[1]/em')
print(elements[0].text)
# 4: 根据文本定位链接信息:
link_element = driver.find_element_by_link_text('Python')
print(link_element.get_attribute("href"))

driver.close()

爬虫---selenium的使用_chrome_02

二:selenium的高级用法:

1:掌握 selenium控制标签页的切换


  • 1:current_windows = driver.window_handles,获取当前页的句柄列表。
  • 2:根据标签页句柄列表索引下标进行切换:driver.switch_to.window(current_windows[0])

案例演示:

import time

from selenium import webdriver

# 1: 创建驱动对象
driver = webdriver.Chrome()
# 2:打开一个网页
driver.get("http://www.baidu.com")
driver.find_element_by_id('kw').send_keys('python')
driver.find_element_by_id('su').click()
time.sleep(1)

# 3: 使用js语句打开新的页面:
js = 'window.open("https://www.sogou.com");'
driver.execute_script(js)
time.sleep(1)

# 4:获取当前的窗口列表:
windows_list = driver.window_handles

# 5:切换到0号窗口:
driver.switch_to.window(windows_list[0])
time.sleep(1)
# 6:切换到1号窗口:
driver.switch_to.window(windows_list[1])
time.sleep(1)

driver.quit()

2:掌握 selenium控制iframe的切换


  • iframe是html中常用的一种技术,即一个页面中嵌套了另一个网页,selenium默认是访问不了frame中的内容的。
  • 解决方案:driver.switch_to.frame(frame_element)

案例:QQ邮箱登录的案例:

"""
操作邮箱登录:
1: 先转入iframe内部,填写用户名和密码:
2:然后切换出iframe外部,获取外部的一个元素
"""
import time
from selenium import webdriver

# 转到登录注册页面
driver = webdriver.Chrome()
driver.get("https://mail.qq.com/cgi-bin/loginpage")
time.sleep(2)

# 因为我当前登录了QQ,所以需要先进入iframe,点击账号密码登录
# 1: 定位到iframe标签
login_frame = driver.find_element_by_xpath('//*[@id="login_frame"]')
# 2:跳转到iframe内部
driver.switch_to.frame(login_frame)
time.sleep(2)
# 3: 点击用户名和密码登录:
driver.find_element_by_xpath('//*[@id="switcher_plogin"]').click()
time.sleep(2)
# 4:选中用户名和密码,填写信息
driver.find_element_by_xpath('//*[@id="u"]').send_keys("17852032943@qq.com")
time.sleep(2)
driver.find_element_by_xpath('//*[@id="p"]').send_keys("renshanwenloveyou")
time.sleep(2)

# 5: 切换到iframe外面去:
windows = driver.window_handles
driver.switch_to.window(windows[0])

time.sleep(2)
# 6: 打印登录的标题
content = driver.find_element_by_class_name('login_pictures_title').text
print(content)

driver.quit()

3:掌握 利用selenium获取cookie的方法


  • 1:cookies = driver.get_cookies(),获取cookie
  • 2:cookies_dict = {cookie[‘name’]: cookie[‘value’] for cookie in cookies} 将cookie转换成字典格式。
  • 3:driver.delete_cookie(‘BAIDUID_BFESS’),删除指定cookie
  • 4:driver.delete_all_cookies(), 删除所有cookie。

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https:www.baidu.com")
# 1: 得到的数据是列表套字典的形式:
cookies = driver.get_cookies()
print(driver.get_cookies())

# 2: 将cookies转换成字典
cookies_dict = {cookie['name']: cookie['value'] for cookie in cookies}
print(cookies_dict)

# 3: 删除指定的cookie
driver.delete_cookie('BAIDUID_BFESS')

# 4: 删除所有的cookies
driver.delete_all_cookies()

4:掌握 页面等待

4.1: 强制等待:

  • time.sleep()

4.2:隐式等待:


  • 隐式等待针对的是元素定位,隐式等待设置了一个时间,在一段时间内判断元素是否定位成功,如果完成了,就进行下一步
  • 在设置的时间内没有定位成功,则会报超时加载。
  • driver.implicitly_wait(10) # 隐式等待,最长等10秒 。

4.3:显示等待:


  • 每经过多少秒就查看一次等待条件是否达成,如果达成就停止等待,继续执行后续代码
  • 如果没有达成就继续等待直到超过规定的时间后,报超时异常。
  • ​WebDriverWait(driver, 20, 0.5).until(EC.presence_of_element_located((By.LINK_TEXT, '好123')))​

from selenium import webdriver  
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()

driver.get('https://www.baidu.com')

# 显式等待
WebDriverWait(driver, 20, 0.5).until(
EC.presence_of_element_located((By.LINK_TEXT, '好123')))
# 参数20表示最长等待20秒
# 参数0.5表示0.5秒检查一次规定的标签是否存在
# EC.presence_of_element_located((By.LINK_TEXT, '好123')) 表示通过链接文本内容定位标签
# 每0.5秒一次检查,通过链接文本内容定位标签是否存在,如果存在就向下继续执行;如果不存在,直到20秒上限就抛出异常

print(driver.find_element_by_link_text('好123').get_attribute('href'))
driver.quit()

4.4:手动实现页面等待:


在了解了隐式等待和显式等待以及强制等待后,我们发现并没有一种通用的方法来解决页面等待的问题,比如“页面需要滑动才能触发ajax异步加载”的场景,那么接下来我们就以淘宝网首页为例,手动实现页面等待


"""
比如淘宝网,刚进入的页面只是一部分,需要手动滑动,才能加载后面的内容。
而滑动需要页面等待,如何才能做到这种情况的等待呢?

现在要实现找到一个元素,但是这个元素第一次是没有的,需要向后滑动才有。
"""
import time
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://taobao.com")

for i in range(1, 10):
time.sleep(2)
try:
element = driver.find_element_by_xpath('/html/body/div[8]/div/div[1]/div/h3/img')
print(element.get_attribute("title"))
break
except:
js_code = "window.scrollTo(0, {})".format(500 * i)
driver.execute_script(js_code)

driver.quit()

思路就是:我用try捕获一下,如果报错就往下滑动,然后延迟操作,直到找到元素。

5:掌握 selenium控制浏览器执行js代码的方法


  • js = ‘window.open(“https://www.sogou.com”);’
  • driver.execute_script(js)

6:掌握 selenium开启无界面模式

爬虫---selenium的使用_获取标签_03

7:了解 selenium使用代理ip

爬虫---selenium的使用_chrome_04

8:了解 selenium替换user-agent

爬虫---selenium的使用_chrome_05