在打开网页之后,我们通常要获取网页中的内容或者某个元素,这时候我们就可以使用find_xxx_by_xxx函数来获取元素了。

一、当我们获取单个元素时:

我们使用find_element_by_xxx函数来获取单个元素,获取到的是WebElement对象

  • find_element_by_id : 通过元素id获取
  • find_element_by_name : 通过元素的name属性获取
  • find_element_by_class : 通过元素的class属性获取
  • find_element_by_tag_name : 通过标签获取元素
  • find_element_by_css_selector : 通过CSS选择器获取元素
  • find_element_by_link_text : 通过链接中的文本属性获取元素
  • find_element_by_partial_link_text : 通过链接中所包含的文本内容进行模糊查询获取元素
  • find_element_by_xpath : 通过xpath获取元素

注意:若存在多个元素与条件匹配,则返回第一个

测试代码:

import time

from selenium import webdriver

# 使用驱动打开浏览器
driver = webdriver.Chrome("./chromedriver")
# 打开百度首页
driver.get("https://www.baidu.com")
#用不同方法获取元素节点
a = driver.find_element_by_id("u1")
b = driver.find_element_by_name("wd")
c = driver.find_element_by_class_name("mnav")
d = driver.find_element_by_tag_name("a")
f = driver.find_element_by_css_selector("#u1 > a:nth-child(1)")
g = driver.find_element_by_partial_link_text("新")
h = driver.find_element_by_link_text("新闻")
i = driver.find_element_by_xpath("//*[@id=\"u1\"]/a[1]")
time.sleep(5)
# 退出浏览器
driver.quit()

二、当我们获取元素列表时:

我们使用find_elements_by_xxx函数来获取元素列表,获取到的是list<WebElement>

函数名、获取规则和find_element_by_xxx函数组类似,只是将element改为elements

测试代码:

import time

from selenium import webdriver

# 使用驱动打开浏览器
driver = webdriver.Chrome("./chromedriver")
# 打开百度首页
driver.get("https://www.baidu.com")
#用不同方法获取元素节点列表
a = driver.find_elements_by_id("u1")
b = driver.find_elements_by_name("wd")
c = driver.find_elements_by_class_name("mnav")
d = driver.find_elements_by_tag_name("a")
f = driver.find_elements_by_css_selector("#u1 > a:nth-child(1)")
g = driver.find_elements_by_partial_link_text("新")
h = driver.find_elements_by_link_text("新闻")
i = driver.find_elements_by_xpath("//*[@id=\"u1\"]/a[1]")
time.sleep(5)
# 退出浏览器
driver.quit()

三、selenium的常用操作

1. 获取网页源码

WebDriver对象的page_source属性可以获取当前打开网页的通过js渲染过后的源码

测试代码:

import time

from selenium import webdriver

# 使用驱动打开浏览器
driver = webdriver.Chrome("./chromedriver")
# 打开百度首页
driver.get("https://www.baidu.com")
res = driver.page_source
print(res)
time.sleep(5)
# 退出浏览器
driver.quit()

测试输出:

<!DOCTYPE html><!--STATUS OK--><html xmlns="http://www.w3.org/1999/xhtml"><head>
    
    <meta http-equiv="content-type" content="text/html;charset=utf-8" />
    <meta http-equiv="X-UA-Compatible" content="IE=Edge" />
	<meta content="always" name="referrer" />
    <meta name="theme-color" content="#2932e1" />
    <link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" />
    ......
    ......
    'index_kw':"#kw",
    'result_form':"#form",
    'result_kw':"#kw"
});
</script>

<script>
if(navigator.cookieEnabled){
	document.cookie="NOJS=;expires=Sat, 01 Jan 2000 00:00:00 GMT";
}
</script>
</body></html>

2. 获取节点文本

WebElement对象的text属性可以获取元素节点包含的文本内容

测试代码:

import time

from selenium import webdriver

# 使用驱动打开浏览器
driver = webdriver.Chrome("./chromedriver")
# 打开百度首页
driver.get("https://www.baidu.com")
#获取元素节点
result = driver.find_element_by_class_name("mnav")
#获取元素节点列表
results = driver.find_elements_by_class_name("mnav")
#打印节点包含文本内容
print(result.text)
print(results[1].text)
time.sleep(5)
# 退出浏览器
driver.quit()

测试输出:

新闻
hao123

3. 获取元素节点属性

WebElement对象的get_attribute()方法可以获取元素节点的指定属性

测试代码:

import time

from selenium import webdriver

# 使用驱动打开浏览器
driver = webdriver.Chrome("./chromedriver")
# 打开百度首页
driver.get("https://www.baidu.com")
result = driver.find_element_by_class_name("mnav")
results = driver.find_elements_by_class_name("mnav")
#打印节点的href属性
print(result.get_attribute("href"))
print(results[2].get_attribute("href"))
time.sleep(5)
# 退出浏览器
driver.quit()

测试输出:

http://news.baidu.com/
http://map.baidu.com/

4. 获取元素标签名、大小、位置

WebElement对象的tag_name属性可以获取原色节点的标签名
WebElement对象的size属性可以获取元素节点的大小
WebElement对象的location属性可以获取元素节点所处位置

测试代码:

import time

from selenium import webdriver

# 使用驱动打开浏览器
driver = webdriver.Chrome("./chromedriver")
# 打开百度首页
driver.get("https://www.baidu.com")
#获取元素节点
result = driver.find_element_by_class_name("mnav")
results = driver.find_elements_by_class_name("mnav")
#打印节点的标签名
print(result.tag_name)
print(results[3].tag_name)
#打印节点的大小
print(result.size)
print(results[3].size)
#打印元素在页面所处位置
print(result.location)
print(results[3].location)
time.sleep(5)
# 退出浏览器
driver.quit()

测试输出:

a
a
{'height': 24, 'width': 26}
{'height': 24, 'width': 26}
{'x': 573, 'y': 19}
{'x': 730, 'y': 19}