在打开网页之后,我们通常要获取网页中的内容或者某个元素,这时候我们就可以使用find_xxx_by_xxx函数来获取元素了。
一、当我们获取单个元素时:
我们使用find_element_by_xxx
函数来获取单个元素,获取到的是WebElement
对象
- find_element_by_id : 通过元素id获取
- find_element_by_name : 通过元素的name属性获取
- find_element_by_class : 通过元素的class属性获取
- find_element_by_tag_name : 通过标签获取元素
- find_element_by_css_selector : 通过CSS选择器获取元素
- find_element_by_link_text : 通过链接中的文本属性获取元素
- find_element_by_partial_link_text : 通过链接中所包含的文本内容进行模糊查询获取元素
- find_element_by_xpath : 通过xpath获取元素
注意:若存在多个元素与条件匹配,则返回第一个
测试代码:
import time
from selenium import webdriver
# 使用驱动打开浏览器
driver = webdriver.Chrome("./chromedriver")
# 打开百度首页
driver.get("https://www.baidu.com")
#用不同方法获取元素节点
a = driver.find_element_by_id("u1")
b = driver.find_element_by_name("wd")
c = driver.find_element_by_class_name("mnav")
d = driver.find_element_by_tag_name("a")
f = driver.find_element_by_css_selector("#u1 > a:nth-child(1)")
g = driver.find_element_by_partial_link_text("新")
h = driver.find_element_by_link_text("新闻")
i = driver.find_element_by_xpath("//*[@id=\"u1\"]/a[1]")
time.sleep(5)
# 退出浏览器
driver.quit()
二、当我们获取元素列表时:
我们使用find_elements_by_xxx
函数来获取元素列表,获取到的是list<WebElement>
函数名、获取规则和find_element_by_xxx
函数组类似,只是将element
改为elements
测试代码:
import time
from selenium import webdriver
# 使用驱动打开浏览器
driver = webdriver.Chrome("./chromedriver")
# 打开百度首页
driver.get("https://www.baidu.com")
#用不同方法获取元素节点列表
a = driver.find_elements_by_id("u1")
b = driver.find_elements_by_name("wd")
c = driver.find_elements_by_class_name("mnav")
d = driver.find_elements_by_tag_name("a")
f = driver.find_elements_by_css_selector("#u1 > a:nth-child(1)")
g = driver.find_elements_by_partial_link_text("新")
h = driver.find_elements_by_link_text("新闻")
i = driver.find_elements_by_xpath("//*[@id=\"u1\"]/a[1]")
time.sleep(5)
# 退出浏览器
driver.quit()
三、selenium的常用操作
1. 获取网页源码
WebDriver
对象的page_source
属性可以获取当前打开网页的通过js渲染过后的源码
测试代码:
import time
from selenium import webdriver
# 使用驱动打开浏览器
driver = webdriver.Chrome("./chromedriver")
# 打开百度首页
driver.get("https://www.baidu.com")
res = driver.page_source
print(res)
time.sleep(5)
# 退出浏览器
driver.quit()
测试输出:
<!DOCTYPE html><!--STATUS OK--><html xmlns="http://www.w3.org/1999/xhtml"><head>
<meta http-equiv="content-type" content="text/html;charset=utf-8" />
<meta http-equiv="X-UA-Compatible" content="IE=Edge" />
<meta content="always" name="referrer" />
<meta name="theme-color" content="#2932e1" />
<link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" />
......
......
'index_kw':"#kw",
'result_form':"#form",
'result_kw':"#kw"
});
</script>
<script>
if(navigator.cookieEnabled){
document.cookie="NOJS=;expires=Sat, 01 Jan 2000 00:00:00 GMT";
}
</script>
</body></html>
2. 获取节点文本
WebElement
对象的text
属性可以获取元素节点包含的文本内容
测试代码:
import time
from selenium import webdriver
# 使用驱动打开浏览器
driver = webdriver.Chrome("./chromedriver")
# 打开百度首页
driver.get("https://www.baidu.com")
#获取元素节点
result = driver.find_element_by_class_name("mnav")
#获取元素节点列表
results = driver.find_elements_by_class_name("mnav")
#打印节点包含文本内容
print(result.text)
print(results[1].text)
time.sleep(5)
# 退出浏览器
driver.quit()
测试输出:
新闻
hao123
3. 获取元素节点属性
WebElement
对象的get_attribute()
方法可以获取元素节点的指定属性
测试代码:
import time
from selenium import webdriver
# 使用驱动打开浏览器
driver = webdriver.Chrome("./chromedriver")
# 打开百度首页
driver.get("https://www.baidu.com")
result = driver.find_element_by_class_name("mnav")
results = driver.find_elements_by_class_name("mnav")
#打印节点的href属性
print(result.get_attribute("href"))
print(results[2].get_attribute("href"))
time.sleep(5)
# 退出浏览器
driver.quit()
测试输出:
http://news.baidu.com/
http://map.baidu.com/
4. 获取元素标签名、大小、位置
WebElement
对象的tag_name
属性可以获取原色节点的标签名WebElement
对象的size
属性可以获取元素节点的大小WebElement
对象的location
属性可以获取元素节点所处位置
测试代码:
import time
from selenium import webdriver
# 使用驱动打开浏览器
driver = webdriver.Chrome("./chromedriver")
# 打开百度首页
driver.get("https://www.baidu.com")
#获取元素节点
result = driver.find_element_by_class_name("mnav")
results = driver.find_elements_by_class_name("mnav")
#打印节点的标签名
print(result.tag_name)
print(results[3].tag_name)
#打印节点的大小
print(result.size)
print(results[3].size)
#打印元素在页面所处位置
print(result.location)
print(results[3].location)
time.sleep(5)
# 退出浏览器
driver.quit()
测试输出:
a
a
{'height': 24, 'width': 26}
{'height': 24, 'width': 26}
{'x': 573, 'y': 19}
{'x': 730, 'y': 19}