一.简介
另外,lxml解析库同样支持HTML和XML的解析,而且支持XPath解析方式。总的来说,Python解析XML的常用方法有以下几种:
1、DOM解析,xml.dom.*模块。
2、SAX解析,xml.sax.*模块。
3、ET解析,xml.etree.ElementTree模块。
4、lxml解析并结合XPath提取元素。
XML天生有很好的扩展性;XML有丰富的编码工具,Python解析xml常见的三种方法:DOM、sax及ElementTree。DOM将整个xml读入内存并解析为树,缺点占用内存大且解析慢,优点可以任意遍历树的节点。SAX是流模式,边读边解析,占用内存小,解析快,缺点需要自己处理事件
由于第四种方法是我们在网络爬虫时解析html经常用到的,也是我们较为熟悉的,所以首先尝试用它来解析xml,另外三种方法也将陆续介绍。
二. 使用lxml解析xml文件
1、导入相关标准库
from lxml import etree
2、定义解析器
parser = etree.XMLParser(encoding = "utf-8")
3、使用解析器parser解析XML文件
#传入两个参数,第一个参数是文件名,第二个参数是解析器。
tree = etree.parse(r"douban.xml",parser = parser) #查看解析出的tree的内容
print(etree.tostring(tree,encoding = 'utf-8').decode('utf-8'))
4、结合xpath提取XML文件中的信息
from lxml import etree
# 使用lxml解析xml文件
parser = etree.HTMLParser(encoding="utf-8")
tree = etree.parse("douban.xml", parser=parser)
a = tree.xpath('//loc/text()')
print(a)
方法二:直接使用html解析器就能解析xml文件
from lxml import etree
with open('douban.xml', 'r',encoding='utf-8') as reader:
xmlstr = reader.read()
tree = etree.HTML(xmlstr)
print(tree.xpath('//loc/text()'))
这种方法容易遇到这样的错误:
ValueError: Unicode strings with encoding declaration are not supported. Please use bytes input or XML fragments without declaration.
原因是lxml 不支持解析带有encoding 声明的字符串,例如 xml中以encoding="UTF-8"
开头,需要转换成bytes
类型。
我们看看douban.xml文件,真的带有编码声明的:
解决方法:
1.把xml文件的首行编码声明去掉就可以了
2.传入构造含数据的不要用字符串,而是二进制内容:
如:
from lxml import etree
#以二进制打开文件,传进去bytes类型的数据
with open('douban.xml', 'rb') as reader:
xmlstr = reader.read()
tree = etree.HTML(xmlstr)
print(tree.xpath('//loc/text()'))
三.使用xml.dom.minidom解析xml
import xml.dom.minidom
def readXML(path):
urls = []
domTree = xml.dom.minidom.parse(path)
# 文档根元素
rootNode = domTree.documentElement
print(rootNode.nodeName)
# 所有loc节点
locs = rootNode.getElementsByTagName("loc")
print(locs)
for loc in locs:
url = loc.childNodes[0].data
urls.append(url)
return urls
path = "./sitemap.xml"
readXML(path)
四.使用xml包解析xml文件的几个扩展
测试xml数据包
<?xml version="1.0" encoding="UTF-8"?>
<root>
<common>
<building_id>xxxxxx</building_id>
<gateway_id>01</gateway_id>
<type>report</type>
</common>
<data operation="report">
<sequence>25</sequence>
<parser>yes</parser>
<time>20210115180000</time>
<meter id="1" name="000000000001" conn="conn">
<function id="1" name="000000000001-1090" coding="01A10" error="192" sample_time="20210115175909">数据1</function>
<function id="2" name="000000000001-1200" coding="XXX" error="XXX" sample_time="YYYYMMDDHHMMSS">数据2</function>
</meter>
<meter id="2" name="000000000002" conn="conn">
<function id="1" name="000000000002-1090" coding="01A10" error="192" sample_time="20210115175900">数据1</function>
<function id="2" name="000000000002-1200" coding="XXX" error="XXX" sample_time="YYYYMMDDHHMMSS">数据2</function>
</meter>
</data>
</root>
扩展1:已有xml包+指定节点解析
#导入解析模块
import xml.etree.ElementTree as ET
#加载xml文件
root=ET.parse("test.xml")
# animal_node=root.getiterator("meter") #过时
#获取指定节点
meter_node=root.getroot().iter(tag="meter")
def iter_records(meter_node):
for node in meter_node:
# 保存字典
temp_dict = {}
# animal_node_child = node.getchildren()[0] #方法过时
for i in range(len(node)):
#方法一:
meter_node_child=[i for i in node][i]
#方法二
# meter_node_child=list(node)[i]
# print(meter_node_child)
print(meter_node_child.tag+"\n"+"name:"+meter_node_child.attrib["name"]+":"+meter_node_child.text)
temp_dict[meter_node_child.attrib['name']] = meter_node_child.text
# 生成值
yield temp_dict
print(list(iter_records(meter_node)))
扩展2:已有xml包+所有节点解析
import xml.etree.ElementTree as ET
# # #加载xml文件
root=ET.parse("test.xml")
# #获取指定节点
meter_node=root.findall("data")
for meter in meter_node:
# 保存字典
lst=[{i.tag: i.text} for i in meter[0:3]]
for node in meter[3:]:
meter_node_child = list(node)
k=[{meter_node_child[i].attrib["name"]:meter_node_child[i].text} for i in range(len(node))][0]
lst.append(k)
print(lst)
扩展3:xml包创建+格式化输出
import xml.etree.ElementTree as ET
#格式化数据包
def write_xml():
# 创建elementtree对象,写入文件
root=xml_encode()
tree = ET.ElementTree(root)
tree.write("new1.xml")
with open(r'new1.xml', 'r', encoding="utf-8") as file:
with open(r'new2.xml', 'w+', encoding="utf-8") as xml_file:
# 用open()将XML文件中的内容读取为字符串再转成UTF-8
xmlstr = file.read().encode('utf-8')
import xml.dom.minidom
xml = xml.dom.minidom.parseString(xmlstr)
xml_pretty_str = xml.toprettyxml()
print(xml_pretty_str)
xml_file.write(xml_pretty_str)
return xml_pretty_str
#创建xml
def xml_encode():
# 创建根节点
root=ET.Element("root",encoding="utf-8")
#创建子节点sub1,并为其添加属性
sub1=ET.SubElement(root,"data")
sub1.attrib={"operation":"report"}
#创建子节点sub2,并为其添加数据
sub2=ET.SubElement(sub1,"meter")
sub2.attrib={"name":"000000000001"}
#创建子节点sub3,并为其添加数据
sub3=ET.SubElement(sub2,"function")
sub3.attrib={"name":"000000000001-1090"}
sub3.text="数据1"
return root
write_xml()
扩展4:外部数据+xml创建
import pandas as pd
def write_xml(data):
# 以写入打开文件
with open("new2.xml", 'w') as xmlFile:
# 写入头部
xmlFile.write('<?xml version="1.0" encoding="UTF-8"?>\n')
xmlFile.write('<root>\n')
body=xml_encode(data)
# 写数据
xmlFile.write(body)
# 写尾部
xmlFile.write('\n</root>')
def xml_encode(data):
# 标记data节点开始标签
xmlItem = ['<data operation="report">']
# 列表追加,回车成多行
for i in data.index:
coding = data.iloc[i][0]
value = data.iloc[i][1]
#输入替换的模板:给行中每个字段加固定xml格式
str_xml = """<meter name="{0}"><function name="{0}-1090">{1}</function></meter>""".format(coding,value)
xmlItem.append(str_xml)
# 标记data节点结束标签
xmlItem.append('</data>')
# 返回字符串
xml_str = '\n'.join(xmlItem) # list 更新成str
print(xml_str)
return xml_str
if __name__ == '__main__':
#测试数据
data=pd.DataFrame({"name":["00001","00002"],"value":[20,30]})
#生成数据包
write_xml(data)
扩展5:外部数据+xml入库
首先在数据库建立测试表xml_data,三个字段ID:记录id、xmlDatetime:插入时间、xmlData:xml数据包内容
将xml插入数据库,其中数据库连接方法get_conn,见推文:
跨库数据备份还原、迁移工具
from datetime import datetime
from tools import get_conn
#数据导入
def xml_sync_to_sqlserver():
"""
xml数据同步到sqlserver数据库里面
"""
xmlDatetime = datetime.now()
conn = None
try:
conn = get_conn('LOCAL')
with conn:
# 数据文件导入
with conn.cursor() as cur:
with open(f'new2.xml', mode='r', encoding='utf-8') as file:
xmlData = file.read().rstrip()
sql = """insert into xml_data(xmlDatetime,xmlData) values (%s,%s)"""
print("插入成功")
cur.execute(sql,(xmlDatetime,xmlData))
conn.commit()
finally:
if conn:
conn.close()
end =datetime.now()
s = (end - xmlDatetime).total_seconds()
print('数据导入: %s, 耗时: %s 秒' % (xmlDatetime, s))