背景
记账强迫症患者,苦于账本上的信用卡额度总跟实际的对不上,python小白的我决定写个小demo辅助对账。
涉及
- python BeautifulSoup
- SQLite
准备
- 信用卡账单eml(这里用的J行)
- 钱迹账单csv
关键步骤
解析并处理信用卡账单
使用BeautifulSoup组件,解析账单eml
# 读取账单eml
eml = open(source_path).read()
# 使用Parser解析eml
content = Parser().parsestr(eml)
bill = ""
# 深度优先遍历
for par in content.walk():
# 消息的有效内容是一个子EmailMessage对象的列表,则返回True,否则返回False
if not par.is_multipart():
content = par.get_payload(decode=True)
if len(content.strip()) != 0:
# 这里,会得到唯一的一个包含账单的html字符串
bill = content.decode(encoding='gbk')
# 这里需要重点注意
# 使用BeautifulSoup转化前,需要事先将换行符去掉
# 否则,带有换行符节点的标签对象会解析不出来,直接变成None
data = BeautifulSoup(bill.replace('<br>', '').replace('<br/>', ''), "html.parser")
搜索账单列表。通过分析账单,还款明细的开头如下所示是一个id为takeList的tbody
<tbody id=takeList>
然后,这个tbody还会包含一个唯一的tbody,这个tbody下面就是一条一条的还款明细了
# 得到还款明细列表
repayList = data.find("tbody", id="repayList").find("tbody")
同理,也能得到消费列表
takeList = data.find("tbody", id="takeList").find("tbody")
逐条解析消费明细,得到交易列表
bills = []
repayAmount = Decimal(0.00)
for repay in repayList.children:
# NavigableString类型,就是没有子节点的字符串
# BeautifulSoup会将注释也解析进去,主要就是为了排除注释
if not isinstance(repay, NavigableString):
bill = {}
bill["type"] = "repay"
for item in repay.children:
# 匹配日期 MM/dd
if re.match("\d\d/\d\d", str(item.string), flags=0):
bill["time"] = year + "-" + str(item.string).replace("/", "-")
# 匹配金额
elif re.match("CNY\d*\.\d*", str(item.string), flags=0):
amount = str(item.string)[3:]
bill["amount"] = amount
repayAmount += Decimal(float(amount))
bills.append(bill)
为了之后方面对账,就将上面的数据处理成了如下所示格式
{
"month": "2023-02",
"name": "信用卡08月",
"bills": {
"2022-02-22": [{
"type": "repay",
"channel": "BCM",
"time": "2022-02-22",
"amount": "2.00"
}]
},
"size": 1,
"start": "17"
}
处理钱迹账单
导入SQLite
为了方便搜索数据,我用钱迹账单csv生成了SQLite数据库文件
搜索钱迹数据
current = current + relativedelta(days=1)
endtime = current.strftime("%Y-%m-%d") + " 00:00:00"
conn = sqlite3.connect(db_dir)
cur = conn.cursor()
cur.execute("select *from qian_ji qj where 时间 >= '" + starttime + "' and 时间 < '" + endtime + "' and 账户1 ='" + 账户名称 + "'")
比对数据
因为信用卡的账单是一个月一个,所以我这边也是一次比对一个月。
从账单日第一天开始,一直到下个月的账单日前一天,逐日分别计算当天信用卡和钱迹的交易净值并比对
感想
算是花了不少时间,实际最后也没做出啥像样的东西,但至少整个过程下来,也是学到了不少东西。
至少,目的达成了————成功阻止了我自己手动去改账本上的账户金额。
后续再继续研究下其他渠道的账单。