一般的公司都需要用到数据统计,一般都是写统计sql,查询交易流水表,就搞定了。在流水记录不太多的情况,这样做没问题;如果交易流水很大,就需要好好设计一下了,下面我们讨论交易数据量很大的情况。
大致思路如下:
1.我们需要设计一个统计表。
2.定时任务将交易流水表中的数据进行加工之后,更新到统计表中;
思路:
1.设置一个游标index,作用: 记录更新到交易流水表的哪条记录了以及下次统计的开始点。一般使用交易流水表id;
2.单次统计数据步长Step,即一次处理多少条数据。一般每次200条;
3.根据index,查询 交易流水表 200条交易数据。这里需要注意具体业务逻辑,如按天统计,按小时统计,具体业务具体写group by 语句;
4.统计表中需要 业务时间 字段,便于查一般设计成:year,month,day 三个字段;
如:按天统计,业务时间字段如下:
id | Year | Month | day | createTime |
1 | 2014 | 02 | 26 | 2014-2-26 15:48:00 |
作用:根据业务时间,判断统计表中是否存在第3步查询的交易数据。适用于定时任务意外停掉,重新启动后,补录数据的情况;
5.统计表中有20140226日的数据就update;没有,就insert;
6.处理成功后,更新index为最新值。
7.进行下一批处理,直到交易流水表中的数据全部处理完成。
如此设计,优点:
将统计定时任务执行次数和 业务规则 分离,使之互不影响。
举个例子:有些人一看到按天统计,就把定时任务设计成每天跑一次,查询交易流水表,插入到统计表中去。
缺点:这么做有个致命弱点,定时任务有问题了,当天记录没有跑出来,那么补录数据是个非常耗时的工程。另外还有一个问题:当天只能查询昨天的统计数据。
本文介绍的方法就不会有这些问题。即使定时任务停掉了,只要index不改变,任务重启后,还会从index开始继续执行。并且可以设置每3分钟跑一次。这样当天就可以查询当天的按天统计数据了