hivesql 时间格式转换 hive时间格式转换函数

转载

小蝌蚪 2023-12-02 13:44:53

文章标签 hivesql 时间格式转换 hive 数据更新数据大数据 文章分类 Hive 大数据

最近做了一点数据分析的工作，比如分析用户留存率，但是留存率需要先自己统计和计算，用的是公司内部的大数据平台。有时真觉得所谓大数据，数据量上去了，但是质量未必上去，比如前几天我分析的移动应用内埋点数据，数据量可谓超大，但是很多埋点其实是完全无意义的，埋点的初衷是为了分析应用内各个页面、按钮等点击访问情况，但是无的放矢的埋点，导致很多埋点根本不会去分析，这样将产生大量冗余数据，这样的大数据又有什么意义呢，占据大量磁盘空间，检索查询成本也高，说难听点这样的大数据是费电的大数据。好了，还是回到本文话题。公司的大数据平台不知道用的hive什么版本，没有update命令，也就是不支持行级更新。当然很多场景是用不到更新的，但是要统计类似第N日留存率这样的需求，也就是根据今天的数据或者昨天的数据，统计前指定天数的留存率，势必要更新数据。问同事该如何做，她的做法是每天全量更新，从某个指定时间节点，依次把每天留存率全算一遍，这样固然可以，但有太多的重复计算了。以前做图像算法，想的都是如何快，用什么快速算法。而这样的全量更新，耗时又耗费计算资源。想来想去只好曲线实现行级更新，我们可以采用insert overwrite和insert into组合实现更新，即一个数据覆盖操作和一个数据插入操作。其实很简单，具体操作为，比如我要更新A表，那么首先对表A做个拆分，将待更新的那行数据查询出来保存到临时表A_swap2，其余不更新的数据保存到临时表A_swap1，然后把A_swap1数据使用insert overwrite命令重写回表A，此时A内的数据会被覆盖，然后对A_swap2做一些更新操作后在使用insert into命令将新数据插入到表A，这样就完成了数据更新操作。简单示例代码如下：

--拆分表
drop table tmp.user_day_retention_rate_swap1;
create table tmp.user_day_retention_rate_swap1 as
select * from db.user_day_retention_rate
where dt!=date_sub('${biz_date}', 1);

drop table tmp.user_day_retention_rate_swap2;
create table tmp.user_day_retention_rate_swap2 as
select * from db.user_day_retention_rate
where dt=date_sub('${biz_date}', 1);

--不更新的数据重写回原表
insert overwrite table db.user_day_retention_rate
select * from tmp.user_day_retention_rate_swap1 ;

--更新的数据重新添加至原表
insert into table db.user_day_retention_rate
select
    0.5,
    b.user_retention_rate_3d as user_retention_rate_3d,
    b.user_retention_rate_7d as user_retention_rate_7d,
    b.user_retention_rate_14d as user_retention_rate_14d,
    b.user_retention_rate_30d as user_retention_rate_30d,
    b.dt as dt
from tmp.user_day_retention_rate_swap2 b;

这样就基本实现了行级更新，觉得应该有更好的方法，欢迎大家留言、指导。

上面用到了时间函数，不同的工程师在数据库设计时在时间格式的定义上也是五花八门，有的定义成年月日时分秒，有的定义成一个大整数毫秒，我倾向前者，后者可读性较差，需要转换才行。格式的不统一，在使用时势必要进行一些转换。这里简单罗列几个时间函数，可以对时间进行转换及运算。

--毫秒与年月日时分秒相互转换
select from_unixtime(floor(1478169393635/1000), 'yyyy-MM-dd');
select unix_timestamp('2016-11-03', 'yyyy-MM-dd')

--日期加减
select date_add('2016-11-03' , 5)
select date_sub('2016-11-03' , 5)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：音频拼接 Java 音频拼接剪辑软件

下一篇：python meshgrid函数 python memmove

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hivesql 时间格式转换 hive时间格式转换函数

hivesql 时间格式转换 hive时间格式转换函数

51CTO博客