想去除某一属性为特定值或null的那一行
思路:
1、把你想要筛选的那一列,变为string类型新增一列。
2、用filter()过滤掉这一行
例如:

我想去除time列中为空,且1970年的行:

sparksql支持不等值连接 sparksql ifnull_spark

新增time_string,类型为string:

t=t.withColumn('time_string',t['time'].cast('String'))

sparksql支持不等值连接 sparksql ifnull_string类_02


过滤:

t = t.filter(t['time_string']!='null')
t = t.filter(t['time_string']!='1970-01-01 00:00:00')

最后完成:

sparksql支持不等值连接 sparksql ifnull_string类_03


就这两行代码:

t=t.withColumn('time_string',t['time'].cast('String'))
t = t.filter(t['time_string']!='null')