想去除某一属性为特定值或null的那一行
思路:
1、把你想要筛选的那一列,变为string类型新增一列。
2、用filter()过滤掉这一行
例如:
我想去除time列中为空,且1970年的行:
新增time_string,类型为string:
t=t.withColumn('time_string',t['time'].cast('String'))
过滤:
t = t.filter(t['time_string']!='null')
t = t.filter(t['time_string']!='1970-01-01 00:00:00')
最后完成:
就这两行代码:
t=t.withColumn('time_string',t['time'].cast('String'))
t = t.filter(t['time_string']!='null')