pyspark.sql.functions包含了很多内置函数。
1.pyspark.sql.functions.abs(col)
计算绝对值。
2.pyspark.sql.functions.acos(col)
计算给定值的反余弦值; 返回的角度在0到π的范围内。
3.pyspark.sql.functions.add_months(start, months)
返回start后months个月的日期
4.pyspark.sql.functions.array_contains(col, value)
集合函数:如果数组包含给定值,则返回True。 收集元素和值必须是相同的类型。
5.pyspark.sql.functions.ascii(col)
计算字符串列的第一个字符的数值。
6.pyspark.sql.functions.avg(col)
聚合函数:返回组中的值的平均值。
7.pyspark.sql.functions.cbrt(col)
计算给定值的立方根。
8.pyspark.sql.functions.ceil(col)
计算给定值的上限。
9.pyspark.sql.functions.coalesce(*cols)
返回不为空的第一列。
10.pyspark.sql.functions.col(col)
根据给定的列名返回一个列。
11.pyspark.sql.functions.collect_list(col)
聚合函数:返回重复对象的列表。
12.pyspark.sql.functions.collect_set(col)
聚合函数:返回一组消除重复元素的对象。
13.pyspark.sql.functions.concat(*cols)
将多个输入字符串列连接成一个字符串列。
14.pyspark.sql.functions.concat_ws(sep, *cols)
使用给定的分隔符将多个输入字符串列连接到一个字符串列中。
15.pyspark.sql.functions.corr(col1, col2)
返回col1和col2的皮尔森相关系数的新列。
16.pyspark.sql.functions.cos(col)
计算给定值的余弦。
17.pyspark.sql.functions.cosh(col)
计算给定值的双曲余弦。
18.pyspark.sql.functions.count(col)
聚合函数:返回组中的项数量。
19.pyspark.sql.functions.countDistinct(col, *cols)
返回一列或多列的去重计数的新列。
20.pyspark.sql.functions.current_date()
以日期列的形式返回当前日期。
21.pyspark.sql.functions.current_timestamp()
将当前时间戳作为时间戳列返回。
22.pyspark.sql.functions.date_add(start, days)
返回start后days天的日期
23.pyspark.sql.functions.date_format(date, format)
将日期/时间戳/字符串转换为由第二个参数给定日期格式指定格式的字符串值。
一个模式可能是例如dd.MM.yyyy,可能会返回一个字符串,如“18 .03.1993”。 可以使用Java类java.text.SimpleDateFormat的所有模式字母。
注意:尽可能使用像年份这样的专业功能。 这些受益于专门的实施。
24.pyspark.sql.functions.date_sub(start, days)
返回start前days天的日期
25.pyspark.sql.functions.datediff(end, start)
返回从start到end的天数。
26.pyspark.sql.functions.dayofmonth(col)
将给定日期的月份的天解压为整数。
27.pyspark.sql.functions.dayofyear(col)
将给定日期的年份中的某一天提取为整数。
28.pyspark.sql.functions.desc(col)
基于给定列名称的降序返回一个排序表达式。
29.pyspark.sql.functions.exp(col)
计算给定值的指数。
30.pyspark.sql.functions.expm1(col)
计算给定值的指数减1。
31.pyspark.sql.functions.factorial(col)
计算给定值的阶乘。
32.pyspark.sql.functions.floor(col)
计算给定值的最小。
33.pyspark.sql.functions.format_number(col, d)
将数字X格式化为像'#, - #, - #.-'这样的格式,四舍五入到小数点后的位置,并以字符串形式返回结果。
参数:● col – 要格式化的数值的列名称
● d – N小数位
34.pyspark.sql.functions.format_string(format, *cols)
以printf样式格式化参数,并将结果作为字符串列返回。
参数:● format – 要格式化的格式
● cols - 要格式化的列
35.pyspark.sql.functions.hex(col)
计算给定列的十六进制值,可以是StringType,BinaryType,IntegerType或LongType
36.pyspark.sql.functions.hour(col)
将给定日期的小时数提取为整数。
37.pyspark.sql.functions.hypot(col1, col2)
计算sqrt(a ^ 2 ^ + b ^ 2 ^),无中间上溢或下溢。
38.pyspark.sql.functions.initcap(col)
在句子中将每个单词的第一个字母翻译成大写。
39.pyspark.sql.functions.isnan(col)
如果列是NaN,则返回true的表达式。
40.pyspark.sql.functions.kurtosis(col)
聚合函数:返回组中的值的峰度。
41.pyspark.sql.functions.last(col)
聚合函数:返回组中的最后一个值。
42.pyspark.sql.functions.last_day(date)
返回给定日期所属月份的最后一天。
43.pyspark.sql.functions.lit(col)
创建一个文字值的列
44.pyspark.sql.functions.log(arg1, arg2=None)
返回第二个参数的第一个基于参数的对数。
如果只有一个参数,那么这个参数就是自然对数。
45.pyspark.sql.functions.log1p(col)
计算给定值的自然对数加1。
46.pyspark.sql.functions.log2(col)
返回参数的基数为2的对数。
47.pyspark.sql.functions.lower(col)
将字符串列转换为小写。
48.pyspark.sql.functions.ltrim(col)
从左端修剪指定字符串值的空格。
49.pyspark.sql.functions.minute(col)
提取给定日期的分钟数为整数
50.pyspark.sql.functions.monotonically_increasing_id()
生成单调递增的64位整数的列。
生成的ID保证是单调递增和唯一的,但不是连续的。 当前的实现将分区ID放在高31位,并将每个分区内的记录号放在低33位。 假设
数据帧的分区少于10亿个,每个分区少于80亿条记录
例如,考虑一个DataFrame有两个分区,每个分区有三个记录。 该表达式将返回以下ID:0,1,2,8589934592(1L << 33),
8589934593,8589934594
51.pyspark.sql.functions.month(col)
将给定日期的月份提取为整数
52.pyspark.sql.functions.months_between(date1, date2)
返回date1和date2之间的月数。
53.pyspark.sql.functions.rand(seed=None)
用i.i.d生成一个随机列 来自样本[0.0,1.0]。
54.pyspark.sql.functions.randn(seed=None)
用i.i.d生成一列 来自标准正态分布的样本。
55.pyspark.sql.functions.reverse(col)
反转字符串列并将其作为新的字符串列返回
56.pyspark.sql.functions.rtrim(col)
从右端修剪指定字符串值的空格
57.pyspark.sql.functions.skewness(col)
聚合函数:返回组中值的偏度
58.pyspark.sql.functions.sort_array(col, asc=True)
集合函数:按升序对给定列的输入数组进行排序。
参数:col – 列或表达式名称
59.pyspark.sql.functions.split(str, pattern)
将模式分割(模式是正则表达式)。
注:pattern是一个字符串表示正则表达式。
60.pyspark.sql.functions.sqrt(col)
计算指定浮点值的平方根
61.pyspark.sql.functions.stddev(col)
聚合函数:返回组中表达式的无偏样本标准差
62.pyspark.sql.functions.sumDistinct(col)
聚合函数:返回表达式中不同值的总和
63.pyspark.sql.functions.to_date(col)
将StringType或TimestampType的列转换为DateType
64.pyspark.sql.functions.trim(col)
修剪指定字符串列的两端空格。
65.pyspark.sql.functions.trunc(date, format)
返回截断到格式指定单位的日期
参数: format – ‘year’, ‘YYYY’, ‘yy’ or ‘month’, ‘mon’, ‘mm’
66.pyspark.sql.functions.var_samp(col)
聚合函数:返回组中值的无偏差
67.pyspark.sql.functions.variance(col)
聚合函数:返回组中值的总体方差