滑动窗口的用处很多,比如连续3个订单中的最大值
介绍
窗口函数(Window Function)是一种在关系型数据库中使用的函数,通常用于计算某个范围内的数据。在数据分析中,窗口函数也是一种非常有用的工具,可以轻松地对数据进行滑动窗口处理,计算移动平均值、移动总和等等。
在本文中,我们将使用pandas库来实现窗口函数。pandas是一种流行的数据处理库,它提供了许多用于数据处理和分析的工具,其中包括窗口函数。
示例数据
为了演示窗口函数的使用,我们将使用一个示例数据集,其中包含每月的销售数据。
import pandas as pd
data = {'Month': ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'],
'Sales': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120]}
df = pd.DataFrame(data)
df
Month Sales
0 Jan 10
1 Feb 20
2 Mar 30
3 Apr 40
4 May 50
5 Jun 60
6 Jul 70
7 Aug 80
8 Sep 90
9 Oct 100
10 Nov 110
11 Dec 120
移动平均值
移动平均值是一种常见的窗口函数,用于计算一段时间内的平均值。在pandas中,我们可以使用rolling函数来计算移动平均值。
df['MA'] = df['Sales'].rolling(window=3).mean()
在上面的代码中,我们使用了rolling函数,并将窗口大小设置为3,即计算每三个月的平均值。计算出的结果将存储在一个名为“MA”的新列中。
移动总和
移动总和是另一种常见的窗口函数,用于计算一段时间内的总和。在pandas中,我们可以使用rolling函数来计算移动总和。
df['MS'] = df['Sales'].rolling(window=3).sum()
在上面的代码中,我们使用了rolling函数,并将窗口大小设置为3,即计算每三个月的总和。计算出的结果将存储在一个名为“MS”的新列中。
df['MA'] = df['Sales'].rolling(window=3).mean()
...
df
Month Sales MA
0 Jan 10 NaN
1 Feb 20 NaN
2 Mar 30 20.0
3 Apr 40 30.0
4 May 50 40.0
5 Jun 60 50.0
6 Jul 70 60.0
7 Aug 80 70.0
8 Sep 90 80.0
9 Oct 100 90.0
10 Nov 110 100.0
11 Dec 120 110.0
最大值和最小值
除了移动平均值和移动总和之外,我们还可以使用rolling函数来计算一段时间内的最大值和最小值。
df['Max'] = df['Sales'].rolling(window=3).max()
df['Min'] = df['Sales'].rolling(window=3).min()
在上面的代码中,我们使用了rolling函数,并将窗口大小设置为3,分别计算了最大值和最小值。计算出的结果将存储在名为“Max”和“Min”的新列中。
df
Month Sales MA Max Min Sum
0 Jan 10 NaN NaN NaN NaN
1 Feb 20 NaN NaN NaN NaN
2 Mar 30 20.0 30.0 10.0 60.0
3 Apr 40 30.0 40.0 20.0 90.0
4 May 50 40.0 50.0 30.0 120.0
5 Jun 60 50.0 60.0 40.0 150.0
6 Jul 70 60.0 70.0 50.0 180.0
7 Aug 80 70.0 80.0 60.0 210.0
8 Sep 90 80.0 90.0 70.0 240.0
9 Oct 100 90.0 100.0 80.0 270.0
10 Nov 110 100.0 110.0 90.0 300.0
11 Dec 120 110.0 120.0 100.0 330.0
结论
在本文中,我们介绍了使用pandas库来实现窗口函数。我们演示了如何使用rolling函数来计算移动平均值、移动总和、最大值和最小值。