pandas.Series.describe
DataFrame.describe(percentiles=None, include=None, exclude=None)
生成描述性统计,总结数据集分布的中心趋势,分散和形状,不包括NaN值。
百分位数:统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数
分析数字和对象系列,以及混合数据类型的DataFrame列集。 输出将根据所提供的内容而有所不同。 有关详细信息,请参阅下面的注释。
变量:
1、百分位数:数字列表,可选
输出中包含的百分位数。 全部应该在0和1之间。默认值为[.25,.5,.75],返回第25,第50和第75百分位数。
2、包括:'all',dtypes的列表或无(默认),可选
要包括在结果中的白名单数据类型。 忽略了系列。 以下是选项:
l 'all':输入的所有列都将包含在输出中。
l 类似dtypes的列表:将结果限制为提供的数据类型。 将结果限制为数字类型,提交numpy.number。要将其限制为分类对象,请提交numpy.object数据类型。 字符串也可以以select_dtypes的样式使用(例如,df.describe(include = ['O']))。
l 无(默认):结果将包括所有数字列。
3、排除:类型为dtypes或None(默认),可选
从结果中忽略的黑名单数据类型。 忽略了系列。 以下是选项:
l 类似dtypes的列表:从结果中排除提供的数据类型。 选择数字类型submit numpy.number。要选择分类对象,请提交数据类型numpy.object。字符串也可以以select_dtypes的样式使用(例如,df.describe(include = ['O']))。
l 无(默认):结果将不排除任何内容。
返回:
总结:系列/ DataFrame的汇总统计
注释:
对于数值数据,结果的索引将包括计数,平均值,标准差,最小值,最大值以及较低的百分位数和50。默认情况下,较低的百分位数为25,较高的百分位数为75.50百分位数与中位数相同。
对于对象数据(例如字符串或时间戳),结果的索引将包括count,unique,top和freq。顶部是最常见的价值。频率是最常见的频率。时间戳还包括第一个和最后一个项目。
如果多个对象值具有最高的计数,则计数和顶部结果将从计数最高的那些中任意选择。
对于通过DataFrame提供的混合数据类型,默认值仅返回数字列的分析。如果include ='all'作为选项提供,则结果将包括每种类型的属性的并集。
可以使用include和exclude参数来限制DataFrame中哪些列被分析输出。分析系列时,参数将被忽略。
例子:
描述数字系列。
>>> s = pd.Series([1, 2, 3])
>>> s.describe()
count 3.0
mean 2.0
std 1.0
min 1.0
25% 1.5
50% 2.0
75% 2.5
max 3.0
描述一个分类系列。
>>> s = pd.Series(['a', 'a', 'b', 'c'])
>>> s.describe()
count 4
unique 3
top a
freq 2
dtype: object
描述时间戳系列。
>>> s = pd.Series([
... np.datetime64("2000-01-01"),
... np.datetime64("2010-01-01"),
... np.datetime64("2010-01-01")
... ])
>>> s.describe()
count 3
unique 2
top 2010-01-0100:00:00
freq 2
first 2000-01-01 00:00:00
last 2010-01-01 00:00:00
dtype: object
描述DataFrame。默认情况下只返回数字字段。
>>> df = pd.DataFrame([[1, 'a'], [2, 'b'], [3, 'c']],
... columns=['numeric', 'object'])
>>> df.describe()
numeric
count 3.0
mean 2.0
std 1.0
min 1.0
25% 1.5
50% 2.0
75% 2.5
max 3.0
描述DataFrame的所有列,而不管数据类型如何。
>>> df.describe(include='all')
numericobject
count 3.0 3
unique NaN 3
top NaN b
freq NaN 1
mean 2.0 NaN
std 1.0 NaN
min 1.0 NaN
25% 1.5 NaN
50% 2.0 NaN
75% 2.5 NaN
max 3.0 NaN
通过访问DataFrame作为属性来描述列。
>>> df.numeric.describe()
count 3.0
mean 2.0
std 1.0
min 1.0
25% 1.5
50% 2.0
75% 2.5
max 3.0
Name: numeric, dtype: float64
在DataFrame描述中仅包含数字列。
>>> df.describe(include=[np.number])
numeric
count 3.0
mean 2.0
std 1.0
min 1.0
25% 1.5
50% 2.0
75% 2.5
max 3.0
在DataFrame描述中只包含字符串列。
>>> df.describe(include=[np.object])
object
count 3
unique 3
top b
freq 1
从DataFrame描述中排除数字列。
>>> df.describe(exclude=[np.number])
object
count 3
unique 3
top b
freq 1
从DataFrame描述中排除对象列。
>>> df.describe(exclude=[np.object])
numeric
count 3.0
mean 2.0
std 1.0
min 1.0
25% 1.5
50% 2.0
75% 2.5
max 3.0