数值方法

样本统计量:数据来自样本,计算的度量
总体参数:数据来自总体,计算的度量
点估计量: 样本统计量被称为是相应总体参数的点估计量

位置的度量

平均数

最重要的变量:平均数(mean)
如果数据来自某个样本,则样本平均数为

极端梯度提升回归原理简单介绍_众数

公式为:

极端梯度提升回归原理简单介绍_中位数_02

如果数据来自某个总体,则平均数用希腊字母μ表示。

公式为:

极端梯度提升回归原理简单介绍_众数_03

中位数

将所有数据按升序排序后,位于中间的数值即为中位数。
(1)当观测值是奇数时,中位数就是中间那个数值。
(2)当观测值是偶数时,则没有单一的中间数值,这个时候定义中间两个观测值的平均数。

平均数往往会受到异常大或异常小的数值影响,中位数这个时候提供了比平均数更好的中心位置的度量。

经常用在年收入及资产价值数据的报告中,因为少数极端大的收入和资产价值将会夸大平均数。

众数

就是数据集中出现次数最多的数值。

需要注意,如果出现了两个或两个以上的众数,几乎从不报告众数,因为对于描述数据的位置并不能起多大作用。

百分位数

提供了数据如何散步在从最小值到最大值的区间上的信息。

第P百分位数:

假设一名学生的语言考了54分,相对于参加同样考试的学生,这个学生的表现如何,可能不太清除,但是如果对应着第70百分数,则说明70%的学生比他低,30%的学生比他搞。

计算步骤:

  1. 把数据按升序排序
  2. 计算指数i:

    极端梯度提升回归原理简单介绍_中位数_04

  3. p为所求百分数,n是观测值的个数。
  4. (1)若i不是整数,则向上取整,大于i的下一个整数表示第p百分数的位置。
    (2)若i是整数,则第p百分位数是第i项和第(i+1)项数据的平均值。

实例:

i不是整数:

3310 3355 3450 3480 3490 3520 3540 3550 3650 3730 3925

极端梯度提升回归原理简单介绍_众数_05

我们取85%的标准,则是第11位。

i是整数:

极端梯度提升回归原理简单介绍_中位数_06

第50百分数是第6和7项的平均值。(3490+3520)/2 = 3505,同时,第50百分位数也是中位数。

四分位数

目的是为了将数据划分为相等的四部分,四分位数的计算方法不同,结果也会略有不同。

极端梯度提升回归原理简单介绍_极端梯度提升回归原理简单介绍_07

=第一位四分位数,或第25百分位数

极端梯度提升回归原理简单介绍_极端梯度提升回归原理简单介绍_08

=第二四分位数,或第50百分位数(也是中位数)

极端梯度提升回归原理简单介绍_众数_09

=第三四分位数,或第75百分位数

四分位数是一种特殊的百分位数,因此,计算百分位数的步骤可以直接用于四分位数的计算。

调整平均数

当数据集中含有极端值时,使用中位数作为中心位置的度量比平均数更合适。

但是如果用平均数,则从数据集中删除一定比例最大值和最小值,然后计算剩余数据的平均值。

5%调整平均数,删除5%最小的数值和5%最大的数值,例如n=12,12*0.05=0.6,四舍五入值为1。则要删除一个最大一个最小,求剩下10个的调整平均数。

练习

一、

a. 每场比赛3分球投篮的平均次数是多少?

350 / 19 = 18.42

b. 每场比赛3分球命中的平均次数是多少?

120 / 19 = 6.31

c. 较近的3分球,球员的命中率为35.2%。对新的3分线,球员的命中率是多少?

120 / 350 = 0.342*100%=34.2%

d. 将3分线后移至20英尺9英寸的影响是什么?

影响是命中率降低了1%的命中概率,无伤大雅。

二、

a. 直接用代码写了,手算费劲。

list1 = [120,230,110,115,160,130,150,105,195,155,105,360,120,120,140,100,115,180,235,255]
data = Series(list1)
# 平均数
data.mean()= 160.0
# 中位数
data.median() = 135.0
# 众数
data.mode() = 120.0

b. 代码生成

data.quantile([0.25,0.5,0.75])
0.25    115.00
0.50    135.00
0.75    183.75
dtype: float64

c.计算并解释第90百分位数

data.quantile(0.9)
237.00

三、

a.GDP增长速度的最小预测值是多少?最大预测值是多少?

# 预测值
forcast = [2.6,3.1,2.3,2.7,3.4,0.9,2.6,2.8,2.0,2.4,2.7,2.7,2.7,2.9,3.1,2.8,1.7,2.3,2.8,3.5,0.4,2.5,2.2,1.9,1.8,1.1,2.0,2.1,2.5,0.5]

data=Series(forcast)
data.max()
3.5

data.min()
0.4

b. 计算平均数,中位数,众数

data.mean()
2.30
data.median()
2.5
data.mode()
2.7

c. 计算第一四分位和第三四分位

data.quantile([0.25,0.75])

0.25    2.000
0.75    2.775
dtype: float64

d. 经济学家对美国经济持乐观还是悲观态度?

乐观态度,中位数和平均数都在2.5以上,说明经济学家普遍看好美国的经济增长。