1. 小概率事件
    事件发生概率小于等于0.05,称之为小概率事件。
  2. P是啥
    就是犯错概率,得出错误结论的概率。
  3. 假设检验
    小概率事件和反证法的应用。
    H0:原假设
    H1:备选假设
    解释:假设在H0前提下,我们得到目前手头上的样本,定义为一个概率事件,概率为α(0.05, 0.01, 0.001),是小概率事件。通过公式计算P值,P<α, 则确认我们得到目前手头上的样本是一个小概率事件,而小概率事件在一次试验中是不可能发生的,但事实发生了,则原假设错误,接受备选假设。
    另一种解释:
    H0:只存在抽样误差,不存在系统误差
    H1: 存在抽样误差和系统误差
    在只存在抽样误差的前提下,我们得到目前样本的概率为P,如果P<α,则证明不只是存在抽样误差,还存在系统误差。
  4. 两类错误
    α错误:第一类错误,接受了假的H1.
    β错误:第二类错误,接受了假的H0.
    1-β称之为把握度,即有多大把握拒绝H0.
    例子:
    H0:A药和B药等效
    H1:A药优于B药
    药监局更关注第一类错误,因为不想接受一个假药,所以接受H1的要求严格,希望α很小。药厂不希望拒绝有效的药,所以希望β很小。
  5. 标准差和标准误
    标准差就是衡量样本数据的离散情况。
    标准误是衡量抽样的离散情况。是做多次抽样,每次计算一个样本均值,多次抽样对应多个样本均值,计算这些均值数据的标准差,称之为标准误。
  6. 变异系数
    变异系数是标准差/均值,就是标准差是平均值的多少倍,变异是平均水平的多少倍。例如两个样本标准差和均值都不同,如何比较变异程度。用变异系数。
  7. 分布
    是样本统计量的分布规律,衡量变异的分布情况。
    以t分布为例,公式为
                          T = 均值差/标准误
     
    以标准误为单位,衡量均值差的分布情况。100%的t分数都在(-700,700)之间,即(-700,700)这个范围覆盖了100%的抽样误差(抽样来自正态总体,观测独立),95%的t分数大概在(-13,13)之间,即这个范围覆盖了95%抽样的误差。不同样本量下,t数值有波动。和假设检验相结合就是,在只有抽样误差的前提下,只有5%的t分数不在(-13,13)之间,5%小概率事件,认为是不可能发生的,抽样误差导致这么大差异的概率只有5%,所以不可能只存在抽样误差。
  8. 95%置信区间
    做一百次试验,得到一百个均值,每个均值加/减上对应的95% t 分数,进而得到100个置信区间,100个置信区间中有95个包含总体参数。
  9. 参数检验和分布
    正态分布是关于样本数据的分布,而t/F/卡方等分布是关于样本统计量的分布。参数检验有前提条件,要求样本来自正态总体,参数就是分布分数。
  10. 非参数检验
    没有关于样本分布的前提条件,但也有对应的分数分布。比如T界值表,D界值表。