假设检验的基本思想:用了反证法的思想,为了检验一个假设是否成立,就先假定这个假设是成立的你然后看由此产生的后果是否合理,如果不合理,说明原假设不正确,我们就拒绝原假设。如果由原假设导出没有不合理的现象发生则接受原假设。
假设检验的一般步骤:对待检验的未知参数θ根据问题的需要做出一个单边或双边的假设,选择原假设的原则是事先有一定信任度或出于某种考虑是否要加以保护;选定一个显著性水平α,最常用的是α=0.05;构造一个统计量g,g的大小反应对H0有利或不利,拒绝域有形式W={g∈C};确定拒绝域。
重要的参数检验:(1)正态总体均值的假设检验(单个,两个正态总体的假设检验)(2)正态总体方差的假设检验(单个,两个正态总体的假设检验)
非参数检验:(1)(针对分布的类型做的检验,原假设为服从某一分布):Pearson拟合优度卡方检验----chisp.test(x,y);KS检验------ks.test(x,‘pnorm’,(u,n));(2)列联表数据的独立性检验(原假设x和y独立):Pearson检验-----chisp.test(x);Fisher精确的独立检验;McNemar检验(3)符号检验:判断样本是否来自于总体;对成对样本来检验两个总体间是否存在显著性差异(5)秩检验:Spearman秩相关检验;Kendall相关检验。
判别分析和聚类分析的异同点判别分析是用以判别个体所属群体的一种统计方法。聚类分析是一类将数据所对应的研究对象进行分类的统计方法。都是研究分类的,在进行聚类分析前,对总体到底有几种类型不知道(研究分几类较为合适需从计算中加以调整)。判别分析则是在总体类型划分已知,对当前新样本判断它们属于哪个总体。
回归分析研究的主要问题:确定Y与X1,...XP间的定量关系表达式,这种表达式称为回归方程;对求得回归方程的可信度进行检验;判断自变量Xj(j=1,2...p)对Y有无影响;利用所求得的回归方程进行预测和控制。
回归分析的模型:(1)一元线性回归分析:模型---Y=β0+β1x+ɛ,参数估计:最小二乘法,原假设:β1=0(2)多元线性回归:模型---Y=β0+β1x+β2x+ɛ,参数估计:最小二乘法,回归系数的显著性检验原假设:βj=0(j=0,1,2)回归方程的显著性检验原假设β0=β1=β2=0(3)修正拟合模型:update
为什么选择最优回归方程:如果在一个回归方程中忽略了对Y有显著影响的自变量,那么所建立的方程必与实际有较大的偏离,但变量选的过多,使用就不方便,特别当方程中含有对Y影响不大的变量时可能因为SSE的自由度减少而使α的平方的估计而增大,从而影响使用回归方程作预测的精度。
“最优”回归方程的选择:逐步回归法----step()法,知道ACI信息统计量达到最小step(lm.sol);一切子集回归法;前进法,后退法。
回归诊断的主要问题:误差项是否满足独立性、等方差性、正态性;选择线性模型是否合适;是否存在异常样本;回归分析的结果是否对某些样本的依赖过重,即回归模型是否具备稳定性;自变量之间是否存在高度相关,即是否有多重共线性问题存在。
方差分析的主要工作:将测量数据的总变异按照变异原因的不同分解为因素效应和试验误差,并对其做出数量分析,比较各种原因在总变异中所占的重要程度,作为统计推断的依据,由此确定进一步的工作方向。
进行方差分析的三个条件:可加性,假设模型是线性可加性,每个处理效应与随机误差是可以叠加的;独立正态性,实验误差应当服从正态分布,而且相互独立。方差齐性,不同处理间的方差是一致的话即满足假设
类个数的确定:给定一个阈值,通过观察谱系图,要求类与类之间的距离要大于T;观测样本的散点图;使用统计量;根据谱系图确定分类个数的准则。
四种标准化处理:中心化变化、标准化变化、极差标准化变化、极差正规化变化。
系统聚类的一般步骤:计算n个样品两两之间的距离;构造n个类,每个类只包含一个样品;合并距离最近的两类为一新类;计算新类与当前各类的距离;重复进行两个最近类的合并,每次减少一个类,直到所有的样品合为一类。
K均值的一般步骤:把样品分为K个初始类;进行修改,逐个分派样品到其最近均值的类中;重新计算接受新样品的类和失去样品的类的形心。重复上一步直到各类无元素进出。