应用统计硕士考研需要掌握统计学先关知识点,新东方总结了一些统计学要点,方便大家进行学习。下面是有关方差分析知识点。
2016考研统计学知识要点:方差分析
1. 通过分析数据的误差判断各总体均值是否相等;研究一个或多个分类型自变量对一个数值型因变量的影响
单因素方差分析:涉及一个分类的自变量
双因素方差分析:涉及两个分类的自变量
2.(1)仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数之间有显著差异
这种差异也可能是由于抽样的随机性所造成的
需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析
所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差
这个名字也表示:它是通过对数据误差来源的分析判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源
(2)随机误差
因素的同一水平(总体)下,样本各观察值之间的差异
比如,同一行业下不同企业被投诉次数是不同的
这种差异可以看成是随机因素的影响,称为随机误差
系统误差
因素的不同水平(不同总体)下,各观察值之间的差异
比如,不同行业之间的被投诉次数之间的差异
这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差
(3) 数据的误差用平方和(sum of squares)表示
组内平方和(within groups)
因素的同一水平(同一个总体)下样本数据的平方和
比如,零售业被投诉次数的误差平方和
组内平方和只包含随机误差
组间平方和(between groups)
因素的不同水平(不同总体)下各样本之间的平方和
比如,四个行业被投诉次数之间的误差平方和
组间平方和既包括随机误差,也包括系统误差
3.方差分析的基本假定
正态性:每个总体都应服从正态分布
对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本
比如,每个行业被投诉的次数必需服从正态分布
方差齐性:各个总体的方差必须相同
各组观察数据是从具有相同方差的总体中抽取的
比如,四个行业被投诉次数的方差都相等
独立性:观察值是独立的(该假定不满足对结果影响较大)
4.问题的一般提法:(1)设因素有k个水平,每个水平的均值分别用m1 , m2, ¼, mk 表示
(2)要检验k个水平(总体)的均值是否相等,需要提出如下假设:
H0 : m1 = m2 = …= mk
H1 : m1 , m2 , ¼,mk 不全相等
5.SST:全部观察值xij与总平均值的离差平方和,反映全部观察值的离散状况
SSA:各组平均值xi与总平均值xij的离差平方和;反映各总体的样本均值之间的差异程度,又称组间平方和;该平方和既包括随机误差,也包括系统误差
SSE:每个水平或组的各样本数据与其组平均值的离差平方和;反映每个样本各观察值的离散状况,又称组内平方和;该平方和反映的是随机误差的大小
总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和 (SSA) 之间的关系:
SST = SSA + SSE
如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差
判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小
6.均方
各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差
计算方法是用误差平方和除以相应的自由度
三个平方和对应的自由度分别是
SST 的自由度为n-1,其中n为全部观察值的个数
SSA的自由度为k-1,其中k为因素水平(总体)的个数
SSE 的自由度为n-k
7.构造检验统计量
将MSA和MSE进行对比,即得到所需要的检验统计量F
当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布
将统计量的值F与给定的显著性水平a的临界值Fa进行比较,作出对原假设H0的决策
² 根据给定的显著性水平a,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k 相应的临界值 Fa
² 若F>Fa ,则拒绝原假设H0 ,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响
² 若F
8.关系强度
变量间关系的强度用自变量平方和(SSA)及残差平方和(SSE)占总平方和(SST)的比例大小来反映
自变量平方和占总平方和的比例记为R2 ,即
3、其平方根R就可以用来测量两个变量之间的关系强度