统计推断的一些基本概念

Reading time ~1 minute

观测值=真值+非统计错误+随机性

观测值可以是:百分比、均值之差、数值。

1.介绍

建议读一下《统计学-基本概念和方法》。本文基本概念来自于它。

统计推断(statistical inference): 从样本数据得出与总体参数值有关的结论。 包括 估计(estimation) 和 假设检验(hypothesis testing)

机器学习中的对应概念也来自于此。

为什么要用样本替代总体?

  • 统计总体代价高
  • 由于样本的不准确,可引入抽样误差

1.1 样本与总体

两者的参数:

类型 均值 标准差 百分比
总体参数(未知)
样本统计量(已知) s P

2 估计

估计主要有这么两类:

  • 点估计(point estimation): 是一个用来估计参数值的.
  • 区间估计(interval estimation): 是一个用于参数估计值的区间.

注意点:

  • 点估计:无偏估计 vs. 有偏估计
  • 区间估计:抽样误差、置信区间、置信水平

2.1 置信区间

置信区间的表示:[统计量-抽样误差, 统计量+抽样误差]

数学表示:

2.

  • 样本比例的数学期望:
  • 样本比例的方差(重复抽样):
  • 样本比例的方差(不重复抽样):

一、总体百分数的置信区间:

(p=0.975, z=1.96)

它的一个可用于快速计算的95%置信区间的近似计算(令P=50):

为什么大多数样本要求有1200个响应者的原因。(95%置信区间,100/sqrt(n)=3,n=1111)

二、总体均值的置信区间:

由n个独立的、服从正态分布的观测组成一个样本,样本均值为:,标准差为:s.

总体均值的置信区间为:

是t变量的一个值,可以从自由度n-1的t分布表中查到。只需要找到使得95%的t变量都落在之间。

3.两个百分比之差的置信区间

一个样本有n1个观测,另一个有n2个观测;对应的样本百分比分别为P1和P2。则两个总体百分比之差的95%置信区间是:

4.两个均值之差的置信区间

  • 抽样1:n1个观测值,样本均值,样本标准差
  • 抽样2:n2个观测值,样本均值,样本标准差

两个总体均值之差()的置信区间为:

自由度为:n1+n2-2

查对应自由度的t分布表,查到的值,使t变量落入的概率为0.95。

3.假设检验

3.1 基本过程

估计和假设检验,都关注的是总体参数,两者区别:

  • 估计:找参数值等于多少
  • 假设检验:看参数值是否等于某个感兴趣的值

两个假设:

  • 零假设(null hypothesis)::参数=值
  • 备择假设(alternative hypothesis)::参数

如果样本数据证明零假设不成立,则拒绝(reject)零假设,倾向于备择假设。

注意:之所以叫“零”,原因是假设的内容总是没有差异或没有改变,或变量间没有关系等。

由于样本信息量受限,有可能提供错误答案:

  • 第一类错误(α错误、type I error):零假设正确,但判断错误
  • 第二类错误(β错误、type II error):零假设错误,但判断正确

如何衡量零假设?答:p值(p-value)。

  • p值定义:当零假设正确时,得到的结果数据是否等于实际观察或者比实际观察更极端的概率。
  • p值越小,拒绝零假设的理由就越充分
  • 大小:20分之一,即0.05. p值<=0.05都认为是小的(Ronald Fisher)
  • p值的意义:在某总体的许多样本中,某一类数据出现的经常程度。

统计显著

  • 如果零假设被拒绝(p值很小),则样本结果是统计显著(Statistical significant)的。

如何计算p值?=> 使用标准得分(standard score)

零假设(均值之差、或者单个均值) => t分布的t变量

(详见<统计学>第七章公式部分)

单均值检验:

  • 零假设:
  • 样本:n个观测,均值为,标准差为s。
  • 进行t变换,计算统计量:

根据对应自由度,查对应t分布表得:p值.

两均值差检验:

  • 零假设:
  • 样本数据A:有n1个观测,均值为,标准差是s1;样本数据B:有n2个观测,均值为,标准差是s2。
  • 进行t变换,计算统计量:

基中s为联合方差:

代入,查表,得到p值,判断是否拒绝零假设。

3.2 总体比例

总体比例检验:

  • 零假设:
  • 样本比例:p,样本观测量:n
  • z变换:

得到z值,查找标准正态分布表,得到p值,判断零假设是否正确。

比例差的检验:

  • 零假设:
  • 两个样本比例之差:p1-p2,样本观测个数分别为:n1,n2
  • z变换:

得到z值,查找标准正态分布表,得到p值,判断零假设是否正确。

3.3 其它

置信区间与假设检验:

  • 置信区间:给了我们一个参数值的可能范围
  • 假设检验:一个可能值

4.卡方检验

4.1 行-列表资料检验

2x2列联表: 对应现实中的两变量,每个变量有两种取值。

a b a+b
c d c+d
a+c b+d n

字母a,b,c,d代表每个格子中观测的个数。整个表的总和记作n。

当每个变量只有两个取值时,用表示两个分类变量的相关性,取值[0,1]。越大,关系越强。

如果分类变量>=2个,每个分类变量取值>=2个,使用V来度量变量间的相关程度。取值为[0,1]间。

其中: n为观测的个数,L是min(行数,列数)。(2行,4列,L=2),V是的推广。

变量:度量了观测到的频率与期望频率间有多大的差异。

2x2表:

对于更大的表:

其中期望E_i的计算为:期望频率=(对应行总和x对应列总和)/表的总和。

可以利用卡方来计算p-value,这样得到的是一个近似真实的p-value。

自由度(d.f.)用来度量表的大小。

d.f.=(行数-1)x(列数-1)

零假设:两个变量不相关.

5.回归分析与相关分析

  • 回归分析(regression analysis):是一个或多个自变量的变化是如何影响因变量的一种方法
  • 相关分析(correlation anaysis):是两个数值变量间关系的强弱

简单回归分析:两个变量的回归分析 => 散点图

  • 相关系数r:[-1, 1] 或称为:(线性相关系数,Pearson相关系数,每次积相关系数)
  • 另一个量:

用直线来度量:

  • 回归直线(regression line)
  • 回归方程(regression equation):y=a+bx
  • 回归系数(regression coefficient):b

计算回归直线?

  • 最小二乘法(least squares):垂直距离和最小

用回归分析进行预测

  • 预测值:把自变量的值代入回归直线的方程,就得到了因变量的预测值

残差的影响:

  • 残差变量(residual variable):除自变量外其他所有变量对因变量的影响的变量

不同的平方和:

  • 总平方和(total sum of squares):。即(观测-平均)^2 的求和,度量自变量和残差变量在因变量上的总效应
  • 残差平方和(RSS:residual sum of squares):。即观测点到回归直线的垂直距离的平方和 (也叫误差平方和)
  • 回归平方和(regression sum of squares):

  • TSS=RegrSS+RSS
  • 残差变量占总效应的比例:

(注:有些地方把RSS标成ESS,把RegrSS标成RSS)

观测点离回归直线越近,RSS越小,相关系数r越大

从样本推广到总体

  • 总体的回归系数
  • 可不可信:置信区间 or 假设检验

的置信区间:

  • [, ]

其中b是观测的回归系数,t*是,sb是b的标准误差。

均方

  • 均方:对应平方和除以相应的自由度
  • 残差均方(RMS): RSS/D.F.
  • F比:RMS/RegrMS

使用统计量F,求得p值来检验零假设。(零假设:变量间没有关系)

6.方差分析(ANOVA)

6.1 方差分析

方差分析(analysis of variance):在研究分类型自变量对数量型因变量的影响时,用来对比因变量在不同组中的平均值的统计方法。

变量间的对应关系:

a.散点图,方差分析与回归分析的不同:

  • 回归分析:水平轴,自变量是数量变量
  • 方差分析:水平轴,自变量是分类变量

b.盒子图:

  • 对比中位数

关系有多强:

正规的方差分析中,用的不是中位数,而是每一组观测的均值。方差分析更适合的名字应该是均值分析。

  • 分类型自变量平方和: 。即:(组均值-总均值)^2 之和
  • 残差平方和:(观测-组均值)^2 之和
  • 总平方和:。(观测-总均值)^2 之和
  • R方:=分类型自变量平方和/总平方和

对应的自由度:

  • 分类型自变量的自由度:k-1
  • 残差的自由度:n-k
  • 总自由度:n-1

均方:

  • 分类型变量的均方:CMS=分类型自变量平方和/(k-1)
  • 残差均方:RMS=残差平方和/(n-k)

F比:

  • F=分类型变量的均方/残差均方

查找F分布表对应的p值,判断是否拒绝零假设。

6.2 配对分析

略。

参考:

  • 1.<统计学-基本概念和方法>
  • 2.http://zy.swust.net.cn/10/2/tjxyl/kj/6-4-1.htm