Data Analysis t验证

Created at 2016-10-15 Updated at 2018-05-01 Category Data Analysis Tag Data Analysis / Statistics

t检验

分布

比较样本与总体的不同
比较两个样本之间的不同

  • 独立样本
  • 非独立样本

自由度

有三个东西,一次选择一个。第一次选择,可以有三个选项。第二次选择,有两个选项。最后一次选择,其实选项意境确定了,没得选了。
这样,只有前两次选择时,可以自由选择。我们说自由度是2 。
再比如数独9宫格,3x3的矩阵,每一列上数字的和是9,每一行上数字的和也是9 。它的自由度其实是4,因为填完4个数字后,其他格子的数字就固定了。
也就是n*n的矩阵,它的自由度是(n-1)*(n-1)

t统计量用自由度描述。比如样本量30,那么自由度是30-1=29,如果t值是0.05,那么单尾验证的t统计量是1.699 。

决策

比如以前的均值是$\mu=$ 6.07。我们假设:

  • $H_0:\mu=\bar{x}$,也就是今年的样本与之前相比没有什么显著的不同。
  • $H_1:\mu\ne\bar{x}$,也就是今年的样本与之前相比有显著的不同,具体不同的方向是显著变大还是显著变小这里并不关心。

今年的样本量是n=500,自由度是df=500-1=499 。先算样本的均值$\bar{x}$=6.47,再算出每一项的平方偏差。所有平方偏差的和是SS=78.298,再用SS除以499就是Variance=0.1569,在用Variance开平方,就是样本的标准偏差S是 $S=\sqrt{\frac{\sum{(x_i-\bar{x})}}{n-1}}$ =0.396。那么t统计量是
$t=\frac{\bar{x}-\mu}{S/\sqrt{n}}$ =22.36。
通过查看t值表,可以知道达到这个t统计值的可能性非常小,所以我们这里拒绝$H_0$假设。

P值

$H_0:\mu=10$,也就是没有显著不同。
$H_A:\mu\ne10$,也就是有显著不同。
$\alpha=0.05$

样本是 5,19,11,23,12,7,3,21
t统计量是$t=\frac{\bar{x}-\mu}{S/\sqrt{n}}$ =0.9775
那么对于双尾验证,在t分布图的左右两侧的区域,标记出$\pm9.775$的区域。
我们得到t统计量是0.9775,自由度是7,查看t值表,找到自由度是7的行,在看t统计值是0.9775的列,意味着上尾和下尾的P值都在0.15到0.2之间。也就是下尾$0.15<\frac{1}{2}P<0.2$,上尾$0.15<\frac{1}{2}P<0.2$,那么 0.3<P<0.4 。这里也可以使用GraphPad软件进行计算,输入t=0.9775和DF=7,算出双尾P值是0.3609。这个值表示没有显著的不同。因为$p>\alpha$,所以我们不能拒绝零假设。

租金

一个地区的公寓的平均租金是1830,一家租赁公司想看自己的公寓的租金是否有明显不同。他们随机选取一个n=25的样本,样本的平均租金M=1700,样本的标准差S=200,下面为他们进行样本t检验。
$H_0:\mu=1830$,也就是没有显著不同。
$H_A:\mu\ne1830$,也就是有显著不同。
$\alpha=0.05$

下面先算出$\alpha$水平是0.05时,双尾检验的t临界值。自由度是24,临界值是$\pm2.064$。
接下来再算t,$t=\frac{M-\mu_0}{S/\sqrt{n}}$ =-3.25。
因为t统计量<t临界值,我们认为样本的租金比整体要显著得低,所以拒绝$H_0$假设,也就是做出接受对立假设的决策。

Cohen’s d

$Cohen’s d=\frac{\bar{x}-\mu_0}{S}$,这里除的是标准差,不是标准偏差。
这里,房租的$Cohen’s d=\frac{\bar{x}-\mu_0}{S}=-0.65$ ,

置信区间

如果样本来自新的总体,需要通过接受或拒绝零假设做出统计决策。除了这以外,我们还想计算总体均值会落入的区间。
在这个例子中,我们希望获取一个最有可能包含这家租赁公司所有公寓真实平均租金的区间。
这个例子中使用了$\alpha=0.05$级别的双尾验证,所以上尾和下尾分别是0.25% ,那么中间部分就有95% ,所以可以得到95%的置信区间。
这里,我们先看看临界值高于或低于平均值多少钱。
1个标准误差=$\frac{S}{\sqrt{n}}=\frac{200}{\sqrt{25}}=40$。$\alpha=0.05$级别的双尾验证的临界值是$\pm2.064$个标准误差。所以临界值对应的价格是1617.44和1782.56 。
误差界限=t*标准偏差=$t\frac{S}{\sqrt{n}}$=82.56 ,这里t是标准误差数,$\frac{S}{\sqrt{n}}$是标准误差。误差界限是置信区间的一半。
如果样本量n=100时,$\alpha=0.05$级别的双尾验证的临界值是1.984个标准误差,这时候1个标准误差是20,误差界限变为39.68 。也就是在增大样本量时,自由度变得更大,误差界限变得更小,分布由之前的宽矮变得瘦高
t值表中,95%置信区间对应的每个尾部是0.025

相依样本

之前看的是某个样本与总体参数的不同,下面对比两个相依样本。如果同一名受试者参加两次测试,则是相依样本,叫做Within-Subject Designs 。

键盘

一个是qwer键盘,一个是abcd键盘,查看一组受试人员使用两种键盘打错单词的情况。
$H_0:\mu_Q=\mu_A$
$H_A:\mu_Q\ne\mu_A$

参数 qwer abcd
n 25 25
$\bar{x}$ $\bar{x}_Q=5.08$ $\bar{x}_A=7.8$
S=3.69
t=-3.6856
$\alpha=0.05,t=\pm2.064$
Cohen’s d =-0.737

这里差异点的估计即$\mu_Q-\mu_A=5.08-7.8=-2.72$。
这里差异的样本标准偏差S,先算出D,即qwer列与abcd列中每一行的差,再用D算标准偏差,S=3.69 。注意这里应该除以n-1 。
这里t统计量是$t=\frac{\mu_Q-\mu_A}{S/\sqrt{n}}=\frac{-2.72}{3.69/\sqrt{25}}=-3.6856$ 。
这里样本量是25,自由度是24,$\alpha=0.05$级别的双尾验证的临界值是$\pm2.064$。
这里t统计量要比$\alpha=0.05$级别的双尾验证的临界值的下尾要小,所以我们认为有显著差异,应该拒绝零假设。
使用qwer键盘的错误,比abcd键盘显著地要少。并且因为是实验性设计,所以可以做出因果陈述,所以可以说键盘类型和错误数量之间存在因果关系。
这里,效应量衡量指标$Cohen’s d =\frac{M_D}{S_D}=\frac{\bar{x}_{Q}-\bar{x}_{A}}{S}=\frac{-2.72}{3.69}=-0.737 $
这里,置信区间$CI=M_D\pm t_{critical}\frac{S_D}{\sqrt{n}}=-2.72\pm 2.064\frac{3.69}{\sqrt{25}}=(-4.24,1.2)$
平均下来,qwer键盘的错误数,要比abcd键盘少1到4个。

相依样本t检验(Dependent-samples t-test)的设计类型

重复衡量设计

在键盘实验中,总体是用户使用不同类型的键盘,在30秒内输入20个单词的错误数量,这种设计叫做重复衡量设计。
$H_0:\mu_Q=\mu_A$,即假设两个总体的均值将相同

纵向设计

在一个时间点衡量一个变量,在晚些时候的某个时间点再衡量相同的变量。想知道时间1和时间2的该变量是否有显著差异。
$H_0:\mu_{time1}=\mu_{time2}$

预期检验和后期检验

先衡量某个变量,再进行某种处理,然后处理后再对同一样本衡量同一变量,看看处理措施是否导致了显著效应。
$H_0:\mu_{pre}=\mu_{post}$

习题

t分布要比正太分布胖矮一些
当知道总体参数时,使用z检验,当不知道总体参数时,使用t检验。

词汇量

随机选取1000名4岁儿童,平均每句使用3个单词,标准偏差1.2。4年后,这些孩子8岁,进行同一实验,平均每句使用12个单词,标准偏差2.7 。
这个实验属于因变量样本t检验(Dependent-samples t-test),也属于纵向试验(Longitudinal)。
其中,儿童的年龄时自变量,平均每句使用的单词数是因变量。
实验中可能的零假设是从4到8岁,儿童的词汇量不变。可能的对立假设是儿童的词汇量显著增加。根据这些假设,我们应采用单尾检验。
样本量为1000,自由度为999,$\alpha=0.05$级别的单尾验证的临界值的1.646。
如果从这两个样本抽象出一个新的正太分布,新的平均值是$x_D=\bar{x}_2-\bar{x}_1=12-3=9$,新的标准偏差是$S_D=\sqrt{S_1^2+S_2^2}=\sqrt{1.2^2+2.7^2}=2.955$。
使用刚刚计算出来的$\bar{X}_D$和$S_D$,计算t统计量。$t=\frac{\bar{x}_D-0}{S_D/\sqrt{n}}=\frac{9-0}{2.955/\sqrt{1000}}=96.32$。
对t统计量和临界值进行比较,我们应该拒绝零假设。

效应量(Effect Size)

调查研究的一个重要方面是效应量。
在试验研究中,或存在处理变量的研究中,效应量是指处理效应的大小。
在非试验研究中,效应量是指变量之间的关系强度。
在z检验和t检验中,最简单的效应量衡量是均值差异。
在z检验或单样本t检验中,均值差异等于$\bar{x}-\mu$。当变量的含义很容易明白时,均值差异很有用。

效应量度量的类型

差异度量

  1. 均值差异,
  2. 标准化差异。常用的标准化差异度量是Cohen’s d 。

相关度量

  • $r^2$,表示某个变量的变化比例,也就是两个变量的相关性

统计显著性

统计显著性,表示我们拒绝零假设,还表示我们的结果不太可能是偶然发生的(或者抽样错误导致的)。

在判断某个调查研究结果是否有意义时,我们从下面几方面入手:

  1. 我们度量什么?
  2. 效应多大?
  3. 在解释时能排除随机因素?
  4. 能排除潜在变量?

Cohen’s d

是标准化的均值差异,先算出均值差异,再做一个归一化,即除以样本的标准偏差。
$d=\frac{\bar{x}-\mu}{S}$

$r^2$

相关度量中的$r^2$,是表示两个变量之间的关系程度,有时也称为确定系数(coefficient of determination)。比例范围从0到1,表示关系强度。0表示完全没有关系,1表示完全相关。
$r^2=\frac{t^2}{t^2+df}$,这里的t是从检验中获取的值,不是临界值。

报告结果

依次包含以下内容

描述统计量(M,SD)

形式可以是

  • 文本
  • 图表
  • 表格

推论统计量

可以是假设检验,也可以是置信区间,也可以是两者。

假设检验
  • 执行的那种检验,例如单样本t检验
  • 检验的统计值,例如t值
  • 检验的自由度
  • p值
  • 检验的方向,例如单尾检验,双尾检验
  • 做出决策时使用的$\alpha$水平

对于很多学科,我们使用APA(美国心理学会) style来报告假设检验的结果:
t(df)=x.xx,p=.xx,direction
例如,t(24)=-2.50,p<.05,one-tailed

置信区间

  • Confidence level,例如95%
  • 下限
  • 上限
  • 是什么的CI,也就是置信区间的用途,能给我们带来什么信息。是单个均值的置信区间还是两个均值之间的差异的置信区间。

APA style来报告置信区间:
关于均值差异的置信区间;95% CI=(4,6)

度量的效应量

可以是Cohen’s d,也可以是$r^2$,也可以两者都有。
APA style来报告:
d=x.xx
$r^2=.xx$
例如:
d=0.25
$r^2=.17$

一个完整的单样本t检验

所用到的公式:
自由度,df=n-1
均值的标准误差,表示样本均值与真实的总体均值平均相差多少。等于样本的标准偏差除以样本量的平方根,$SEM=\frac{S}{\sqrt{n}}$
单样本t检验,等于样本均值减去总体均值,再除以均值的标准误差,$t=\frac{\bar{x}-\mu}{SEM}$
误差界限,等于t临界值乘以均值的标准误差,Margin of error = t critical * SEM
置信区间,等于样本均值加减误差界限,$CI=\bar{x}\pm Margin Of Error $
Cohen’s d ,表明对于n的样本来说,d% 的因变量差异是由调整带来的。等于均值差异除以样本的标准偏差,$Cohen’s d=\frac{\bar{x}-\mu}{S}$
$r^2=\frac{t^2}{t^2+df}$

案例

研究法律的效力,该法律对开车使用手机进行处罚。统计实施该法律前一年,及实施后一年,开车使用手机引发的交通事故数量。他们预想,该法律会降低开车使用手机所引发的交通事故数量。

研究类型

属于 Dependent-samples t-test 和 Pre-test,post-test

dependent variable因变量

开车时使用手机引发的交通事故数量

treatment自变量

处罚开车时使用手机者的法律

零假设

开车时使用手机所引发的交通事故数量没有显著变化

对立假设

开车时使用手机所引发的交通事故数量显著降低

t检验

单尾检验,负方向

误差分数

这里有两列数字,一列实施法律前一年,10个州因开车使用手机所引发的事故数量。另一列是法律实施后一年,10个州因开车使用手机所引发的事故数量。
用后期检验减去预期检验,算出平均值

t临界值

在$\alpha=0.05$时的t临界值是-1.833

标准误差

Standard deviation of the differences 标准偏差是$S_D=1.33$
Standard error of the mean 标准误差是$SEM=\frac{S_D}{\sqrt{n}}=\frac{1.33}{\sqrt{10}}=0.42$

t统计量

$t=\frac{\bar{x}-\mu}{SEM}=\frac{-3}{0.42}=-7.13$

决策

根据t-statistic和t-critical的值,我们认为结果有统计上的显著性。
所以我们应该拒绝零假设
因为p<0.05

Cohen’s d

$Cohen’s d =\frac{\bar{x}_{pre}-\bar{x}_{post}}{S_{pre-post}}=\frac{-3}{1.33}=-2.26$

置信区间

误差界限=$t critical \times SEM$,这里t临界值要使用95%的区间,自由度是9,t临界值是2.262,$2.262 * 0.42=0.95$
$CI: \bar{x}_D\pm 0.95=-3\pm 0.95=(-3.95,-2.05)$

独立样本

相依样本(重复测量)

受试者内的设计

  • 两种条件,这两种条件可以是对照组和处理组,或两种处理类型
  • 纵向设计,在一个时间点测量该变量,然后在另一个时间点再次测量该变量,看变量是否有变化
  • 预期检验,后期检验,

优势

  • 控制个体差异。对某人实施某一处理措施,下次再实施同一处理措施,同一人还是会出现相同的差异
    • 使用更少的受试者。
    • 成本更低
    • 花费时间更少
    • 花费更少

劣势

  • 残留效应。第一次测试数学后,学生的数学能力会增强。第二次再次测试数学的时候,就不知道结果是否会受到第一次测试的影响。
  • 顺序会影响结果。第一次吃了一个药丸,第二次又吃了一个药丸,不知道这两个药丸是否会相互作用,按照这种顺序服用的话会影响结果。

独立样本

受试者之间的测试。需要更多的受试者。优势和劣势刚好和相依样本相反。
需要随机选择两组受试者来接受两种处理措施。需要更大的样本量来控制样本差异。

  • 实验性检验
  • 观察检验

样本误差

$t-statistic=\frac{Difference between means}{standard error}$
这里,standard error 标准误差的计算方法变了,是一个正太分布减去另一个正太分布所获得的新的正太分布数据。
这里,用均值$\mu_1$和标准偏差$\sigma_1$来表示正太分布数据。
$N(\mu_1,\sigma_1)-N(\mu_2,\sigma_2)=N(\mu_1-\mu_2,\sqrt{\sigma_1^2-\sigma_2^2})$
新数据集的标准偏差
$SD=\sqrt{S_1^2+S_2^2}$
我们可以看出,新数据集的标准偏差,要大于单个数据集的标准偏差。
对于t检验,标准误差是 $ standard error=\frac{S}{\sqrt{n}}=\frac{\sqrt{S_1^2+S_2^2}}{\sqrt{n}}=\sqrt{\frac{S_1^2+S_2^2}{n}}=\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}$
自由度$df=(n_1-1)+(n_2-1)=n_1+n_2-2$

例子-餐厅价格

对比两个地方的餐饮店,看是否有价格差异。

要比较两个样本,需要哪些数据

  • 样本的均值
  • 每个样本的大小
  • 样本的标准差

样本的均值

两个样本的均值是 $\bar{x}_G=8.94,\bar{x}_W=11.14$

样本的标准偏差

两个样本的Sample Standard Deviation标准偏差是 $S_G=2.65,S_W=2.18$ 。这里因为将两家餐厅作为两个样本看待,所以要除以n-1,而不是n。Bessel’s correction。电子表格中公式stdev(a1:a11)可以计算样本的标准偏差。

均值的标准误差

Standard Error of the mean 标准误差SEM是 $S_{\bar{x}_G-\bar{x}_W}=\sqrt{\frac{S_G^2}{n_G}+\frac{S_W^2}{n_W}}=0.85$。这个标准误差,是两家餐厅的用餐费用的预期差异,所以写成$S_{\bar{x}_G-\bar{x}_W}$,但是也可以写成SE或SEM。

t统计量

t统计量,$\frac{\bar{x}_G-\bar{x}_W}{S_{\bar{x}_G-\bar{x}_W}}$ 和 $\frac{\bar{x}_W-\bar{x}_G}{S_{\bar{x}_G-\bar{x}_W}}$ 都是计算t统计量的公式,只是正负数而已。我们这里使用的是双尾检验,所以t统计量是正是负都没关系。上面两个公式算出$t=\pm 2.59$。

双尾检验的t临界值

这里的自由度是 $Degrees of freedom = n_G+n_W-2=30$
$\alpha=0.05$级别的双尾检验的t-critical是 $t-critical=\pm 2.042$

决策

因为t统计量在$\alpha=0.05$级别的双尾检验的上尾和下尾区域内,所以我们认为两家餐厅的价格在统计上有显著差异。所以要拒绝零假设。
从t值表中我们可以看出,t=2.58,DF=30的P值在0.005和0.01之间。从GraphPad上可以算出,P值是0.0150。这个值确实要比$\alpha=0.05$低。

例子-药物

治疗粉刺的药物A,在受试者脸上做实验,四周后统计祛除粉刺的情况。药物B也在另外几个受试者脸上试验。
$\bar{x}_A=33.5\%,S_A=8.89\%$
$\bar{x}_B=31.2\%,S_B=10.16\%$
$H_0:\mu_A=\mu_B$
$H_A:\mu_A\ne \mu_B$

t统计量

$t=\frac{\bar{x}_A-\bar{x}_B}{\sqrt{\frac{S_A^2}{n_A}+\frac{S_B^2}{n_B}}}=0.4$

t临界值

这里的自由度是 $Degrees of freedom = n_G+n_W-2=6+5-2=9$
$\alpha=0.05$级别的双尾检验的t-critical是 $t-critical=\pm 2.262$

决策

根据我们的t临界值和t统计量,0.4没有落在上尾和下尾的区域中,我们认为在统计上没有显著差异,应该接受零假设。

例子-男性鞋子多还是女性鞋子多

$n_F=7,n_M=11$
$\bar{x}_F=33.14,S_F=18$
$\bar{x}_M=31.36,S_M=34.27$
$H_0:\mu_F=\mu_M$
$H_A:\mu_F\ne \mu_M$

标准误差

$Standard\ Error =\sqrt{\frac{S_F^2}{n_F}+\frac{S_M^2}{n_M}}=15.73 $

t统计量

$t-statistic=\frac{\bar{x}_F-\bar{x}_M}{SE}=0.96$

决策

这里的自由度是 $Degrees of freedom = n_G+n_W-2=7+11-2=16$
$\alpha=0.05$级别的双尾检验的t-critical是 $t-critical=\pm 2.12$
根据我们的t临界值和t统计量,0.96没有落在上尾和下尾的区域中,我们认为在统计上没有显著差异,应该拒绝零假设。

置信区间

男性和女性拥有鞋子数量的真实差异的置信区间,$CI:\bar{x}\pm t * SE$
这里,$\bar{x}$的取值是$\pm15.14$,t临界值的取值是$\pm2.12$,SE的取值是15.73
女性减去男性的话,置信区间是(-18.19,48.47)

性别与鞋子

男女所拥有的鞋子数量的差异,有多少比例可以归因于性别?
也就是平均只差异15.14中,有多少可以解释为某些人是男性,某些人是女性?用下面的公式
$r^2=\frac{t^2}{t^2+df}=0.0548$
即5.48%的差异,是由性别造成的,剩下的94.52%可以解释为其它因素,我们不确定是什么,需要展开其它统计学检验才能查明。

合并方差

如果两个样本的样本量不同,我们需要通过合并方差,来纠正样本量
$S_P^2=\frac{SS_1+SS_2}{df_1+df_2}$
比如有两个样本,
X=5,6,1,-4
Y=3,7,8

$SS_X=\sum{(x_i-\bar{x})^2}=62$
$SS_Y=\sum{(y_i-\bar{y})^2}=14$
$Pooled\ variance=S_P^2=\frac{SS_1+SS_2}{df_1+df_2}=\frac{62+14}{5}=15.2$
$Standard\ error=S_{\bar{x}-\bar{y}}=\sqrt{\frac{S_p^2}{n_1}+\frac{S_p^2}{n_2}}=\sqrt{\frac{15.2}{4}+\frac{15.2}{3}}=2.98$
$t-statistic=\frac{\bar{x}-\bar{y}}{S_{\bar{x}-\bar{y}}}=\frac{2-6}{2.98}=-1.34$

$\alpha0.05的t-critical=\pm 2.571$
所以我们接受零假设。

T-test的假设

  1. X和Y应该是来自两个独立总体的随机样本
  2. 总体的分布应该是正太分布。
  3. 样本数据可以用来估计总体方差
  4. 总体方差应该大概相等
Site by Reinhard Hsu using Hexo & Random

Hide