当假设给定后,是给定的,这个时候想要推翻原假设,我们就希望样本的均值足够大,换言之,当样本均值小到趋近正无穷时,对应的 t 统计量也要落到拒绝域内,因此这里的拒绝域的形式应为应该取为。
这种拒绝域的形式其实就是默许了对一类错误进行检验(原假设为真时离比较近),从势函数的角度来看,我们有:
从势函数的角度来看,对为增函数,所以只需保证即可,因此其实上述的检验是在检验显著性水平为的检验。
计算确立的检验统计量在抽样样本上的取值,根据其与拒绝域的关系来决定是否拒绝原假设。
p 值检验可以视为是利用拒绝域进行假设检验的一个补充,前边提到,当给定后,我们的拒绝域也就给定了,但因为拒绝域是用一个区间表示的,这样就存在的一个问题落在拒绝域之外的所有点进行决策时的风险是一样的,但是根据实际情况我们知道,不同的店进行决策时风险度是不完全一致的,这个时候就有必要引入一个叫 p 值的东西来精确地反应决策的风险度,一种比较通俗的理解就是 p 值是利用抽样数据进行决策时用概率衡量的风险度大小(实际的值):
The p-value tells you how often you would expect to see a test statistic as extreme or more extreme than the one calculated by your statistical test if the null hypothesis of that test was true. The p-value gets smaller as the test statistic calculated from your data gets further away from the range of test statistics predicted by the null hypothesis.(p 值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率)。
茆书中的定义:在一个假设检验问题中,利用样本观测值能够作出拒绝原假设的最小显著性水平称为检验的 p 值
这里举一个小小的例子来辅助理解 p 值的真正含义。
对于一个经常会用到的假设检验:
假设我们根据抽样结果构造样本统计量,假设根据给定样本我们算得的检验统计量的值为,那么此时对应的 p 值其实就是:
这里的相当于我们的检验统计量,然后是在原假设成立的条件下根据观察数据算得的检验统计量的值。一般来说上式的准确值是不容易进行计算的,所以一般会用计算机对 p 值进行计算。p 值的大小取决于三个因素:
P-value,则拒绝
与正态分布相比,t 分布更加扁平,相同概率条件下得到的临界值相对较大,这是未知要付出的代价。
随着 n 的增大,t 分布逐渐接近 z 分布,样本量 n>30 时,t 分布与 z 分布已经非常接近了,具备了用 z 分布代替 t 分布的条件。
单个总体比例的假设检验因为总体的方差直接与总体比例相关使得问题的复杂性降低,只需根据样本的容量 n 进行分类即可,这里不再赘述。
在实际检验的过程中还存在一种匹配样本,匹配样本与传统的两组样本也有所区别,因为这两组样本往往来自同一组对象,因此在对匹配样本的分布参数进行检验时,可以将两者来自同一对象的这一特征考虑进去,这可以最大限度减小潜在误差,使得我们的统计检验聚焦于我们关心的问题之上
匹配样本(matched sample)是指一个样本中的数据与另一个样本中的数据相对应。比如,先指定 12 个工人用第一种方法组装产品,然后再让这 12 个工人用第二种方法组装产品,这样得到的两种方法组装产品的数据就是匹配数据。匹配样本可以消除由于样本指定的不公平造成的两种方法组装时间上的差异。
注意独立样本与这种匹配样本的区别,是否来自同一组对象。
对于这样的样本数据,如果存在以下特点,在选择检验方式时会有所区别:
对于这样的样本,在进行假设检验时我们会根据 n 的大小分为以下两种情况: