P值是用来判定
假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。由R·A·Fisher首先提出。
定义
P值是指在一个
概率模型中,统计摘要(如两组样本均值差)与实际观测数据相同,或甚至更大这一事件发生的概率。换言之,是检验假设零假设成立或表现更严重的可能性。P值若与选定
显著性水平(0.05或0.01)相比更小,则
零假设会被否定而不可接受,然而这并不直接表明原假设正确。P值是一个服从正态分布的随机变量,在实际使用中因样本等各种因素存在不确定性,产生的结果可能会带来争议。
意义
当拒绝原假设时,我们称样本结果是统计上显著的(statistically significant);但是,当不拒绝原假设时,我们称样本结果是统计上不显著的。
在“显著”和“不显著”之间没有清楚的界限,只是在P值越来越小时,我们就有越来越强的证据,检验的结果也就越来越显著。
“显著的”一词的意义在这里并不是“重要的”,而是指“非偶然的”。一项检验在统计上是“显著的”,意思是指这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的。如果得到这样的样本概率P很小,则拒绝原假设。在这么小的概率下竟然得到了这样的一个样本,表明这样的样本经常出现,所以,样本结果是显著的。
但因P值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义。因为假设检验中所说的“显著”仅仅是“统计意义上的显著”。
一个在统计意义上显著的结论在实际中却不见得就很重要,也不意味着就有实际意义。因为P值与样本量的大小密切相关,样本量越大,P值就越小,就越有可能拒绝原假设。如果你主观上要想拒绝原假设那就一定能拒绝它。只要你无限制扩大样本量,几乎总能拒绝原假设。当样本量很大时,解释假设检验的结果需要小心。在大样本情况下,总能把与假设值的任何细微差别都能查出来,即使这种差别几乎没有任何实际意义。
在实际检验中,不要刻意追求“统计意义上的”显著性,也不要把统计意义上的显著性与实际意义上的显著性混同起来。一个在统计上显著的结论在实际中却不见得很重要,也不意味着就有实际意义。
发展史
R·A·Fisher(1890-1962)作为一代
假设检验理论的创立者,在假设检验中首先提出P值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一
总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。当时这一观点遭到了Neyman-Pearson的反对,他们认为假设检验是一种方法,决策者在不确定的条件下进行运作,利用这一方法可以在两种可能中作出明确的选择,而同时又要控制错误发生的概率,这两种方法进行长期且痛苦的论战。虽然Fisher的这一观点同样也遭到了现代统计学家的反对,但是他对现代假设检验的发展作出了巨大的贡献。
Fisher的具体做法是:
假定某一参数的取值;
选择一个
检验统计量(例如z 或Z 统计量) ,该统计量的分布在假定的参数取值为真时应该是完全已知的;
从研究总体中抽取一个随机样本计算检验统计量的值计算概率P值(或者观测)的显著水平,即在假设为真时的前提下,检验统计量大于或等于实际观测值的概率;
若P<0.01,说明是较强的判定结果,拒绝假定的参数取值;若0.01
0.05,说明结果更倾向于接受假定的参数取值。
可是,那个年代,由于硬件的问题,计算P值并非易事,人们就采用了统计量检验方法,也就是我们最初学的t值和t临界值比较的方法。统计检验法是在检验之前确定显著性水平α,也就是说事先确定了拒绝域。但是,如果选中相同的,所有检验结论的可靠性都一样,无法给出观测数据与原假设之间不一致程度的精确度量,即:只要统计量落在拒绝域,假设的结果都是一样,即结果显著。但实际上,统计量落在拒绝域不同的地方,实际上的显著性有较大的差异。因此,随着计算机的发展,P值的计算不再是个难题,成为最常用的统计指标之一。
计算方法
为理解P值的计算过程,用Z表示检验的统计量,ZC表示根据样本数据计算得到的检验统计量值。
左侧检验
P值是当时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即P值
右侧检验
P值是当时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即P值
双侧检验
P值是当时,检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率,即P值