白话空间统计番外:再谈P值

0
分享 2016-04-22
P值的计算一直是很多初学者们所纠结的问题。包括虾神我开始学习的时候也是一样……数学是一种科学的语言,追求的就是精确性——连在数轴上纯随机出现的孪生素数都被刷出下限来了,还有什么东西是不能精确识别的?

但是你翻遍整个搜索引擎,发现问“P值计算公式”的帖子也算铺天盖地了,但是从来就是:

某人问:



某大神答:很简单的拉……



某人:



好吧……为了虾神也不被打成星星,今天我们有一个灰常简单的办法来讲讲P值计算的一些事情。

当然,直接通过Z得分,也是可以获取到P值的,因为P值和Z得分一般情况下是成双成对出现的,在正态分布区间中,两端的高Z得分,往往也是跟随者极小的P值。

但是,有的情况下,比如空间分布上面点模式分析随机性的一些计算(样方分析),就完全可以利用P值来进行标识了。

看看下面这个例子:
100个方格,100个点,如果均匀分布的话,应该是这个样子的:



每个格子1个点,均匀分布(在空间统计学里面,有时候随机这个概念与均匀这个概念是通用的,比如下面这种分布:也是100个格子100个点,每个格子一个点……只不过在每个格网内这个点的位置是随机的。



如果说,1个格子正好1个点,那么就计数为1的话,100个格子,每个格子1个点,我们就正好计数为100……这个100如果转换为P值的描述方式,就是100%随机(均匀)。

接下去,我们移动其中一个格网内的点,把它放到另外一个格网里面去:


那么现在只有1个点的格网还剩下98个,另外有一个格网有2个点,有1个格网有0个点……这样,P值就变成了98,也就是98%的情况下是随机(均匀)的。

继续移动,我们会发现,随着点的往已知网格里面不断聚集,随机度会越来越小,最后如果极端情况是这样:



那么其中1个格网为100,另外99个都是0,这样,只有1个点的格网数,就是0了……这样就可以看出P = 0,完全无随机。

当然,根据费舍尔爵士的零假设原则,不需要p = 0,只需要p < 0.05就可以了,那么里面只需要有95个网格的点落进去的个数不等于1,就认为拒绝了零假设。

当然,这个例子是最简单的,当我们的格网数目和点的数据在不断变化的时候,我们的计算就不会这么简单了。所以说,在不同的校验下,P值的计算模式都是不一样的,根据工程学的方法来说,最容易进行的就是模拟计算,所以,业界对P值进行计算,大多数是通过蒙特卡洛模拟来实现了。

而我上面举的这个例子,很多时候也并不成立,比如下面这种情况:



一边50个格子,集中了100个点,每个格子2个……另外一边一个点也没有,都是0,那么这种情况,按照全局样本来看,是P值当然是0,拒绝零假设……但是我们如果仅仅看左半部分,50个格子100个点,每个格子均匀2个——p 值 = 100完全随机。

所以实际上,我上面举的例子,利用平均数来计算这种简单粗暴的方法,在很多时候都会出现各种问题。那么在实际应用和计算过程中,设定全局观察值和观察样本,以及对局部的数据进行观察计算,就非常有必要了。


待续未完。
更多内容,请关注虾神公众号:


文章来源:http://blog.csdn.net/allenlu2008/article/details/51056324

0 个评论

要回复文章请先登录注册