白话空间统计

白话空间统计番外：再谈P值

0

2016-04-22

P值的计算一直是很多初学者们所纠结的问题。包括虾神我开始学习的时候也是一样……数学是一种科学的语言，追求的就是精确性——连在数轴上纯随机出现的孪生素数都被刷出下限来了，还有什么东西是不能精确识别的？

但是你翻遍整个搜索引擎，发现问“P值计算公式”的帖子也算铺天盖地了，但是从来就是：

某人问：

某大神答：很简单的拉……

某人：

好吧……为了虾神也不被打成星星，今天我们有一个灰常简单的办法来讲讲P值计算的一些事情。

当然，直接通过Z得分，也是可以获取到P值的，因为P值和Z得分一般情况下是成双成对出现的，在正态分布区间中，两端的高Z得分，往往也是跟随者极小的P值。

但是，有的情况下，比如空间分布上面点模式分析随机性的一些计算（样方分析），就完全可以利用P值来进行标识了。

看看下面这个例子：
100个方格，100个点，如果均匀分布的话，应该是这个样子的：

每个格子1个点，均匀分布（在空间统计学里面，有时候随机这个概念与均匀这个概念是通用的，比如下面这种分布：也是100个格子100个点，每个格子一个点……只不过在每个格网内这个点的位置是随机的。

如果说，1个格子正好1个点，那么就计数为1的话，100个格子，每个格子1个点，我们就正好计数为100……这个100如果转换为P值的描述方式，就是100%随机（均匀）。

接下去，我们移动其中一个格网内的点，把它放到另外一个格网里面去：

那么现在只有1个点的格网还剩下98个，另外有一个格网有2个点，有1个格网有0个点……这样，P值就变成了98，也就是98%的情况下是随机（均匀）的。

继续移动，我们会发现，随着点的往已知网格里面不断聚集，随机度会越来越小，最后如果极端情况是这样：

那么其中1个格网为100，另外99个都是0，这样，只有1个点的格网数，就是0了……这样就可以看出P = 0，完全无随机。

当然，根据费舍尔爵士的零假设原则，不需要p = 0,只需要p < 0.05就可以了，那么里面只需要有95个网格的点落进去的个数不等于1，就认为拒绝了零假设。

当然，这个例子是最简单的，当我们的格网数目和点的数据在不断变化的时候，我们的计算就不会这么简单了。所以说，在不同的校验下，P值的计算模式都是不一样的，根据工程学的方法来说，最容易进行的就是模拟计算，所以，业界对P值进行计算，大多数是通过蒙特卡洛模拟来实现了。

而我上面举的这个例子，很多时候也并不成立，比如下面这种情况：

一边50个格子，集中了100个点，每个格子2个……另外一边一个点也没有，都是0，那么这种情况，按照全局样本来看，是P值当然是0，拒绝零假设……但是我们如果仅仅看左半部分，50个格子100个点，每个格子均匀2个——p 值 = 100完全随机。

所以实际上，我上面举的例子，利用平均数来计算这种简单粗暴的方法，在很多时候都会出现各种问题。那么在实际应用和计算过程中，设定全局观察值和观察样本，以及对局部的数据进行观察计算，就非常有必要了。

待续未完。
更多内容，请关注虾神公众号：

文章来源：http://blog.csdn.net/allenlu2008/article/details/51056324

0

2016-04-22

0 个评论

要回复文章请先登录或注册

白话空间统计番外：再谈P值

0 个评论

发起人

相关问题