白话空间统计之八:平均中心和中位数中心

0
分享 2016-01-05
本来应该分成两篇来写的,但是这两种中心的算法和应用都很接近,所以就合并成一篇文章来写了。

昨天讲了中心要素,因为中心要素是要从原来的要素中去选择一个已有的,所以算出来的,与我们观念和感知中的“中心”这个概念,还是差距很大,所以今天来讲讲这两种中心的计算方式和应用范围。

我们来看看三者之间的不同,如下图:


可以看到,计算出来的结果各有不同,首先中心要素我们就不说了,大家有兴趣可以去看看昨天的文章,然后今天要说的中位数中心和算数平均中心,也不是一样的,那么他们分别代表什么样的含义呢?

首先,看看最符合我们感知的整份数据的中心位置是哪个?毋庸置疑,绿色的算数平均中心肯定是最符合我们感官中的中心位置了。从名字上来看,就很容易理解这个“算数平均中心”是如何得来的。

算数平均,从统计学上来说,是描述数据集中位置的一个统计量,可以用它来反映一组数据的一般情况、和平均水平,也可以用它进行不同组数据的比较,以看出组与组之间的差别。

它的计算方法很简单,就是把所有的值都加起来,然后除以他们的个数,就得到了这个平均值。所以按正常情况,这个平均值大多数都不会恰好等于你数据中的某一个值(当然,也有等于某个值的),所以算数平均中心,也会生成一个新的点。

算数平均中心的计算方法也很简单,和所有的空间相关理论都可以直接抛开,直接进行算数计算,这个生成的点的x坐标和y坐标,就是所有点的x坐标和y坐标的平均值,公式如下:

看下面的计算实例:


是不是非常简单?只要有小学2年级的水平,就能够计算出来了,当然,如果每一个点上面还有权重的话,也可以一并加入计算,公式如下:


如果,你是一个三维的点,也就说还有z值的话,也一并加入计算,算法是一样的:


接下去,我们来看看中位数中心。中位数中心和昨天所说的中心要素很像,就是去寻找一个能够均分所有数据为两部分的数,这个数到所有的位置的距离总和最少。

但是,中位数中心和中心要素,最大的不同点在于:中心要素计算出来的结果,必须是要素样本的中的一个原始样本;而中位数中心计算出来的,可以不是原始要素中的一个,可以生成一个新的位置。

但是相对于中心要素的计算,中位数中心的计算方法就复杂很多了。

因为中位数中心没有既定的位置给你,也就是说没有起算点。如果没有起算点,那么理论上就有无数个点可以作为起算点,然后根据遍历的法则,一个个的去计算,去排序,这样系统的开销会变得无限的大。

不过这个世界算有一群很聪(bian)明(tai)的天才,他们有个共同的名字,叫做数学家……在1962年,美国著名数学家,普林斯顿大学的哈罗德.威廉.库恩(一位天才的数学家和计算机理论学家,曾经获得1980年的约翰-冯-诺依曼理论奖)和罗伯特.E.库伦(Kuhn, H. W., and R. E. Kuenne) 两位首次提出。并且在1996年,被美国纽约吉尔福德学院地理学家詹姆斯.E.伯特和杰拉尔德.M.巴伯(Burt, J. E., and G. Barber.)总结归纳,得出了一种优化算法。

这个算法说起来还是比较容易理解的,就是寻找一个候选中位数中心,然后对其进行优化,直到其表示的位置距数据集中的所有要素(或所有加权要素)的距离最小。

这个算法的具体描述,请参考书籍:《Burt,J. E., and G. Barber. (1996).Elementary statistics for geographers.Guilford,New York.》(挖个坑,以后有机会来填,今天就不多说了)

当然,要注意的,虽然我们使用ArcGIS提供的工具,只返回一个点,但是确实有可能,距所有要素的距离最小的位置点(解),会出现有多个。

这两种和中心有关的计算结果,都是表达了对中心趋势的度量情况,但是他们之间也有不同的,那么具体有哪些思想和应用上的不同,继续往下看。

我们都知道,平均值受到极值的影响非常大,把比尔盖茨和9个身无分文的乞丐,塞到一个房间里面,如果算平均数的话,可以说这个房间里面全部都是亿万富豪了。所以很多时候,我们经常饱受“平均”之苦,比如每次都是工资平均增长多,住房面积平均达到多少……每次遇上这种情况,我都会严重的怀疑是我严重扯了国家的后腿还是计算的时候,就压根没把我计算进去呢?

所以算数平均中心也会对极值非常敏感,如下:

加入极值之后,算数平均值会出现明显的向极值的方向移动,然后我们再来计算一下中位数中心,如下:

可以发现,就算加入了极值之后,中位数中心的位移没有算数平均中心位移那么大,就说明了,中位数中心,对极值(异常值)的敏感程度要低于算数平均中心。所以:中位数中心是一种对异常值反应较为稳健的中心趋势的量度。

如果我们需要一个对于空间异常值反应比较稳健的中心趋势的量度值,就可以考虑使用中位数中心。

就像计算火灾发生位置的研究中,我们不希望少数外围火灾使得实际的中心位置远离火灾核心区这样的一种场景,就可以使用该工具计算火灾区的“中位数中心”。

平均中心和中位数中心,都是空间统计中经常用到的工具,它们在研究某一时间的位置运动时候有广泛的应用。

例如:在犯罪分析的研究中,犯罪事件的位置可能遍布整个城区,我们就可以按照不同的时间,对其中一个区间内的数据进行中心点提取,这样就可以有效的了解,整个犯罪事件的位置是否发生趋势性的转移。

或者在对动物迁徙的研究中,可以计算某个区域若干年内的动物(如麋鹿)观测值的平均中心,来确定在不同时间段内,麋鹿会在何处聚集,从而为游客或者研究人员提供更好的信息。
文章来源:http://blog.csdn.net/allenlu2008/article/details/47725713

0 个评论

要回复文章请先登录注册