Geoscene Pro 中的普通最小二乘回归

0
分享 2025-03-20
        通过上一篇文章我们可以看到使用Geoscene Pro中的普通最小二乘回归工具和我们自己计算的结果没有任何区别。但是Geoscene Pro中工具输出的内容是非常丰富的,包含一个报表和一个输出要素类,了解了输出的报表和要素类的内容,我们就掌握了Geoscene Pro中的普通最小二乘回归工具。
      输出的报表中最重要的是系数β向量,但是还包含其他内容,这些内容用于确认模型是否可靠,模型的精度如何。我们会一一介绍。
      输出的要素类非常简单我们也会进行简单的介绍。

一、输出报表
      Geoscene Pro中除了计算系数向量β外,输出报表还涉及非常多的指标,包括针对于每个变量及对应系数的指标,以及对整个回归模型的指标,我们这里简单看一下。

一.png

      第一个部分是OLS结果汇总:包含回归模型中每个变量及其系数的多项统计指标,后面会对重要指标的具体含义进行讲解。

二.png

      第二个部分是OLS诊断:包含整个回归模型的多项指标,后面会对重要指标的具体含义进行讲解。

三.png

      最后一个部分是注意事项是对前面两个表中的个别指标做了介绍建议大家详细了解。

二、六项检测
      输出报表的原因是,Geoscene Pro设计了六项检测以验证你的回归模型是否可靠,任何一项检测不通过,那么你得到的回归模型都是不可靠的。让我们结合报表开始检测吧。
 
2.1 解释变量是否有助于您的模型
      这一项的目的是为了确认每一个自变量是否对模型有帮助,首先我们要看Koenker (BP)统计量,该统计量表示数据是否有空间平稳性。
  • 带星:自变量和因变量的关系会随着空间关系的变化而改变(非平稳),需要看Robust_Pr列,确认变量是否有帮助。
  • 不带星:自变量和因变量的关系不会随着空间关系的变化而改变(平稳),就看概率列,确认变量是否有帮助。


四.png

      在我们的示例中,数据的关系是空间平稳的,因此直接看概率列,所有的变量都是对模型有帮助的,通过检测。

2.2 自变量和因变量的关系是否符合预期
      每个系数都有一个符号,可以是正的或负的,以指示每个自变量相对于因变量的方向。系数的正负号不对可能暗示我们的模型出现了问题。

五.png

      在我们的示例中,所有的系数方向都是符合预期的,据城市距离为负,也反映了离市区越远治安越差的真实情况,通过检测。

2.3 是否有任何自变量是多余的
      我们对房屋价格进行回归建模时,是不会将房屋数量和房屋面积同时作为自变量的,因为他们都涉及大小。当一个或多个自变量是多余的(解释同一事物),该问题被称为多重共线性。最佳做法是删除可变膨胀因子 (VIF) 超过 7.5 的变量之一,然后再次运行 OLS 以查看 VIF 是否降低。如果没有,请删除 VIF 高于 7.5 的另一个变量。VIF 越低越好(7.5 是删除解释变量之前允许的最大值)。

六.png

      在我们的示例中,所有的变量VIF取值都是小于7.5的,通过检测。

2.4 模型是否有偏差
      对于没有偏差的回归模型,残差会服从正态分布。有偏差的模型可能缺少关键的解释变量或试图表示非线性关系。我们可以通过绘制残差的直方图进行查看,当然最简单的是直接通过Jarque-Bera 统计量来判断,如果带星说明模型存在偏差,不带星则没有偏差。

七.png

八.png

      在我们的示例中,不管是从直方图还是Jarque-Bera统计量来看,残差都是服从正态分布的,通过检测。

2.5 模型中是否包含所有关键解释变量
      运行 OLS 后,您将看到一条警告,必须进行空间自相关分析。这是因为当模型的残差在空间上出现聚集或者离散时,通常暗示着我们模型缺乏关键的解释变量。

九.png

      在我们的示例中,残差的空间自相关是随机的,通过检测。

注意:
      第四步和第五步的是否服从正太分布,空间自相关是否随机,都是针对残差的,并不是对因变量或任何一个自变量做上述分析。

2.6 模型精度
      有两项指标可以用来衡量我们回归模型的精度。 
  • 调整后的R2:描述了自变量解释了(以百分比表示)因变量的程度。调整后的R2越高越好。
  • Akaike 信息准则 (AIC): AIC 仅适用于分析相同因变量的模型,AIC越低越好。


十.png

      在我们的示例中,R2解释了约84%的因变量,AIC值为683。建议大家尝试一下通过只使用人口进行简单线性回归,并依次次进行六项检测,看一下是否能通过所有检测,并和当前的多元线性结果比较模型精度。

三、输出要素类
      除了报表外,Geoscene Pro的普通最小二乘回归还会输出一个要素类,这个要素类的几何信息和输入数据是一样的没有什么特别的地方,需要注意的是其属性。并且输出要素类默认使用最后一列标准化残差进行渲染。

十一.png

0 个评论

要回复文章请先登录注册