Geoscene Pro中的探索性回归
分享
我们进行多元线性回归的示例中,选择了总人口、工作人口、低教育人口、距市中心距离进行了回归建模,但是我们在进行建模之前会尽可能多的收集自变量,那么我们如何在非常多的自变量中选择自变量组合才能得到可靠并且精度最高的模型呢?
一、什么是探索性回归
Geoscene Pro的普通最小二乘工具的六项检测确保了我们回归模型的可靠性,但是在自变量特别多的情况下我们要如何快速找到能通过六次检测并且精度最高的模型呢?
我们需要把上面所有可能的组合都创建一次回归模型,并且进行六项检测?那任务量是相当大的。通过前面对六项检测的介绍我们也能看到,除了第二项以外,其它的检测六次都有客观的指标能够帮助我们,那么我们只要能读出这到这些指标就能自动判断了,当然Geoscene Pro也封装了这样的工具,这个就是探索性回归。
二、如何使用探索性回归
Geoscene Pro的探索性回归分析的输入参数都是基于前面的六项检测,帮我们自动筛选自变量的参数组合通过了检测。
其它的参数不用进行过多的解释,大家一看名字就知道该输入什么,唯一值得说的是最大和最小解释变量数。这两个参数的作用是告诉工具自变量的个数范围,比如从2个因变量的组合开始找一直找到8个因变量的组合为止。
注意:因变量数量问题
(1)建议最小解释变量数量取大于等于2
只用一个因变量进行简单线性回归就能通过6项检测的情况非常少,因为大概率会受到未包含所有关键解释变量的限制。
(2)回归模型中的解释变量并不是越多越好
随着解释变量的增加,解释变量之间存在多重共线性的风险也会增加,可能导致模型无法通过检测,模型不可信。
另外增加解释变量对计算成本的消耗也是需要考虑的,在数据量特别大的情况下,如果增加解释变量带来的模型精度提升非常有限,这个时候可以适当的减少解释变量的个数。
三、探索性回归示例
对于探索性回归,我们还是使用之前911报警数量的案例,从前面提到的8个自变量中,找到能通过检测并且精度最高的模型。我们对大多数参数都保留默认值,只是因变量数量是[2, 6]。探索性回归的输出只有一个报表,所以我们搞懂报表的内容也就掌握了探索性回归。
探索性回归的输出只有报表,没有输出要素类,报表主要分为两个部分,我们这里简单介绍一下。
3.1 输出报表摘要部分
我们从8个因变量中,依次选择2个、3个一直到6个自变量进行回归模型的创建,就会有5个摘要。每个摘要中会对调整后R2最高的三个模型和通过检测的所有模型进行概述。
最大调整后的R2模型:给出前三个,这里不管模型是否通过检测,即使是没有通过检测的模型,只要调整后的R2够高就会出现在这里,摘要的这部分更关注于模型的精度。
通过模型:这里就不管模型的调整后的R2有多低,只要通过了检测就会出现在这里。摘要的这部分更关注于模型的可靠性。
(1)8选2摘要
[attach]12670[/attach
精度方面:从8个中选择2个自变量,调整后的R2最高到了0.74,是由工作人口和低教育人口对911的电话数进行预测。
可靠性方面:没有任何2个自变量的组合能够得到,能通过所有6项检测的模型,很有可能缺少关键解释变量的。
注意:探索性回归进行自变量和因变量的关系是否符合预期的自动检测
报表中的摘要部分,每个模型都给出了自变量与因变量关系的方向,原因是自变量和因变量关系是否符合预期的检测探索性回归无法自动完成,所以在可靠的模型中找到精度最高的模型的同时,还要自行判断一下自变量系数的符号是否正确。
(2)8选3摘要
精度方面:从8个中选择3个自变量,调整后的R2最高到了0.80,是由工作人口、低教育人口和距市中心距离构成的模型。
可靠性方面:有3个模型通过了所有六项检测,最高的调整后的R2达到了0.7415。
(3)8选4摘要
精度方面:从8个中选择4个自变量,调整后的R2最高到了0.83,是由人口、工作人口、低教育人口和距市中心距离构成的模型。
可靠性方面:有7个模型通过了所有六项检测,最高的调整后的R2达到了0.8311。
(4)8选5摘要
精度方面:从8个中选择5个自变量,调整后的R2最高到了0.83,是由人口、工作人口、低教育人口、距市中心距离和酒精上瘾人口构成的模型。
可靠性方面:有2个模型通过了所有六项检测,最高的调整后的R2达到了0.7767。
(5)8选6摘要
精度方面:从8个中选择6个自变量,调整后的R2最高到了0.84,是由人口、工作人口、低教育人口、距市中心距离、酒精上瘾人口和人口密度构成的模型。
可靠性方面:没有模型通过所有六项检测。
小结
3.2 输出报表汇总部分
这里是探索性回归中建立的所有模型进行了进行汇总,如果出现尝试了所有的自变量组合都没能得到通过的模型我们可以结合帮助文档查看这一部分,看一下是哪个检测环节,具体哪个自变量出了问题。
(1)已通过搜索条件的百分比
这里需要注意,看一下是哪一项检测通过率较低,我们的示例中有通过六项检测的模型,所以整个探索性回归全局汇总的内容参考意义不大,但是如果出现了没有任何自变量组合能通过六项检测的情况,可以留意是哪项检测的通过率最低。
(2)变量显著性汇总
这里给出了每个自变量是否能通过对模型有显著帮助的检测的通过率,如果没有通过六项检测的模型,可以考虑去掉通过率低的自变量。
这里同时也给出了所有模型中系数符号的占比,对于酒精上瘾人数模型给出的正负号不是很确定,可以进一步深入的研究。
(3)多重共线性汇总
如果没有能通过六项检测的模型,可以考虑去掉有多重共线性问题的自变量,这里可以看到酒精上瘾人数和总人口有多重共线性问题。
(4)残差正态(JB)的汇总
如果没有能通过六项检测的模型,查看这个部分,如果最高的P值都没通过残差正态性的检测,说明可能数据间是非线性关系或数据中存在异常值。
(5)残差自相关(SA)的汇总
如果没有通过六项检测的模型,查看这个部分,如果最高的P值都没通过残差自相关的检测,说明可能缺少关键解释变量。
四、总结
一、什么是探索性回归
Geoscene Pro的普通最小二乘工具的六项检测确保了我们回归模型的可靠性,但是在自变量特别多的情况下我们要如何快速找到能通过六次检测并且精度最高的模型呢?
我们需要把上面所有可能的组合都创建一次回归模型,并且进行六项检测?那任务量是相当大的。通过前面对六项检测的介绍我们也能看到,除了第二项以外,其它的检测六次都有客观的指标能够帮助我们,那么我们只要能读出这到这些指标就能自动判断了,当然Geoscene Pro也封装了这样的工具,这个就是探索性回归。
二、如何使用探索性回归
Geoscene Pro的探索性回归分析的输入参数都是基于前面的六项检测,帮我们自动筛选自变量的参数组合通过了检测。
其它的参数不用进行过多的解释,大家一看名字就知道该输入什么,唯一值得说的是最大和最小解释变量数。这两个参数的作用是告诉工具自变量的个数范围,比如从2个因变量的组合开始找一直找到8个因变量的组合为止。
注意:因变量数量问题
(1)建议最小解释变量数量取大于等于2
只用一个因变量进行简单线性回归就能通过6项检测的情况非常少,因为大概率会受到未包含所有关键解释变量的限制。
(2)回归模型中的解释变量并不是越多越好
随着解释变量的增加,解释变量之间存在多重共线性的风险也会增加,可能导致模型无法通过检测,模型不可信。
另外增加解释变量对计算成本的消耗也是需要考虑的,在数据量特别大的情况下,如果增加解释变量带来的模型精度提升非常有限,这个时候可以适当的减少解释变量的个数。
三、探索性回归示例
对于探索性回归,我们还是使用之前911报警数量的案例,从前面提到的8个自变量中,找到能通过检测并且精度最高的模型。我们对大多数参数都保留默认值,只是因变量数量是[2, 6]。探索性回归的输出只有一个报表,所以我们搞懂报表的内容也就掌握了探索性回归。
探索性回归的输出只有报表,没有输出要素类,报表主要分为两个部分,我们这里简单介绍一下。
3.1 输出报表摘要部分
我们从8个因变量中,依次选择2个、3个一直到6个自变量进行回归模型的创建,就会有5个摘要。每个摘要中会对调整后R2最高的三个模型和通过检测的所有模型进行概述。
最大调整后的R2模型:给出前三个,这里不管模型是否通过检测,即使是没有通过检测的模型,只要调整后的R2够高就会出现在这里,摘要的这部分更关注于模型的精度。
通过模型:这里就不管模型的调整后的R2有多低,只要通过了检测就会出现在这里。摘要的这部分更关注于模型的可靠性。
(1)8选2摘要
[attach]12670[/attach
精度方面:从8个中选择2个自变量,调整后的R2最高到了0.74,是由工作人口和低教育人口对911的电话数进行预测。
可靠性方面:没有任何2个自变量的组合能够得到,能通过所有6项检测的模型,很有可能缺少关键解释变量的。
注意:探索性回归进行自变量和因变量的关系是否符合预期的自动检测
报表中的摘要部分,每个模型都给出了自变量与因变量关系的方向,原因是自变量和因变量关系是否符合预期的检测探索性回归无法自动完成,所以在可靠的模型中找到精度最高的模型的同时,还要自行判断一下自变量系数的符号是否正确。
(2)8选3摘要
精度方面:从8个中选择3个自变量,调整后的R2最高到了0.80,是由工作人口、低教育人口和距市中心距离构成的模型。
可靠性方面:有3个模型通过了所有六项检测,最高的调整后的R2达到了0.7415。
(3)8选4摘要
精度方面:从8个中选择4个自变量,调整后的R2最高到了0.83,是由人口、工作人口、低教育人口和距市中心距离构成的模型。
可靠性方面:有7个模型通过了所有六项检测,最高的调整后的R2达到了0.8311。
(4)8选5摘要
精度方面:从8个中选择5个自变量,调整后的R2最高到了0.83,是由人口、工作人口、低教育人口、距市中心距离和酒精上瘾人口构成的模型。
可靠性方面:有2个模型通过了所有六项检测,最高的调整后的R2达到了0.7767。
(5)8选6摘要
精度方面:从8个中选择6个自变量,调整后的R2最高到了0.84,是由人口、工作人口、低教育人口、距市中心距离、酒精上瘾人口和人口密度构成的模型。
可靠性方面:没有模型通过所有六项检测。
小结
- 在不考虑模型可靠性的情况下,随着自变量的个数的增加,建立的回归模型的精度是会不断提高的(左图蓝线)。
- 但是随着自变量个个数的增加,自变量见多重共线性的风险会增加,导致精度高的模型可能无法通过所有六项检测(右图),最终能通过检测的最高精度降低(左图红线)。
- 对于我们的实验数据而言,选用人口、工作人口、低教育人口和距市中心距离这四个自变量构建的模型是在保证可靠性的前提下,得到的精度最高的模型,同时四个自变量系数的符号也是正确的。
3.2 输出报表汇总部分
这里是探索性回归中建立的所有模型进行了进行汇总,如果出现尝试了所有的自变量组合都没能得到通过的模型我们可以结合帮助文档查看这一部分,看一下是哪个检测环节,具体哪个自变量出了问题。
(1)已通过搜索条件的百分比
这里需要注意,看一下是哪一项检测通过率较低,我们的示例中有通过六项检测的模型,所以整个探索性回归全局汇总的内容参考意义不大,但是如果出现了没有任何自变量组合能通过六项检测的情况,可以留意是哪项检测的通过率最低。
(2)变量显著性汇总
这里给出了每个自变量是否能通过对模型有显著帮助的检测的通过率,如果没有通过六项检测的模型,可以考虑去掉通过率低的自变量。
这里同时也给出了所有模型中系数符号的占比,对于酒精上瘾人数模型给出的正负号不是很确定,可以进一步深入的研究。
(3)多重共线性汇总
如果没有能通过六项检测的模型,可以考虑去掉有多重共线性问题的自变量,这里可以看到酒精上瘾人数和总人口有多重共线性问题。
(4)残差正态(JB)的汇总
如果没有能通过六项检测的模型,查看这个部分,如果最高的P值都没通过残差正态性的检测,说明可能数据间是非线性关系或数据中存在异常值。
(5)残差自相关(SA)的汇总
如果没有通过六项检测的模型,查看这个部分,如果最高的P值都没通过残差自相关的检测,说明可能缺少关键解释变量。
四、总结
- 探索性回归应该运行在使用普通最小二乘回归建模之前,他的核心任务是在多个自变量中找到最佳(满足可靠性的前提下精度最高)的自变量组合,并将最佳模型的摘要和所有可能自变量组合的汇总信息进行返回。
- 最佳模型摘要:这里会将不同因变量数量下,仅精度最高和满足可靠性的情况下精度最高的模型摘要进行返回,帮助我们找到最佳的模型。但是如果要获得模型的所有信息,还需要运行普通最小二乘回归。
- 所有可能自变量组合的汇总信息:探索性回归会在你指定的自变量个数范围内,使用所有自变量的组合创建模型,并将汇总的信息进行返回。分析这部分信息可以指导我们如何调整模型。
0 个评论
相关问题
- GEOScene Pro网络分析-路径-运行闪退
- GeoScene Enterprise 多Server站点部署
- geoscene Pro 2.1 发布地图服务错误问题
- 安装geoscene server2.1报错:code:101,message:安装出现错误,错误代码:1001
- GeoScene中加载三维数据不显示
- 请问我的geoscene pro扩展板块中为什么没有许可,而且我的离线授权为什么不能归还
- 请问大家,如何对同区域的10幅栅格数据图,做空间趋势图?有的人说用栅格计算器一元线性回归,但具体的公式是什么呢?
- 关于回归分析
- 线性回归的空间插值
- geoscene pro无法连接!
- 如何在ArcGIS进行进行空间逻辑斯蒂回归?