大多数的GIS分析任务关注于现象发生的
位置,而回归分析关注于现象发生的
原因。这个系列将对GIS中最常用的回归工具进行介绍,包括普通最小二乘回归,
探索性回归分析,地理加权回归和多尺度地理加权回归,结合理论与实践帮助大家掌握GIS中的回归分析工具,了解基础的回归分析知识,并且深入学习GIS软件如何从
地理的角度优化回归任务的。
另外不同于大多数从机器学习的角度对回归分析进行讲解,需要花费额外的时间和精力学习机器学习的相关术语(样本、特征以及样本空间等)本系列文章以
GIS的视角进行讲解,并且所有的内容直接
基于Geoscene Pro的环境就能进行测试和学习,不再需要其它的编程软件。
一、基础回归分析知识
首先对回归分析的基础知识进行介绍,包括
自变量,因变量,系数以及回归方程。随后我们讨论最简单的线性回归任务,并且使用最小二乘的思路进行解决,最后我们将其推广到更复杂的多元线性回归中。
因变量(y)
我们通过建模最终
想预测的内容,比如我们想通过一些数据预测某个地区的房价,房价就是因变量。
自变量(x)
也叫
解释变量,是我们在预测因变量的过程中使用的数据,比如我们可以通过房间数量,距市中心远近以及房屋年龄等对房价进行预测,此时房间数量,距市中心远近以及房屋年龄就是自变量。
回归方程
通过一个
等式来将自变量和因变量连接起来,并解释他们之间的关系。
系数(β)
回归方程中表示解释变量和因变量之间
关系的强度和方向的数字,该系数可帮助您确定每个自变量如何导致了房价的变化。
二、简单线性回归
简单线性回归简单线性回归是指
只有一个因变量的回归问题,这样做肯定会导致非常大的误差,但是作为最基础的线性回归问题,
求解相对简单并且通过对简单线性回归的研究,我们可以轻松的将简单线性回归的结论
推广到多元(升维)线性回归,以解决更加复杂的问题。
很明显对于上面房价和房间数量之间的关系,我们可以通过一个直线方程来描述,那么这个直线方程的形式就应该是,下面这种形式,我们求出系数a和截距b后,对于任意的房间数量我们都可以通过上面的线性方程进行预测。那么我们
如何求出a和b呢?
三、最小二乘
最小二乘法是找到
一组参数,使得模型预测值与观测值之间的
误差平方和达到最小,从而得到对数据的最佳拟合。对于我们的简单线性回归,是非常适用的。
这里没有展示详细的推导过程,那不是我们关注的重点,并且网上的资料也非常多,我们需要知道的是,最后a和b的等式中已经没有了未知值了,通过我们的已知数据即可求出a和b
注意:为什么是平方和
我们其实是想要找到一组参数,使我们预测值和观测值之间的
误差最小,那么为什么选择平方和呢?
四、多元线性回归
多元线性回归我们预测房价不可能只用房间数量进行预测,这样子误差会非常大,我们通常会选择
多个因变量进行预测,比如再加上房屋年龄,距市中心距离等等,但是我们可以套用简单线性回归的思路,使用
最小二乘法,并进行
升维处理即可。那么具体怎么升维呢?
上面是之前简单线性回归的解决思路,我们将其一步一步升维到多元线性回归
4.1 x由值变为向量
之前是使用房间数量预测房屋价格,现在使用房量、距市中心距离和房屋年龄,那么之前的
一个数字就会变成一个向量。这个很好理解。
4.2 系数a和截距b统一为系数
简单线性回归中我们一般吧a和b都有自己的名字,但是到了多元线性回归每一个自变量都会有一个系数用
β表示,并且我们将截距b也叫做系数
β0。
4.3 矩阵运算
因变量有n个,系数却有n+1个(多一个β0),那么我们添加一个x0列另其全等于1,使因变量和系数的个数一样,不会改变等式的结果,并且方便以矩阵的形式进行表示。
最终我们的问题又变成了我们熟悉的形式。
一样的数学推导这里都略过了,不是我们文章的重点内容,大家如果感兴趣可以搜索最小二乘处理多元回归的文章进行查看。
五、 案例
5.1 简单线性回归
相信大家看了这么多公式已经开始头晕了,我们通过一个简单的GIS中的最小二乘回归来实践一下。
受人口数量,教育程度等诸多因数的影响,每个地区的犯罪数量是不一样的,接到的报警电话数量也是不一样的。在这里的案例中我们选择美国的一个区域对
人口数量和911报警电话数做回归建模,分别使用Geoscene Pro中地理处理中的普通最小二乘和我们自己编写的公式去运算,会得到完全一样的结果。

5.2 多元线性回归
多元线性回归也是类似的案例,只不过这次自变量变成了
人口,工作数量,受教育程度较低的人数,距市中心距离四个。

六、下期预告
下期预告目前我们只是了解了使用普通最小二乘解决简单线性回归和多元线性回归问题,但是在
使用工具时应该注意什么呢?另外
工具输出的报表是非常丰富的包含很多内容,我们应该如何去
解读。最后探索性回归分析,地理加权回归和多尺度地理加权回归又对普通最小二乘回归做了哪些
改进,将会在后续的文章中一一解答。