致谢:所有数据和方法都源自城市数据派MGWR课程主讲于瀚辰老师
以下是于老师最近发表的相关论文
沈体雁,于瀚辰,周麟,古恒宇,何泓浩.北京市二手住宅价格影响机制——基于多尺度地理加权回归模型(MGWR)的研究[J].经济地理,2020,40(03):75-83.
一、效果图
二、关于MGWR
MGWR(多尺度地理加权回归)是由Stewart Fotheringham教授团队开发,基于Microsoft Windows和MacOS的应用软件,用于校准多尺度地理加权回归(GWR)模型,该模型可用于探索因变量/响应变量与独立/解释变量的空间关系。它结合了广泛使用的对空间异质性建模的方法-地理加权回归(GWR)以及新提出的方法-多尺度GWR(MGWR),它放宽了对所有要建模的过程都在相同空间尺度上的假设。
三、MGWR软件操作
1.软件下载
MGWR为开源免费软件,有需要的同学可以自行下载,也可以公众号后台联系我获取安装包
2.打开数据文件
3.界面展示
截距项(常数项)是指当所有其他变量确定后,地理位置变化(区位)对房价的影响。例如,靠近北京中心截距项高,靠近北京边缘截距项低。从空间地理角度,研究位置(区位)对因变量是否有影响。
注:所有变量名称都要用英文
4.软件参数设置
标准化的优点:回归结果更快,更稳定,系数更可信,常数项地理解释更有含义。
标准化的缺点:标准化后,对除常数项外其余自变量的解释较为复杂,可理解为,基于平均值的某个变量增加一个标准差,会对因变量产生怎样的影响。作者建议,这个需要自己去权衡。
初始值:MGWR需要设定一个初始值,然后再去不断优化初始值,最终收敛于某个值,选择GWR收敛速度更快,所以一般选择这个。
怎么判断收敛?一共有两种准则,SOC-f:前一次回归系数和后一次回归系数相差最大不超过收敛值,更加严格。SOC-RSS:前后两次回归的残差平方和相差最大不会超过收敛值,较宽松。一般选择SOC-f
注:
由于数据量(3000多个数据)过大,不再去探究是否存在空间变异性,不去做蒙特卡洛模拟,局部共线性问题也可不做。
5.得到结果
电脑配置越高,运行速度越快,作者花了15min,而我花了将近30min
运行成功后会得到:一个excel文件和记事本格式文件
四、MGWR结果解读
1.初步结果分析
(1)基础信息描述
(2)GWR初步结果
(3)MGWR初步结果
注:带宽可理解为,估计的点需要使用周围多少个点进行回归。固定带宽:确定一个带宽比如50m,所有区域均采用这个带宽,容易出现有些区域点过于密集,有些区域点过于稀疏。自适应带宽:没有固定的带宽,依据点的个数而定。比如每个区域都用50个点进行回归,可能有的区域仅需带宽50m就能包含50个点,有的区域则需要带宽100m才能包含50个点。
MGWR特点:不同变量不同带宽,就相当于不同尺度,有的接近全局,有的是局部。有效参数个数可为小数,这个是OLS所不能做到的。每个变量有自己的t统计量标准,不一定是和1.96相比,所以回归结果更可信。自由度,数值越大自由度越大,越小自由度越小。对于地理加权回归而言最重要的就是尺度!尺度!尺度!
(4)MGWR基础信息
2.MGWR具体回归结果
会得到一个excel表格,里面包含所有的回归结果
注:最重要的几个值就是t统计量、p值和估计系数
五、MGWR结果可视化
1.分析
需要分别对每个变量的系数进行可视化,采用的方法就是通过arcgis将点和图层结合,并按大小进行分类,本文选择area这个变量进行可视化
2.转化成CSV文件
在excel中将自变量area回归结果中p值小于0.05的部分复制,导入新的excel,并另存为csv格式文件
3.导入到arcgis中
打开arcgis,添加北京城市公路shp和area数据的csv文件
4.显示X,Y数据,更换坐标系
5.使用符号系统进行分类,方法可参照往期推送
ArcGIS学习笔记(五)之自然间断点法
可以发现area回归的系数在空间上的分布特征,具体解读请参考作者发表的论文,本文仅是讨论MGWR操作实现方法。