国有银行不良贷款差异性的空间统计分析研究外文翻译资料

 2022-09-14 04:09

英语原文共 379 页,剩余内容已隐藏,支付完成后下载完整资料


9.4空间自相关检验

既然我们有构造空间权重的一系列方法,那么我们可以开始用他们来测试空间自相关的存在。在所有重要的步骤之前,对假设中的检验进行检查将非常重要;我们将以Moranrsquo;s I为例,但这个结果也适用于其他检验。正如Schabenberger and Gotway (2005,pp. 19–23) 中清楚地解释道,检验假定数据的平均模型清除了数据的系统空间结构。如果我们在检测生态数据时,忽视了环境驱动因素,例如温度,沉淀物或者海拔,就不要惊讶于数据似乎显示出空间自相关(进一步讨论,看Bivand, 2008,pp.9–15)。

这样对平均模型的错误设定并不少见,当观测变量不能正确地列举出来时,这也许是不可避免的。事实上,Cressie(1993,pp442)只讨论了剩余自相关的测试,然后简略地,想通过构造模型的方法实现自相关。

另一个可能出现的问题是我们用于测试的空间权重不是那些生成的自相关——例如我们选择的权重,可能不适合的实际尺度区域实体之间的交互。这是对模型均值模型残差的方差的错误设定的反映,还可以包括对不适合的数据进行分配假设,例如假设同方差性或常规形状参数(例如,偏态和峰态)。这些可以通过改变数据和利用加权估计来解决,但在任何情况下,在解释实际上可能源于错误设定的明显空间自相关上需要谨慎。

空间自相关总体测试的使用覆盖了我们正在追踪的建筑空间权重的空间数据分析文本的更多细节。Waller and Gotway(2004,pp223-226)跟进了把空间自相关的平均模型的错误设定的问题。这是在Fortin and Dale (2005,pp132 - 122)和Orsquo;Sullivan and Unwin(2003,pp180 - 203)中不那么明显的,但他们把更多的空间加入计数统计分类数据。Banerjee et al。(2004,pp73 - 71)像Cressie(1993),比测试模型更关心构造模型。

我们先对Syracuse的人口普查范围进行模拟变量(见Sect.9.3.4)。由于输入变量是随机的正态分布,我们可以通过操作来看不同条件下测试结果会发生什么。Moranrsquo;s I这篇介绍性的讨论被使用在测试中,用来计算的感兴趣变量和空间滞后的比率,使用了感兴趣变量的向量和调整后的空间权重:

其中是第i个观察值,是利息中变量的均值,是联接i和j的空间权重。均值的定心相当于表面正确的模型有一个恒定的均值,任何集中后的剩余模式是空间权重中编码的空间关系所造成的。

表9.2. 五个不同的数据生成过程的Moranrsquo;s I检测结果

Moranrsquo;s I结果整理在表9.2中。第一列包含I观测值,第二个是期望,它是以平均值为中心的minus;1 /(nminus;1),第三列是随机下的统计变量的方差,接着标准偏离(Iminus;E(I))/ var(I),最后测试的p值替代Igt; E(I)。测试结果为不相关的案例(uncorr_x)——在这些权重下没有空间相关性的痕迹。即使一个随机图可以显示空间自相关,我们将是不幸的发现一个模式意外地对应于我们的空间权重只有一个。当检测空间自相关变量时(autocorr_x),它显示,如预期的那样,是对这些空间权重的一个重要的结果。如果我们使用不同于那些用于生成空间自相关(autocorr_xk = 1)的空间权重,I的价值会下降,尽管它意义重大,值得记住,如果生成过程没那么强势,我们可能得出错误的结论基于空间权重的选择而不是匹配实际的生成过程。

gt; moran_u lt;- moran.test(uncorr_x, listw = Sy0_lw_W)

gt; moran_a lt;- moran.test(autocorr_x, listw = Sy0_lw_W)

gt; moran_a1 lt;- moran.test(autocorr_x, listw = nb2listw(Sy9_nb,

style = 'W'))

表9.2的最后两行显示当我们假设一个恒定的均值是错误的时候会发生什么(Schabenberger Gotway,2005,22-23页)。引入一个温和的从西向东上升趋势到不相关的随机变量,我们有一种没有潜在的空间自相关的情况,只是一个简单的线性趋势。如果我们假设一个恒定的均值,我们会得出错误的结论,如表的第四行所示(trend_x)。最后一行显示我们如何回到不相关残差的,通过涵盖均值的走向任何重新得到不相关残差(lm(trend_xsim;et))。

gt; et lt;- coords[, 1] - min(coords[, 1])

gt; trend_x lt;- uncorr_x 0.00025 * et

gt; moran_t lt;- moran.test(trend_x, listw = Sy0_lw_W)

gt; moran_t1 lt;- lm.morantest(lm(trend_x ~ et), listw = Sy0_lw_W)

这显示了空间自相关检测也可以反应均值的错定模型被理解是多么重要,均值函数空间图案变量的遗漏将“看起来像“空间自相关。

9.4.1 全局检测

Moranrsquo;s I– moran.test –是最常见的全局检验,也正是因为这个才继续使用它。其他在spdep包中实现的全局检验包括Gearyrsquo;s C (geary.test()),global Getis-Ord G (globalG.test())和空间一般交叉积的Mantel检验,Mantel检验包括Moranrsquo;s I,Gearyrsquo;s C 和Gearyrsquo;s C 替代形式的Sokal变量检验(sp.mantel.mc())。这些检验都适用于连续变量,moran.test()有个参数用来为已排列的连续变量作调整,即:变量的度量标准按他们的价值来排列而不是按他们的值。也有对类别变量的联合计数检验,这时兴趣变量被看成一个因子(joincount.test()用于同色连接,joincount.multi()用于同色和不用颜色的连接)。

这些统计量可能自身感兴趣,但不是都可以直接判断的。对于一组假设,最常采用的方法是通过减去分析的预期值。并且对已经使用的空间权重用分析方差的平方根初一差值来形成标准的观测值。结果是一个标准的偏差,将它与正态分布比较会得到已经选择的空间权重无空间依赖的零假设下观测值的可能值。通常这些检验只是片面的,它们有替代的假设,观测统计量比其期望值要大很多。

像我们看到的那样,我们的选择决定了检验结果,比如权重的类型和假设的满意程度。似乎蒙特卡洛或与其等价的基于排列的自举检验将会阻止错误的推理,在这检验中兴趣变量的值是随机分配给空间实体的。实际上,因为空间自相关的检验对来自任何地方的兴趣变量的空间模式都很敏感,所以如同我们在前面看到的那样,未必会有一个好的向导来决定数据生成过程。当然有时候也需要根据具体情况特别地调整参数引导或检验,或者对兴趣变量做出更好的说明。

另外一个目前没有很好解决方案的问题是如果一些面实体没有近邻的话检验将如何进行。默认情况下,spdep中的检验函数不接受无近邻实体的空间权重,除非变量policy被设置为TRUE。但是即使分析者接受空间权重矩阵中出现只有零实体的行和列,n的正确大小还是可被看成观测值的数量,或反映出一些观测值真的被忽视了这一事实,例如对于Moranrsquo;s I, 统计量的绝对值将会增加,且它的期望和方差的绝对值也会增加。当制定了自相关的度量方法后,普遍认为所有的实体都将有近邻,所以当一些实体没有近邻时,就不知道该怎么处理。这个问题和地质统计学中变异函数的箱宽和权重的选取是相同的(见Sect 8.4.3)

我们已经使用了纽约州八郡人口普查区数据集来检验近邻列表和空间权重的创建。现在基于 Waller and Gotway (2004, pp. 98,345–353)来介绍数据本身。该数据有281个人口普查区域的观测值,包括已经看到的,与密集小城市地区相比的人口稀少的农村地区。易发性白血病案例的数量按区来记录并聚集于人口普查街区组,但因为一些案例不能被放进去,它们被成比例地添加到其他街区组,由此导致了非整数的计数。尽管有如区域人口数这些人口普查变量可以使用,但1978年到1982年五年间的计数仅有1980年的存在。其他可用的人口普查是平均年龄超过65岁的人口普查和拥有自己家庭的人口百分比。暴露于TCE废料场的度量被表示为从区域图心到最近站点距离倒数的100倍后的对数,在下一章我们会返回到这些协变量。

第一个例子是为了自相关,通过人口普查区域来进行案例数量的检验Waller and Gotway (2004, p. 231),其中使用了行标准化的默认空间权重类型并在计算统计量的方差时使用了随即假设分析。如我们所见,这个例子的结果是兴趣变量的空间格局是显著的,因为不管出于什么原因,附件的区域都很可能有相似的值。

gt; moran.test(NY8$Cases, listw = nb2listw(NY_nb))
Morans I test under randomisation
data: NY8$Cases
weights: nb2listw(NY_nb)
Moran I statistic standard deviate = 3.978, p-value = 3.477e-05
alternative hypothesis: greater
sample estimates:
Moran I statistic Expectation Variance
0.146883 -0.003571 0.001431

改变空间权重的类型以使所有的权重相等且为观测值数量之和,可以看到结果的概率减少了大约20倍。这是因为行标准化适合于邻居少的观测值和近邻多的B,C,U类权重的观测值。这种情况下,S类降落到C类与W类之间。

gt; lw_B lt;- nb2listw(NY_nb, style = 'B')
gt; moran.test(NY8$Cases, listw = lw_B)
Morans I test under randomisation
data: NY8$Cases
weights: lw_B
Moran I statistic standard deviate = 3.186, p-value = 0.0007207
alternative hypothesis: greater
sample estimates:
Moran I statistic Expectation Variance
0.110387 -0.003571 0.001279

默认情况下,moran.test使用随机化假设,通过引进基于兴趣变量峰值的一个修正项,使得随机化假设不同于简单正态假设。当峰值对应于正态分布变量时,这两种假设产生相同的方差,但就像变量偏离常态一样,通过增加方差和减少标准偏离可以使随机化假设得到补偿。这样,两者间区别将很小且返回结果相似。

gt; moran.test(NY8$Cases, listw = lw_B, randomisation = FALSE)
Morans I test under normality
data: NY8$Cases
weights: lw_B
Moran I statistic standard deviate = 3.183, p-value = 0.0007301
alternative hypothesis: greater
sample estimates:
Moran I statistic Expectation Variance
0.110387 -0.003571 0.001282

这里显示正态分布下的标准检验实际上和对模型回归残差的Moran检验一样(包括仅对截距的检验)是很有用的。这里所做的关联显示我们可以引进模型右边额外的,超过截距的变量和可能处理设定误差的其他方式。

gt; lm.morantest(lm(Cases ~ 1, NY8), listw = lw_B)
Global Morans I for regression residuals
data:
model: lm(formula = Cases ~ 1, data = NY8)
weights: lw_B
Moran I statistic standard deviate = 3.183, p-value = 0.0007301
alternative hypothesis: greater
sample estimates:
Observed Morans I Expectation Variance
0.110387 -0.003571 0.001282

使用了相同的结构,我们不使用善于分析的正态假设(Tiefelsdorf, 2002)而使用鞍点逼近法和一个精确的检验法(Tiefelsdorf, 1998, 200

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[145970],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。