多层模型的充分样本容量分析外文翻译资料

 2022-07-07 01:07

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


多层模型的充分样本容量分析

Cora J. M. Maas and Joop J. Hox

Utrecht University, The Netherlands

摘要

在多层模型中一个很重要的问题就是,为了准确估计参数需要怎样的充分样本容量.在多层分析中,主要问题存在于高层样本容量。在本文中,模拟研究了在水平层次上不同的样本容量对估计参数(回归参数以及方差)以及他们的标准差的精度影响。此外也研究了其他因素的影响如一层样本容量和不同水平的异方差分布(组间相关系数)。结果显示第2层(平均样本数不高于50)仅有小样本容量导致回归系数的有偏估计。在所有的模拟条件下,回归参数的估计、方差分量、标准差都是无偏的和准确的。

关键字:多层模型 分层线性模型 样本容量 分层抽样

背景介绍

社会和组织经常研究个体与与他们归属的群体和组织的关系。 大概说来个体与社会互动,因此个体都被他们隶属的社会群体所影响, 反子群体的性质也被组成它的个体所以影响。 一般而言,个体和社会群体被论为是个体和全体组成的层次系统 ,并且个体和群体分别定义为系统的不同层次。

这样的系统在不同层次被观测,因此能够产生对不同层次的带变量的数据。 这导致的研究和分析个体的变量与描述群体的变量问题之间的关系的问题产生。这类研究现在已被广泛的认为多层研究。现在研究多层数据存在多个研究方法;总体而言,我们参考了 Klein and Kozlowski (2000)。 在分析方法中重要的一类是分层线性回归模型或者多层回归模型。

正如Cohen and Cohen (1983) 表明,普通多元回归模型大量的使用了虚拟编码喂分类变量,它像普通多元回归模型一样能够被用于方差分析模型(ANOVA)。 这些分类变量能够进行多层次回归分析,并且是多层回归模型必要的扩展。 此外在机构调查中,层次被定义为个体和个体所属群体的、且有着显着差异的水平, ( Bryk amp; Raudenbush, 1989), 纵观数据里层次被定义为多个个体的测量值,而多水平回归分析被应用于这类数据(Raudenbush, 1989; Snijders, 1996). 对于分层数据的多层模型的大概介绍,我们参考了 Snijders and Bosker (1999), Heck 和 Thomas (2000), Raudenbush and Bryk(2002), and Hox (2002).

通常上,多层分析中极大似然估计是渐进无偏的, 预设样本容量足够大。这引起了关于样本容量的最低可接受下限,参数的精确度以及标准差 的问题。在多层研究中,主要问题通常是群体中的样本容量, 因为群体的样本数量总是小于个体的样本数量 ,增大群体的数量由于两个显着的理由总是很困难的:第1,成本加大。扩大样本中的个体数量意味着在更多的抽样机构中收集更多的个体。扩大样本中机构的数量意味着需要研究更多的机构。或者花费的成本比前者更高。第2,我们在我们研究中已经有了存在的机构。如果目标是瑞士的组织行为如何受到不同州的特点影响,26个州层次上样本容量的极限。

在本文表明群体层次上的样本容量应该普遍比总样本容量重要,而个体层次上的样本容量部分弥补了一小部分群体,至今几乎没有模拟表明 这一点。可是,这些研究采用了不同的方法,并且还需要对多层样本容量要求进步分析。 在这篇论文中,在不同的群体数和个体数下,我们使用模拟来检验估计参数的精确性和对应的标准差。并且在下节中会对模拟设计做进一步的说明,包括多层回归模型的叙述和回顾当今存在的模拟研究。

多层回归模型

假设我们获得个群体的数据,每个群体的数量是,在受访者层面,我们我们有群体受访者结果,我们得受访者层面的解释变量 以及群体层面的解释变量. 为了将这些数据建模,我们在每个群体里建立回归模型:

(1)

回归系数 的方差 由群体层次的回归模型推出:

(2)

(3)

个体层次的残差假设服从均值为零方差为 的正态分布。群体层次的残差和 假设服从均值为0与个体残差独立的多元正态分布 。残差的方差记为 ,残差 and 的方差记为和。 模型能被写为将式子2和式子3替换式子1的一元回归模型,整理式子得:

(4)

式子4中的部分包含了所有的固定效应;他是模型的固定部分,式子4中的包含了所有的随机误差项;他是无形的随机部分。是模型的交互项,表示受访者层面解释变量与群的层面变量回归系数。

尽管分析包括了底层次的变量,多元标准差并不准确。由于群体性数据违反了所有的观测值都相互独立,多层模型仍然适用。变量之间的依赖程度被量化为组间相关系数(ICC),在多层模型,组间相关系数被估计为

(5)

是模型并没有解释变量Y的任何方差。它仅仅将Y的方差分解为相互独立的两个部分:低层次的方差和高层次的方差。使用此模型组件相关系数可得

(6)

除了不同层次的样本容量,ICC的大小同样会影响估计值的精确度 (Goldstein, 1995)。因此在我们模拟中,我们同时改变样本容量的大小和ICC的大小。一般而言,在多层模型中不仅受到ICC的影响,而且也受到设计效应的影响,他表明相比于随机抽样在复杂抽样中背低估的标准差 (Kish, 1965) , 在分层抽样中,设计效应接近于1 (平均层数-1)times;ICC。 Mutheacute;n and Satorra (1995) 认为多层模型的设计效应为2,在我们的模拟中,认为设计效应大于2,选取不同的群体大小与组间相关系数。

至今,已经讨论了抽样的三个可能影响参数的主要性质:群体数量,第1层次的数量,组间相关系数,以及估计方法。多层模型大多数使用极大似然估计,主要有full ML (FML) 和 restricted ML (RML) (for a description of these, see Hox, 2002),两者之间的差别是后者将固定相应的似然函数最大化 (Goldstein, 1995). 因为 RML考虑了在估计随机参数时的固定效应的不确定性,理论上他应该得出更佳的方差分量,尤其当群体数量较小时(Raudenbush amp; Bryk, 2002).

现行样本容量研究的回顾

在这个课题上有较多的模拟研究,主要集中于各层为小样本容量时固定和随机参数估计值的精确度。相对而言较少研究了标准差的精确度。多数模拟研究仅仅进行了在渐进无偏下置信度检验和置信区间的收敛:标准差被认为服从标准正态模型从而得出P值和置信区间。其他方法可能对小样本有效,石在多层软件中并不适用;以上这些方法将在随后讨论。

利用标准差来检验方差不能达到最佳的效果,因为他预设了变量服从正态分布,由此原假设方差为0 是在可允许的参数空间内进行的,然而标准的是似然理论并不适用。大量的替代方法被提出(cf. Berkhof amp; Snijders, 2001, for a review). 由于使用渐进无偏的标准差被广泛使用于方差检验,我们也采用这种方式 并且分别讨论了固定和随机部分的相貌问题。

回归系数及其标准系数的精确度

回归系数的估计对于普通线性回归和广义线性回归以及极大似然估计一般而言是无偏的。(Van der Leeden amp; Busing, 1994; Van der Leeden, Busing, amp; Meijer, 1997). 普通线性回归估计值 较不充分; Kreft (1996)分析了 Kim (1990),发现普通线性回归估计值百分之90都是充分的。Van der Leeden and Busing (1994) and Van der Leeden et al. (1997)的模拟表明即使正态假设与大样本容量并不满足, 似然估计的固定效应标准差仅有一小部分偏差。大体上而言群体数量的增多比个体数量的增多更重要。

方差分量及其标准系数的精确度

低层次的估计方差一般都很准确, 石评价城市的方差分量有时却被低估。由Busing (1993) and Van der Leeden and Busing (1994) 模拟表明 未得到准确的群体层次方差需要充足(more than 100) 的群体数量 (cf. Afshartous, 1995).

由 Van der Leeden et al. (1997)的模拟表明估计方差偏量的标准差大体都偏小, Rml优于Fml而估计参数的对称的置信区间效果并不好。当alpha水平为9%处于48-50的群体数为8%,Browne and Draper (2000)发现了相同的情况,尤其群体数目处于24–30。同样大量的群体数量似乎比群体内的个体数更重要。

仿真设计

仿真模型及步骤

由公式4,我们使用一个简单的两层模型,其中一个解释变量在个体层面和一个解释变量在群体层面,

(4 repeated)

模拟研究了三种情形:(1)群体数量,(NG: three conditions, NG30, 50, 100), (2)群体大小(GS: three conditions, GS 5, 30, 50), 和 (3)组间相关系数(ICC: three conditions, ICC 0.1, 0.2, 0.3).根据Van der Leeden(1997年)等人的模拟,组的数量应该足够。 在操作中,50个群体是机构、学校中经常出现的数量,而30是Kreft和De Leeuw(1998)的最小可接受的数字。 同样,组的大小应该足够。 在教育研究中,30人的群体大小是正常的,并且在家庭研究和纵向研究中群体大小为5的群体大小是正常的,其中测量时机形成最低水平。 ICCsspan是ICC系数的习惯范围(Gulliford,Ukoumunne,&Chinn,1999)。

有27种情况,对于每一种情况,假设残差正态分布,我们生成的1000个模拟数据集 。多层回归模型,就像它的单层回归模型一样,假设解释变量是固定的。因此,从标准正态分布生成一组X和Z值,以满足总样本量最小的模拟条件的要求。在样本量较大的情况下,重复这些值。这确保了在所有模拟条件X和Z的联合分布是相同的。对于所有的回归系数,规定如下:对于截距为1.00,对于所有回归斜率为0.3(中等效应尺寸;参见Cohen,1988)。最低水平的残差方差是0.5。 由式(6)可得其由ICC和决定,busing(1993)表明截距方差的影响和斜率方差是相似的;因此,我们选择将的值设置为。 为了简化仿真模型,假设两者之间的协方差,u项等于零。

两种ML函数在多层参数估计中很常见:FML和RML。 我们使用RML,因为这几乎总是和FML一样好,有时更好,特别是在估计方差分量时(Browne,1998)。 软件MLwiN(Rasbash等人,2000)被用于仿真和估计。

结果

收敛与奇异结果

估算程序汇总所有27,000个模拟数据。 MLwiN估计过程有时会导致负方差估计。这种结果是不可接受的,通常的做法是将这种估计限制在零边界值。 然而事实上,所有27,000个模拟数据集仅产生可接受的解决方案。

参数估计

固定参数估计值,截距和回归斜率具有可忽略的偏差。 平均偏差小于0.05%。 在样本量最小和ICC最高的情况下,发现最大偏差:相对偏差百分比为0.3%。 这当然是非常小的。 此外,在模拟条件下偏差没有统计学显着差异。

随机参数的估计值,方差分量也具有可忽略的偏差。 平均偏差小于0.05%。 在样本量最小和ICC最高的情况下,发现最大偏差:相对偏差百分比再次为0.3%。 而且,模拟条件下的偏差在统计学上没有显着差异。

标准差

为了评估标准误差的准确性,对于每个模拟数据集中的每个参数,使用渐近标准正态分布建立95%置信区间(参见Goldstein,1995)。 对于每个参数,如果真实值处于置信区间中,则建立等于零的发散指示符变量,并且如果真值在置信区间之外,则等于1。 组数的影响在表1中列出了发散范围的情况,表2列出了该组的规模对发散范围的影响,表3列出了ICC对发散范围的影响。Logistic回归用于评估不同模拟条件的影响 在发散范围上,这在表1,2,3中被报告为每个结果的p值(表中的最后一列)。

table1关于群体数量在95%自信区间的发散

全文共12668字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[10087],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。