AMOS问卷数据建模前传【SPSS 052期】

2021年09月15日 阅读数:3
这篇文章主要向大家介绍AMOS问卷数据建模前传【SPSS 052期】,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

1、教学内容

温忠麟
华南师范大学心理学院面试

引言
问卷数据建模的前期工做,就像是一栋大楼的奠定工程,基础越扎实,创建的模型和分析结果越可信。
一样一套问卷数据, 建模前期工做不一样, 可能获得不同的模型和分析结果。
有的原始数据错误什么方法都补救不了检查是否有异常的被试、变量和数值。
若是某个被试在每一个题目的得分都相同或者呈现很规律的模式,则是不合做的被试,应当剔除。
若是题目得分的最大或最小值出如今预设范围以外,须要去检查相应的被试及其缘由。算法

如何形容一我的长得特别漂亮?ide

缺失类型有三种(Rubin, 2004)
彻底随机缺失(MCAR)
随机缺失(MAR)
非随机缺失(NMAR)设计

MCAR指某个变量X缺失的几率与其自己和研究中的其余变量都无关。
MAR指某个变量X缺失的几率与研究中的某个或某些变量有关,但与X自己无关。
NMAR指某个变量X缺失的几率与X自己的取值有关(可能与其余变量也有关)。orm

心理学的研究生考试成绩有三科笔试分数、笔试总分和面试分数,此外还有性别、年龄等人口学变量。
状况1:除了临时生病的外,都参加了考试,则三科笔试分数缺失的几率与数据中的变量都无关,属于MCAR。
状况2:只有笔试分数上线的考生才有资格面试,则面试缺失的几率与面试分数无关,但与笔试分数有关,属于MAR
状况3:最后一科缺失的分数是由于考生以为前面的考试没有考好并且该科很难而弃考,则最后一科缺失的几率与该科和前面的考试分数都有关,属于NMAR。资源

MCAR:缺失数据是能够忽略的,简单地将有缺失的被试删除(列删法,listwise)就能够了MAR:若是对引发缺失的变量与要估计的参数
无关,则缺失数据也是能够忽略的
缺失种类不明,只要缺失数据不多(如5%以内),删除有缺失的被试一般影响不大it

NMAR或MAR:待估参数与引发缺失的变量有
关,缺失是不可忽略的,不能简单地将缺失数据删除,一般的作法是缺失值填补(imputation)。
SPSS和Mplus等软件均提供了多种填补的方法, 包括均值填补、回归填补、EM算法和多重填补
。EM算法和多重填补较好。io

使用经常使用的SEM软件,能够不用填补缺失值,而在程序语句中指明缺失值。软件默认使用全息极大似然估计法(full information maximum likelihood)
加入辅助变量(auxiliary variables)做为数据缺失与否的协变量ast

例如,Mplus程序
DATA: FILE IS ex3.17.dat; VARIABLE: NAMES ARE u y x; CATEGORICAL IS u;
MISSING IS y (99);
ANALYSIS: ESTIMATOR = MLR; INTEGRATION = MONTECARLO; MODEL: y ON x;
u ON y x;form

很多统计方法对变量有正态性假设,于是须要分布检验(检验方法可参见温忠麟,心理与教育统计,2016)。
很多基于正态分布的统计方法都有必定的稳健性,除非数据严重非正态(偏态系数或峰态系数的绝对值超过10),不然数据非正态对结果的影响一般不大。

若是数据严重非正态,首先要考虑样本是否具备表明性,若样本无表明性,则分析结果不能推论到样本之外的情形。
选择合适的估计方法,如极大似然(maximum likelihood, ML)估计基于正态假设,但加权最小二乘(weighted least squares, WLS)无需分布假设
数据变换,但愿变换后的数据是正态或近似正态

即便不拟使用结构方程分析潜变量,而是使用量表得分(均值或总分)进行统计分析, 也须要创建测量模型,使用验证性因子分析(CFA)作量表评价,为后续的统计建模分析奠基基础。

使用现有的或者改编的量表进行测量时,题目与潜变量(因子)的从属关系是已知的, 多维量表的维度(一个维度对应于一个份量表)也是已知的。
因为被试和施测环境的差别,获得的数据未必符合已有的理论模型。

作CFA,用一个符合构念的测量模型去拟合数据。(一个构念作一个CFA,不要所有放在一块儿)
通常认为,CFI 和TLI (NNFI)都大于0.9
(越大越好),RMSEA 和SRMR 都小于
0.08(越小越好),则模型拟合良好。

删除CFA中因子负荷低的题目,将剩下题目作
CFA并报告拟合指数。
从心理测量的角度看,每一个因子的所有题目是测 量该因子的一组表明性样本。删除题目是否适当
,主要经过专业判断删除以后剩下的题目是否还有表明性(因此删除的题目不能太多)。
若是每一个因子剩下的题目还有表明性,仍能够有 效测量所测因子的行为或特质,则删除题目是能够接受的。

若是删除题目以前已经报告CFA拟合指数而且拟合良好,删除题目以后能够再也不报告, 由于删除负荷低的题目,一般老是能够提升模型拟合程度。
最好报告删除题目以后的CFA拟合指数。删除题目后的结果与前人的结果可能没有可比性

多维量表拟合很差——换一个模型试试?
典型的CFA是严格独立分群模型(Independent clusters model, ICM-CFA) 每一个指标只从属于一个因子
若是模型拟合欠佳,能够考虑探索性结构方程模型(ESEM)
,容许跨因子负荷,能够获得比较准确的潜变量关系(麦玉娇, 温忠麟, 2013)。
题外话:数据驱动与探索创新
Wen ZL 17

通常的状况下(题目间的偏差不相关),α 系数是合成信度的下限。
若是α系数高到能够接受(如能力测验0.7以上,人格测验0.6以上),合成信度就能够接受。
若是α系数太低,应当使用CFA计算合成信度。

须要报告每一个维度(份量表)的α系数。 若整分量表分数须要合成总分使用,还应当报告量表的同质性系数,如同质性系数足够
高(0.5以上),说明合成总分有意义(叶
宝娟, 温忠麟, 2012; 温忠麟, 叶宝娟, 印刷中),并报告合成信度。

计算同质性系数的Mplus程序(改编自叶宝娟,温忠麟,2012)
DATA: FILE IS p.dat; VARIABLE: NAMES ARE y1-y8; MODEL: G BY y1-y8*(a1-a8);
F1 BY y1-y4*(b1-b4); F2 BY y5-y8*(b5-b8);
y1-y8 (e1-e8); G@1;
F1@1; F2@1;
G with F1 @0; G with F2 @0; F1 with F2 ®;
MODEL CONSTRAINT: new(H1-H8);
H1= a1+a2+a3+a4+a5+a6+a7+a8; H2= b1+b2+b3+b4;
H3= b5+b6+b7+b8;
H4= e1+e2+e3+e4+e5+e6+e7+e8;
H5= H12+H22+H32+2H2H3*r; H6= H4+H5;
H7= H1
2/H6 !H7等于同质性系数点估计值
H8= H5/H6; !H8等于合成信度点估计值OUTPUT: CINTERVAL;
Wen ZL 21

单因子法(单因子解释的总变异不超过40%, 认为共同方法误差不严重)
推荐引入方法因子进行检验(Podsakoff, Mackenzie, Lee, & Podsakoff, 2003),即创建双因子模型(顾红磊, 温忠麟, 方杰, 2014; 顾红磊, 温忠麟, 2017)
比较引入方法因子先后模型拟合指数的变化例如,CFI和TLI提升幅度不超过0.1,RMSEA和SRMR下降幅度不超过0.05,说明不存在严重的共同方法误差

从单因子模型开始,根据量表内容逐步分离因子;或者从一个量表一个因子的模型开始,根据量表内容逐步合并因子
若是两个或多个量表的题目看成一个因子的题目拟合模型,拟合指数没有明显变差(例如,CFI和TLI下降幅度不超过0.03,RMSEA 和SRMR提升幅度不超过0.01),说明变量区分效度低。

全部题目放在一块儿的单因子模型,应当是拟合最
差的一个。
一个量表一个因子的模型是系列模型(不考虑方 法因子)中拟合最好的,拟合指数应当达到能够接受的标准才能进行后续SEM分析。
若是一个量表一个因子的模型拟合不足,能够考 虑用各变量(量表)的合成分数进行建模(前提是合成信度能够接受。

检验共同方法误差 & 区分效度

使用SEM,样本容量需达到题目(指标) 数量的10倍以上,或者自由参数的5倍以上
(侯杰泰, 温忠麟, 成子娟, 2004)。
打包法可以使指标数据质量变好、模型拟合程度提升,并且估计误差不大,偏差可校订。
程建模(吴艳, 温忠麟, 2011)
打包建模介于高阶因子建模和显变量建模之间

回归分析中,若自变量间相关很高,则可能存在多重共线性问题,致使参数估计出现误差,或者标准误很大,模型失真。
通常各自变量的方差膨胀因子(variance inflation factor, VIF)皆小于5,认为不存在多重共线性问题,VIF小于10说明多重共线性问题不严重(O’Brien, 2007)。

其中,R2是该自变量对其余自变量作回归获得的测定系数(即该自变量的变异被其余自变量解释的比例)。

VIF >5(或10),则

R2超过0.8(或0.9)。

也有文献将1 R2 称为允许度或容忍度
(tolerance),VIF >5(或10)意味着允许度<0.2
(或0.1)。
社科研究不多碰到多重共线性。

中介效应模型中,若中介变量和自变量相关
很高(如高达0.9,此时VIF=5.26),则也有多重共线性问题,影响中介效应和直接效应的估计精确度和稳定性。
调节效应模型中,变量中心化能够减小非本质的共线性问题(温忠麟, 刘红云, 侯杰泰, 2012)。

社科中推论因果关系的三个经典准则是(Cook & Campbell, 1979; 温忠麟, 2017):
因在果以前发生因和果共同变化
排除因果联系外的其余解释

模型反映了变量之间的关系和设定。
对于直接关联的两个变量,多是并列的相关关 系,也多是先因后果的影响关系(一般用箭头表示)。
要求模型中的每一个箭头连结的两个变量的前后顺序都有理论、文献或者生活经验的支持。
题外话:碰到缺少依据的建模直接明说,不要笼统批评数据驱动

问卷研究中如何肯定变量谁先谁后
若是X 是比Y 更加本质的(或者是长久的、稳定的、客观的
)属性,则X 在Y 的前面(温忠麟,叶宝娟, 2014)
颠倒两个变量的顺序,看哪个更容易解释(温忠麟, 2017) 此外,交叉滞后设计(白学军,
2012; Kenny, 1975),获取历时
性的数据,看看两个变量究竟谁影响谁,或者谁影响更多一些

若是变量A是缘由,变量B是结果,用下标表示两次测量的结果,那么A1与B2的相关,应该明显大于B1与A2的相关。同时,由于缘由相对稳定, A1与A2的相关也会大于B1与B2的相关。

常见的控制变量是人口学变量,此外还要根据前人研究适当考虑其余的控制变量。
作法:分别作自变量和因变量(SEM则使用指标)对控制变量的回归,用残差做为变量的观测值(温忠麟, 2017)。
也能够把控制变量放在模型中做为协变量从而实现变量的统计控制。

假设已经明确自变量在前、因变量在后无关变量Z 的可能位置以下:
(1)在X前面, (2)与X并列,
(3)在X以后、Y以前, (4)与Y并列,
(5)在Y以后。

Z为并列变量

rYX

 b1 

b2 rXZ
中介变量

rYX

 c  ab

前置变量要控制以排除虚假效应

但不能说有共同原由(也称第三变量)的两个变量因果关系就不成立了,还要看直接效应才能作出判断。
看两个例子,被试都是6-12岁小学生。
例1中,被试智力测验成绩与身高相关,在排除共同的原由年龄后,二者再也不相关(同年级学生智力测验成绩与身高无关);
例2中,被试体重与身高相关,在排除共同的原由年龄后,二者仍然相关(同年级学生仍然是体重与身高相关)。

要研究(外貌)吸引力对爱情的影响,理论上说空间距离、类似性和熟悉度都是吸引力的前置变量或者并列变量,须要加以控制。
自变量的前置变量和并列变量都有多是因果关系的调节变量(moderator)。

任何直接因果,总能够设法引入中介变量,分解出一些间接因果关系。
引入中介变量能够了解缘由是如何影响结果的例如,酒驾增长交通意外:
自变量:血液中的酒精浓度,
因变量:交通事故频率,
中介变量:反应时间、行车速度等
不管中介变量有几个、中介效应有多大,都改变不了酒驾增长交通意外的因果事实。

心理学研究结果的可重复性引起关注
建模前期工做影响研究结果,进而影响结果的可重复性。
问卷数据建模以前的工做,就像是一栋大楼的奠定工程,基础越扎实,创建的模型和分析结果越可信,从而有更高的可重复性。
题外话:关于重复性的思考

2、备注

相关资料已上传个人资源,