应用结构方程模式之问题和谬误(转载)[精华]

显示全部楼层 · 2021-1-29 02:53:18

《当代华人教育学报》第一卷．一期第九篇
应用结构方程模式之问题和谬误
江哲光燕京书院侯杰泰香港中文大学教育学院
教育学报．1997夏．第25卷．第1期
摘要
本文讨论应用结构方程模式一些较重要问题和常见谬误，包括：(一)数据与模式拟合的意义、(二)等同模式问题、(三)拟合优指数、(四)模式修订及交互效度、(五)相关与因果关系、(六)潜伏变项之名实相符问题、和(七)用SEM分析相关矩阵问题。本文综合并重申学者指出运用SEM常见之谬误，亦尝试提出解决办法，供研究者叁考。
结构方程模式(structuralequationmodeling,SEM)在教育及心理研究之应用日趋重要和普遍。然而，初学者使用时颇容易产生疑问，例如先验(apriori)模式并不拟合数据时应如何修正？拟合优指数众多而且有时又很不一致，应以哪个为依据？SEM是否验证潜伏变项的因果关系？诸如此类的问题甚多，本文尝试从用家的角度，综合近年各有关文献，分析及探讨应用SEM的一些问题和误解。
模式与数据拟合是否表示模式正确？
不少研究应用SEM检视数据与理论模式的拟合度，若拟合度高，则说数据证明理论模式正确。此种说法，其实不够严谨━严格而言属於谬误。这可从拟合的数学和统计意义解释。
在SEM分析中，研究者搜集N个样本对P个外显变项(observablevariable)的反应，所得结果以一个(p×p)协方差矩阵(covariancematrix)表示。此矩阵包含了样本外显变项间的相互关系，称为样本协方差矩阵(samplecovariancematrix)，简写S。
为揭示外显变项相互关系所隐含潜伏因子(latentfactors)之特性及关系，研究者建立模式界定潜伏因子与外显变项之关系，称为测量模式(measurementmodel)。同时，亦可界定潜伏因子与潜伏因子间之特殊关系，称为结构模式(structuralmodel)。
试以一个研究社经地位，学业自我观与学业成就的例子说明(图一)。图中社经地位，学业自我观和学业成就为三个潜伏因子。社经地位由六个外显变项(父母教育，职业及收入)测量。学业自我观由学生回答五个问题的反应推论。而学业成就则以中、英、数三科成绩为指标。模式之结构部分假定学生的社经地位和学业自我观有相关(用双向箭咀表示)。学生的社经地位及其学业自我观对学业成就有直接影响(用单箭咀表示)(见图一)。
图一社经地位、学业自我观与学业成就之关系模式
要表达变项间之关系，模式需计算q个估量叁数(estimatedparameters)。利用结构方程方法，不单只能够计算估量叁数之数值，同时能够利用估量叁数数值逆转运算在q个叁数条件限制下，该p个外显变项应有之估量协方差矩阵(estimatedcovariancematrix)，简称为E。
当计算所得的协方差矩阵E和数据原来的协方差矩阵S相差甚大时，表示研究者所设定的模式不符合数据所显示变项间原有的关系，亦即数据资料否定研究者所规划的模式。反之当E和S差异甚小时，表示研究者所设定的模式并不抵触数据所揭示的关系，亦即数据资料不排斥模式，因此，一如所有的推论性统计分析，数据与模式拟合只说明数据并不排斥模式，而不是说数据可以确认模式，更不能说证明某一理论。SEM模式验证其实只是辨别那些模式是错误(与数据相斥)而需摒弃或修订。至於那些与数据拟合的模式，只能算是可供考虑的模式，是至目前为止仍未被否定的模式(见Cliff,1983;Joreskog,1993)。研究者不能因为使用SEM便说可以证明模式正确，这其实与应用其他统计分析的结论类同━都不能证明模式正确，只证明模式还未遭否定━这才是较严谨的研究态度。
为甚麽要考虑等同模式？
上述讨论指出与数据相容的模式只能看待为可供考虑的模式。然而，在实际分析时，还要考虑等同模式问题。原来以相同数目之叁数(q)，用不同组合形式是可以产生许多不同模式，而当中也有不少模式所衍生的协方差矩阵是完全相同的。换言之，同一数目叁数(q)是能够衍生多个与数据拟合度相同但结构不同的模式。学者称此等叁数相同拟合度相同但结构不同的模式为等同模式。就以上述图一含三个潜伏变项的模式为例，则至少已有十五个等同模式(Breckler,1990)。
等同模式中各个不同模式可能含有截然不同的学理意义。例如将图一由学业自我观指向学业成就的箭咀反过来由学业成就指向学业自我观，所得的模式等同图一。但两模式的含义就大异其趣。图一代表学业成就受社经地位及学业自我观影响。另一等同模式则表示学业成就影响学业自我观。该两模式的拟合度完全相同，惟两模式部分叁数值可能不同。
此处也再一次说明因为存在等同模式，单凭检视数据和模式的拟合度，许多时是不能指出哪一个学理更切合数据的。必须透过其他研究设计，如实验法等，加以控制和识别有关变项，才有进一步的了解(详见LinHau,1995)。颇多应用SEM研究，只检查单一模式，并以此为根据讨论结果，完全忽略数据其实可从其他角度去阐释，而绝不影响数据与模式之拟合度。此漠视等同模式问题的现象极为普遍而且产生不少谬误(Breckler,1990;LinHau,1995;MacCallumetal.,1993)。故此，SEM用家宜特别谨慎。应留意等同模式之存在，并叁照一些学者提出的法则检视其他等同模式(LeeHershberger,1990;Stelzl,1986)。在甄选模式时，需审视各模式所表达的意义，依据学理选取适切的模式，对於扬弃不用的等同模式，亦应加以解释说明，这是较严谨的分析策略。
其实除了等同模式外，仍有许多其他颇切合数据的不同模式，研究者宜根据学理基础，列举多个竞争模式(competitivemodels)，采用模式比较法(e.g.,AndersonGerbing,1988;LinHau,1995)选取最隹者。
哪些拟合优指数较具叁考价值？
要审查模式是否与数据拟合，需要比较估量协方差矩阵和样本协方差矩阵之差异(E-S)。两矩阵的整体差异可用一个数字表示，在模式为真的情况下，此数字的统计分配呈卡方分配(chi-squaredistribution)，所以此数字亦称卡方(chi-square)。在统计学而言，卡方测试其实检视在已知自由度(df:degreeoffreedom)情况下，E和S出现差别的机率。如卡方值小於某一显着水平之临界值(criticalvalue)，表示E与S之差异未达显着水平，亦即模式接近数据。反之若E与S之差异达显着水平,则表示模式与数据有明显差异。简言之，自由度相同下，卡方值愈小表示模式与数据相斥的机会较低。
然而直接应用卡方测试以监定某一特定模式是否与数据拟合实际上有颇大困难。因卡方的大小与样本人数(N)有关(准确来说，卡方只适用於较大样本上)。在N很小时，卡方测试的辨别度不高，即若人数不多，所有与理论模式相距甚远的错误模式，也得一极小的卡方值。而当N极大时，卡方测试又过分敏感，排斥所有与理论模式相差极微的模式。例如研究社经地位与学业成就的关系，若样本只有数十人，则任何建议的模式均好像与数据拟合。但若样本有数千人时，则绝大部分假设模式在卡方检视下，均与数据不拟合。
为解决上述困难，学者先後提出不下二、三十种拟合优指数，冀能帮助研究者选取合理模式。不过大部分拟合优指数，都以卡方为根据，只是加上各式各样不同方法的修正。原则上理想的拟合优指数不单只不受样本数目影响(见Marsh,BallaHall,1996)，同时亦要根据模式叁数多寡而作调整，惩罚多叁数之模式。按拟合优指数所反映的特性，学者将拟合优指数分为几类。
绝对拟合优指数(absolutefitindices)
绝对拟合优指数是将理论模式(Mt)和饱和模式(Ms)比较。饱和模式是指各变项间均容许相关，为最复杂之模式，其自由度为零，但能百分百反映数据的关系。这类指数，常用者有卡方测试，GFI(goodness-of-fitindex)及AGFI(adjustedgoodness-of-fitindex)(JoreskogSorbom,1989)。此类指数常被批评受N影响，且在不同情况下，有各种程度的误差出现(HuBentler,1995)。
增值拟合优指数(incrementalfitindices)
增值拟合优指数将理论模式(Mt)和基准模式(Mb)比较。常用的基准模式为虚模式(Mn)，即变项间全无相关，为限制最大和最不拟合的模式。将理论模式与之比较，看看拟合情况改进多少。常用之增值拟合优指数有NFI(normedfitindex,BentlerBonett,1980),TLI(TuckerLewisindex,TuckerLewis,1973；亦称NNFI,non-normedfitindex,BentlerBonett,1980)。
省俭拟合优指数(parsimonyfitindices)
有些学者提出要在拟合优指数中引入省俭原则，惩罚叁数多的模式(BentlerMooijaart,1989;McDonaldMarsh,1990;Mulaiketal.,1989)。学者建议将一些增值拟合优指数乘以省俭比(dft/dfn,parsimonyratio)。产生另一类省俭拟合优指数。省俭比中dft，dfn分别为理论模式及虚模式之自由度。在虚模式Mn自由叁数最少，故dfn最大。若理论模式Mt简单接近Mn，则dft与dfn相约，故省俭指数只是略低於原增值拟合优指数。若Mt复杂接近饱和模式Ms，则dft大减，而省俭指数大大低於原增值拟合优指数，这正反映以省俭指数惩罚复杂模式之原则，模式愈简单愈不作惩罚，模式愈复杂，则指数愈被调低。
离中拟合优指数(noncentralityfitindices)
有些学者亦建议用离中叁数d(noncentralityparameter)以估量母群(population)中理论模式与实际数据之差距函数(discrepancyfunction)(e.g.,Bentler,1990;McDonaldMarsh,1990)。计算公式如下：
d=(χ2t-dft)/(N-1)
统计学者更利用离中叁数(d)界定一些离中拟合优指数(noncentralityfitindices)。例如CFI(comparativefitindex,Bentler,1990)及极相类似的RNI(relativefitindex,McDonaldMarsh,1990)。
近年来有研究利用模拟数据及真实数据检定样本数目对各类型拟合优指数的影响(例如：Marsh,BallaHau,1996;MarshHau,1996;Marsh,HauBalla,inpress)。Marsh等人的研究结果显示大部分声称不受N影响的拟合优指数，其实在一定程度上都随N改变，这些指数包括IFI,GFI,AGFI,RFI及NFI等，只有TLI(即NNFI)，RNI及CFI等几个指数有较稳定之表现(见Marsh,BallaHau,1996;Marsh,BallaMcDonald,1988)。在模式比较和验证时，学者认为需要叁考多个不同类型而且性质稳定的指数(Bentler,1990;BentlerBonett,1980;Bollen,1989;Joreskog,1993)。Marsh,BallaHau(1996)推荐TLI(即NNFI)，RNI和卡方测试等几个拟合优指数。尤其是对於一些非常态分布的数据，研究者亦应考虑采用调整卡(scaledchi-square)方法(HuBentler,1995)。
此外，也有学者批评卡方测试和其他一些拟合优指标其实检视模式是否与数据百分百拟合，假定出现不拟合情况纯由抽样误差构成，这无疑是一项过分要求，因为理论模式通常为一简化之近似版本，若能够反映数据所呈现之主要关系，已经是优良模式。故此学者提出应该检视模式是否在可接受范围内与数据近似拟合，而不是审视模式与数据完全拟合。BrowneandCudeck(1993)建议叁考RMSEA(root-mean-squareerrorofapproximation)，并从实证试验指出若RMSEA少於0.05，则为颇隹之模式。更有学者主张利用RMSEA计算置信区间(confidenceinterval)及作功率测验(powertest)(e.g.,MacCallum,BrowneSugawara(1996)。基本原理是透过估量母群在某一置信水平RMSEA之区间值，若模式之RMSEA在估量区间内，则不排斥有关模式(详见MacCallumetal.,1996)。
怎样修改模式及进行交互效度检定(cross-validation)？
SEM除可用作验证模式和比较不同模式外，不少研究者亦用作评估模式及修正模式。研究者从一雏形模式开始，将此模式与数据相印证。若发现雏形模式偏离数据所揭示的情况，则将原来模式修正然後再测试，不断重覆此过程，直至获得一个与数据拟合而同时各个估量叁数亦有合理解释之模式为止。进行此种模式测试及修正，研究者尤应审视下列各点。(一)SEM的解答是否适当的(proper;andwelldefined)：包括重复渐进估计法能汇集(iteratedestimateconverges)，各叁数是否在合理范围内(例如相关系数在+1与-1之内，误差值合理)。(二)叁数与实际预设模式(substantiveapriorimodel)之关系是合理的。当然数据分析可能出现一些预期以外的结果，但各叁数绝不应出现一些互相矛盾，与先置的假设有严重冲突的现象。(三)叁阅多个不同类型的整体拟合优指数，如TLI、RNI、RMSEA和卡方等(Hau,ChengChung,1996;MacCallumetal.,1996;Marsh,BallaHau,1996)。
若要修改模式，可叁考SEM输出之残差分析(residualanalysis)和修改指数(modificationindex)。所谓残差是指实际变异量(或共变量)和估量变异量(或共变量)之差。若残差为正值，表示模式低估两变项之变异量。相反，负残差代表模式高估两变项之变异量。若两变项之残差为正，研究员需审视应否增加路径(paths)使更能反映两变项之真正关系(应较高)。在残差为负时，研究员可考虑删除一些途径减低两变项估量共变量过高的情况。
研究者亦可叁考SEM输出修改指数修改模式。所谓修改指数是指模式某个受限制之叁数，若容许自由估值，则模式会因放松此叁数而改良，整个模式卡方减少之数值，称为此叁数之修改指数。同时亦会输出叁数期望值(expectedparameterchange)，使研究者了解若容许自由估值，此叁数估量值之大小和方向。实际应用时亦应考虑放松此叁数是否有学理根据。此时合理解说至为重要，研究者万不能随便修改模式，这样只会变成数据导引(datadriven)。最後所得的模式可能只是随机遇而生(capitalizationonchance)。学者一般认为潜伏变项间的相关，在有合理解释下可以容许自由估值。但对於指标变项误差间的相关，除有特殊理由外(e.g.,MarshHau,1996)，其他多不能容许自由(Joreskog,1993)。对数值最大修改指数，若没有放松之合理解释时，研究者只得跳过此叁数，改为考虑第二大数值的修改指数，再审视放松限制之合理性，馀此类推。也许最後会得到一个合理而又颇切合这个特定样本的模式。当然更严谨的做法是不考虑修改指数，只比较数个可能模式(competitivemodels)的拟合优指数。
上述探索性分析所得的最终模式，基本上是透过不断调节模式与特定样本数据拟合度之产品。然而此模式能否普遍适用其他样本，就必须进行交互效度检定(cross-validation)。基本原理是再抽取另一样本对该模式进行拟合度检定。若果原来样本数目足够大，亦可将原来样本随机分为相等两半。一半进行探索性模式修正，另一半留作验证性分析。研究者万万不能将同一样本先作探索性分析，然後又用原来样本进行验证性分析，这样只是犯上确认分析结果的毛病，是完全没有半点验证模式的成分在内的。CudeckandBrowne(1983)不单只详细介绍交互效度验证办法，还建议采用交互效度拟合优指数(cross-validationfitindices)，检定模式交互效度，推论至其他样本及母群(population)的适切性(BrowneCudeck,1989;CudeckBrowne,1983)。
SEM是否验证变项间的因果关系？
在图一假设分析结果得出模式与数据不排斥且潜伏变项间之叁数不等如零，显示社经地位，学业自我观与学业成就有相关。但不能单从模式与数据拟合就说社经地位，学业自我观与学业成就存在因果关系。除非此研究经过特别设计(详见下述)能够明确指出变项间的因果效应。严格来说，一个非经设计用以探讨变项间因果效应的研究，无论应用何种统计方法━包括SEM，都不能指明变项间是否真正存在因果关系。因为单从等同模式考虑，已经可以举出许多拟合度相同但变项间效应相反的例子。
其实要证明变项间的因果关系，最好是利用实验设计，控制其他变项之影响，探讨主要变项的因果效应。在一些非实验研究，有些研究者以为只要变项间存有时间上之先後次序，且两变项有相关，则可以解释为因果关系。如以图一之例子说明，假设研究者测量学生小学时的学业自我观，而在初中测量学生的学业成就，研究者发现两者有相关，认为学生自我观对学业成就有因果效应，因为学生小学时的学业自我观影响初中的学业成就。这种说法也是错误的。虽然存在学生自我观为因，学业成就为果的可能性，但也不能排除变项间含相反因果关系的情况。
现举一个极端例子说明，假设研究者在T1测量学生在初小时的学业成就，然後在T1时(T2较T1为晚)测量学生父亲的收入，发现两者有相关(显示父亲收入较隹的学生其学业较好)，但我们似乎不会轻易赞同子女在初小读书较好会增加父亲收入的因果说法！故此，时序上的先後，绝非一充分条件。虽则严格来说SEM方法不能证明因果关系，但它能大大协助我们寻找变项间最可能的因果关系，在一典型分析中，研究者依据各种学理设定了多个可能模式以反映变项间之不同因果关系。如在模式甲中，因素A透过B对C起作用，而在模式乙中，因素A则透过C对B起作用。我们可利用SEM以决定模式甲或乙更接近数据，从而获知哪种因果关系更为合理。
要达到利用非实验设计探讨变项之因果关系，Marsh(1990)也提出几点叁考意见：(一)采用纵贯研究数据，每个变项至少要有两次测量(即在T1及T2)(二段设计)，当然每个变项最好有多次测量(多段设计)。(二)使用多个外显指标以推算潜伏变项，非迫不得已使用单指标变项时，要估计测量变项之信度，推算变项测量误差。(三)样本数目要够大和具代表性，使SEM之推论具有意义和普遍性。(四)考虑不同模式和考虑测量变项误差项相关之意义。
怎样避免潜伏变项名实不符的问题？
要研究一些理论概念(theoreticalconstructs)的关系，许多时研究者会将有关的概念命名，然而这并不表示研究者已充份了解和能够准确测量此概念的特质。例如欲探讨创造力和抽象思维能力的关系，某研究者利用检视学生联想作文中意念多寡表示创造力，利用数学推理测验和空间推理测验代表抽象思维能力，然後从这些作文及推理测验所得的结果讨论创造力和抽象思维能力的关系，这种情况可能犯了“名实不符”的谬误(nominalisticfallacy)，因为研究者所采用的指标变项也许未能充分地反映有关潜伏变项的内涵，甚或只是测量了其他变项的特质(如作文能力，数学能力)。然而，错误标签令研究者以为自己在探索创造力和抽象思维能力的关系。
要准确反映潜伏变项，对於外显指标的选取和潜伏变项的命名都需要仔细考虑思量。在测量学而言，其实涉及测量工具的信度和效度问题。应用SEM亦可协助检视测量工具的信度和效度。
传统方法应用Cronbachalpha(Cronbach,1951)计算测量工具的信度系数。若所得信度系数高表示各指标变项内部一致性(internalconsistence)高。这常被认为是信度可靠的测量工具。然Hau(1995)指出利用alpha表示信度有不少局限，其中最大问题是高信度并不表示单度向(unidimensionality)。Hau(1995)以模拟数据方式显示一些看来信度甚高的情况(高alpha值)，其实并非单一度向。换言之，一测量工具有高信度系数，并不一定单是量度一个潜伏变项。为此研究者不能倚靠信度系数而了解测量工具之度向性。面对此问题研究者可应用SEM验证性因素分析，透过探讨指标变项之因子结构等，了解所测量的潜伏变项的度向数目。例如采用模式比较法，将各指标变项从属於单因子，双因或多因子等各个不同模式比较各模式与数据的拟合度。如果模式比较结果发现单因子结构与数据最为拟合，加上各指标变项又有高因子负重和高复相关；则显示指标变项所反映的内涵趋近单度向性，亦即表达单一潜伏变项之特质。
然而究竟指标变项所反映的特质是甚麽？应该怎样命名，则是测量效度问题。就意义来说，效度是指指标变项所测量的特质是否真正能够反映研究者意欲测量的潜伏变项。例如，要测量学生自我观，所选用的量标是否真正能够反映学生对自己的观感和评价？要评估效度一般从测量工具的内容(内容效度，contentvalidity)与效标变项的关系(评准效度，criterionvalidity)和与其他同类测量工具的关连(并存效度，concurrentvalidity)等几方面手。这方面SEM亦提供了简易便捷之验证分析，使研究者容易进行多种特质━多种测量法以检验测量工具之评准效度和并存效度。仔细分析办法详见有关文献(e.g.,CampbellFiske,1959;Marsh,1988;Wothke,1996)。
可否应用SEM分析相关矩阵？
SEM之数学及统计学基础完全建立在方差和协方差分析上，但有研究者将SEM应用在相关矩阵(correlationmatrices)。这种做法，在某些情况下并不正确。研究者最初亦不察觉将SEM应用在相关矩阵分析，对某些模式而言，可能出现下列错误，包括(a)产生错误叁数估值，(b)产生错误拟合度(如卡方)，(c)产生错误标准差。然而文献显示不少误用的情况，其中不乏着名的SEM用家如Bentler,Lee,Joreskog,Sorbom,Marsh,McDonald等(见Cudeck,1989)。
要应用SEM分析相关矩阵而不产生错误结果，需要符合两个条件：(一)模式为“不随量标转变”模式(scale-invariantmodel)（二）模式中之所有叁数为“量标自由”叁数(scale-freeparameters)。简单来说，“不随量标转变”模式是指模式之协方差矩阵经过量标重整（rescaling［即数学转换］，transfomation)所得的新协方差矩阵仍满足原来之模式。在“不随量标转变”模式中之叁数若经过量标重整，某叁数仍保持不变者，称为量标自由叁数，若经过量标重整，叁数改变者称为量标依变叁数(scale-dependentparameters)。
假如模式满足上述（一）（二）两项条件，则三种错误(a)(b)(c)都不会产生。如果只符合条件（一），则错误(a)(b)不出现。若（一）不成立，三类错误都会出现。有关之数学推导过程可叁看Cudeck(1989)。例如下列因子结构模式都是不符合条件（一）之例子(Cudeck,1989)：
模式中限制各潜伏因子之变异量为1，而同时又限制某指标变项之因子负重为不等於零之固定值。模式中限制同一因子之两个或以上指标变项之因子负重都不等於零之固定值。模式中限制同一因子之两个或以上指标变项之因子负重相同。模式中限制不同因子之两个或以上指标变项之因子负重相同。模式中限制两个或以上依变潜伏因子之误差相等。总言之，应用SEM时，有时相关及协方差矩阵结果相同，但当两者有别时，则以协方差矩阵分析者方是正确解答。
结语
SEM集合了多种传统分析方法之优点，汇粹成为一种威力强大而适用面广泛之分析方法。加上建立模式时极富性，容许研究者探索多种不同的理论模式；为此日渐受研究者重视和采用。
应用时，研究者要留意下列各项。（一）要了解数据和模式拟合的意义。当数据和模式拟合时，只表示数据并不否定研究者所建立之理论模式，但不能说模式是正确的。（二）适合数据的模式非常多，故此研究者分析时应着重比较不同模式和注意等同模式。（三）在检视模式整体拟合度时，需叁阅多个不同类型而表现稳定的拟合优指数，如TLI、RNI、RMSEA和卡方。同时亦要考虑个别叁数之拟合度和合理性。（四）从一样本数据经探索性分析而获得之模式，必须经过另一样本数据之验证分析，才能确立此模式之适用性。（五）非经设计用作检验变项间因果效应之研究，不应因为采用SEM而错误解释为因果关系。（六）对於潜伏变项之信度和效度，必须仔细检定，不可轻率随意命名，以致“名实不乎”，失却研究意义。（七）SEM建基在方差和协方差分析，除在特殊条件成立时，不应用在相关矩阵分析上。
如能妥善运用，SEM是协助研究者检视理论模式的优良工具。
叁考文献
(1)Anderson,J.C.,Gerbing,D.W.(1988).Structuralequationmodelinginpractice:Areviewandrecommendedtwo-stepapproach.PsychologicalBulletin,103,411-423.(2)Bentler,PM.(1990).Comparativefitindexesinstructuralmodels.PsychologicalBulletin,107(2),238-246.(3)Bentler,P.M.,Bonett,D.G.(1980).Significanttestsandgoodnessoffitintheanalysisofcovariancestructures.PsychologicalBulletin,88(3),588-606.(4)Bentler,P.M.,Mooijaart,A.(1989).Choiceofstructuralmodelviaparsimony:Arationalebasedonprecision.PsychologicalBulletin,106(2),315-317.(5)Bollen,K.A.(1989).Structuralequationswithlatentvariables.NewYork:Wiley.(6)Breckler,S.J.(1990).Applicationsofcovariancestructuremodelinginpsychology:Causeforconcern?PsychologicalBulletin,107(2),260-273.(7)Browne,M.W.,Cudeck,R.(1989).Singlesamplecross-validationindicesforcovariancestructures.MultivariateBehavioralResearch,24(4),445-455.(8)Browne,M.W.,Cudeck,R.(1993).Alternativewaysofassessingmodelfit.InK.A.BollenJ.S.Long(Eds.),Testingstructuralequationmodels(pp.136-162).NewsburyPark,CA:Sage.(9)Campbell,D.T.,Fiske,D.W.(1959).Convergentanddiscriminantvalidationbythemultitrait-multimethodmatrix.PsychologicalBulletin,56,81-105.(10)Cliff,N.(1983).Somecautionsconcerningtheapplicationofcausalmodelingmethods.MultivariateBehavioralResearch,18,115-126.(11)Cronbach,L.J.(1951).Coefficientalphaandtheinternalstructureoftests.Psychometrika,16,297-334.(12)Cudeck,R.(1989).Analysisofcorrelationmatricesusingcovariancestructuremodel.PsychologicalBulletin,105(2),317-327.(13)Cudeck,R.,Browne,M.W.(1983).Cross-validationofcovariancestructures.MultivariateBehavioralResearch,18(4),147-167.(14)Hau,K.T.(1995).Reliabilityanddimensionality:Scaleswithhighalphacoefficientsarenotnecessarilyunidimensional(inChinese).EducationJournal,23(1),135-146.(15)Hau,K.T.,Cheng,Z.J.,Chung,C.M.(1996).Issuesinfittingandacomparisonofcommonindexesinstructuralequationmodeling.EducationalResearchJournal,11,73-81.(16)Hu,L.-T.,Bentler,P.M.(1995).Evaluatingmodelfit.InR.H.Hoyle(Ed.),Structuralequationmodeling:Concepts,issues,andapplications(pp.76-99).ThousandOaks,CA:Sage.(17)Joreskog,K.G.(1993).Testingstructuralequationmodels.InK.A.BollenJ.S.Long(Eds.),Testingstructuralequationmodels(pp.294-316).Newbury,CA:Sage.(18)Joreskog,K.G.,Sorbom,D.(1989).LISREL7:Aguidetotheprogramandapplications(2nded.).Chicago:SPSS.(19)Lee,S.,Hershberger,S.(1990).Asimpleruleforgeneratingequivalentmodelsincovariancestructuremodeling.MultivariateBehavioralResearch,25(3),313-314.(20)Lin,W.Y.,Hau,K.T.(1995).Structuralequationmodeling:Modelequivalencyandrespecification(inChinese).EducationJournal,23(1),147-162.(21)MacCallum,R.C.,Browne,M.W.,Sugawara,H.W.(1996).Poweranalysisanddeterminationofsamplesizeforcovariancestructuremodeling.PsychologicalMethods,1,130-149.(22)MacCallum,R.C.,Wegener,D.T.,Uchino,B.N.,Fabrigar,L.R.(1993).Theproblemofequivalentmodelsinapplicationsofcovariancestructureanalysis.PsychologicalBulletin,114(1),185-199.(23)Marsh,H.W.(1988).Multitrait-multimethodanalyses.InJ.P.Keeves(Ed.),Educationalresearchmethodology,measurementandevaluation:Aninternationalhandbook.Oxford:PergamonPress.(24)Marsh,H.W.(1989).Confirmatoryfactoranalysesofmultitrait-multimethoddata:Manyproblemsandafewsolutions.AppliedPsychologicalMeasurement,13,335-361.(25)Marsh,H.W.(1990).Causalorderingofacademicself-conceptandacademicachievement:Amultiwave,longitudinalpanelanalysis.JournalofEducationalPsychology,82,646-656.(26)Marsh,H.W.,Balla,J.R.,Hau,K.T.(1996).Anevaluationofincrementalindexes:Aclarificationofmathematicalandempiricalproperties.InG.A.MarcoulidesR.E.Schumacker(Eds.),Advancedstructuralequationmodelingtechniques(pp.315-353).Mahwah:LawrenceErlbaum.(27)Marsh,H.W.,Balla,J.R.,McDonald,R.P.(1988).Goodness-of-fitindexesinconfirmatoryfactoranalysis:Theeffectofsamplesize.PsychologicalBulletin,103(3),391-410.(28)Marsh,H.W.,Hau,K.T.(1996).Assessinggoodnessoffit:Whenparsimonyisundesirable.JournalofExperimentalEducation,64,364-390.(29)Marsh,H.W.,Hau,K.T.,Balla,J.R.(inpress).Ismoreevertoomuch:Thenumberofindicatorsperfactorinconfirmatoryfactoranalysis.MultivariateBehavioralResearch.(30)McDonald,R.P.,Marsh,H.W.(1990).Choosingamultivariatemodel:Noncentralityandgoodnessoffit.PsychologicalBulletin,107(2),247-255.(31)Mulaik,S.A.,James,L.R.,Alstine,J.V.,Bennett,N.,Lind,S.,Stilwell,C.D.(1989).Evaluationofgoodness-of-fitindicesforstructuralequationmodels.PsychologicalBulletin,105(3),430-445.(32)Stelzl,I.(1986).Changingacausalhypothesiswithoutchangingthefit:Somerulesforgeneratingequivalentpathmodels.MultivariateBehavioralResearch,21,309-331.(33)Tucker,L.R.,Lewis,C.(1973).Thereliabilitycoefficientformaximumlikelihoodfactoranalysis.Psychometrika,38,1-10.(34)Wothke,W.(1996).Modelsformultitrait-multimethodmatrixanalysis.InG.A.MarcoulidesR.E.Schumacker(Eds.),Advancedstructuralequationmodelingtechniques(pp.7-56).Mahwah:LawrenceErlbaum.