摘 要:中考的标准设定是划分考生分数等级的统计技术,其质量高低关系到分数报告的可靠性和公平性。从我国东、中、西部地区各随机抽取3000名考生的中考数据,探讨K-means聚类方法在中考标准设定中的信度问题,从经典测量理论、概化理论和项目反应理论三个角度开展分析。结果显示,K-means方法在分数等级为四或五级时分类信度符合测量学标准,而对低分段的考生分类信度高于高分段的考生。总体来看,K-means方法适用于较低分数等级的标准设定中,可为中考标准设定提供分界分数的参考。
关键词:中考;标准设定;K-means方法;聚类分析
一、问题提出与研究背景
初中学业水平考试(以下简称“中考”)是义务教育阶段结束时的重要考试,其成绩是学生毕业和升学的重要依据。2016年,教育部发布的《教育部关于进一步推进高中阶段学校考试招生制度改革的指导意见》明确指出,已经实行初中毕业、高中招生两考合一的地区要统一规范为初中学业水平考试,把《义务教育课程设置实验方案》所设定的全部科目纳入初中学业水平考试的范围[1]。近年来,各地积极推进两考合一改革,中考的标准参照性测验属性更为明显,考试成绩以等级形式呈现[2-3]。衡量学生是否达到某一水平,必然涉及心理与教育测量中的标准设定(standard setting)问题。鉴于中考等级分数与学生业、升学息息相关,如何在招生考试中实现准确、可靠、公平的标准设定,成为考试研究者和工作者关注的重要问题。
(一)标准设定的方法
标准设定是指在测验分数分布中,划出一系列分界分数(cut-off score),将考生分为两类或更多的有序类别[4-5]。有效的标准设定有利于在等级分数中体现学生真实水平,进而帮助修正考试误差导致的不公平[6]。在国内当前的中考实践中,普遍采用操作简单的固定比例法或固定分数法的标准设定方法[7-9]。固定比例法指规定分数排名处于某一百分比区间的考生划分为同一等级,固定分数法指规定分数在某一分数区间的考生划分为同一等级。目前,80%以上的地区采用固定比例法[3],以深圳市为例,该市2024年中考标准设定为固定比例法:A+(5%)、A(20%)、B+(25%)、B(25%)、C+(20%)、C(5%)[10]。
理论上,标准设定需要学科专家依据课程框架将考生需要达到的知识水平(内容标准)转换为量化的测验分数(表现标准)[11],如采用常见的Angoff法、Bookmark法和Nedelsky法进行标准设定[12-13]。Angoff法于1971年开发,其首先要求专家估计临界水平考生在每个题目上的正确作答概率(介于0~1),然后对单个专家在每个题目上的正确作答概率求和,再对所有专家的概率和求平均,得到专家组的表现标准的量化水平[12]。Bookmark法是一种基于项目反应理论(item response theory, IRT)的方法,其首先按照题目难度从低到高生成有序项目册,然后要求专家将标签(内容标准)放在题目册中的两个题目之间,或者放置在临界水平考生可能会答对的最后一个题目上,再利用标签位置的题目难度估算出对应的测验分数,最后对所有专家的分数求平均作为标准设定的划界分数[4]。虽然Angoff法和Bookmark法都需要依赖于专家的主观判断,也因此受到一些研究者的批评[14-15],但仍然被广泛应用于各种大规模测评任务[13]。此外,Nedelsky法与Angoff法类似,不同之处在于Nedelsky法针对多项选择题开发,要求专家判断临界水平的考生认为哪些错误选项不是正确答案,并据此估计临界水平考生的正确作答概率[16]。
(二)标准设定的信度
从现代测量理论的角度出发,无论是哪种标准设定方法,其分类结果必须经过实践的检验,测试机构有责任提供有关标准设定质量的证据[17-19]。基于不同的测量框架,现代测量理论为标准设定的质量检验提出不同的信度指标。根据经典测量理论(classical test theory, CTT),研究者提出了标准参照测验的信度指标,即决策一致性(decision consistency)和决策准确性(decision accuracy)[20-21]。决策一致性指考生在两次平行测验中被归为一类的程度,决策准确性指根据考生在考试中得到的观察分数所作的分类决定与根据真分数所做决定的一致性,二者均使用与分类一致性有关的p值和kappa系数进行评价[22-23]。根据概化理论(generalizability theory, GT),针对不同的等级分数线,提出了相应的等级线决策信度Φ(λ)估计方法,以此估计各个能力水平点的测量信度[24-25],评价各个分界分数对被试进行分类的可靠性和稳定性。根据IRT,一般使用信息量来描述测验对考试能力水平估计的信度,对于标准设定质量可以使用分界分数点上的信息量指标进行评价[26-27]。
国内研究者对中考普遍使用的固定比例法和固定分数法的信度进行研究,发现两种方法的信度均一般,而对于这种高利害性考试而言需要进一步提升其信度水平[2-3]。从理论出发,测验分数分布受到测验、考生、地域等多种因素的影响,固定分数或固定比例的做法主观性强、缺乏科学论证,并不能充分体现考生水平差异,反而可能将相近能力的考生划分为两种等级,损害测验的公平性。虽然研究者提出一些依据专家判断的标准设定方法,如Angoff法、Bookmark法和Nedel⁃sky法等,但由于程序要求严格且专业人员匮乏而无法大面积推广。此外,这类方法也受到主观因素的影响。基于此,有必要积极探索在中考标准设定中,能够最大限度降低主观性的影响,同时兼具易用性、可靠性、有效性的标准设定方法。
(三)聚类分析方法
统计学中常用的聚类分析方法包括快速聚类法(K-means)、层次聚类法、基于密度的聚类算法、基于网格的聚类法等[28]。聚类分析方法能够根据数据分布特征将最相似的考生划分为一类,同时使不同类别考生之间差异最大化。利用聚类算法将参加考试的考生作为聚类对象,将考生在测验上的作答表现作为用于聚类的变量,就可以获得组间异质、组内同质的分类结果,实现教育实践中标准设定的基本目标[29]。以K-means方法为例,假设在一次中考中需要将考生划分为k个分数等级,考生作答数据会经历初始化、分配、更新和重复四个阶段。初始化阶段随机选择k个数据点作为簇(cluster)的中心,分配阶段将每个数据点分配到离它最近的中心,更新阶段计算每个簇的均值,并以此作为新的中心,最后重复分配和更新两个步骤,直到簇中心不再变化或达到最大迭代次数。这个分析过程获得的簇,就可以作为标准设定中划分的依据。
在以往研究中,聚类分析法用于标准设定包括确定聚类变量、选择聚类算法、设定分界分数和评价聚类结果几个步骤和过程[29]。首先,一般选择与被试测验作答表现相关的特征作为聚类变量,包括分测验的分数、主要因子分或特定试题分数[30]。其次,常用于标准设定的聚类算法包括K-means法和层次聚类算法。其中,K-means法计算简单,运算较快,适合于规模较大的数据。再次,设定分界分数的方法包括边界组法(borderline group method)和对照组法(contrasting groups method)。边界组法指聚类结果中每一类视为边界组,取该组的均值或者中值作为分界分数;对照组法中,如果聚类结果中的某两个类是相互邻近的对照组,则取这两组测验得分重叠区域的中值或平均值作为分界分数[30-31]。最后,需要借助多种心理测量分析方法确定分界分数的可靠性。
有研究者将聚类分析与传统的标准设定方法进行比较,发现其与外在效标的一致性程度明显优于传统的标准设定方法[32]。同样,Hess等的研究发现,聚类分析方法与Angoff法的结果具有高度一致性,但其在跨样本的稳定性上略显不足[33]。此外,也有研究发现聚类分析方法与依靠主观评定的方法在结果上有较大差异[34]。这些研究结果表明,聚类分析的适用情境和可推广性还有待进一步研究。将聚类分析融入中考标准设定的实践中,不仅能够为中考提供有效的统计学参考,还能进一步拓宽聚类分析的应用领域。基于此,本研究将探索采用聚类分析方法进行中考标准设定的方式,并利用现代测量理论中的CTT、GT和IRT理论检验聚类分析所产生分界分数的决策一致性、等级线决策信度和分界分数的信息量,以期为提升中考科学性和公平性提供参考。
二、研究方法
(一)研究对象
本研究对某年的中考数据进行分层随机抽样,考虑到地区差异性,从我国东部、中部、西部地区的各选一个地市,然后从所选择的每个地市中各随机抽取3000份试卷作为分析对象。所抽取三个地区的试卷分别记作A试卷、B试卷、C试卷,三套卷的试卷结构如表1所示。其中,部分解答题中包含两个或两个以上的小题,表中总题量按照卷面的小题题目数量进行统计。
(二)分析方法
当前中考中,大部分地区使用的等级数为四、五或六级。基于此,本研究使用聚类方法将考生分别分为四、五和六个等级并实现标准设定,然后检验标准设定的决策一致性信度、等级线决策信度和分界分数的信息量。
考虑到K-means方法具有计算简单,运算较快,适合大规模数据的特点,本研究使用K-means方法进行考生聚类,选取各试卷的所有题目作为聚类变量,并且为消除各题目的权重差异对数据做标准化处理[29-30]。由于缺乏边界组分类依据,研究使用对照组分类法确定各分界分数。具体而言,依据分类结果的标签将相邻类别的两个组视为对照组,取得分重叠区域的中值为分界分数。最后,综合运用CTT、GT和IRT对聚类分析法产生的分界分数的信度进行分析。
在分析工具方面,使用SPSS提供的K-means法进行聚类分析,对于初始聚类中心的选择采用随机化方法。另外,使用BB-CLASS软件,计算分类一致性和分类准确性;使用Brennan等为GT开发的专用软件GENOVA计算等级线决策信度;使用Conquest2.0和ANOTE进行IRT分析。
三、研究结果
聚类分析中,以各题目为聚类变量将考生分别分为六、五和四个类别。依据分类结果标签,采用对照组法取相邻等级分数重叠部分的中位数为分界分数,所得三个测验的各分界点分数如表2所示。在此基础上,对聚类结果的信度进行检验,分析聚类结果的分类一致性、各等级线决策信度和分界分数的信息量。
(一)CCT分析结果
采用Livingston和Lewis提出的LL方法分别估计测验决策一致性和决策准确性的p值和kappa系数[22]。在本研究中,各测验采用六级、五级、四级进行聚类分析时,分类一致性和分类准确性如表3所示。有研究者建议对大规模测验的分类一致性的p值需高于0.7,kappa系数需高于0.6[22]。由表3可知,采用六级分类时,测验的决策一致性和决策准确性的p值均低于0.7,kappa系数低于0.6,未能达到大规模测验的要求;采用五级分类时,三个测验的决策一致性和决策准确性的p值高于0.7,kappa系数高于0.6,达到了大规模测验的基本要求;采用四级分类时,三个测验的决策一致性和决策准确性系数均较高,具有较理想的决策信度,对考生的分类信度较高。总体而言,采用五级和四级分类时,聚类分析结果具有较好的分类一致性,而采用六级分类时分类一致性较差。
(二)GT分析结果
GT的分析包括G研究和D研究,G研究依据研究设计分析各误差来源,D研究在此基础上讨论不同测量条件下测验的信度变化。有研究者建议基于GT的信度指标需要达到0.80[35],对于高利害性的大规模考试而言,概化信度指标达到0.85才能满足需求;理想情况下,决策信度达到0.90则说明决策信度质量非常好[36-38]。
1. G研究结果
本研究中变异的来源有考生(j),题目(i),考生和题目的交互作用(j×i)及残差。首先,通过G研究得到三个测验侧面随机交叉设计的变异分量估计值如表4~6所示。
2. D研究结果
在G研究的基础上,使用聚类分析法获得的分界线进行D研究,计算各分界点的等级线决策信度,结果如表7所示。据此可知,三个测验各分界分数的决策线信度均在0.70以上,并且大部分决策线信度大于0.85,总体而言测验的各分界分数具有较高的决策信度。
此外,在进行聚类分析时,采用不同的等级数量进行分类,各测验在低分段的等级线决策信度均大于0.90,表明测验对低水平考生作出的等级判定信度较高;与之相对,部分试卷对高水平考生进行等级判定时的信度未达到可接受水平。进一步探讨等级线决策信度与题目数量的关系,发现随着测试题目数量的增加,各分界分数的等级线决策信度均持续提高。若确保测验的等级线决策信度达到0.80,题目数量至少需达到45道;若使测验各等级线的决策信度达到0.85,题目数量需要再增加一倍。
(三)IRT分析结果
在IRT的分析中,首先使用探索性因素分析进行单维性检验,按照特征根值大于1的标准来抽取因子。结果显示,试卷A共抽取3个因子,第一特征值与第二特征值的比值为6.57;试卷B共抽取4个因子,第一特征值与第二特征值的比值为6.27;试卷C共抽取3个因子,第一特征值与第二特征值的比值为4.87。三个试卷的特征根比值均大于3,可以认为测验符合项目反应理论的单维性假设。然后,使用IRT模型中的拓广分布评分模型拟合分析测验数据。
对于标准参照测验的测验信息量,其分界分数θ0所处的位置应该使得测验有最大信息量,即测验精度最高[39]。有研究者提出,分界分数θ0与测验掌握比例π0之间存在转换关系:π0=
在本研究中,将聚类分析获得的划界分数转换为掌握比例π0,然后利用IRT估计考生潜在特质水平,由掌握比例确定IRT中的分界分数θ0,最后计算分界分数处的信息量。分界分数处的信息量越大,信度越高。测验质量理想的信息量为25,质量一般情况下测验信息量需达到16,低于16则表示测验信息量较差[41]。
研究结果发现,三个测验的测验信息量峰值分别为17.82、15.83、17.23,各分界分数对应的信息量如表8所示。结果显示,少量分界分数点的信息量达到了测验信息量为16的合格标准,大部分分界点信息量略低。此外,高分段的分界分数所对应的信息量远低于合格标准。结合IRT中信息量与难度水平的关系,即信息量在能力水平等于难度水平时达到最大值,高分段的测验信息量低,说明试卷难度较低,适合较低水平的考生作答。总体而言,大部分分界点的信息量远低于16,测验对大部分能力分界点考生的测量准确性较差,尤其是对于能力水平较高的考生,测验的信息量需要进一步提升。
四、讨论与结论
当前,国内初中学业水平考试统一采用等级分呈现考生水平,标准设定成为中考分数报告中不可忽视的环节。易用的、可靠的标准设定方法,对于我国中考考试质量的提升意义重大。本研究积极探索数据驱动的K-means聚类方法在中考标准设定中的可靠性,以期为实践者和研究者提供标准设定方法上的参考,为改进当前中考实践应用中主观性较强、可靠性不足的标准设定方法作出必要支撑。 首先,从CCT角度来看,不同的等级数目下各测验的决策信度均存在较大的差异。采用六级分类时,测验的决策信度未能达到大规模考试的信度要求;而采用五级和四级分类时,测验达到了大规模测验的信度要求,决策一致性p值大于0.7,决策准确性kappa系数大于0.6。随着等级数目的降低,各测验的决策一致性和决策准确性均增加。考虑到各地区中考等级划分的类别数不一致,对于高利害性的大规模考试来说,中考的决策一致性有必要进一步提升。同时,根据已有研究结果,适当减少分类的等级数量和增加测验的题目数量有利于提高测验的分类一致性[20]。因此,各地区可采用四至五级的分界分数点以确保分界分数的分类一致性。 其次,从GT分析结果来看,聚类分析的各等级线决策信度均大于0.7,大部分等级线的决策信度达到概化理论信度的可接受值0.8[35]。各测验在不同等级数目的情况下,最低分界分数所对应决策信度Φ1均大于0.9,具有非常理想的决策信度。其值远高于同一类别数下其他分界分数的决策信度,可以说明目前中考采用聚类分析法进行标准设定时,对低分段的考生进行等级划分具有较高的准确性,原因可能在于中考的题目主要集中于容易题目,更适合低水平考生的能力测量。有研究者建议基于概化理论的信度指标需要达到0.80[35],对于高利害性的大规模考试的概化理论信度指标达到0.85则能满足需求[36,38]。以此标准来看,采用聚类分析进行标准设定,56%的分界点的决策信度大于0.85,比例高于前人研究中的固定分数线法(47%)和固定比例法(53%)[2-3]。在聚类分析结果中,75%的分界点决策信度大于0.80,同样高于采用相似研究设计的固定分数线和固定比例的64%[2-3]。以GT的等级线决策信度看,聚类分析法进行标准设定的信度更高。此外,D研究结果表明,为使测验的各等级线决策信度达到高利害考试的最低要求0.80,最低题目数量约为45题;为了使测验的等级线决策信度达到大规模考试的理想要求0.85,现有中考题目数量几乎需要增加一倍,题目数量约为70题。然而,考虑到标准化考试的作答时间有限,且随着题目数增加信度可能出现边际效应,教育管理或命题人员可以从提升现有试卷结构内的试题质量入手,提高决策信度。 最后,从IRT分析结果来看,聚类分析产生的部分分界分数点的信息量达到了测验信息量为16的合格标准,大部分分界分数点信息量略低,同样对于高分段的分界分数所对应的信息量远低于合格标准。值得注意的是,采用聚类分析进行标准设定,约有20%的分界分数对应的信息量达到了合格标准,而采用相似设计的前人研究中固定分数线法和固定比例法达到合格的比例约为8%和14%[2-3]。因此,在IRT信息量分析中,聚类分析相比当前中考实践中的固定分数和固定比例法依然具备一定优势。如果命题人员和考试机构能够适当增加IRT分界分数点附近的题目数量(如扩大难度分布范围),进一步提高试题试卷质量,对于提高该分界分数点的信息量将有较大改善。 综合三种测量理论的分析结果来看,使用聚类分析法进行标准设定具有较高的质量,并且聚类分析具有较强的可操作性和简便性。尤其是在目前我国各地区教育资源不均等、无法满足专家判断法(如Angoff法和Bookmark法等)对专业技术人员和标准化程序严格要求的情况下,基于聚类分析确定分界分数值的方法应该被纳入中考标准设定的选项清单。同时,有研究指出聚类分析法与专家主观判断所设定的合格标准较为一致[33,42-43],因此聚类分析结果也可以作为各地区考试部门进行标准设定决策的必要参考信息。 综合CTT、GT和IRT对于我国中考试题的分析结果,本研究得出以下结论:1)当分类数较少(四或五级)时,标准设定的信度达到可接受水平,当分类数较多(六级)时,分类信度降低;2)对于高水平考生的分类信度低于低水平考生,主要由于试卷整体难度较低,对高水平考生的测量信度不高。因此,本研究建议在中考试题的命制中,提高试题质量,适当增加难度较高试题的数量,以提高对高水平考生的分类信度。另外,在使用聚类分析方法进行中考标准设定时,建议分类数控制在五级及以下。 当然,聚类分析法虽然回避了对专家主观判断的完全依赖,但同样存在其局限性和不足。首先,聚类分析具有样本依赖性,需要样本具有充分代表性、测验编制良好等[44]。其次,聚类分析对数据量具有一定的要求,当被试样本数太少时,其聚类结果的稳健性较差[43]。再次,聚类分析的结果具有一定的强制性,即无论数据分布如何,它总能够将聚类对象分为指定的若干类。由于聚类分析具有的强制性和常模参照性,在对聚类分析结果进行解释时,教育实践者必须持谨慎态度,需要进一步借助内容专家进行判断和验证,最好能够获得外部效标以便全面评价聚类结果[29,32]。最后,聚类分析属于纯粹的数据驱动方法,未对测验的内容标准进行考量,在实际使用中还需要结合专家判断方法灵活使用,如将聚类分析得到的划界分数作为参考信息,让学科专家基于此信息对划界分数进行人工调整。
参考文献略。