首页    >    教育资讯    >    教育科学研究详情

多维计算机化多阶段自适应测验:自动组卷算法和路由规则

2022-05-06

多维计算机化多阶段自适应测验:自动组卷算法和路由规则

背景介绍

作者信息:华南师范大学心理学院徐玲玲博士生 (第一作者),佐治亚大学教育心理系王诗宇副教授,江西师范大学心理学院蔡艳教授 (通讯作者)和涂冬波教授 (通讯作者)。

原文出处:2022年1月发表于Journal of Educational Measurement (SCIE/SSCI双收录)。

文章具体信息:Xu, L., Wang, S., Cai, Y., & Tu, D. (2022). The Automatic Test Assembly and Routing Rule for Multistage Adaptive Testing with Multidimensional Item Response Theory. Journal of Educational Measurement, online. https://doi.org/10.1111/jedm.12305

微信图片_20220614220613.png

主要内容

随着计算机技术和现代测量理论的快速发展,心理和教育测验形式不再局限于传统的纸笔测验,正逐渐向计算机化测验过渡。在计算机化测验中,计算机化自适应测验 (computerized adaptive testing, CAT)和计算机化多阶段自适应测验 (multistage adaptive testing, MST)均属于自适应测验形式,它根据被试的作答反应为其选取下一步最合适难度的项目进行作答。两者的差异在于CAT属于项目水平的自适应测验,而MST属于模块水平的自适应测验。自适应测验的主要优势是“因人施测”和“量体裁衣”,即使用较少的、适合于被试的项目而达到对被试能力值更精确的估计。实证研究中发现:在相同的测验精度要求下,自适应测验的长度比传统的线性的纸笔测验的长度少50%到70% (Wainer et al., 2000)。近年来,MST相继成为多个大型考试项目的施测形式,如美国注册会计师资格考试、医师执照考试、法学院入学考试和研究生入学考试 (Graduate Record Examination, GRE)。可见,MST受到越来越多研究者和实践者的青睐。

在实际测验中,绝大多数心理与教育测验本质上都是多维测验。测验形式往往是由测量多个不同维度的能力的若干个测验共同完成。分析多维测验收集到的测验数据时,多维项目反应理论(multidimensional item response theory, MIRT)模型常被用于估计多维测量结构。根据多维评估的目的和性质,不同类型的MIRT模型被用于估计不同的多维测量结构(Gibbons & deGruy, 2019; Su & Huang, 2015)。而在自适应测验形式中评估多维测验,能够充分发挥MIRT和自适应测验的优势:不仅可以根据被试在测验中的表现同时估计被试多个维度的能力,还可以利用较短的时间达到更高的测量精度。因此,实现自适应测验在多维情境下的测验设计具有重要的意义,且在心理与教育测量领域具有较大的实际应用前景。

目前,已有不少文献对多维计算机自适应测验(multidimensional computerized adaptive testing, MCAT)展开了研究。回顾相关研究发现,尽管MCAT在实施多维评估中具有实用性,但当测验需要同时考虑满足统计约束和非统计约束时,MCAT的表现往往不尽如人意。MST因其在正式施测前使用自动组卷(automated test assembly, ATA)算法预先组建多个平行测验 (即平行面板),可以作为一种可尝试的解决方法。与MCAT的研究相比,MST在多维情境下 (multidimensional MST, M-MST)的相关研究较为匮乏。目前,仅有Wang (2013)对其展开了调查,该研究假设多维测验中的每个项目仅测量能力向量的一个维度,并采用单维项目反应理论(unidimensional item response theory, UIRT)模型进行测验评估。该研究中的M-MST设计本质上仍旧是多个单维MST设计的组合模式。尽管以该方式实施M-MST设计十分便利,但在实际心理与教育测验中,常常存在一个项目同时测量能力向量的多个维度的情况。因此,在M-MST设计中采用MIRT模型进行测验评估更适用于多维测量结构。

综上,本研究旨在MIRT框架下提出多维MST(M-MST)设计。如前所述,M-MST设计需要预先组建多个平行面板,待平行面板构建后正式施测M-MST。其中,M-MST在预先组卷阶段依赖ATA算法;正式施测M-MST时,在自适应阶段基于路由规则将考生路由到下一阶段的最合适的模块。可见,ATA算法和路由规则这两大核心技术在M-MST设计中起着至关重要的作用。因此,本研究提出了适用于M-MST设计的两类ATA算法 (改进的标准化加权绝对离差启发[normalized weighted absolute deviation heuristic, NWADH]算法、改进的混合线性规划[mixed-integer programming, MIP]算法)和一类路由规则(改进的近似极大信息量[approximate maximum information, AMI]路由规则)。本研究通过模拟研究和实证研究两方面评估所提出的M-MST的性能表现,还将与作为基线设计的MCAT进行对比,以明确M-MST的优势。

模拟研究结果表明:在相同的实验条件下,基于所提出的两类ATA算法和路由规则的组合均可以生成具有良好的测验组卷质量的M-MST设计。此外,相对于MCAT设计,M-MST设计还可以获得相同甚至更好的能力参数返真性结果 (结果见表1~4,图7~8)。上述结果也在实证研究中得到了进一步验证 (结果见表4)。

微信图片_20220614220711.png

微信图片_20220614220718.png

微信图片_20220614220722.png

微信图片_20220614220736.png

微信图片_20220614220747.png

本研究在MIRT框架下执行M-MST设计,可以充分发挥MIRT和MST两者的优势。本研究为施测M-MST设计,提出了两大核心技术:ATA算法和路由规则。此外,为求解改进的MIP模型,还开发了随机分组MIP求解器。模拟与实证研究均表明,基于所提出的两类ATA算法和一类路由规则的组合均可以生成兼具良好测验组卷质量和能力参数返真性的M-MST设计。研究结论进一步说明,使用M-MST设计在评估需要满足非统计约束的测验形式时具有明显的优势性。本研究也为研究者和实践者在多维情境下实施MST设计提供了有价值的参考和建议。

主要参考文献:

[1]Luecht, R. M. (1998). Computer-assisted test assembly using optimization heuristics. Applied Psychological Measurement, 22(3), 224–236.

[2]Luo, X., & Kim, D. (2018). A top-down approach to designing the computerized adaptive multistage test. Journal of Educational Measurement, 55, 243–263.

[3]Segall, D. O. (1996). Multidimensional adaptive testing. Psychometrika, 61(2), 331–354.

[4]Wang, X. (2013). An investigation on computer-adaptive multistage testing panels for multidimensional assessment. The University of North Carolina at Greensboro.


稿件来源:教育统计与测量前沿