教育考试研究
EXAM SCIENTIFIC RESEARCHS
生物学学科学业质量水平的评价与思考

2023-05-04

数学运算素养的水平划分与评价

2023-05-04

“议题式”教学在提升学科核心素养水平中的效能探索

2023-05-04

基于物理等级考试作答表现的学生科学思维素养的评价与分析

2023-05-04

情境化测验的进展与挑战

2023-03-30

情境化测验的进展与挑战作 者袁建林,湖南大学教育科学研究院副教授。李美娟,北京教育科学研究院基础教育教学研究中心副研究员。刘红云,北京师范大学心理学部教授(通信作者)。摘 要:情境化测验需要建构真实性情境任务,以便有效测量教育评价改革背景下学生的核心素养。梳理情境化测验的研究进展发现:问题情境创设和测验表现形式设计是其开发的重点;对于情境化测验中复杂数据的评分方法,主要有理论驱动、数据驱动及两者相结合3种方式;传统心理测量及其拓展模型和基于随机过程的测量模型是情境化测验的常用模型。情境化测验的流行是教育测验领域的进步,但进一步的发展还需要规范测验的开发标准、提升测验的信效度、探索复杂情境的建模方法及提升复杂数据的教育意义阐释。关键词:情境化测验;核心素养测评;测量模型;教育评价改革国家新一轮课程标准强调培养学生的核心素养,新课程改革倡导测评学生在真实性任务情境中解决复杂问题的能力与品格,教育测评变革的重点指向构建真实性测验任务测评学生的核心素养。情境化测验的核心意涵在于:从形式上,情境化测验以真实性问题情境统领测评过程;从功能上,情境化测验旨在有效测量核心素养。然而,情境化测验与传统测验存在着很大差异,在探索实践中遇到了方法多样、标准不一、部分做法欠缺科学性等问题。针对情境化测验的核心问题,本文通过梳理相关研究进展,从测验任务开发、评分标准制定、测量模型建构等方面综述典型经验与做法,反思存在的问题,以期为核心素养的有效测评提供理论指导。1 情境化测验任务的开发情境化测验是伴随着课程教学理论、教育评价理念的发展而产生的。传统的教育测评常常被批评只能考查学生对简单知识与技能的掌握程度,高利害考试筛选出来的人才存在“高分低能”现象,促使教育评价界反思“测评什么”和“如何测评”2个根本问题。如情境性试题的倡导者罗日叶所指出的,传统测评局限于书本上的知识与技能,而这些知识和技能通常脱离日常生活实际,导致“功能性文盲”现象[1],他认为应该在复杂的情境中评估学生的能力。罗日叶基于真实问题情境建构复杂任务测评学生复杂能力的思想,切合我国当前教育测评实践面临的现实需要。伴随“三维”目标课程理念的兴起,高考、学业水平考试等高利害考试中,逐渐引入情境性试题,以考查学生综合运用所学知识解决问题的过程与方法。新一轮课程改革以培养学生的核心素养为中心,而核心素养是一类结构要素复杂的高阶能力。核心素养的测评面临有效性问题,不少研究尝试利用信息技术构建交互式、动态性的情境测验任务以测评问题解决、合作、批判性思维等[2]。从测验开发的角度来看,情境性试题开发是情境化测验的核心,不论采用纸笔形式还是计算机支持的交互式测验,开发情境化测验要关注以下2个方面问题。1.1 情境性试题重在问题情境的创设情境是情境性问题的核心,是情境性试题区别于其他形式试题的关键。情境也是一个常见于各领域的基本概念,但关于“什么是情境”“情境包含哪些基本要素”问题的讨论尚缺少清晰的认识。罗日叶认为,情境由支持工具和命令2部分组成:支持工具是一组呈现给考生的材料,如书面文章、插图、照片、视频、音频等;命令则是从既定的支持工具出发向考生提出的一组答题指示[1]。钟志贤等认为情境是指问题(任务)物理的和概念的结构,以及与问题(任务)相关的活动目的和社会环境[3]。一般认为情境是指真实的问题背景,是以问题或任务为中心构成的活动场域[4]。因此,情境与问题紧密关联,情境建构问题的背景,问题需要情境的支撑才得以成立。创设问题情境旨在提供一个真实的问题背景,建构一个问题场域,以此生成问题解决进程的活动空间,为学生解决问题提供一个背景空间。在某种程度上,创设一个有价值、有意义的问题情境,情境化试题的命制就已然成功了一大半。  在当前教育测评实践中,课程标准、考试大纲不断强调测评应关注学生运用所学知识与技能解决实际问题的能力,情境性试题越来越常见于各类考试,也有不少学者对情境性试题的设计开展了针对性研究。总体来看,研究者们主要在以下3个方面达成了基本共识。首先,情境性试题的作用旨在测评学生的高阶能力。情境性试题与考查知识与简单技能类试题相比具有功能差异性,这类试题重在考查学生利用所学知识解决现实问题的能力。其次,设计情境性试题重在创设有价值、有意义的问题情境。有学者认为情境、核心问题或任务、表现期望是构成情境性试题设计的3大核心要素[4]。情境是问题的背景,一个优质的情境必然能与个人生活体验紧密关联,能引人入胜、激起学生探究欲望与兴趣。核心问题或任务是基于情境、学生需要回答的问题,它与测验目标紧密关联,由情境所支撑。表现期望是指试题所要测量的学生心理特质,是测验开发的基本出发点。在所有要素中,围绕被测特质创设问题情境是核心,为此需要收集和组织大量情境材料,并从中挑选出有价值、合乎测验要求的问题情境。最后,情境性试题的开发更加注重情境选择的科学性与公平性。情境与个人生活经验有关,而试题开发者的个人经验具有局限性,命题者的个人经验与答题者不可避免地存在着地域、文化和个人成长体验等多方面的差异;因此,情境性试题命制要特别注意科学性及公平性问题。1.2 情境化测验应规范测验的表现形式情境性试题的测验表现比选择题、填空题、判断题等传统试题更为复杂,规范情境性试题测验表现是测验开发的核心工作之一。在纸笔形式的情境化测验中,测验表现设计主要在于规范试题作答结果,对情境性问题可能出现的作答结果进行预设,其实质可归结为评判标准的建立。在计算机支持的交互式情境化测验中,学生完成任务的过程存在各种各样的行为,比如单击热点区域、拖拽任务环境中的某个对象、对问题的文字回答、交流讨论的言语行为等;因此,需要对学生的测验表现进行系统性规范,以利于评分和测验数据的解释。  规范学生的测验表现,首先需要清晰界定问题情境的结构。问题情境的基本组成要素包括元素、规则与活动,它是这些要素的系统构成。问题情境最基本的组成要素是各种元素,包括各种概念及对应的虚拟对象。问题情境中存在各种规则,规则限定各种元素的组合形式,从而形成实际场域。情境的真实性表现在虚拟对象及其规则与现实物理世界形成了映射,存在一一对应的关系。例如,“你的问题陈述里有一个3L的水杯,在对应的物理空间里真实或虚拟地存在一个3L水杯”,这使得问题情境具有真实性特征。由于人的参与,问题情境中存在动态性的活动,活动的动态性主要出于行为与时间2个基本要素的作用,行为是人对问题情境中元素的能动性操作,人的操作行为在时间维度上的延展性使得问题情境具有动态性。此外,人对问题情境中的元素进行操作时,问题情境也会对人自身形成反馈,从而使得问题情境具有交互性特征。  在交互式情境化测验中,对测验表现的规范重点放在活动这个维度上,即规范任务情境中学生的行为与操作过程,以及由于活动所引起问题情境的状态变化情况,并以“事件”对问题情境中的活动以及有关问题情境的状态进行抽象。事件是指学生对问题情境中元素的操作和问题情境状态的更新,结合事件发生的时间可以反映学生的行为表现过程和问题情境状态的变化过程。事件的界定,对于交互式情境化测验表现设计具有重要意义。学生在问题情境中的行为过程、活动过程是一个连续的整体,而连续的行为过程是难以整体记录的。通过关键事件的界定将连续的行为操作过程进行离散化表达,从而实现对连续的行为过程进行离散化记录。从任务情境的整体来看,如果将所有反映学生问题解决过程的行为操作和问题情境的状态变化都以事件的形式进行离散,结合事件发生的时间,则能完整地反映学生完成任务的过程;由此得到的测验数据即为过程数据[5]。2 情境化测验任务的评分方法无论是纸笔形式的情境化测验,还是交互式的情境化测验,评分标准的制定均是将其所测评的核心素养与学生的真实作答表现建立起联系。从测评的科学性来看,情境化测验评分的科学性是影响信度与效度的重要因素,是情境化测验成功的关键。好的评分标准,既能有效地测量学生在完成具体任务中体现出的核心素养,还能准确地呈现出不同水平学生核心素养的表现特征;因此,如何从学生完成情境化测验的作答反应中抽取关键特征或有意义的行为特征,是制定评分标准的关键。  与纸笔测验不同,交互式情境化测验不仅可以记录学生的作答结果,还可以实时记录学生问题解决的反应过程,形成过程数据[5]。过程数据蕴含了丰富的信息,包括了过程中的任务行为操作、交流对话以及学生在问题情境中某些无意义的点击、拖拽等行为;同时,过程数据具有时间序列特点,是以时间为主线、记录学生操作行为或对话内容等序列事件的数据库或日志文件。这些信息详细记录了学生如何理解和使用测验题目信息以及在问题解决过程所使用的解题策略[6],反映了学生解决问题所运用的能力和心智过程,是学生潜在心理活动过程的外在表现[7]。当前,针对情境化测验所产生的复杂数据进行关键特征提取和评分的方法,主要有自上而下(理论驱动)、自下而上(数据驱动)以及将两者相结合3种方式。2.1 自上而下的特征提取和评分自上而下的特征提取和评分方式,是目前国内外情境化测验的主流评分方式。例如,PISA2012开发的交互式问题解决测验和PISA2015人机交互式合作问题解决测验,由思科、英特尔和微软共同发起的21世纪能力评价与教育项目(Assessment & Teaching of 21st Century Skills, ATC21S)中的人人交互式合作问题解决测验,都采用了此种方法。  自上而下的特征提取和评分方法以Mislevy等提出的以证据为中心的设计模型(evidencecentered design, ECD)为理论基础,即由专家组基于核心素养的操作性定义和测评框架,根据设计思想,结合具体的情境化测验,从学生的作答反应或计算机记录的过程数据中寻找与测评框架相关联的行为表现,并制订评分标准[8]。例如,ATC21S项目将过程数据中可观测的行为和聊天内容作为反映合作问题解决的认知技能(任务调节、学习和知识建构)和社会技能(参与、观点获取和社会调节)的指标,即基于理论框架和专家经验,根据一定规则从过程数据中抽取与测评框架中18个元素对应的行为模式,并确定评分标准[9]。自上而下的特征提取和评分,一般需要组织多位专家进行评分指标的设计、评审和修改的迭代工作。  自上而下的特征提取和评分方法,通常使用出声思维法和评分者一致性系数来确保评分标准的有效性。这种基于理论驱动和专家经验的测评,需要专家对所测能力的操作性定义、评价框架有深刻理解,还需要专家通过学生的作答行为清晰判断出学生的思维水平。一般情况下,有声思维法可以通过对学生作答过程中的信息进行分析,深入了解学生即时、内隐的解题思路,为评分标准的制定提供依据[10]。在确定了评分标准之后,还应为相关标准提供足够多的样例,组织相关领域专家对提取的关键行为特征进行预评分,并对多位评分者之间的一致性程度进行检验,一致性程度可以采用Kappa系数来衡量。对于评分者一致性程度较低的评分标准,则需要专家进一步分析原因,并对其作出有针对性的修订。2.2 自下而上的特征提取和评分自下而上的特征提取是基于交互式情境化测验所获得的过程数据,使用数据降维、聚类、可视化分析等数据挖掘和机器学习方法,提取高阶能力的关键特征。自下而上的评分方法是基于过程数据时间序列的特征,对过程中的行为路径和关键特征进行计分。自下而上的特征提取和评分方法目前尚处于初步探索阶段,大多数研究采用机器学习和数据挖掘来实现过程数据的分析。这类方法可分为3类:一是自然语言处理(natural language processing, NLP)技术。例如,研究者们在使用N-Gram方法对行为或行为序列标识后,通常采用卡方检验或有(或无)监督的机器学习(machine learning)方法提取影响学生作答结果的关键特征[11]。二是降维算法。例如,研究者们采用自编码(autoencoder)和多维尺度分析(multidimensional scaling, MDS),获取反应序列的数字特征向量,并用其来预测被试的结果表现或提高能力估计准确性[12-13]。三是网络分析方法。首先使用有向图(如社会网络分析方法)表征过程数据的时间序列行为,然后采用有向图的整体网络测量指标分析行为的典型特征[14]。3种方法相比较:N-Gram方法提取的行为特征简单、易于理解,但指标笼统,遗漏顺序信息,信息损失大;降维方法虽然可以抽取全面的信息,但缺乏可解释性;网络分析方法难以获得网络节点的内涵,无法直接应用于后期测量模型的能力估计。此外,需要注意的是,结构化的过程数据是后期数据分析的基础,不论上述哪种方法,都需要对复杂凌乱的过程数据进行整理和结构化转换,尽管这个过程耗时费力,却是一个必需的步骤。  自下而上数据挖掘方法提取的过程特征可用于预测学生的作答结果表现,更多实现对学生解题的策略特征分析,对测验开发和评分标准的改进均有一定价值。然而,直接对自下而上提取的特征进行评分面临的主要问题是缺乏可解释性,理论依据不足,因此,对纯粹数据驱动的行为特征进行评分尚未得到广泛应用。2.3 自上而下与自下而上相结合的特征提取和评分由于核心素养测验题目的开放程度通常较高,解决问题的途径具有不确定性和非唯一性特点,很难在测验设计阶段完成关键信息和证据的提取。尤其在复杂的情境化测验任务中,专家提取行为表现证据的方式可能难以全面反映学生的真实能力,可能会遗漏学生的部分思维。而对基于交互式情境化测验得到的过程数据,如何提取能够反映学生核心素养表现的证据更加复杂。因此,如何结合情境化测验的复杂性,基于能够反映动态测评核心的测量理论,对过程数据进行关键特征和证据提取,建构合理的既能反映测验设计理念、又能反映复杂问题解决过程信息复杂性的评分框架和评分指标,是当前亟待解决的问题。  计算心理测量理论将自上而下理论指导和自下而上数据驱动的方法相结合,为核心素养的测评提供了理论和方法上的支持[15]。在测验任务的设计中,以ECD理论为依据,包含了建立测评框架、开发测验任务、基于表现抽取证据、基于证据进行推论4部分内容。在关键特征提取中,采用机器学习和数据挖掘方法,对多模态的过程数据进行特征提取,进一步补充完善具有过程特征的评分框架和评分指标。在测评结果使用中,强调多模态数据中提取的关键特征需要与测评框架之间建立联系,将自上而下和自下而上相结合,形成理论指导和数据驱动结果相互补充、印证的闭环模型[7,16]。有研究者采用自上而下和自下而上相结合的方法,补充完善了合作问题解决的评分框架和评分指标。例如,采用自下而上数据驱动的方法,补充提取了学生合作问题解决过程中的干扰行为、语言内容特征、行为序列,以及含有语言内容的行为语言序列、语言交互序列,从而使合作问题解决测评的证据更加丰富[16]。3 情境化测验的测量模型在情境化测验中,从学生作答反应或过程数据中抽取关键行为特征并进行评分后,可以使用测量模型对学生的能力进行估计。与传统测量模型相似,过程数据中提取的这些评分指标均可视为项目。项目间的局部独立性是传统测量模型的一个重要前提,即在有关潜变量的分析中,项目参数仅与被试潜在特质有关,而与其他题目的项目参数无关[17-18]。然而,情境化测验中的行为特征具有时间序列特点,学生的行为操作存在先后的逻辑与关联。因此,建构基于过程数据时间序列特点的测量模型也是目前教育测量领域研究的一个难点。根据模型是否利用了行为特征间的时间序列特点,可以将常用的测量模型分为2类:传统的心理测量及其拓展模型,结合随机过程思想的测量模型。3.1 传统的心理测量及其拓展模型传统测验中学生的作答行为比较简单,很容易在预设的认知行为和能力测评框架下直接对关键特征进行评分,进而基于传统测量理论模型实现对学生能力的估计。例如,经典测验理论下能力的估计采用简单的题目得分总和,项目反应理论模型则可以直接基于题目得分与潜在能力关系假设的模型进行估计。针对不同测验结构,可以使用单维或多维IRT模型估计多个维度上的能力。例如,PISA2015将合作问题解决定义为一种复合能力,强调其测评框架由问题解决和合作2个维度形成12个交叉技能,每个交叉技能既可以体现问题解决能力,又可以体现合作能力;因此,其采用单维模型估计学生的合作问题解决能力[19]。ATC21S从认知技能和社会技能2个维度对合作问题解决能力进行评价,表现为每个元素仅属于其中某一个维度,即认知技能和社会技能的元素相对独立,这里从过程数据中提取的行为指标对应于多个维度时,可以采用多维IRT模型对被试的能力水平进行估计[20]。研究发现,当过程数据体现为多维结构时,使用多维IRT模型的拟合效果要优于单维IRT模型的分别估计[21]。在个体的合作问题解决能力估计时,也可以考虑多水平IRT模型[22]。  拓展的多水平混合IRT(multilevel mixture item response theory, MMixIRT)模型利用过程数据嵌套结构的特点,将传统的多水平混合IRT 模型加以拓展,结合交互式问题解决任务,不仅可估计学生个体层面能力,还能利用解决问题的动态过程信息揭示学生问题解决的路径[23-24]。该模型结合了IRT、潜类别和多水平模型的特点:在过程水平中,可以使用潜类别模型和IRT模型估计的过程能力来确定学生解题的过程策略;在个体水平中,使用IRT模型进行学生个体能力值的估计。然而,估计过程能力和个体能力的学生作答信息往往依赖于任务特征,在任务之间不具备通用性;因此,拓展MMixIRT的能力估计仅使用单一任务的作答信息,很难同时利用学生多任务的过程数据对学生能力进行估计。这也是目前基于过程特征建构测量模型存在的普遍问题。3.2 结合随机过程思想的测量模型近年来,由于随机过程的概率模型可以考虑情境化测验中行为特征的时序特点,受到了研究者们的青睐。常用的随机过程模型有隐马尔可夫模型(hidden Markov model, HMM)和动态贝叶斯网络(dynamic Bayesian network, DBN)2种。采用基于数据驱动的HMM方法,研究者可以对问题解决的行为序列进行分析,识别问题解决潜在状态之间的转换,以更好理解被试在复杂问题解决任务中表现出的行为模式和认知转换[25]。研究者采用DBN方法同样可以对行为序列进行分析,得到每个被试在游戏类测试过程中各个潜在状态的掌握程度[26]。这2种方法属于处理时间序列行为的概率统计模型,可以分析得到问题解决过程中离散的知识掌握状态或能力状态,但很难满足教育和心理测验对稳定连续的能力特质进行有效估计的需要。  目前,有研究者结合随机过程模型的思想,基于过程数据的时间序列特点探索新的测量模型,以提供更为准确的学生能力估计。如Markov-IRT模型将马尔可夫模型(Markov model)和IRT模型融合在一起,对学生个体能力估计不仅考虑了学生问题解决过程中的行为特征,还包含了行为之间的转移信息,为学生的能力估计提供了更多信息[27]。最新的随机过程模型还包括序列反应模型(sequential response model, SRM)[28]、连续时间动态选择模型(continuous-time dynamic choice, CTDC)[29]和马尔可夫决策过程(Markov decision process, MDP)[30]。结合了随机过程思想的心理测量模型,利用过程数据中行为特征之间的时间序列特点,且由专家规定相应的计分方式,具有一定的可解释性,因而可以利用比较完整的过程信息获得被试的能力估计值。然而,这种方法需要穷尽学生解决问题过程中的行为模式,可能更适用于有固定完成路径的简单任务;因此,如何基于情境化测验的过程数据,构建具有时间序列特点的测量模型,且兼具科学性和可解释性,还有待于进一步探索。4 对于情境化测验的反思从教育测评的发展趋势来看,情境化测验总体上代表了教育评价理念、教育测量方法、教育测评功能的进步。首先,情境化测验倡导测量学生在真实任务情境中解决现实问题的能力,而不局限于抽象知识与简单技能的测评。其关注教学过程与问题解决过程,而不仅仅是教学与测验的结果,与我国当前拔尖创新人才培养的基本要求相一致,符合核心素养课程改革所提出的评价要求。其次,情境化测验是教育测量手段与方法的突破。它打破纸笔考试形同于“涂圈圈测验”的刻板印象,建构接近于生活实际的情境性问题,特别是利用计算机开发的具有动态性、交互性的情境性任务,是对传统试题只能基于知识逻辑提出单调性问题的突破;同时,在交互式情境测验中,学生完成测验任务所衍生的结构复杂、多模态的原始测验数据,极大丰富了数据处理方法,促进了机器学习、人工智能领域中复杂数据处理方法在教育测评中的应用。此外,情境化测验也促进了教育测量模型的发展。由于情境化测验所具备的多样性情境结构、生成的复杂测验数据、提取的多模态测量证据,许多研究者尝试将马尔可夫模型、随机过程模型、多层线性模型等应用于情境化测验的建模,是对传统经典测量理论、IRT理论、认知诊断测量模型的极大突破。最后,情境化测验是教育测评功能的进步。在微观层面,情境化测验主要为了解决复杂能力、高阶能力、核心素养的科学测评问题,拓展了教育测评的功能;在宏观层面,情境化测验是能力立意测评的体现,是破解唯分数论、转变应试教育导向的重要支撑,有助于教师和学生将教学与学习的重心真正转移到能力培养、人的全面发展上来。然而,发展与进步并不意味着毫无问题。从教育测量专业视角来审视,情境化测验实际上还面临着诸多挑战,需要在后续研究中直面这些问题,努力推动其不断地发展与完善。4.1 规范情境化测验的开发标准问题情境化测验在考试与测评中已较为常见,但目前情境性试题的命制主要依赖于命题者的个人经验。命题者所建构的情境与问题背景源于其生活经验与个体体验,在问题情境具有独特性与创新性的同时,也面临着跨文化、跨地区、跨受试群体的适应性问题。尽管罗日叶阐释了情境参数类型、如何确保情境等价性、提出了一个好情境的主要特征等问题,也有研究者提出命制情境化试题的策略,如重视试题素材的收集、确保作答任务与真实情境强关联、特定情境匹配适宜的题型[4];但这些思想的阐释以及经验性、个体性的策略,尚不足以规范情境性试题的开发。在情境性试题广泛应用的今天,建立情境性试题的开发标准尤为重要,这就需要重点从情境要素、情境等价性、提问策略、情境与被测内容之间关系等方面进行规范。对于交互式情境化测验,还需要对测验表现形式、交互形式、技术标准等进行规范,以确保情境化测验开发的普适性。4.2 确保情境化测验的信度和效度问题制约情境化测验信度和效度的因素有如下几个方面。一是被测特质的复杂性会影响测验的有效性。情境化测验旨在测量核心素养,不同于知识掌握和简单技能,核心素养结构复杂、高度抽象,现有教育理论对这类复杂技能的认识还不够明确,同一种素养的界定存在着差异甚至冲突。对于被测特质复杂性、抽象性与认识的模糊性,会影响测验的有效性。二是情境性试题包含的要素较多,面临着情境等价问题,也就是情境是否适应于不同文化、不同地区、不同群体。罗日叶认为情境性试题包含的参数数量很大,不同情境化任务具有不同复杂性水平,所有这些参数保持恒定的可能性极小,面临着更多不确定性[1],必然会影响到情境化测验的信度。三是传统效度论证主要建立在与外部效标关联性基础之上,对核心素养、复杂技能和高阶思维,往往缺乏可靠的外部效标,情境化测验缺乏客观的外部效度。四是在交互式情境化测验中,复杂测验数据的处理可能会产生评分效度问题,特别是数据驱动的自下而上的证据推论模式,几乎忽略了传统理论效度推导链条。因此,对复杂测验的效度论证是当前情境化测验需要重点突破的核心问题之一。4.3 探索复杂测验情境的建模方法问题基于计算机的交互式测验能够建构复杂的情境,可以从2个方面看待情境的复杂性:一是出于被测内容的实质性需要而建构的特殊情境,如合作问题解决能力的测验,可以利用计算机建构多人合作完成任务的真实情境:二是技术的应用能够建构动态性、连续性的情境,测验系统能够完整记录学生完成任务的过程,形成完成任务的过程性数据。对于前者,被测特质的特殊性会影响传统测量模型的适应性,如利用传统IRT模型估计2人合作情境下的学生合作能力,则违背IRT模型的被试独立性假设[20];对于后者,过程数据完整记录学生的任务完成过程,基于学生作答数据、作答时间或者作答速度提取的过程信息,研究者们开发了多种基于反应时的新型测量模型[31]。从技术与教育测评结合的趋势来看,情境的构建会越来越复杂,所获取的测验信息会越趋精确和多样化,传统测量模型仅仅依据作答结果推断学生能力就显得远远不够。当前有关复杂测验情境测量模型的研究大多数都是适应特定情境的小范围突破[32],测量模型如何更好地适应基于被测内容实质而建构的复杂问题情境,如何更好地利用测验所获取的各类信息更为精确地估计学生能力,成为教育测量领域需要深入探讨的根本性问题。基于复杂测验情境的建模需要投入更多精力,开发出具有普适性的测量模型是教育测量研究的重点方向。4.4 注意测验数据的教育意义阐释问题基于计算机的情境化测验可以产生大量过程数据、日志数据,当前有关过程数据的分析方法主要有自上而下和自下而上2种模式。自上而下方法主要遵从ECD思想,强调从复杂数据中提取测量证据,完整建立“数据-测量证据-被测特质”之间的推理链条,使得测量结果可以进行有教育意义的解释。自下而上模式主要利用机器学习、人工智能领域中的数据处理方法,直接获得反应序列或关键特征的数字表征,这些指标与被测特质间的关联机制相对难以进行有教育意义的解释和理解[32]。教育测量的目标不仅仅是获得一个数字、一个分数,更重要的是理解数字背后的教育内涵,因此改进自下而上的数据处理模型具有重要意义。这就要求研究者一方面要借鉴机器学习、人工智能领域中的先进数据处理方法,另一方面还要遵从基于证据进行推理的基本测量思想,关注测量证据、测量数字符号背后的教育内涵。具体来说,改进自下而上处理模式的基本思路,可以先利用数据驱动的方法提取特征与指标,然后建立抽取特征与被测特质之间推理链条而形成测量证据,最后利用测量模型给出有关被测特质的整体性估计,以此才能确保测验结果的阐释具有教育意义。 参考文献:(略)原文刊载于《中国考试》2023年第3期第17—26页。本栏目进行了编辑,略去了参考文献,如有不妥,请联系本栏目。