教育考试研究
EXAM SCIENTIFIC RESEARCHS
“议题式”教学在提升学科核心素养水平中的效能探索

2023-05-04

基于物理等级考试作答表现的学生科学思维素养的评价与分析

2023-05-04

情境化测验的进展与挑战

2023-03-30

情境化测验的进展与挑战作 者袁建林,湖南大学教育科学研究院副教授。李美娟,北京教育科学研究院基础教育教学研究中心副研究员。刘红云,北京师范大学心理学部教授(通信作者)。摘 要:情境化测验需要建构真实性情境任务,以便有效测量教育评价改革背景下学生的核心素养。梳理情境化测验的研究进展发现:问题情境创设和测验表现形式设计是其开发的重点;对于情境化测验中复杂数据的评分方法,主要有理论驱动、数据驱动及两者相结合3种方式;传统心理测量及其拓展模型和基于随机过程的测量模型是情境化测验的常用模型。情境化测验的流行是教育测验领域的进步,但进一步的发展还需要规范测验的开发标准、提升测验的信效度、探索复杂情境的建模方法及提升复杂数据的教育意义阐释。关键词:情境化测验;核心素养测评;测量模型;教育评价改革国家新一轮课程标准强调培养学生的核心素养,新课程改革倡导测评学生在真实性任务情境中解决复杂问题的能力与品格,教育测评变革的重点指向构建真实性测验任务测评学生的核心素养。情境化测验的核心意涵在于:从形式上,情境化测验以真实性问题情境统领测评过程;从功能上,情境化测验旨在有效测量核心素养。然而,情境化测验与传统测验存在着很大差异,在探索实践中遇到了方法多样、标准不一、部分做法欠缺科学性等问题。针对情境化测验的核心问题,本文通过梳理相关研究进展,从测验任务开发、评分标准制定、测量模型建构等方面综述典型经验与做法,反思存在的问题,以期为核心素养的有效测评提供理论指导。1 情境化测验任务的开发情境化测验是伴随着课程教学理论、教育评价理念的发展而产生的。传统的教育测评常常被批评只能考查学生对简单知识与技能的掌握程度,高利害考试筛选出来的人才存在“高分低能”现象,促使教育评价界反思“测评什么”和“如何测评”2个根本问题。如情境性试题的倡导者罗日叶所指出的,传统测评局限于书本上的知识与技能,而这些知识和技能通常脱离日常生活实际,导致“功能性文盲”现象[1],他认为应该在复杂的情境中评估学生的能力。罗日叶基于真实问题情境建构复杂任务测评学生复杂能力的思想,切合我国当前教育测评实践面临的现实需要。伴随“三维”目标课程理念的兴起,高考、学业水平考试等高利害考试中,逐渐引入情境性试题,以考查学生综合运用所学知识解决问题的过程与方法。新一轮课程改革以培养学生的核心素养为中心,而核心素养是一类结构要素复杂的高阶能力。核心素养的测评面临有效性问题,不少研究尝试利用信息技术构建交互式、动态性的情境测验任务以测评问题解决、合作、批判性思维等[2]。从测验开发的角度来看,情境性试题开发是情境化测验的核心,不论采用纸笔形式还是计算机支持的交互式测验,开发情境化测验要关注以下2个方面问题。1.1 情境性试题重在问题情境的创设情境是情境性问题的核心,是情境性试题区别于其他形式试题的关键。情境也是一个常见于各领域的基本概念,但关于“什么是情境”“情境包含哪些基本要素”问题的讨论尚缺少清晰的认识。罗日叶认为,情境由支持工具和命令2部分组成:支持工具是一组呈现给考生的材料,如书面文章、插图、照片、视频、音频等;命令则是从既定的支持工具出发向考生提出的一组答题指示[1]。钟志贤等认为情境是指问题(任务)物理的和概念的结构,以及与问题(任务)相关的活动目的和社会环境[3]。一般认为情境是指真实的问题背景,是以问题或任务为中心构成的活动场域[4]。因此,情境与问题紧密关联,情境建构问题的背景,问题需要情境的支撑才得以成立。创设问题情境旨在提供一个真实的问题背景,建构一个问题场域,以此生成问题解决进程的活动空间,为学生解决问题提供一个背景空间。在某种程度上,创设一个有价值、有意义的问题情境,情境化试题的命制就已然成功了一大半。  在当前教育测评实践中,课程标准、考试大纲不断强调测评应关注学生运用所学知识与技能解决实际问题的能力,情境性试题越来越常见于各类考试,也有不少学者对情境性试题的设计开展了针对性研究。总体来看,研究者们主要在以下3个方面达成了基本共识。首先,情境性试题的作用旨在测评学生的高阶能力。情境性试题与考查知识与简单技能类试题相比具有功能差异性,这类试题重在考查学生利用所学知识解决现实问题的能力。其次,设计情境性试题重在创设有价值、有意义的问题情境。有学者认为情境、核心问题或任务、表现期望是构成情境性试题设计的3大核心要素[4]。情境是问题的背景,一个优质的情境必然能与个人生活体验紧密关联,能引人入胜、激起学生探究欲望与兴趣。核心问题或任务是基于情境、学生需要回答的问题,它与测验目标紧密关联,由情境所支撑。表现期望是指试题所要测量的学生心理特质,是测验开发的基本出发点。在所有要素中,围绕被测特质创设问题情境是核心,为此需要收集和组织大量情境材料,并从中挑选出有价值、合乎测验要求的问题情境。最后,情境性试题的开发更加注重情境选择的科学性与公平性。情境与个人生活经验有关,而试题开发者的个人经验具有局限性,命题者的个人经验与答题者不可避免地存在着地域、文化和个人成长体验等多方面的差异;因此,情境性试题命制要特别注意科学性及公平性问题。1.2 情境化测验应规范测验的表现形式情境性试题的测验表现比选择题、填空题、判断题等传统试题更为复杂,规范情境性试题测验表现是测验开发的核心工作之一。在纸笔形式的情境化测验中,测验表现设计主要在于规范试题作答结果,对情境性问题可能出现的作答结果进行预设,其实质可归结为评判标准的建立。在计算机支持的交互式情境化测验中,学生完成任务的过程存在各种各样的行为,比如单击热点区域、拖拽任务环境中的某个对象、对问题的文字回答、交流讨论的言语行为等;因此,需要对学生的测验表现进行系统性规范,以利于评分和测验数据的解释。  规范学生的测验表现,首先需要清晰界定问题情境的结构。问题情境的基本组成要素包括元素、规则与活动,它是这些要素的系统构成。问题情境最基本的组成要素是各种元素,包括各种概念及对应的虚拟对象。问题情境中存在各种规则,规则限定各种元素的组合形式,从而形成实际场域。情境的真实性表现在虚拟对象及其规则与现实物理世界形成了映射,存在一一对应的关系。例如,“你的问题陈述里有一个3L的水杯,在对应的物理空间里真实或虚拟地存在一个3L水杯”,这使得问题情境具有真实性特征。由于人的参与,问题情境中存在动态性的活动,活动的动态性主要出于行为与时间2个基本要素的作用,行为是人对问题情境中元素的能动性操作,人的操作行为在时间维度上的延展性使得问题情境具有动态性。此外,人对问题情境中的元素进行操作时,问题情境也会对人自身形成反馈,从而使得问题情境具有交互性特征。  在交互式情境化测验中,对测验表现的规范重点放在活动这个维度上,即规范任务情境中学生的行为与操作过程,以及由于活动所引起问题情境的状态变化情况,并以“事件”对问题情境中的活动以及有关问题情境的状态进行抽象。事件是指学生对问题情境中元素的操作和问题情境状态的更新,结合事件发生的时间可以反映学生的行为表现过程和问题情境状态的变化过程。事件的界定,对于交互式情境化测验表现设计具有重要意义。学生在问题情境中的行为过程、活动过程是一个连续的整体,而连续的行为过程是难以整体记录的。通过关键事件的界定将连续的行为操作过程进行离散化表达,从而实现对连续的行为过程进行离散化记录。从任务情境的整体来看,如果将所有反映学生问题解决过程的行为操作和问题情境的状态变化都以事件的形式进行离散,结合事件发生的时间,则能完整地反映学生完成任务的过程;由此得到的测验数据即为过程数据[5]。2 情境化测验任务的评分方法无论是纸笔形式的情境化测验,还是交互式的情境化测验,评分标准的制定均是将其所测评的核心素养与学生的真实作答表现建立起联系。从测评的科学性来看,情境化测验评分的科学性是影响信度与效度的重要因素,是情境化测验成功的关键。好的评分标准,既能有效地测量学生在完成具体任务中体现出的核心素养,还能准确地呈现出不同水平学生核心素养的表现特征;因此,如何从学生完成情境化测验的作答反应中抽取关键特征或有意义的行为特征,是制定评分标准的关键。  与纸笔测验不同,交互式情境化测验不仅可以记录学生的作答结果,还可以实时记录学生问题解决的反应过程,形成过程数据[5]。过程数据蕴含了丰富的信息,包括了过程中的任务行为操作、交流对话以及学生在问题情境中某些无意义的点击、拖拽等行为;同时,过程数据具有时间序列特点,是以时间为主线、记录学生操作行为或对话内容等序列事件的数据库或日志文件。这些信息详细记录了学生如何理解和使用测验题目信息以及在问题解决过程所使用的解题策略[6],反映了学生解决问题所运用的能力和心智过程,是学生潜在心理活动过程的外在表现[7]。当前,针对情境化测验所产生的复杂数据进行关键特征提取和评分的方法,主要有自上而下(理论驱动)、自下而上(数据驱动)以及将两者相结合3种方式。2.1 自上而下的特征提取和评分自上而下的特征提取和评分方式,是目前国内外情境化测验的主流评分方式。例如,PISA2012开发的交互式问题解决测验和PISA2015人机交互式合作问题解决测验,由思科、英特尔和微软共同发起的21世纪能力评价与教育项目(Assessment & Teaching of 21st Century Skills, ATC21S)中的人人交互式合作问题解决测验,都采用了此种方法。  自上而下的特征提取和评分方法以Mislevy等提出的以证据为中心的设计模型(evidencecentered design, ECD)为理论基础,即由专家组基于核心素养的操作性定义和测评框架,根据设计思想,结合具体的情境化测验,从学生的作答反应或计算机记录的过程数据中寻找与测评框架相关联的行为表现,并制订评分标准[8]。例如,ATC21S项目将过程数据中可观测的行为和聊天内容作为反映合作问题解决的认知技能(任务调节、学习和知识建构)和社会技能(参与、观点获取和社会调节)的指标,即基于理论框架和专家经验,根据一定规则从过程数据中抽取与测评框架中18个元素对应的行为模式,并确定评分标准[9]。自上而下的特征提取和评分,一般需要组织多位专家进行评分指标的设计、评审和修改的迭代工作。  自上而下的特征提取和评分方法,通常使用出声思维法和评分者一致性系数来确保评分标准的有效性。这种基于理论驱动和专家经验的测评,需要专家对所测能力的操作性定义、评价框架有深刻理解,还需要专家通过学生的作答行为清晰判断出学生的思维水平。一般情况下,有声思维法可以通过对学生作答过程中的信息进行分析,深入了解学生即时、内隐的解题思路,为评分标准的制定提供依据[10]。在确定了评分标准之后,还应为相关标准提供足够多的样例,组织相关领域专家对提取的关键行为特征进行预评分,并对多位评分者之间的一致性程度进行检验,一致性程度可以采用Kappa系数来衡量。对于评分者一致性程度较低的评分标准,则需要专家进一步分析原因,并对其作出有针对性的修订。2.2 自下而上的特征提取和评分自下而上的特征提取是基于交互式情境化测验所获得的过程数据,使用数据降维、聚类、可视化分析等数据挖掘和机器学习方法,提取高阶能力的关键特征。自下而上的评分方法是基于过程数据时间序列的特征,对过程中的行为路径和关键特征进行计分。自下而上的特征提取和评分方法目前尚处于初步探索阶段,大多数研究采用机器学习和数据挖掘来实现过程数据的分析。这类方法可分为3类:一是自然语言处理(natural language processing, NLP)技术。例如,研究者们在使用N-Gram方法对行为或行为序列标识后,通常采用卡方检验或有(或无)监督的机器学习(machine learning)方法提取影响学生作答结果的关键特征[11]。二是降维算法。例如,研究者们采用自编码(autoencoder)和多维尺度分析(multidimensional scaling, MDS),获取反应序列的数字特征向量,并用其来预测被试的结果表现或提高能力估计准确性[12-13]。三是网络分析方法。首先使用有向图(如社会网络分析方法)表征过程数据的时间序列行为,然后采用有向图的整体网络测量指标分析行为的典型特征[14]。3种方法相比较:N-Gram方法提取的行为特征简单、易于理解,但指标笼统,遗漏顺序信息,信息损失大;降维方法虽然可以抽取全面的信息,但缺乏可解释性;网络分析方法难以获得网络节点的内涵,无法直接应用于后期测量模型的能力估计。此外,需要注意的是,结构化的过程数据是后期数据分析的基础,不论上述哪种方法,都需要对复杂凌乱的过程数据进行整理和结构化转换,尽管这个过程耗时费力,却是一个必需的步骤。  自下而上数据挖掘方法提取的过程特征可用于预测学生的作答结果表现,更多实现对学生解题的策略特征分析,对测验开发和评分标准的改进均有一定价值。然而,直接对自下而上提取的特征进行评分面临的主要问题是缺乏可解释性,理论依据不足,因此,对纯粹数据驱动的行为特征进行评分尚未得到广泛应用。2.3 自上而下与自下而上相结合的特征提取和评分由于核心素养测验题目的开放程度通常较高,解决问题的途径具有不确定性和非唯一性特点,很难在测验设计阶段完成关键信息和证据的提取。尤其在复杂的情境化测验任务中,专家提取行为表现证据的方式可能难以全面反映学生的真实能力,可能会遗漏学生的部分思维。而对基于交互式情境化测验得到的过程数据,如何提取能够反映学生核心素养表现的证据更加复杂。因此,如何结合情境化测验的复杂性,基于能够反映动态测评核心的测量理论,对过程数据进行关键特征和证据提取,建构合理的既能反映测验设计理念、又能反映复杂问题解决过程信息复杂性的评分框架和评分指标,是当前亟待解决的问题。  计算心理测量理论将自上而下理论指导和自下而上数据驱动的方法相结合,为核心素养的测评提供了理论和方法上的支持[15]。在测验任务的设计中,以ECD理论为依据,包含了建立测评框架、开发测验任务、基于表现抽取证据、基于证据进行推论4部分内容。在关键特征提取中,采用机器学习和数据挖掘方法,对多模态的过程数据进行特征提取,进一步补充完善具有过程特征的评分框架和评分指标。在测评结果使用中,强调多模态数据中提取的关键特征需要与测评框架之间建立联系,将自上而下和自下而上相结合,形成理论指导和数据驱动结果相互补充、印证的闭环模型[7,16]。有研究者采用自上而下和自下而上相结合的方法,补充完善了合作问题解决的评分框架和评分指标。例如,采用自下而上数据驱动的方法,补充提取了学生合作问题解决过程中的干扰行为、语言内容特征、行为序列,以及含有语言内容的行为语言序列、语言交互序列,从而使合作问题解决测评的证据更加丰富[16]。3 情境化测验的测量模型在情境化测验中,从学生作答反应或过程数据中抽取关键行为特征并进行评分后,可以使用测量模型对学生的能力进行估计。与传统测量模型相似,过程数据中提取的这些评分指标均可视为项目。项目间的局部独立性是传统测量模型的一个重要前提,即在有关潜变量的分析中,项目参数仅与被试潜在特质有关,而与其他题目的项目参数无关[17-18]。然而,情境化测验中的行为特征具有时间序列特点,学生的行为操作存在先后的逻辑与关联。因此,建构基于过程数据时间序列特点的测量模型也是目前教育测量领域研究的一个难点。根据模型是否利用了行为特征间的时间序列特点,可以将常用的测量模型分为2类:传统的心理测量及其拓展模型,结合随机过程思想的测量模型。3.1 传统的心理测量及其拓展模型传统测验中学生的作答行为比较简单,很容易在预设的认知行为和能力测评框架下直接对关键特征进行评分,进而基于传统测量理论模型实现对学生能力的估计。例如,经典测验理论下能力的估计采用简单的题目得分总和,项目反应理论模型则可以直接基于题目得分与潜在能力关系假设的模型进行估计。针对不同测验结构,可以使用单维或多维IRT模型估计多个维度上的能力。例如,PISA2015将合作问题解决定义为一种复合能力,强调其测评框架由问题解决和合作2个维度形成12个交叉技能,每个交叉技能既可以体现问题解决能力,又可以体现合作能力;因此,其采用单维模型估计学生的合作问题解决能力[19]。ATC21S从认知技能和社会技能2个维度对合作问题解决能力进行评价,表现为每个元素仅属于其中某一个维度,即认知技能和社会技能的元素相对独立,这里从过程数据中提取的行为指标对应于多个维度时,可以采用多维IRT模型对被试的能力水平进行估计[20]。研究发现,当过程数据体现为多维结构时,使用多维IRT模型的拟合效果要优于单维IRT模型的分别估计[21]。在个体的合作问题解决能力估计时,也可以考虑多水平IRT模型[22]。  拓展的多水平混合IRT(multilevel mixture item response theory, MMixIRT)模型利用过程数据嵌套结构的特点,将传统的多水平混合IRT 模型加以拓展,结合交互式问题解决任务,不仅可估计学生个体层面能力,还能利用解决问题的动态过程信息揭示学生问题解决的路径[23-24]。该模型结合了IRT、潜类别和多水平模型的特点:在过程水平中,可以使用潜类别模型和IRT模型估计的过程能力来确定学生解题的过程策略;在个体水平中,使用IRT模型进行学生个体能力值的估计。然而,估计过程能力和个体能力的学生作答信息往往依赖于任务特征,在任务之间不具备通用性;因此,拓展MMixIRT的能力估计仅使用单一任务的作答信息,很难同时利用学生多任务的过程数据对学生能力进行估计。这也是目前基于过程特征建构测量模型存在的普遍问题。3.2 结合随机过程思想的测量模型近年来,由于随机过程的概率模型可以考虑情境化测验中行为特征的时序特点,受到了研究者们的青睐。常用的随机过程模型有隐马尔可夫模型(hidden Markov model, HMM)和动态贝叶斯网络(dynamic Bayesian network, DBN)2种。采用基于数据驱动的HMM方法,研究者可以对问题解决的行为序列进行分析,识别问题解决潜在状态之间的转换,以更好理解被试在复杂问题解决任务中表现出的行为模式和认知转换[25]。研究者采用DBN方法同样可以对行为序列进行分析,得到每个被试在游戏类测试过程中各个潜在状态的掌握程度[26]。这2种方法属于处理时间序列行为的概率统计模型,可以分析得到问题解决过程中离散的知识掌握状态或能力状态,但很难满足教育和心理测验对稳定连续的能力特质进行有效估计的需要。  目前,有研究者结合随机过程模型的思想,基于过程数据的时间序列特点探索新的测量模型,以提供更为准确的学生能力估计。如Markov-IRT模型将马尔可夫模型(Markov model)和IRT模型融合在一起,对学生个体能力估计不仅考虑了学生问题解决过程中的行为特征,还包含了行为之间的转移信息,为学生的能力估计提供了更多信息[27]。最新的随机过程模型还包括序列反应模型(sequential response model, SRM)[28]、连续时间动态选择模型(continuous-time dynamic choice, CTDC)[29]和马尔可夫决策过程(Markov decision process, MDP)[30]。结合了随机过程思想的心理测量模型,利用过程数据中行为特征之间的时间序列特点,且由专家规定相应的计分方式,具有一定的可解释性,因而可以利用比较完整的过程信息获得被试的能力估计值。然而,这种方法需要穷尽学生解决问题过程中的行为模式,可能更适用于有固定完成路径的简单任务;因此,如何基于情境化测验的过程数据,构建具有时间序列特点的测量模型,且兼具科学性和可解释性,还有待于进一步探索。4 对于情境化测验的反思从教育测评的发展趋势来看,情境化测验总体上代表了教育评价理念、教育测量方法、教育测评功能的进步。首先,情境化测验倡导测量学生在真实任务情境中解决现实问题的能力,而不局限于抽象知识与简单技能的测评。其关注教学过程与问题解决过程,而不仅仅是教学与测验的结果,与我国当前拔尖创新人才培养的基本要求相一致,符合核心素养课程改革所提出的评价要求。其次,情境化测验是教育测量手段与方法的突破。它打破纸笔考试形同于“涂圈圈测验”的刻板印象,建构接近于生活实际的情境性问题,特别是利用计算机开发的具有动态性、交互性的情境性任务,是对传统试题只能基于知识逻辑提出单调性问题的突破;同时,在交互式情境测验中,学生完成测验任务所衍生的结构复杂、多模态的原始测验数据,极大丰富了数据处理方法,促进了机器学习、人工智能领域中复杂数据处理方法在教育测评中的应用。此外,情境化测验也促进了教育测量模型的发展。由于情境化测验所具备的多样性情境结构、生成的复杂测验数据、提取的多模态测量证据,许多研究者尝试将马尔可夫模型、随机过程模型、多层线性模型等应用于情境化测验的建模,是对传统经典测量理论、IRT理论、认知诊断测量模型的极大突破。最后,情境化测验是教育测评功能的进步。在微观层面,情境化测验主要为了解决复杂能力、高阶能力、核心素养的科学测评问题,拓展了教育测评的功能;在宏观层面,情境化测验是能力立意测评的体现,是破解唯分数论、转变应试教育导向的重要支撑,有助于教师和学生将教学与学习的重心真正转移到能力培养、人的全面发展上来。然而,发展与进步并不意味着毫无问题。从教育测量专业视角来审视,情境化测验实际上还面临着诸多挑战,需要在后续研究中直面这些问题,努力推动其不断地发展与完善。4.1 规范情境化测验的开发标准问题情境化测验在考试与测评中已较为常见,但目前情境性试题的命制主要依赖于命题者的个人经验。命题者所建构的情境与问题背景源于其生活经验与个体体验,在问题情境具有独特性与创新性的同时,也面临着跨文化、跨地区、跨受试群体的适应性问题。尽管罗日叶阐释了情境参数类型、如何确保情境等价性、提出了一个好情境的主要特征等问题,也有研究者提出命制情境化试题的策略,如重视试题素材的收集、确保作答任务与真实情境强关联、特定情境匹配适宜的题型[4];但这些思想的阐释以及经验性、个体性的策略,尚不足以规范情境性试题的开发。在情境性试题广泛应用的今天,建立情境性试题的开发标准尤为重要,这就需要重点从情境要素、情境等价性、提问策略、情境与被测内容之间关系等方面进行规范。对于交互式情境化测验,还需要对测验表现形式、交互形式、技术标准等进行规范,以确保情境化测验开发的普适性。4.2 确保情境化测验的信度和效度问题制约情境化测验信度和效度的因素有如下几个方面。一是被测特质的复杂性会影响测验的有效性。情境化测验旨在测量核心素养,不同于知识掌握和简单技能,核心素养结构复杂、高度抽象,现有教育理论对这类复杂技能的认识还不够明确,同一种素养的界定存在着差异甚至冲突。对于被测特质复杂性、抽象性与认识的模糊性,会影响测验的有效性。二是情境性试题包含的要素较多,面临着情境等价问题,也就是情境是否适应于不同文化、不同地区、不同群体。罗日叶认为情境性试题包含的参数数量很大,不同情境化任务具有不同复杂性水平,所有这些参数保持恒定的可能性极小,面临着更多不确定性[1],必然会影响到情境化测验的信度。三是传统效度论证主要建立在与外部效标关联性基础之上,对核心素养、复杂技能和高阶思维,往往缺乏可靠的外部效标,情境化测验缺乏客观的外部效度。四是在交互式情境化测验中,复杂测验数据的处理可能会产生评分效度问题,特别是数据驱动的自下而上的证据推论模式,几乎忽略了传统理论效度推导链条。因此,对复杂测验的效度论证是当前情境化测验需要重点突破的核心问题之一。4.3 探索复杂测验情境的建模方法问题基于计算机的交互式测验能够建构复杂的情境,可以从2个方面看待情境的复杂性:一是出于被测内容的实质性需要而建构的特殊情境,如合作问题解决能力的测验,可以利用计算机建构多人合作完成任务的真实情境:二是技术的应用能够建构动态性、连续性的情境,测验系统能够完整记录学生完成任务的过程,形成完成任务的过程性数据。对于前者,被测特质的特殊性会影响传统测量模型的适应性,如利用传统IRT模型估计2人合作情境下的学生合作能力,则违背IRT模型的被试独立性假设[20];对于后者,过程数据完整记录学生的任务完成过程,基于学生作答数据、作答时间或者作答速度提取的过程信息,研究者们开发了多种基于反应时的新型测量模型[31]。从技术与教育测评结合的趋势来看,情境的构建会越来越复杂,所获取的测验信息会越趋精确和多样化,传统测量模型仅仅依据作答结果推断学生能力就显得远远不够。当前有关复杂测验情境测量模型的研究大多数都是适应特定情境的小范围突破[32],测量模型如何更好地适应基于被测内容实质而建构的复杂问题情境,如何更好地利用测验所获取的各类信息更为精确地估计学生能力,成为教育测量领域需要深入探讨的根本性问题。基于复杂测验情境的建模需要投入更多精力,开发出具有普适性的测量模型是教育测量研究的重点方向。4.4 注意测验数据的教育意义阐释问题基于计算机的情境化测验可以产生大量过程数据、日志数据,当前有关过程数据的分析方法主要有自上而下和自下而上2种模式。自上而下方法主要遵从ECD思想,强调从复杂数据中提取测量证据,完整建立“数据-测量证据-被测特质”之间的推理链条,使得测量结果可以进行有教育意义的解释。自下而上模式主要利用机器学习、人工智能领域中的数据处理方法,直接获得反应序列或关键特征的数字表征,这些指标与被测特质间的关联机制相对难以进行有教育意义的解释和理解[32]。教育测量的目标不仅仅是获得一个数字、一个分数,更重要的是理解数字背后的教育内涵,因此改进自下而上的数据处理模型具有重要意义。这就要求研究者一方面要借鉴机器学习、人工智能领域中的先进数据处理方法,另一方面还要遵从基于证据进行推理的基本测量思想,关注测量证据、测量数字符号背后的教育内涵。具体来说,改进自下而上处理模式的基本思路,可以先利用数据驱动的方法提取特征与指标,然后建立抽取特征与被测特质之间推理链条而形成测量证据,最后利用测量模型给出有关被测特质的整体性估计,以此才能确保测验结果的阐释具有教育意义。 参考文献:(略)原文刊载于《中国考试》2023年第3期第17—26页。本栏目进行了编辑,略去了参考文献,如有不妥,请联系本栏目。

考查学科关键能力 助力育人方式改革

2023-03-13

高考试题评价|考查学科关键能力 助力育人方式改革——2022年高考英语全国卷试题评析原文刊载于《中国考试》2022年第7期第20—24页。作者:教育部教育考试院摘 要:2022年高考英语全国卷命题落实立德树人根本任务,引导学生德智体美劳全面发展,依据高校人才选拔要求和普通高中英语课程标准,深化基础性,考查关键能力,正向引导高中英语教学,助力育人方式改革。试卷结构和难度保持稳定,加强教考衔接,助力“双减”政策落地,巩固高考综合改革和考试内容改革的成果。关键词:高考;新高考;高考命题;高考英语;考试内容改革;试题评价;高考评价体系;教考衔接2022年高考英语全国卷有4套,包括全国甲卷、全国乙卷、新高考Ⅰ卷、新高考Ⅱ卷,由教育部教育考试院命制。  2022年高考英语全国卷命题围绕落实立德树人根本任务的要求,依据高校人才选拔要求和普通高中英语课程标准,坚持“方向是核心,平稳是关键”的总原则,结合中学英语教学和复习备考实际,深化基础性,考查关键能力,进一步加强对学生德智体美劳全面发展的引导,加强教考衔接,服务“双减”工作,发挥高考命题的育人功能和积极导向作用。1 落实立德树人,发挥学科育人功能2022年高考英语命题全面贯彻党的教育方针和《深化新时代教育评价改革总体方案》的要求,聚焦铸魂育人。试卷融入中华优秀传统文化,进一步强化体美劳教育,引导培养核心素养。1.1 融入中华优秀传统文化,增强学生文化自信2022年全国卷所选语篇弘扬爱国主义,通过融入中华优秀传统文化和社会主义先进文化,引导学生坚定理想信念、提升品德修养、培养奋斗精神。  2022年全国甲卷语法填空语篇介绍1位眼部残疾人士徒步穿越古丝绸之路并沿途做环保的经历,展现中华文明的悠久历史;全国乙卷语法填空语篇介绍联合国设立中国茶文化节及开展的一系列活动,展示中国茶文化;新高考Ⅰ卷语法填空语篇报道中国设立大熊猫保护国家公园的情况,介绍中国生态文明建设成就。这些语篇和情境通过讲述中国故事,以浸润的方式引导学生加强对中华优秀传统文化、社会主义核心价值观及社会主义建设新成就的认同,增强学生文化自信,厚植爱国主义情怀。1.2 强化体美劳教育引导,夯实全面发展基础 2022年全国卷围绕人与自然、人与社会、人与自我3大主题选材,将对体美劳教育的引导与考查内容、考查要求、考查情境有机融合,夯实学生德智体美劳全面发展的基础。在体育方面,2022年全国甲卷听力部分包含对1位短跑运动员的采访材料;全国乙卷短文改错题选取自行车运动有利于身体健康和环保的内容;新高考Ⅰ卷听力部分选取在运动俱乐部的讲话,阅读部分选取如何找到合适的健身伙伴的语篇;新高考Ⅱ卷阅读部分选取运动促进心脏健康的语篇,写作部分选取1名残疾学生积极参加跑步比赛的语篇。这些材料和语篇旨在引导学生提高运动意识,保持身心健康。  在美育方面,2022年全国甲卷听力部分选取1位艺术鉴赏家谈论自己经历的材料,阅读部分选取介绍英国卡迪夫市艺术剧院的语篇;全国乙卷阅读部分选取介绍苏格兰画家Henry Raeburn画展信息的语篇。这些语篇旨在引导学生加深对艺术的认识,培养健康向上的审美情趣,提高审美能力。  在劳动教育方面,2022年全国卷中的语篇包含山区支教、烹饪、做家务等信息和元素,涉及多样化的工作场景,旨在引导学生形成热爱劳动的观念,在日常学习和生活中培养劳动精神。1.3 关注时代发展,引导培养核心素养2022年高考英语命题通过选择具有时代特征主题的语篇,引导学生养成独立思考的学习习惯,培育乐于探究的科学精神,构建友好互助的人际关系。  2022年全国卷通过选取禁止开车使用手机、悉尼新旧文化冲突、新媒体对家庭教育和生活的影响、英国征收糖税的起因及效果等具有探讨性和思辨性的材料,引导学生形成独立思考的习惯,培养主动发现问题和解决问题的能力;通过选取高科技无人机在铁路交通中的应用、鹦鹉识别物体形状的实验、人类语言发展的研究及与捉迷藏相关的儿童心理发展实验等语篇,激发学生对科学实验与研究的兴趣;通过选取关爱养老院老人的研究项目、勇救坠楼儿童、修复父子亲情关系等语篇,倡导友好互助、彼此关爱的和谐人际关系,弘扬正能量。2 考查学科关键能力,服务“双减”政策2022年高考英语全国卷命题以高校人才选拔要求和高中英语课程标准为依据,在考查内容的范围和要求上与课程标准保持一致,深化基础性,注重学科关键能力考查,创新试题情境,增强试题开放性,引导提高中学英语教学质量,服务落实“双减”政策,引导减少死记硬背和机械刷题。2.1 强化基础,注重能力2022年高考英语命题对接高中英语课程标准要求,重视对基础语言知识和文化知识的理解和掌握,考查考生在牢固掌握英语语言知识基础上的综合语言运用能力,引导进一步提高中学英语教学质量。    2.1.1 深化基础性  语言知识包括语音、词汇、语法、语篇和语用知识。学习语言知识的目的是发展语言运用能力,要特别关注语言知识的表意功能[1]。语言知识是学生形成语言能力的基础。2022年高考英语全国卷在真实、地道的语境中考查基础语言知识和文化知识,使用的题型包括完形填空、语法填空和短文改错等。这些题型要求考生在正确理解语篇主旨大意的基础上,关注具体语境中不同词语、句子与整个篇章结构之间的联系,考查考生对英语词法、句法及语篇知识的掌握情况。阅读部分重视考查语篇层次的文本精细阅读,尤其强调对重要细节信息和关键信息的理解和推断能力。深化基础性旨在引导中学英语教学遵循课程标准,帮助学生掌握语音、词汇、语法、语篇和语用等基础语言知识,了解基础文化知识;引导学生在不同的语境中深入学习和理解语篇所表达的主题意义,建构结构化知识,内化所学语言和文化知识,养成一定的语言意识和英语语感。2.1.2 注重关键能力考查  2022年高考英语命题注重学科关键能力考查,尤其是强化对阅读理解和书面表达等关键能力的考查。阅读理解部分通过精选语篇材料,精心设计试题,进一步强化对阅读理解能力的考查。写作部分书面表达试题包括信件、邮件、通知等应用文写作,也包括根据要点或图表写短文等。新高考试卷还增设阅读1篇300字以上的短文后续写2段文字的题型,对书面表达能力提出了更高的挑战。写作部分要求考生准确使用语法和词汇,运用一定的句型清楚、连贯地表达自己的思想。注重学科关键能力考查旨在引导学生通过听、说、读、看、写等不同的英语学习方式和实践活动,灵活运用所学语言知识,不断提高语言运用能力。2.2 创新情境,强化思维2022年高考英语命题在听力、阅读、语言运用和写作等各部分根据所选素材创新试题情境,增强试题开放性和灵活性;通过考查批判性思维和辩证思维,引导学生在英语学习过程中减少死记硬背。    2.2.1 优化情境设计,增强试题开放性和灵活性  2022年高考英语全国卷进一步完善试题的情境设计,在听力、阅读理解、语言运用等部分根据所选素材创设不同的生活实践情境和学习探索情境,努力丰富题型设计和设问方式。同时,优化书面表达试题的考查形式,除常见的邮件形式外,增设读图表写短文和根据提纲要点写短文的形式。全国甲卷要求考生以6月8日世界海洋日为主题,根据要点写1篇短文参加学校征文比赛;全国乙卷设置的情境是学校英文报正在开展以Learning English Beyond the Classroom为题的讨论,要求考生阅读1个有关学生英语学习活动情况的图表,使用图表中的调查结果写1篇短文投稿。在“双减”政策背景下,这道试题鼓励学生实践英语学习活动观,引导学生在学习活动中勇于表达自己的观点和想法,达到提高英语学习能力和运用能力的目的。新高考Ⅰ卷、Ⅱ卷应用文写作设置的情境是以校广播站英语节目Talk and Talk负责人的身份给外教Caroline写邮件,邀请她做1次访谈。这些精心设计的试题情境均与考生日常生活密切相关,写作内容和形式更加灵活,在加强语言表达能力考查的同时,强调对应用性和创造性能力的考查。    2.2.2 加强批判性思维和辩证思维考查  批判性思维能力一般通过设置推理性、诠释性和评判性问题来考查。全国卷阅读理解部分有50%以上的试题考查推断、归纳和概括等高阶阅读理解能力。从主题来看,阅读理解部分选取如何避免食物浪费的讨论、悉尼新旧文化冲突、新媒体对家庭教育和生活的影响、英国征收糖税政策的起因和效果等语篇,以夹叙夹议的方式,启发考生运用批判性思维和辩证思维深入思考语篇的主旨要义和思想内涵。在题目设置上,全国甲卷第27题要求考生选择1个能准确表达语篇主旨的标题;全国乙卷第35题要求考生对糖税政策的实施情况进行推断;新高考Ⅰ卷第35题要求考生推断文中人物Steven Moran的观点。这类试题需要考生充分调动批判性思维和辩证思维,根据语篇内容进行逻辑推理,通过归纳和概括作出回答。这类试题能够启发考生在分析理解文章观点、作者意图和情感态度的过程中,思考中外文化异同,养成多元思维和批判性思维的习惯。3 稳定试卷结构和难度,巩固高考改革成果2022年高考英语命题坚持稳中求进的原则,在充分考虑各地考生群体能力水平和复习备考情况的前提下,保持试卷结构稳定,合理控制试题难度和区分度,稳步提升试题质量,巩固高考综合改革和考试内容改革的成果。3.1 试卷结构保持稳定,正向引导中学英语教学  各套试卷结构保持稳定,包含听力、阅读、语言运用和写作4个部分;试卷各部分所考查的语言能力也保持相对稳定。听力部分要求考生能够听懂有关日常生活话题的简短对话或独白,需要运用交际语言知识和会话原则,基于真实的语言交际情境进行作答;阅读部分主要考查基于语篇的阅读理解能力,要求考生能够理解语篇主旨要义和文中具体信息,根据上下文推断单词或短语的含义,能够根据所读内容作出判断和推理,理解文章的基本结构,理解作者的意图、观点和态度等;语言运用部分考查在阅读理解基础上运用词汇和语法的能力;写作部分考查考生基于一定情境的语言表达能力,要求理解试题任务要求,发挥想象力和创造性,撰写征稿和邮件等不同文体的短文。  2022年使用新高考英语全国卷的省份增至10个,试卷结构进一步巩固。根据各高考综合改革省份使用新旧课程标准的情况,全国卷精准匹配不同省份高中英语教学实际情况和考生水平,助力高考内容改革,进一步巩固高考综合改革成果。3.2 试卷难度设计合理,有利于充分发挥考生水平各套试卷所采用语篇材料的难度水平呈明显的阶梯性分布,材料难度与考生水平匹配。题目类型多样,考查要点覆盖全面,各难度层级试题搭配合理,比例保持相对稳定,考生作答时易于入手而又具有一定的挑战,有利于不同语言能力的考生充分发挥自己水平,顺利完成考试。  在材料难度方面,依据高中英语课程标准的要求,注意话题选择的适恰度和语篇的文本难度。在话题方面,听力部分的录音材料既包含学生十分熟悉的日常生活话题,如外出就餐、学习安排、选购礼物等,也包括一些具有挑战性的话题,如公司搬家、艺术鉴赏、运动员经历、电视演员采访等;阅读部分既有内容相对简单的广告通知等非连续性文本,也有中等难度的语篇,如退休后去南极旅行、到西部山区支教、如何避免食物浪费、禁止开车使用手机的讨论等篇章,还有较高难度的科普议论性语篇,如无人机在铁路交通中的应用、悉尼新旧文化冲突、捉迷藏的儿童心理实验研究、征收糖税的起因和效果、人类语言发展的研究及运动促进心脏健康的研究等。在语篇文本难度方面,在保留原作基本风格的前提下,对涉及过多文化背景、超纲词汇或长难句的语篇进行删除和修改,使文本行文流畅、表意清楚。在写作部分,书面表达和短文续写所设置的情境均贴近考生日常学习与生活,情节简单清晰,语言通俗易懂。  听力和阅读部分均采用单项选择题,能够在有限的考试时间内尽可能多地覆盖考查要点,作答和阅卷方便,可以确保较高的阅卷信度,有助于保障考试公平。语言运用部分和写作部分均采用半主观试题或主观试题,考生根据所设定的问题情境按要求完成书面写作任务,能够考查考生对词汇和语法的综合运用能力,检验作答是否涵盖全部要点,意义表达是否准确得体。写作部分制定了较详细的评分标准,通过阅卷员培训和阅卷质量监控,可以较好地保证阅卷信度,确保高考的权威性和公信力。4 正向引导高中教学,助力育人方式改革2022年高考英语全国卷立足全面发展育人目标,通过考试内容改革正向引导中学英语教学,加强教考衔接,服务“双减”政策,助力高中育人方式改革。4.1 引导教学提质增效高考作为高质量教育体系的重要环节,在落实立德树人根本任务中发挥着重要作用。学生语言能力的提高要以核心素养为导向,在教学和评价中落实核心素养的培养和考查。中学英语教学要按照高考综合改革和考试内容改革的要求,重点加强对阅读理解、应用写作、语言表达及批判性思维等关键能力的考查。以理解性技能为例,高考英语注重考查推断、归纳和概括等高阶阅读理解能力;全国卷中的短文续写题型对考生的语篇把控能力、批判性阅读能力及创新思维等均提出了较高要求。这些变化旨在引导中学英语教学关注和重视阅读理解和书面表达等关键能力的培养。全国卷注重问题情境设计,创设各种不同的生活实践情境和学习探索情境。基于一定的问题情境进行评价,既是落实课程标准所倡导的英语学习活动观的需要,也是促进学生养成学科核心素养的基本途径,有利于引导中学英语教学回归教材,开展情境教学,培养学生在特定情境中运用英语解决问题的能力。4.2 助力育人方式改革2022年高考英语命题依据高考评价体系的总体要求,通过考试内容改革加强教考衔接,助力高中育人方式改革。高考英语不断吸收语言测试的研究成果,根据高校选才的需要和中学英语教学改革的状况,适时对考试内容和形式进行调整。基于长期的命题经验,高考英语已形成较为详细、完备的关于听说读写4项关键能力的考查体系,通过选取适当的语篇、设置真实的情境,深入考查综合语言运用能力。中学英语教学应当深入贯彻落实高中英语课程标准的要求和中国高考评价体系“一核四层四翼”的总体要求,以立徳树人成效作为评价的根本标准,尊重英语教育和学习规律,将语言能力、文化意识、思维品质和学习能力等核心素养的养成融入日常教学,坚持不懈提高学生的综合语言运用能力。 参考文献:

义务教育新课标背景下道德与法治课程考试

2023-03-13

义务教育新课标背景下道德与法治课程考试试题设计:问题、目标与实现路径原文刊载于《中国考试》2023年第3期第43—51页。作 者何丽华,贵州财经大学马克思主义学院副教授。摘 要:培养学生良好的价值规范素养是道德与法治课程的基本目标,价值规范素养体现于价值认同水平。要实现高水平的价值规范认同,需要克服教条遵循教材造成知识对象虚化的问题、盲目遵从标准答案造成学生思维能动空间被窄化的问题和过于注重成绩造成试题设计偏离生活实践的问题。要在明确问题的基础上从价值规范、知识创新和情感沟通3方面找到道德与法治课程考试试题设计改革的目标追求。价值规范目标的实现既要借助于知识创新开阔价值规范认同的理论视角和实践基础,又要借助于情感沟通找到真正能打动人心的价值规范认同方法。基于上述理念,道德与法治课程考试试题设计的路径是:一要通过挖掘价值规范中的榜样示范要素,实现宏观价值的个性表达;二要聚焦那些冲突性的问题情境,践行开放探究式的试题设计理念;三要重视生活逻辑的情感塑造作用,正视学生对问题的理解不仅有是非对错之分,还有立场和角色的差别,学生对价值规范的认同是多方面综合作用的结果;四要制定可操作性的评分标准,以落实试题设计新理念。关键词:义务教育新课标;道德与法治课程;教育评价改革;考试改革;试题命制长期以来,受考试选拔功能的影响,义务教育遵循的是以标准答案、统编教材和考试成绩为核心的理念,试图通过标准化的操作来评价学生的价值规范素养状况。2022年4月,教育部发布的义务教育课程标准(以下简称“新课标”)有以下新理念:一是坚持创新导向。这种创新不仅体现在改革教材内容、优化教学手段等方面,更体现在学生通过课程学习提升相关的知识创新能力,实现更为深刻、真诚的价值规范认同。二是坚持以学生生活为基础的课程理念。这种理念强调以学生的真实生活为课程学习的基础,以学生自身经验可以比拟的元素来理解课程学习的内容,避免课程学习的抽象性、空洞性。三是强调核心素养的情感维度。价值规范的本质是价值认同,而价值认同本质上就是一种情感。无论是热爱党、热爱祖国、热爱中国特色社会主义,还是热爱劳动、爱岗敬业、热爱生活、珍爱生命,均体现了对特定价值对象的情感[1]。新课标的这些理念为改革道德与法治课程考试试题设计提供了方向和框架。道德与法治课程作为思想政治课,以爱党、爱国、爱社会主义为核心内容的价值规范是其核心理念和基本目标,最为典型地体现了传统义务教育课程试题设计在追求统一的价值规范素养要求与学生复杂多样的价值规范素养状况之间的矛盾。故此,本文力图揭示这种矛盾的具体问题表现,找到提高价值规范素养评价水平的有效路径。1 道德与法治课程考试试题设计存在的问题在传统的考试设计中,教材本位、标准答案和成绩量化是追求价值规范统一性的重要体现,但却忽视了学生在学习知识时需要开阔的知识视野、丰富的生活经验和深厚的情感倾向基础,限制了学生开展创造性的学习活动。1.1 过于强调遵循教材,虚化学生的知识体验对象单纯遵循教材的试题设计方式把考试内容限制在教材范围内,无法全面有效地回应学生的真实生活状况,削弱了学生知识学习的生活经验基础,虚化了学生的知识体验对象。教材是学生学习、教师施教的主要依据,也是试题设计的重要内容来源,但教材内容具有框架性和间接性,对它的准确把握需要一定的经验支撑。对于教材所呈现的根本未曾经历过的知识理解图景,学生很难有效自主建构出知识理解的准确意境。实际上,人的知识学习是在极为开阔、复杂的情境之中逐渐完成的,这种情境具有极大的个体差异性,几乎没有完全相同的情境,而这种情境是有效学习的重要经验基础,尤其是对于知识、经验水平都比较欠缺的少年儿童。亲身经历过的情境更具有问题带入感,能收获更好的知识学习效果,更有助于学生做到“内化于心”“外化于行”[2]。也就是说,统编教材只是众多问题情境中的一种,并不能完全覆盖所有人的所有经历,这就带来一个困境:对于没有亲身经历过的情境,该如何促进学生对相应知识的有效理解?比如:在引用一些历史名人的道德故事来说明养成某种特定道德品质的重要性时,如何能够让学生理解那些自身经历难以比拟的情境?那些极具地域特色的文化景观、年代久远的历史故事、抽象宏观的价值叙事,如何让涉世未深的少年儿童真切、准确地领悟到其中的道理?因此,遵循教材设计试题在促进学生知识学习方面存在局限,这种局限集中体现在学生无法把具有宏观性、分散性和框架性的教材内容转化为极具个性化、聚焦性和开放性的问题情境,无法让试题具有个人经验、经历可以比拟的元素,这很容易造成为了答题而答题,这种答题与学生真实的生活体验并无太大关联。没有一定经历、经验支持的回答显得言不由衷,教材应该以引导学生过好当下生活为直接目的[3]。实际上,任何有效的知识学习都是对自身经历、经验、情感等方面进行经常性反思后再通过自身个性体现出来的,过于脱离个人经历、经验的知识理解会变得抽象乏力,从而无法向学生真实、生动地说明人在现实生活中是如何思考和行动的。对于倾向于感性与形象理解的学生而言,只有建立在一定的经验基础上,才能突破抽象知识给问题理解带来的限制。1.2 过于强调标准答案,限制学生的思维能动空间标准答案式的试题设计理念引导学生遵循标准答案的问题理解,容易形成标准答案在知识理解中的绝对权威,由此窄化学生的思维能动空间。为考试试题制定标准答案、以是否符合标准答案为依据判卷评分在试题设计中司空见惯。这种做法便捷高效,但容易导致毫无个性的标准答案思维,不利于知识创新。尽管经过几十年素质教育改革,标准答案被“参考答案”所替代,而且也明确要尊重学生多样化、创新性的知识理解,不能用标准答案对学生的试题解答作一刀切的评价;但在实际操作层面,为了便捷高效地进行评分,参考答案在很大程度上仍会被视为标准答案,试卷评分者仍有某种先入为主的主观偏好,参考答案比其他更为多样化的理解仍具有难以比拟的优越性和权威性,标准答案思维仍继续支配着试题设计的整体思路。实际上,考试是服务于学生发展的手段,并非目的[4]。标准答案思维最大的悖论在于它无法反映和回答现实的复杂多样性,它对这种复杂多样性进行了整体划一的剪裁,而学生对问题的理解并不完全来源于课程学习,还会受到课程学习之外某种先在性认知框架的影响。这种认知框架凝聚着学生对生活的经历、体验和个性化思考,尤其是当这种认知框架已经沉淀为一种坚定的知识信念和价值信仰时,试图用标准答案否定学生的多样性问题理解,势必会影响学生对试题合理性和考试正当性的认知,使学生产生抵触心理。人们往往倾向于建立对信念或信仰对象的强势维护心理,这是对自我认同的深刻渴望,也意味着学生倾向于作出符合自己认知偏好的试题解答。实际上,在考试过程中,学生都在竭力寻找标准答案,以获得一个好的考试成绩,这就会出现问题理解千篇一律的问题。考试成绩是评价一个人优秀与否的重要指标并实质性地影响着一个人求学、就业、晋升等关键机会[5]。作为理性的行为人,学生在明知“答错”题目不利于获得好成绩的情况下,会隐藏自己的认知偏好,尽力向标准答案靠拢。这样一来,尽管学生不认可标准答案,但为了避免不理想的考试成绩带来的不利影响,还是会表现出符合标准答案的问题理解。这种虚假认同和虚伪人格不利于完成思想政治课立德树人的根本任务,因为这种虚假所呈现出来的试题答案根本无法客观准确地反映学生对问题的真实理解水平。1.3 过于强调考试分数,偏离学生的生活实践基础试题设计注重考试成绩,使得那些容易被量化的学习和课程内容成为试题设计的来源,忽视了学生价值规范素养培养的生活实践基础。试题设计的目的在于检验学生的素养培养状况,但在现实中,这种目的的实现面临一个困境,即所有的课程学习环节都要通过量化来应付各种检查、考核或评估。能否顺利通过这些考核直接关系到相应部门、人员的利益,课程考核的量化操作成为支配他们工作的首要因素。在这种量化机制中,学生所有的能力素养都必须能被“看得见”“摸得着”,那些需要长时间才能体现出来的因素或环节则被忽视。对学生的答题情况赋予相应的分数,以此来判断学生的学习效果,是一种典型的能力量化行为。考试的目的不是培训机械的应试者,而是培养心身健全的人[6]。但在这里,试题设计已超出培养学生健全人格的功能,考试成绩成为各种评优评奖、升学求职、考核评估等的评价指标。在刻意追求考试成绩的过程中,学生格外注重应试技巧和方法,使考试本身变成了目的,凸显出学生对试题设计功能认知的错位。在考试成绩成为人们竞争核心资源的重要条件下,考试成绩具有明显的人格塑造性,这种人格塑造是围绕考试能力所形成的一种社会评价机制,即那些考试成绩好的人被认为更优秀,更容易获得稀缺性的竞争机会和资源,而那些成绩不好的人则处于下风。事实上,考试是静止的、片面的,无法对一个不断成长着的人作出客观有效的评价,无法全面准确地揭示其发展状况和趋势。围绕考试成绩进行的试题设计以是否有利于量化学生的能力素养为前提,倾向于选择那些最易于量化的学习内容作为试题来源;而那些难以量化的学习内容的考试价值却得不到充分挖掘和体现,造成试题设计在内容上不平衡、在效果上不客观的弊端。试题设计的终极使命应是服务于学生终身需要的能力素养的培养,而不是任何短视、功利的目的。这些能力素养的培养以现实生活为重要基础,这就要求突出试题设计在学生适应生活、建构生活意义过程中的作用。显然,追求量化目标的试题设计无法真实反映生活的需求和样貌,因而也失去了建构生活意义的本真目的。2 新课标背景下道德与法治课程考试试题设计的目标新课标背景下道德与法治课程考试试题设计的首要目标是检验学生价值规范的培养状况。要实现这一目标,尚有赖于知识创新所开拓出来的开阔理论视角、正确实践方向及情感沟通对特定价值规范的情感倾向的支持。基于这一认识,新课标背景下道德与法治课程考试试题设计的目标追求主要涵盖价值规范、知识创新和情感沟通3个方面。2.1 价值规范价值规范目标致力于培养学生对以爱党、爱国、爱社会主义为核心内容的价值规范的深刻认同,是道德与法治课程考试试题设计的核心目标,其他目标都服务于该目标。对于个人建构生活意义,价值规范具有重要作用,它提供了理解生活的明确认知倾向;对于实现国家特定历史阶段的发展任务,价值规范更是至关重要,它提供了集体情感和社会团结的强大精神支撑。要通过对试题的作答情况有效检验学生通过课程学习是否已经实现了对特定价值规范的认同,还需要具备一个重要前提,即要把特定的价值规范放在一个开放、竞争、自由的开阔思维空间。通过与其他不同价值的观点争鸣、情感沟通与理性思辨来明确一种更为深刻、可靠的规范认同结构,而不是把价值规范视为一种先入为主的立场或结论,要求学生对这种结论进行理所当然的论证。显然,理想的规范认同效果是心身一致的真诚认同,而不是迫于某种外在压力所表现出来的虚假一致。这种认同需要在一个开阔的思维空间,通过与其他价值的对比、反思和领悟而进行有效建构。2.2 知识创新知识创新是人们通过思维创造实现理论、技术、方法等方面的革新或突破,达到有效认识和改造世界目的的活动。知识创新具有明显的主体意识性,是人们为了更好地满足自身的需求和发展所进行的有意识、有目的的思维活动。知识创新的根本特征是质疑批判性,没有质疑就不可能有创新。这意味着知识创新在一定程度上排斥价值规范,因为价值规范追求的是价值认同,而不是质疑。道德与法治课程考试试题设计所追求的知识创新不是没有规范意识的知识创新,而在于通过知识创新挖掘、开拓出更为科学有效的价值规范理论和方法。在竞争性价值格局中,价值规范认同的培养必须回应2方面的需求:一方面,当今大众的文化修养和知识素养得到大幅度提升,主体意识增强。“个人主体性”是人类生活的价值规范基础,任何价值规范都必须经过主体的严格审视后才可能被认可[7]。在这种条件下,单纯的价值灌输很难起到显著效果,价值规范必须经得起生活经验、知识逻辑和情感认知规律的考验。另一方面,知识创新必须要具备一定的价值基础,所谓的“价值中立”是很难做到的。知识创新终究要服务于人的目的和需求,是人有意识、有目的的思维活动过程,而人是一种追求价值和意义的动物。如果没有意义感,知识创新这种思维活动就很难体现出人之为人的诸多特质和属性。与此同时,没有价值规范中对爱党、爱国、爱社会主义等价值内容的要求,就不是真正的知识创新,因为这种所谓的“知识创新”极有可能形成对执政党、国家价值和民族情感的负面解构,使得文化主体性、民族特色性和制度先进性失去其存在的正当性,使得知识创新的意义荡然无存。2.3 情感沟通情感沟通目标在于通过激发学生对价值规范的积极性情感,促进学生的价值规范认同。与具有客观普遍性的经验常识和知识逻辑相比,人的情感是一种先入为主的价值倾向,具有很强的主观偏好性。尽管在很多时候情感会排斥逻辑和经验,但它在培养人对特定价值规范的认同方面所起的重要作用是毋庸置疑的。情感沟通目标要求试题设计能实现试题设计者、试题作答者和试题评价者之间的情感共识性。实际上,人的情感不会凭空产生,它建立在一定的价值基础之上,具有相同价值取向的人,彼此之间更容易收获愉悦的情感体验,形成人际信任。这种信任是促进价值规范认同目标实现的基本心理条件,因为人们倾向于相信并愿意听从自己信任的人。要成功建立这种信任、实现良好的情感沟通效果,需要在试题设计的过程中尊重和实现人的一些基本价值和基本情感。在基本价值、基本情感方面人们往往比较容易达成共识,如在“国”与“家”的关系问题上,价值规范规定国家具有绝对的价值优先性。然而,这种价值优先性并非理所当然:一方面,爱国在很多时候并不像日常生活需求那样迫切,加之国家在个人生活中的作用是经过多重中介间接体现出来的,这种作用混合着中介自身的利益立场、价值偏好和情感倾向,容易造成人们对国家体认的错位;另一方面,在直观感受层面,家庭是人们生活的直接依靠,比起对国家的情感,人们对家庭的情感更为自然。其启示在于:在围绕爱国主义进行试题设计时,不仅不能否定像家庭这样的基本价值和基本情感,而且还要尊重和实现这些基本价值和基本情感,通过价值和情感延伸的方式来说明爱国的重要性,从而实现爱国与爱家的价值共识性和情感沟通性。尤其需要注意的是,不能从爱国就必须功勋显赫这样高大上的视角来说明爱国的重要性,而要从实现一个更好的自我、过更好的生活这样的视角去阐释爱国的重要性。这种试题设计能覆盖绝大多数人的经历,具有现实的可比拟性,容易实现爱国与爱家的情感沟通。情感沟通目标充分表明,考试评价是一种主体间的活动,评价结果应该是评价者和被评价者通过彼此之间的交往活动达成共识和理解的过程[8]。3 新课标背景下道德与法治课程考试试题设计目标的实现路径建立价值规范认同,需要一种形象的价值示范载体来实现宏观价值的个性表达。这种载体既要具备良好的价值忠诚度,又要能成为人们可以直接交往的对象,能够提供直接、生动的价值体验。与此同时,要找到那些最具冲突性的问题情境,充分发挥生活逻辑的情感塑造作用来培养学生的价值规范认同。3.1 挖掘榜样示范要素,注重宏观价值的个性表达,提升学生价值规范的意识水平试题设计要实现促进价值规范认同的目的,就需要借助于一种形象的载体形式。这种载体形式要能够把价值规范中的宏伟价值叙事、抽象知识原则转化为学生能够理解的日常逻辑、生活叙事。榜样就是这样一种载体形式,它能有效实现宏伟叙事与生活叙事之间的意义关联,试题设计要充分挖掘生动的榜样示范要素。这里的“榜样”既可以是公开表彰的英雄模范、道德楷模、先进人物,也可以是学生特别喜欢的明星、偶像,还可以把学生自己做得好的方面视为一种榜样要素。要在一种公开讨论的思维空间中,通过与具体问题情境中各种角色、因素的互动,深刻揭示特定价值规范在成就榜样、建构人生意义方面的大众经验,由此实现宏伟价值与生活意义的生动链接。宏观、抽象的价值规范因榜样的形象演绎而变得生动,成为学生明确的意识对象。在这种意识的指导下,学生才能更有效地遵循价值规范,如在针对爱国主义知识点进行试题设计时,要把国家的宏观价值形象通过英雄模范人物、道德楷模、优秀干部等榜样形象生动地体现出来。榜样个体生命故事的展开是以国家为背景的,个体的生命叙事深嵌于国家的宏大叙事和历史结构之中,榜样以生动的个性形象说明爱国的价值优先性和情感正当性。当人们被榜样的高尚品格感动时,其实是被榜样背后那个伟大的国家力量所感动,这种感动是实现价值规范认同的重要前提。  例1:依据材料,回答问题。  小军在作文里写道:“今年家里盖了新房,多亏了村支书王叔,他帮我们争取到了国家补助,还提供了很多帮助。每次我说谢谢,他总说:‘不用谢我,你真正要感谢的是国家,我只是代表国家在履行职责。’这一刻,我感觉国家就在我身边,她是那么可敬、可爱。”  请问:小军是怎样感受到国家就在身边的?根据你自己的经历,说说你是怎样感受到国家的可爱?  例1挖掘国家这种抽象宏观价值的个性表达视角,用案例引导学生从自身丰富多样的经历来揭示国家在场的普遍性和有效性。在这个过程中,尤其关注那些最能凸显国家特质的榜样要素,在榜样身上聚焦性地体现国家的伟大,由此自然恰当地得出爱国的结论。3.2 创设冲突性问题情境,践行开放探究的理念,锻炼学生的知识创新能力试题设计一定要有问题情境。没有问题情境的试题设计显得突兀,无法起到价值规范作用,但过于平铺的情境也无法起到明显的价值规范效应,只有冲突性的问题情境才能抓住学生的注意力,而这种注意力是培养学生知识创新能力的重要条件。在冲突性问题情境中,无法用标准答案去衡量学生的问题理解,因为对问题的理解是一个寻求问题最优解的开放探讨过程。每一种理解都会看到问题的不同方面,都是问题最优解应该吸收的合理因素,这是锻炼学生知识创新能力的重要思维基础。  例2:依据材料,回答问题。  周末,小飞和爸爸逛超市,在排队结账的时候很多人抱怨结账速度太慢,有人还因此与收银员发生冲突。小飞发现,扫码付款的时候,因为光线原因,很多人要试很多次才扫上码,导致结账速度很慢。小飞回到家,把妈妈新买手机的包装盒改装成有凹槽的“扫码神器”,送给超市的收银员阿姨,大大提升了扫码效率,缓和了因结账速度慢造成的矛盾,受到超市员工和顾客的欢迎。  请问:你能从中得到什么启示?请例举一个你曾经帮助他人的例子,谈谈要做到关爱他人、服务社会,需要具备什么样的能力素质?  该题考查的是“关爱他人,服务社会”的知识点,旨在说明生活中关爱他人、服务社会,不仅需要良好的道德品质,还需要有效解决问题的能力素质和创新思维。“扫码神器”不仅体现了小飞关爱他人的良好品德,也体现了他在思考如何解决矛盾时所具有的创新能力。这说明,仅仅强调情感上、道德上的品德培养是不够的,还需要进行思维方式、知识理论、科学技术等方面的创新,方能找到那个最有效的问题解决方法。有些矛盾冲突仅靠道德调节是难以解决的,还有赖于问题本身的有效解决,而问题的有效解决有赖于思维创新基础上的知识创新和技术创新。  显然,在这种问题情境中,学生对问题的回答不会千篇一律。由于在视角、经历、情感等方面存在明显的差异,每个学生所看到的是问题的不同方面。这种结论可能与标准答案不一样,但也是问题理解的合理视角。可见,冲突性问题情境为学生提供了更为开阔的思维能动空间。在这种空间里,试题设计不是教条地遵循教材,对问题理解的评价也不是用标准答案去衡量,而是具有相当的开放性,这种开放探究式的试题设计能真正体现学生创造性运用知识的能力。3.3 融入生活叙事,体现生活主题,发挥生活逻辑的情感塑造作用生活叙事是指以日常生活为主要内容,以回应生活困惑、建构生活意义为目标的问题叙述方式。生活叙事生动展现了人们在追求一种至善生活的过程中会形成什么样的价值观念和情感倾向,揭示了蕴藏在这种观念和倾向背后关于生活本质、生活目的和生活规律的逻辑。生活叙事视角能把学生带回到他们自己的生活情境中,这些情境反映了他们生活中的美好与困惑,是培养人特定情感倾向的重要经验基础[9]。在接触考试试题之前,学生就已经从自己的生活中获得了关于试题内容的初步认识,这种认识实质性地影响着学生的问题理解。如果试题设计逻辑与学生的生活逻辑相互冲突,就会造成学生认知分裂。真正令人信服的试题设计一定是能够有力回应生活并能为理解和创造生活提供观念指导的。过于远离生活的试题设计无法有效回应学生的生活困境与生命困惑,学生只有从认识生命、理解生活开始,才能迈向一个更为开阔的价值认同天地。这就要求试题设计逻辑与生活逻辑应具备一定的价值共识,避免出现试题逻辑否认生活逻辑的现象。要实现这2种逻辑的共识协调性,要注意以下2点:一是试题设计要能呈现典型的生活主题内容,形成具有代表性的生活问题,并在具体解决这些问题的过程中突出明确的情感导向性,用情感导向来促进学生对价值规范的有效理解和真诚认同;二是试题答案设计要尊重和实现生活逻辑中的核心价值关切和关键知识需求,这是实现试题设计者、试题作答者与试题评价者之间情感沟通的重要方面。只有实现了有效的情感沟通,试题作答所体现出来的情感倾向和价值取向才可能真实,才能准确反映学生真实的学习状况。  例3:依据材料,回答问题。  李叔是村里的蔬菜种植户,因卖菜占道经营、屡教不改被罚。他正在上初中的儿子小刚请求城管不要罚他爸爸,因为爸爸是家里唯一的经济支柱。  请问:小刚的做法对吗?如果你是小刚,你会怎么做?  这道试题的答案似乎很明显,违法必究是法治社会的基本要求,占道经营违法当然要受到应有的惩罚。但是,这个试题让学生代入小刚的角色,即假设违法者是自己的至亲,是否还会毅然决然地要求“违法必究”?这就从一个旁观者的角色进入当事人的角色,角色影响一个人的情感倾向和是非判断。角色代入把问题置于一个更为开阔、更为复杂的思考空间,让学生对问题的把握更为深刻、全面,而不再那么理所当然。在教科书中,善恶是非都是一目了然的,但在真实的生活场景中,对善恶是非的判断就可能因为很多因素而变得极为复杂。通过角色代入发现,小刚不合理请求的背后是对父亲深厚的亲情,爱家人是一个人最基本的情感,要在尊重这种基本情感的同时,引导学生深刻地认识做遵纪守法公民的重要性。这种对特定对象的偏爱是生活逻辑彰显的强烈情感倾向给人的问题理解造成的认知偏差,从而生动地说明现实中的人并不总是按照一些公认的价值规范来思考和行动,情感对人的问题认知和行为选择具有非常显著的影响。3.4 优化评分原则,完善评分标准,落实试题设计新理念要真正落实好上述试题设计理念,评分是一个关键点,制定具有可操作性的评分标准是此类试题设计是否成功的关键要素。基于前述分析,此类试题可以从价值取向、情感表达、论证思路3个维度设计评分标准。价值取向维度从政治认同、法治意识和道德规范3个方面来衡量,根据学生回答的内容分为价值取向鲜明、价值取向正确和价值取向模糊3个等级;情感表达维度从肯定性情感、否定性情感和争议性情感3个方面来衡量,根据学生回答的内容分为情感真挚感人、有情感偏好性和情感苍白无力3个等级;论证思路维度从问题意识、组织论证和认识结论3个方面来衡量,根据学生回答的内容分为逻辑层次感强、有逻辑层次性和逻辑结构混乱3个等级。3个维度中各等级的描述见表1。4 结束语培养学生良好的价值规范素养是道德与法治课程考试试题设计的基本目标,这种素养集中体现在学生对特定价值规范的认同水平上,而价值规范认同的有效培养无法通过统编教材、标准答案和成绩量化来实现,因为人对特定价值规范的认同是在对人生价值、生活意义的思考过程中逐渐形成的。也就是说,如果要认同的价值规范无法成为生活意义的建构要素,无法成为人们追求一种美好生活的重要价值基础,那么这种认同就是不牢靠的。同时,价值规范的认同需要借助于知识创新带来的开阔知识视野和逻辑论证力量方能找到更加科学和有效的方法,而榜样的价值示范、冲突性问题情境的创设和生活逻辑的情感塑造作用均属创新性的认同培养方法。实际上,再好的试题设计都得靠人去落实,如果试题命制者不能准确理解相应的试题设计理念,那么试题设计相应的功能就难以发挥,这同样也是问题的要害所在。参考文献: