教育科学研究
EDUCATIONAL SCIENTIFIC RESEARCHS
王薇:中小学德育评价PDCA循环模型的建立与应用

2025-05-21

引用格式:王薇. 中小学德育评价PDCA循环模型的建立与应用[J]. 中国考试, 2025(5): 35-43.作 者王薇,北京教育科学研究院研究员。摘 要:当前,中小学德育评价存在理论支撑不足、系统性缺失、衔接性不够、工具化倾向明显等现实问题。借鉴国际PDCA理论,本研究构建了一个由计划(Plan)、执行(Do)、分析(Check)、应用(Act)四个环节构成的德育评价循环模型。评价目标指向马克思主义全面发展学说,评价内容兼顾德育实践活动过程与结果,评价方式融合质性描述与量化分析,评价应用指向持续改进的完整体系。为实现中小学德育工作持续性改进和评价体系的系统化构建,德育评价应建立一体化评价标准,强化家校社协同育人评价机制,以数智化德育评价推动评价模式转型。 关键词:德育评价;中小学;PDCA循环理论;评价模型立德树人是新时代学校教育的根本任务。为全面贯彻党的教育方针,培养德智体美劳全面发展的社会主义建设者和接班人,中小学必须把德育工作摆在素质教育的首要位置,将立德树人作为学校工作的核心目标。2017年,教育部颁布《中小学德育工作指南》,要求切实将党和国家关于中小学德育工作的要求落细落实,着力构建方向正确、内容完善、学段衔接、载体丰富、常态运行的德育工作体系[1]。如何提高学校德育工作的专业化、规范化和实效化水平,使德育工作目标更明确、体系更完善、反馈更及时、效果更明显,是中小学需要研究并加以解决的现实问题。本文从德育评价理论与现实问题出发,探索构建中小学校德育评价PDCA循环模型,以期为立德树人根本任务的落实和学校德育工作的持续改进提供参考。一、中小学德育评价的理论与现实问题 近年来,随着《中小学德育工作指南》等文件的出台及各地实践探索,中小学德育评价在制度化、规范化建设上取得了积极进展。然而,德育评价的理论根基与实践体系仍面临深层挑战,在评价理念、内容架构、实施逻辑与功能发挥等方面存在诸多现实问题,亟须从系统性视角深入剖析与破解。 (一)德育评价的理论支撑不足德育评价首先要解决“依据什么评”的问题,即用什么评价理论来指导德育评价。一方面,仅用教育评价的一些基本理论来指导德育评价往往存在适切性不足的问题。因德育评价有其特殊性和复杂性,它允许对一部分对象作出非客观化的分析判断、对思想品德中的某些特征只给出定性描述,不像学业评价那样可以进行相对客观的实证分析和得到量化结果。现实中,一些学校在学生品德评价中移植学业评价的百分考核制,将文明礼貌、集体意识等抽象的品德指标机械量化,如“帮助同学”对应10分、“主动值日”对应5分等,忽视了道德行为背后的动机差异与情感体验,暴露出对理论生硬套搬的问题缺陷。另一方面,德育评价并非伦理学中的行为评价,它不是针对单个行为进行个体分析,而是在综合大量行为群的基础上进行总体评价[2]。目前,德育评价理论中的一些基本问题,如德育评价目标制订的依据和方法、德育评价的可能性与困难性、主体与客体、范围和功能、质量和效度、德育评价方法的多元性和科学化、德育评价结果的分析和运用等,都有待德育和评价研究者展开深入研究。 (二)德育评价内容的系统性缺失目前,关于我国中小学德育评价内容的研究大多围绕思想品德测评展开,就学生品德评价的内容方法提出了诸多建设性意见[3],重点关注学生品德的评价范围。从系统性角度而言,德育评价不应只关注品德评价,还应将视野扩大到包括德育课程、活动和制度在内的学校德育工作评价;不应只解决如何测和如何评的技术问题,还应解决如何鉴定德育评价质量、解释评价结果、避免评价负效应影响等价值问题[4]。例如,一些学校的德育评价仅强调对学生是否遵守行为规范的结果进行打分,忽视了对校园文化节、志愿服务等德育活动的过程性评估。同时,德育评价不应只解决评价方案制订和评价内容设计的理论问题,还应解决方案实施、应用等实践性问题;不应只偏重于某种评价模式的推介应用或个别试点学校的具体操作程序,以及特定实验场景下的局部实施方法,还应建立起真正适应我国中小学德育工作实际和学生品德发展规律的评价机制,更有效地推进立德树人根本任务的落实。 (三)德育评价体系的分层分类与学段衔接不畅与西方国家德育仅指道德教育(moral education)不同,我国的德育目标旨在通过课程育人、文化育人、活动育人、实践育人、管理育人、协同育人等途径,培养学生的政治素质、道德品质、法治意识和行为习惯,形成积极健康的人格和良好心理品质。在此观念下形成了“大德育”的教育内容,涉及理想信念教育、社会主义核心价值观教育、中华优秀传统文化教育、生态文明教育、心理健康教育等。因此,德育评价活动须建立起适合“大德育”观念的评价体系。当前,德育评价目标缺少系统设计和过渡衔接,评价内容缺少针对性的分类分层,普遍忽视真实情境下道德行为发生的情境性和复杂性,以及品德形成的阶段性和德育工作的长效性,评价体系缺少相应的结构效度[5]。以社会责任感评价指标为例,评价观测点应体现学生在小学、初中、高中不同学段的认知差异:小学侧重遵守纪律,初中侧重社会实践,高中侧重公民意识等,不能搞“一刀切”。此外,中小学德育评价实践大多仍采取一次性或阶段性评价,缺乏持续性和连贯性;德育评价结果在学校后续教育教学管理中的应用明显不足,未能充分发挥评价的导向和改进作用。 (四)德育评价的表层化倾向明显当前,中小学德育评价存在评价内容同质化、评价方法过于注重量化、评价主体单一、评价结果使用功利化等问题,在一定程度上脱离了学生的真实生活[6]。德育评价是对德育活动实施效果的价值判断,而衡量德育实施最终效果的则是学校德育工作的改进和学生道德行为水准的提升[7]。在实践中,不少学校将德育评价方法的科学化简单地等同于量化方法,在对学生的品德做出评价时,习惯于构建德育评价指标,人为设定评价权重和评价标准,对学生德育水平进行量化评分或划定等级,片面追求评价的标准化和定量化,未对德育工作开展的针对性和实效性予以充分重视。这是以量化评分代替德育评价产生的弊端。例如,一些学校实施的“品德分数大比拼”“品德成长排行榜”等都是不可取的做法,因为这会导致学生为争分而刻意表现,忽视了道德情感的内化过程,暴露了评价中重结果轻过程、重分数轻体验的功利化倾向,背离了德育育人的本质。二、中小学德育评价PDCA循环模型的基本思路与框架 针对当前中小学德育评价中存在的问题,亟须引入科学的理论模型以破解实践困境。PDCA循环理论所蕴含的持续性改进理念、系统性架构及螺旋上升机制,与德育评价追求的目标导向、过程管理和质量提升高度契合,为构建兼具科学性与实践性的德育评价体系提供了新的方法论视角。 (一)PDCA循环理论对学校德育评价的适用性PDCA循环理论的提出可追溯到二十世纪二十年代,美国休哈特(Walter A. Shewhart)提出计划—执行—检查(Plan-Do-See,简称PDS)模型的雏形[8]。美国管理学家戴明(W. Edwards Deming)对PDS模型做了进一步补充完善,发展成为计划—执行—检查—处理(Plan-Do-Check-Act)模型,简称PDCA循环模型[9]。 PDCA理论的核心思想是持续性改进,即通过不断优化评价内容、思路、方法、措施等,帮助管理者达成管理目标,实现管理质量的提升[10]。PDCA循环包括四个周而复始的步骤,即计划、执行、检查、处理。计划指目标的确立和工作计划的制订;执行指计划的落实,方案的具体操作实施;检查指对计划的执行进行检验,判断目标达成情况及完成效果,肯定经验,找出问题;处理指进一步处理检查结果,提炼成功经验,在下一循环中适当推广,并总结反思失败教训,对未解决的问题提出有针对性的措施,归入下一个PDCA循环中加以解决。其中,处理是整个循环理论的核心和关键,总结经验并查找不足,为下一轮循环提供改进目标和方向。在上述四个环节中,处理既是一个周期的最后环节,也是下一周期首个环节的前提和基础,处理和计划的无缝衔接形成PDCA循环式递进圈,由此构成质量可持续改进的模型[11](见图1)。该循环是确立目标、执行计划、验证效果、分析问题、改进提升的过程,精髓在于不断发现问题、改进问题,实现质量的阶梯式上升,形成自我改进、自我完善的机制,达成良性循环的目标。教育领域引入PDCA循环理论主要是通过对学校评价的研究分析来提升管理工作质量[12]。在此之前,学校管理主要关注三个环节,即计划、实施、总结;引入PDCA循环理论后,遂形成计划、实施、评价、总结的循环回路。在该循环中,计划是在评价和总结的基础上针对发现问题所制订的计划,实施是计划的严格落实和条件保障,评价是对计划目标达成度的阶段性判断和检验,总结是对照目标进行回顾分析并提出改进措施的总结。由此,计划、实施与总结环环相扣,融为一体,使目标制订、计划执行、工作改进的逻辑性更强,关联性更紧密,通过管理促进提升得到更有效的保障。 德育工作是学校工作的重要内容,但德育管理并不像学校管理那样重视评价功能的运用。事实上,德育评价周而复始,需要经历从方案制订、组织实施再到分析改进的过程,不断循环以确保德育评价的持续推进,促进学校德育质量提升。这一过程与PDCA理论循环圈非常相似,因此PDCA理论适用于学校德育评价模型的构建研究。 (二)学校德育评价PDCA循环模型的特征与价值1.学校德育评价PDCA循环模型的特征由于中小学德育工作的独特性,德育评价引入PDCA循环体系后需要做出一些必要的调整,具体表现在五个方面。一是德育评价目标的确立,应从将德育视为学校的局部工作,转变为依据学校办学理念落实立德树人根本任务的整体设计;二是德育评价内容的制订,应从学校管理者的行政工作,转变为全体师生的共同愿景和操作方案;三是德育评价方式和方法的选择,应从标准化的量化打分,转变为听取教师、学生和家长的意见和建议,特别是充分考虑学生的内心体验、情感认同和成长需求;四是德育评价主体的转变,应从单一的外部评价,转变为包含教师、班级、年级等在内的自我评价与外部评价相结合;五是德育评价结果的反馈,应从无法反映建设性意见的等级分数,转变为学校管理人员、教师的问题讨论、交流分享和未来展望等。 作为学校德育评价的实施模型,PDCA循环体系具有以下三个核心特征。一是四个环节紧密相连,密切衔接。学校德育评价PDCA循环体系由计划、执行、分析、应用四个环节构成,关联起来才能形成闭环,任何一个环节都不可或缺。二是大循环嵌套小循环,层层递进。学校德育评价是一个大循环,其中包含各部门、各专项工作的中循环,各学段、各年级的小循环,以及各班级、各教师的微循环,形成如图2所示环环相嵌的格局[13]。每个层级的循环均向总目标推进,微、小、中、大循环目标一致,层层递进,推动德育评价实践效果和德育工作整体质量的提升。三是循环周而复始,螺旋上升。学校德育评价PDCA体系的运转不是一次性的,而是周期性循环往复。每次评价都能解决一些问题,使工作得到一定改观,遗留及发现的新问题则会进入下一轮循环中继续处理;经过周而复始的解决与改进,实现德育工作质量进阶式提升,形成学校德育评价的阶梯式运转模式。2.学校德育评价PDCA循环模型的实践价值学校德育评价PDCA循环模型对于落实立德树人根本任务,推进全员全程全方位育人具有三个方面的实践价值。一是系统性。德育评价是一项系统性工程,涉及的部门繁杂、人员众多,容易出现工作混乱和条理性不强等问题。PDCA循环评价体系能有效消除德育工作各自为政的弊端,将学校的德育处、学生处、年级组、班级等组织起来,通过大环带动小环,形成上级牵引下级的评价模式,使各部分在各自运行的基础上整体推动学校育人工作。二是发展性。通过每级循环中对新问题的发现和解决,推动学校德育工作向更高层次发展,由此避免在各级循环中,问题未被及时发现或未得到足够重视和真正解决。由于PDCA螺旋上升基本态势的保持,一些在本学期没有解决的问题并不会被掩盖,而是会随着循环推进到下一周期被重新提出,直至问题解决。PDCA循环体系正是基于一个个问题的解决,达到循环往复、持续提升的效果。三是操作性。新时代大思政工作在基础教育阶段具有重要的战略意义,但中小学德育工作依然存在“说起来重要,做起来次要,忙起来不要”的实施困境,缺乏针对性、实效性的问题解决方法。PDCA循环体系为学校德育评价提供了可操作的模型支架,为德育工作的改进提供了工具支撑。 (三)学校德育评价PDCA循环模型的建立1.计划阶段(P):德育评价目标指向马克思主义人的全面发展学说德育评价是教育评价的薄弱环节,根源在于学界尚未形成统一理论共识。有研究指出,德育价值观是理论构建与方法应用的基础,其认知偏差会直接削弱评价的客观性与科学性[14]。因此,德育评价的理论根基必须深植于马克思主义人的全面发展学说中,以党和国家教育政策为导向,凸显德育本质特性。 计划阶段是学校德育评价PDCA循环周期内的初始环节,清晰的德育评价目标和明确的评价计划是PDCA德育评价循环取得实效的必要前提。该阶段可分为四个操作步骤。首先,分析现状,查摆问题。即根据上一轮评价循环周期总结出的问题,结合实地调研与访谈等方法,确定本轮循环需要解决的问题,如德育课程内容缺乏衔接、学生对德育活动兴趣不足、德育工作实效性不强等。其次,剖析原因,寻找根源。通过组织学校德育干部、班主任、科任教师等参与讨论,认真分析问题产生的原因,提炼可能对德育活动内容和形式等产生影响的因素。再次,找准关键因素,确定目标。对讨论中提出的若干影响因素进行比较,找出主要、直接的影响因素,作为本轮PDCA德育评价的主攻方向;同时,结合上级教育行政部门对中小学德育工作提出的总体要求,以及该学期德育工作的基本任务,从综合布局出发确定德育评价的整体目标,各部门、年级、班级及教师则负责拟定各级组织及个人的德育评价具体目标。例如,某小学在计划阶段通过学生调查问卷发现,劳动教育评价存在重形式、轻体验的问题,据此将构建劳动素养发展性评价体系作为本轮评价工作目标,明确家务劳动过程记录、校园劳动岗位执行等具体指标。最后,制订措施,提出计划。基于学校德育评价目标的顶层设计,在分析问题原因和制订整改措施的基础上,针对上一轮评价发现的问题和本轮评价的总体任务,制订德育评价总体方案,各部门、年级、班级及教师制订整改计划,包括年级德育评价方案、班主任评价方案、各学科课程思政评价方案等。 2.执行阶段(D):德育评价内容应兼顾德育实践活动过程与结果在教育研究中,品德评价与德育评价常被混淆,实则二者内涵不同。品德评价是德育工作的关键,旨在培育符合社会需求的人才。德育评价本质是聚焦德育活动成效,评估思想品德的发展状况[15]。但若仅以学生品德成长来评判德育实践效果,则容易陷入形式主义与功利化困境。在学校德育评价PDCA循环模型里,德育评价要涵盖德育工作过程与成效,兼顾立德树人的过程和结果,如此才能凸显其价值。 执行阶段作为学校德育评价PDCA循环的主体环节,按照既定的评价目标执行行动方案,是PDCA评价循环实现工作质量提升的核心任务。该阶段可分为四个操作步骤。首先,按照计划,执行措施。即对照德育评价目标,按照计划阶段既定的评价计划落实行动方案。涉及学校相关部门及教师,则应认真完成职责范围内的相关任务,分别在课程育人、文化育人、活动育人、实践育人、管理育人、协同育人方面执行德育评价计划的具体措施。其次,关注进展,协调跟进。执行阶段不仅涉及评价计划的落实,还应根据党和国家的教育评价政策要求,做到及时跟进和修订完善。再次,挖掘资源,多元评价。德育评价的实施需要充分吸纳不同群体参与评价过程,整合校内外资源,发挥家校社协同育人力量。例如,学校可以建立由班主任、科任教师、心理教师、社区人员组成的评价团队,班级则可以组建以家委会为代表的评价主体。例如,有中学在法治教育主题活动中,邀请社区民警担任校外评委,家长通过家校共育平台记录学生在社区普法活动中的表现,形成学校+家庭+社会三方评价数据的实时汇聚。最后,收集信息,记录过程。在实施德育评价方案时,务必及时收集评价信息,这些信息不仅包括评价的主题、内容、方式、过程及效果,也包括学生参与德育活动的收获、体会和反思等。这些过程性评价资料的积累,既是德育评价分析结果的基础性材料,也是下一阶段德育评价循环的起点和依据。 3.分析阶段(C):德育评价融合质性描述与量化分析2020年,《深化新时代教育评价改革总体方案》发布,提出改进结果评价、强化过程评价、探索增值评价、健全综合评价的要求[16]。这一文件对德育评价产生了深远影响,推动德育评价摆脱工具理性束缚,凸显人文关怀。从哲学视角看,人文主义取向的德育评价秉持以人为本,聚焦学生道德品格的生成、发展与整体塑造,综合运用质性与量化方式,回归学生道德人格和品格发展的本体价值[17]。 分析阶段是学校德育评价PDCA循环的关键环节,为整个评价提供丰富的评价结果。分析阶段的引入,既是对德育评价方案目标达成度的判断,也是对评价效果进行总结和反思的直接依据。该阶段也可分为四个实施步骤。首先,确立标准,制订评价细则。即根据德育评价目标和内容确立评价标准,制订可操作的评价细则。在评价标准的确定上,可以按照学校整体要求建立统一的绝对评价基准,也可根据各部门和教师的具体工作,建立适合每个个体的差异化评价标准。其次,选择评价方法,开发评价工具。即建立德育评价数据库,存储和管理评价信息。研发适合学校的德育评价系统,将德育主题、内容、方式、过程等纳入其中,随时上传德育评价过程记录。学校可运用信息技术自主开发德育成长云平台,记录学生参与志愿服务的时长(量化数据),收录学生在活动中的反思日志、同伴评价等,描绘出每个学生的道德情感发展曲线,为个性化精准分析提供依据。再次,解释结果,判断目标达成情况。按照德育评价细则进行评价信息的质性判断和量化分析,对评价结果做出从简单到复杂的解释说明,向学校不同教职工群体推送。最后,提炼经验,查找问题。该阶段以形成清晰简明的评价结论为目标,肯定德育工作中的成功之处和取得的经验,对相应人员予以肯定和奖励;同时,明确评价结果中显现的问题,并告知相关人员,以此作为处理和改进后续工作的重要依据。 4.应用阶段(A):德育评价应用指向持续改进的完整体系德育评价是一个完整、连贯的过程,应包含确定评价目标、设计评价指标体系、组织与实施评价以及分析评价结果等环节[18]。在教育评价改革背景下,德育评价数智化转型成为必然趋势,能有效增强评价结果应用效果[19],推动学生在智能技术与德育评价的融合中,获得独立思考和反思自身道德发展的能力,实现智能技术与德育评价的协同发展[20]。 应用阶段是学校德育评价PDCA循环在一个周期内的最后环节,同时也是下一周期开始前的准备阶段。该环节是完成德育评价PDCA整个闭环的过渡阶段,但在实际工作中往往被忽视。如果忽略这一阶段,就无法形成评价闭环,可见此阶段在PDCA循环体系中具有重要作用。 应用阶段也可分为四个实施步骤。首先,整理意见,提出改进建议。根据上一阶段(C阶段)形成的评价结论,将评估过程中收集到的所有意见和建议进行归类整理,分别从学校干部、教师、学生、家长等相关群体的视角形成德育工作改进建议,尤其应关注德育工作方向的正确性、内容的适切性和方式的多样性。其次,总结经验,宣传推广。即及时归纳总结上一阶段评估形成的成功经验和做法,在适当情况下交流分享德育工作的成果和心得,扩大其在校内的影响力,为进一步推广奠定基础。例如,一些学校将家长德育观察员制度化,成为学校常规工作,每学期末召开家校评价成果发布会,将优秀家长评价案例汇编成册,形成可复制的协同育人模式。再次,保持稳定,形成评价制度。一方面,学校要持续推进循环评价以保证其应用的长期有效性;另一方面,要将证明行之有效的措施制度化,形成稳定的德育评价流程,并制订标准化操作指南,确保评价工作的规范一致性。最后,聚焦问题,转入下一循环。对分析阶段发现的问题进行整理归纳,将本循环周期内仍未解决的问题以及出现的新问题转入下一循环,作为新的PDCA周期的起点阶段的重点内容,形成德育评价不断改进和持续完善的动态过程。三、中小学德育评价PDCA循环应用的展望与建议 中小学德育评价PDCA循环模型为提升德育质量提供了理论框架与实践路径。针对不同阶段德育特点,建立具有衔接性和一体化的评价标准、强化家校社协同育人评价机制以及借助数智技术推动评价模式转型,不仅是完善德育评价体系的必然要求,更是顺应时代发展趋势、促进学生全面成长的关键举措。 (一)针对不同学段德育特点,建立衔接性一体化的德育评价标准在构建学校德育评价体系的过程中,深刻认识并尊重不同年级学生心理发展特征及小学、初中、高中各学段德育工作的独特性,是确保评价体系科学性和富有实效的关键。小学阶段的学生处于品德形成的基础期,德育评价应侧重日常行为习惯的养成、基本道德观念的树立及社会责任感的初步培养;评价标准宜采用直观、具体的行为指标,如诚实守信、团结友爱等;评价方式应简单易行,便于学生理解与自我反思。进入初中学段,随着学生自我意识的增强和抽象思维的发展,德育评价应更加注重价值观的引导和道德判断力的培养,评价标准应融入公民意识、法治观念及初步的人生规划意识,鼓励学生参与社会实践,通过角色扮演、情境模拟等方式深化道德认知。在高中阶段,学生面临更加复杂的社会环境与人生选择,德育评价需强调道德自律、批判性思维及社会责任感,评价标准应体现对多元文化的理解尊重、对社会责任的主动担当及对未来生活的积极规划,评价方式应包含项目式学习、社会服务、领导力展示等多元设计。例如,某十二年一贯制学校建立全学段红色基因传承评价体系,小学低年级设置认识国旗国徽、学唱红色歌曲等具象指标,实施红色勋章收集的游戏化评价;初中阶段设置红色故事宣讲、社区红色志愿等实践指标,采用项目完成度+同伴互评的过程性评价;高中阶段设置红色文化调研、红色精神创新表达等研究型指标,采用学术报告+社会影响评估的发展性评价,实现感知—实践—创新的螺旋上升,使德育评价真正成为学生品德成长的导航仪。 建立衔接性一体化的德育评价标准和评价细则,需紧密结合学校办学理念和育人目标,在PDCA循环模型中构建符合学生成长规律与各学段德育工作特点的阶梯式评价目标,通过计划—执行—分析—应用的循环往复实现评价标准的动态优化,为培养德智体美劳全面发展的社会主义建设者和接班人奠定基础。 (二)强化家校社协同育人评价机制构建家校社三位一体协同育人机制,目的不仅在于实现多方主体共同参与,也在于构建家校社协同育人评价机制,发挥评价的导向功能、诊断功能和反馈功能。德育评价不应局限于学校内部,而应拓展至家庭和社会,形成全员参与的格局;也需突破校园边界,与生活紧密相连,成为一种生活教育[21]。因此,德育评价要取得实效,必须吸收家长和社会评价。首先,在评价主体上,应打破学校单一评价的局限,构建学校、家庭、社会多元参与的评价体系,充分发挥家长、社区等主体的育人作用;其次,在评价内容上,既要关注学生的在校表现,也要重视其在家庭和社会中的行为实践,将品德修养、社会责任、家庭美德等纳入评价范畴;再次,在评价方式上,可通过家校联系手册、社区实践记录、成长档案袋等形式,实现评价信息互通共享,在PDCA循环中建立基于多元评价数据的收集机制(计划阶段)、协同分析机制(检查阶段)与改进反馈机制(处理阶段);最后,在评价结果运用上,应建立正向激励机制,将评价结果作为改进家校社协同育人工作的重要依据,促进三方形成育人合力。 例如,杭州市上城区创新构建家校社协同评价机制,为基础教育阶段的德育评价树立了典型样例。他们通过由班主任、家长代表、社区教育专员组成的三方评价委员会,开发家庭美德存折、社区实践护照等工具,记录学生在家庭孝亲、社区服务等场景的表现,并依托学校日常观察+家庭情景记录+社区实践档案的数智化平台整合数据,生成每学期的协同育人成长报告。该机制不仅设立家校社协同育人先锋榜以表彰优秀家庭和社区,还针对评价中发现的问题(如家长参与度不均),启动专属爸爸班、乐学父母成长营等专项改进计划,形成基于PDCA循环的问题发现—精准干预—持续优化的协同育人闭环管理,被教育部列为全国家校社协同育人典型案例。 (三)以数智技术赋能德育评价,推动评价模式转型在数字化与智能化深度融合的时代背景下,数智赋能教育评价已成为必然趋势。随着大数据、云计算等技术的蓬勃发展及广泛应用,针对智能化德育评价开展技术探索显得尤为迫切,促使传统德育评价由单向度、结果导向、标准化向智慧化转型,实现评价数据的精准采集、动态分析和智能反馈。中小学校可利用智慧校园平台记录学生的日常行为数据,结合机器学习算法,构建个性化的德育画像;通过区块链技术确保评价数据的真实性和可追溯性,增强评价的公信力;借助虚拟现实(VR)和增强现实(AR)技术,创设沉浸式德育场景,提升评价的实践性和体验感。值得注意的是,智能技术在德育评价中的应用并非单纯的信息技术测评,而是在全面收集学生道德行为资料的基础上,以图像、音频、文本等多元化形式,立体、直观、个性化地展现评价结果。其中,线上档案袋评价便是典型例证。相较于每学期一次的传统成长档案袋静态评估,线上档案袋能够实时捕捉并记录学生的成长轨迹,多方评价主体能在德育课程与活动中进行即时反馈,同时也赋予学生持续自我完善的机会。德育智能评价系统能够整合学生的课堂学习表现、校园生活行为、社区实践记录等不同内容和各类场域的即时数据,通过大数据分析自动生成品德发展过程性报告,同时提供个性化改进建议,支持家校社三方实时查看评价数据,共同制订育人方案。 数智赋能不仅使德育评价更加科学化、精细化,实现数据采集—智能分析—精准干预—效果反馈的闭环管理,而且通过技术手段支撑PDCA循环模型在德育评价实践中的落地,推动评价从静态结果转向动态过程,从经验判断转向数据驱动,从标准化评价转向个性化发展,形成计划—执行—分析—处理的数智循环改进体系,为学生的全面发展提供更加精准的成长支持。 参考文献略

武倩:国际科学教育中跨学科概念学习评估:进展与启示

2025-04-28

引用格式:武倩. 国际科学教育中跨学科概念学习评估:进展与启示[J]. 中国考试, 2025(4): 91-99.作 者武倩,女,华东师范大学教育学部在读博士生。摘 要:跨学科概念是学生科学学习的重要内容,也是提升科学教育质量的关键。当前,国外跨学科概念学习的评估主要分为两种类型:一是概念理解的评估,聚焦于学生整合相关概念和观念的能力;二是概念应用的评估,强调学生将跨学科概念与学科核心概念、科学与工程实践相结合,理解现象和解决问题的能力。以之为鉴,我国开展跨学科概念学习评估应推动科学教育研究者、学科专家、测量与评估专家及一线教师深度协作,围绕贯彻教—学—评一致性、创设高质量评估情境以及强化评估任务进阶性等开发科学高效的评估工具,促进学生深度学习。关键词:科学教育;跨学科概念;评估设计;深度学习2025年1月,中共中央、国务院印发的《教育强国建设规划纲要(2024—2035年)》中明确提出,要加强科学教育,强化学生核心素养培育,并完善拔尖创新人才的发现和培养机制[1]。近年来,我国科学教育正经历从知识传授向素养培育的转型。跨学科概念作为连接STEM(科学、技术、工程、数学)各学科的共通语言、思维和推理框架,在促进学生理解科学本质、掌握科学思维与方法、提升科学素养等方面发挥着不可或缺的作用[2-3],受到科学教育界的广泛关注。实际上,利用跨学科概念促进学生科学学习已成为全球新一轮科学课程改革的核心共识,并促使各国纷纷将跨学科概念纳入国家课程政策文件[4-5]。我国《义务教育科学课程标准(2022年版)》(以下简称新课标)明确提出了物质与能量、结构与功能、系统与模型、稳定与变化四个跨学科概念[6],指出学生应逐渐形成和理解这些概念,并将其应用于真实情境,为推动基础教育阶段科学教育的高质量发展提供了重要抓手。与此同时,我国普通高中生物、化学、物理等学科的新课标也将跨学科概念作为各学科教与学的重要内容和目标,旨在促进学生的知识整合与深度学习。例如,《普通高中生物学课程标准(2017年版2020年修订)》强调学生应形成结构与功能观、进化与适应观、稳态与平衡观、物质与能量观[7];《普通高中物理学课程标准(2017年版2020年修订)》明确指出,物理观念包含物质观念、运动与相互作用观念、能量观念等核心要素[8];《普通高中化学课程标准(2017年版2020年修订)》则倡导教师应重视跨学科内容主题的选择和组织,适当融合跨学科知识,以发展学生解决综合问题的能力[9]。研究表明,深入理解并熟练应用跨学科概念,有助于学生增强对不同情境中学习内容的整合性理解,增强知识的适用性、持久性和可迁移性,从而形成连贯的、基于科学的世界观[10]。鉴于跨学科概念在学生理解和参与科学方面的作用和价值,其教、学、评方面的研究亦成为国际科学教育领域的热点议题。理想的跨学科概念评估不仅能够为科学教育研究者和实践者提供学生理解和应用跨学科概念能力的现状和发展轨迹等信息,还能为课堂教学提供实质性的反馈与指导,助力实现新课标中将跨学科概念融入科学课程的愿景。然而,目前我国学界关于学生跨学科概念学习的评估研究较为薄弱,尚不足以满足实践需求,如评估任务的设计、评估方式的选择和评估结果的利用等均缺乏充分的实证研究支持。本文旨在通过系统梳理国际科学教育中学生跨学科概念学习的评估现状、理论基础与典型特征,对典型案例进行深入剖析,为我国跨学科概念评估的研究与实践提供参考借鉴。一、跨学科概念学习的常见评估类型作为美国具有影响力的教育改革机构,达成公司牵头研发了《新一代科学教育标准》(Next Generation Science Standards),并将当前国际科学教育领域中跨学科概念的评估方式分为隐性(implicit)、具体明确(specific)、灵活推理(flexible reasoning)三种类型[11]。基于这一分类,本研究对现有跨学科概念评估案例进行系统分析后,进一步将已有评估方式归纳为隐性和显性两种取向。隐性取向的评估主要关注学科核心概念、科学实践等科学学习维度,而将跨学科概念看作是学生思维和表现的内隐部分。具体而言,此类任务虽与特定跨学科概念存在潜在关联,但学生无需特地调用跨学科概念认知即可完成任务。这类评估方式并未聚焦于学生对跨学科概念的理解与应用能力的发展,因此很难提供有关学生跨学科概念学习和发展的明确证据。鉴于此,本研究将重点围绕跨学科概念的显性评估展开讨论。显性取向的评估明确针对跨学科概念进行设计和实施,通常采用两种方式收集关于学生跨学科概念学习效果的证据。其一,对特定跨学科概念理解的评估,即评估学生对指定跨学科概念理解的变化。这种评估方式倾向于在试题中设置明确的提示,以引导学生展示他们对指定跨学科概念及其关键内容要素的理解。例如,询问学生食物中储存的能量从何而来。其二,对跨学科概念应用能力的评估,即评估学生如何以有意义的方式使用跨学科概念,使其与学科核心概念、科学与工程实践等科学学习维度相结合,以理解现象和解决问题。这类评估通常会为学生提供一个情境任务,在学生完成任务的过程中收集他们运用跨学科概念相关能力的证据。例如,任务可设计为引导学生使用跨学科概念在自身与科学相关的体验经历、现象和问题之间建立联系;又如,利用跨学科概念探究新的现象或挑战,并提出新的问题、预测、解释和解决方案;再如,将不同的跨学科概念作为观察现象、发现现象突出特征的视角,揭示有关情境的更多信息;等等。二、跨学科概念的两类显性评估显性评估方法旨在全面评估学生在长期学习过程中逐步形成的对跨学科概念的理解和应用能力,从而确保学习者能够有效地将这些概念作为认知世界的有力工具。下面将系统分析当前两类显性评估方法,并结合典型案例,阐明其重要性及实践路径。(一)跨学科概念理解的评估研究学习科学、心理学以及教育研究均将学习描述为一个复杂且动态的过程。在此过程中,学生的知识网络不断经历重组,表现为向自身知识网络中添加新观念、梳理已有观念,以及建立、改变、完善和强化观念之间的关联(connections)[12-13]。在诸多概念类型中,一些概念相较于其他概念具有更强的关联性,充当着关联不同概念的枢纽角色,跨学科概念便是其中的典型代表。跨学科概念作为科学、技术与工程等领域共有的概念和思维方式,能够打破学科壁垒,将分散的知识整合为有机整体,为学生知识网络的组织与构建提供支持。具体来说,学生对跨学科概念理解的发展或进阶过程,对应由跨学科概念及其内容要素构成的复杂系统的结构性变化,包括整合新要素以及建立现有要素间的新链接(links)等[14-15]。例如,学生对能量概念理解的发展,可以被描述为一个越来越复杂的知识系统的演进过程。这一过程既包含对能量各关键内容要素的学习,即从认识能量来源、形式、转移,到探究能量耗散、守恒等[16],还涉及不同概念之间的结构变化,这种变化可以借助认知发展相关的理论、模型、框架进行描述。例如,知识整合框架(knowledge integration framework)将学生对科学理解的发展过程,描述为学生构建与科学相关的规范观念并在将这些观念链接起来方面所取得的进展。具体来说,该框架根据学生回答问题时使用的观念和链接的数量,将学生的概念理解划分为不相关、无链接、部分链接、完整链接、复杂链接等多个渐趋复杂的知识整合水平[13,17]。总体而言,跨学科概念理解的评估研究有较长历史,相关评估案例丰富,并呈现以下三个典型特征。一是聚焦单维概念理解。评估任务通常仅涉及对跨学科概念的理解这一单一维度,通过引导学生思考特定的跨学科概念或其子概念[18-20],评估学生对目标概念的理解程度。例如,Yang采用测验法对美国4~8年级和9~12年级共5581名学生的六个跨学科概念的理解情况进行了考查,包括系统与模型、物质与能量、结构与功能等[21]。该研究设计了诸如“搓手为何会让手更暖和”等一系列明确指向物质与能量等跨学科概念的试题,来评估学生的单维概念理解水平。Kohn等通过访谈法调查了美国14名正在修读化学和生物学导论课程的大学生对能量转移和守恒两个子概念的理解情况[22]。有学者在研究综述中指出,目前国际科学教育领域对跨学科概念的评估研究集中于物质与能量、系统与模型、尺度、比例与数量等方面,而鲜见针对其他概念的评估研究[23]。由此看来,对学生跨学科概念理解和学习情况的评估研究仍有待丰富。二是强调跨学科情境的创设。传统上针对单一学科情境设计的试题,在衡量学生对跨学科概念的理解时存在明显局限,难以实现与其他学科的直接比较。例如,Neumann等开发了用于测量学生对能量概念理解的评估工具,仅聚焦于物理学情境,无法有效评估学生在跨学科视域下对能量概念的理解程度[15]。为了准确获取学生在不同学科中对同一跨学科概念的理解情况,评估设计需要开发并使用同一标准衡量不同学科试题,从而实现对学生理解能力的跨学科比较。例如,Park和Liu开发了一套在不同科学学科情境中对能量概念理解的标准化测量工具,该工具由物理、化学、生物和环境科学四种测试组成,不同学科的测试题包含跨学科情境的共同题目(作为链接题/锚题)和学科特定的不同题目,既能分别评估学生在不同学科中对能量大概念的理解,又能通过将各学科置于同一衡量标准,实现对学生能力和题目难度的比较[24]。三是关注概念理解的进阶性。这一特征旨在揭示学生对跨学科概念理解的现状和发展轨迹。已有研究通过评估学生对物质与能量等概念的理解,发现学生对跨学科概念的理解能力会随着时间的推移而逐步提升。例如,Opitz等采用定量横断面研究设计,通过多项选择题考查了540名德国3~6年级学生在生物学情境中对能量概念理解的进阶情况,发现处于小学向初中过渡阶段的学生能够逐渐深化对该概念的理解[25]。Yang等基于Rasch模型开发了一套用于评估4~8年级学生在多个学期内对跨学科概念理解的测评工具,研究结果显示,学生从小学至初中阶段在跨学科科学理解方面有显著提升[26]。Bain和Towns通过访谈的方式考察了从本科到博士等不同学历层次的学生对于能量概念理解的变化,揭示了学生在各学段理解该概念时的具体特征及面临的困难[27]。(二)跨学科概念应用能力的评估研究美国国家研究委员会(National Research Council)制定并发布的科学教育领域的重要文件《K-12科学教育框架:实践、跨学科概念和核心概念》(A Framework for K-12 Science Education: Practices, Crosscutting Concepts, and Core Ideas,以下简称《框架》)提出了科学教育的新愿景[10],以适应21世纪的社会需求。《框架》强调科学学习包含学科核心概念、科学与工程实践、跨学科概念三个相互依赖的维度。这三个维度协同作用,使学生能够理解现象并解决问题。这一理念被称为三维学习(Three-Dimensional Learning,3D Learning)。其中,学科核心概念指物质科学、生命科学、地球与空间科学等学科的重要观念,用于解释一系列自然现象;跨学科概念,如模式、因果关系、系统与模型等,既存在于学科内部,也跨越学科边界,能够有效帮助人们理解和解释科学、工程等多个领域的现象和问题;科学与工程实践指科学家和工程师用于研究、探索自然世界及人为创造世界的认知与实践方式。学生既在参与科学实践的过程中学习学科核心概念和跨学科概念,同时也在运用这些概念的过程中掌握科学实践方法,三者共同促进学生构建可用知识(knowledge-in-use)[4,28-29],推动其整合性理解能力的发展。基于这一学习观,对跨学科概念学习的评估也随之发生了新转向。评估不再仅关注学生对跨学科概念相关知识的构建,而更加强调学生在真实问题情境中使用跨学科概念的能力[23,30]。以美国国家教育进展评估项目(The National Assessment of Educational Progress, NAEP)为例,其最新制订的科学评估框架(2028 NAEP Science Assessment Framework,以下简称NAEP 2028)明确将科学成就(science achievement)定义为运用相关学科概念(物质科学、生命科学、地球与空间科学)、科学与工程实践以及跨学科概念,来识别和解决问题、理解现象、评估信息以做出明智决策的能力[31]。由此可见,NAEP 2028与《框架》提出的三维学习理念高度契合,均倡导开展三维评估(Three-Dimensional Assessments, 3D Assessments),呼吁科学教育与评估应有机整合科学的三个关键维度,以此帮助学生理解自然现象,并在现实情境中解决复杂问题。在《框架》发布十余年后,此类评估研究初步出现了一些成熟案例[31-32],为学界提供了可资借鉴的评估素材与参考依据,主要呈现出以下三个典型特征。第一,多维任务驱动下的综合能力考查。评估任务不再局限于对单一维度科学能力的考查,而是通过多维任务来评估学生整合学科核心概念、跨学科概念、科学与工程实践的能力。评估任务通常由一系列环环相扣的问题和子任务构成,要求学生充分调动并整合多维能力,对现象进行深入分析或有效解决现实问题[33]。其中,跨学科概念发挥着不可或缺的关键作用,美国科学教育界将其比喻为分析现象显著特征的“透镜”(lenses)、连接不同领域和现象的“桥梁”(bridges)、参与科学实践的“认知工具”(tools)以及为学生理解复杂世界提供秩序和结构的“规则”(rules of the game),在学生意义建构过程中起到引导或约束作用[4]。其常见评估方式包括:1)将跨学科概念作为现象或问题的切入点,提出解释、论证、问题或假设;2)对一些仅依靠学科核心概念难以充分理解的现象或不易解决的难题,以跨学科概念的方式提出新的问题、预测、解释和解决方案;3)借助跨学科概念将某一现象(或数据、模型)与其他不同现象(可能是不同尺度的现象)相关联,实现知识的近迁移或远迁移。以NAEP 2028中的“人类迁徙至阿巴拉契亚”评估任务为例,该任务要求学生通过改进或完善已有的计算模型,更准确地预测迁徙对当地居民获取自然资源的影响。该任务同时考查学生对学科核心概念、跨学科概念、科学与工程实践三个维度科学能力的掌握。其一,该任务涉及对“人类活动引起的环境变化(如栖息地破坏、污染、外来物种入侵、资源过度开发和气候变化等)可能会扰乱生态系统,减少生物多样性并威胁部分物种生存”这一学科核心概念的考查。学生需要理解人类迁徙这一活动会如何引发该地区的环境与生态系统的变化,以及会怎样影响当地居民获取自然资源。其二,任务需要学生应用因果关系这一跨学科概念。因果关系为学生提供了解释和预测复杂的自然和人为设计系统的推理框架。而这种解释往往需要对系统内的小规模机制进行检验与建模。例如,学生需要分析不同因素(如月平均气温、农业基础设施、资源的获取)如何相互作用,从而导致人口迁徙的变化。其三,该任务还考查了学生在开发和使用模型方面的实践能力。学生在分析数据或设计、编程、测试和修正科学模型时,需要应用或调整算法,以解释和设计解决方案。在这一任务中,跨学科概念为学生推理现象成因提供了清晰的结构与焦点,能够有效促进学生将科学知识应用于新情境。可见,与单纯考查学生对跨学科概念理解的单一评估维度相比,此类评估更注重学生整合科学学习各维度进行意义建构的综合能力,要求学生自主识别问题与知识之间的关联,并综合运用知识和技能解决问题。第二,精心创设评估情境,聚焦能力展示。评估任务高度重视情境的创设,通过提供富有探究价值的评估情境和选取高质量的科学现象或问题,为学生创造灵活运用跨学科概念进行意义建构的机会。从知识应用视角出发设计的评估,通常会向学生呈现充满不确定性或模糊性的情境,来激发学生的思考和应答。这些情境通常融合文本和视觉元素,如图像、数据表格等,以直观呈现数据并展现某种现象。理想情况下,设计的情境应能突出关键内容。这些情境可能存在令人困惑之处,或与常规认知相悖,抑或是在区域性乃至全球层面具有重要意义,从而有效激发学生的探究兴趣。例如,“人类迁徙至阿巴拉契亚”案例中,人类实际迁徙数量超出了模型预测,在此情境下,学生需要运用因果关系这一跨学科概念,对模型进行修正,使其更精准地反映影响阿巴拉契亚不同地区人类迁徙的因素。第三,关注概念应用能力进阶,实现动态评估。评估任务关注随着时间推移与学科情境变化,学习者对跨学科概念应用能力的动态发展过程,旨在确保跨学科概念内化为学习者理解世界的有力工具。例如,NEAP将学生科学成就水平划分为三个层级:1)基本成就水平,即学生能初步理解与所在年级相适配的核心概念,并能简单应用相关的跨学科概念及科学与工程实践,以理解现实世界的情境和常见现象;2)熟练成就水平,即学生能够扎实理解其所在年级对应的核心概念,并能够熟练应用相关的跨学科概念及科学与工程实践,对现实世界的情境和现象进行推理和解释;3)高级成就水平,即学生能够深度理解与其年级相适应的概念,并能够像专家一样灵活应用跨学科概念及科学与工程实践,对现实世界的情境与现象进行解释、阐明和预测[31]。NAEP将学生对跨学科概念的应用能力划分为此三个逐级递增的学习进阶水平,有助于教育者准确把握学生的学习进展,从而更好地支持学生在跨学科概念应用能力上的持续发展。综上所述,当前并存的两类跨学科概念显性评估模式,即指向知识整合的概念理解评估与指向知识应用的概念应用能力评估,各有其侧重。前者关注学生对跨学科概念的深度理解及相关知识网络的构建,呈现出聚焦单维概念理解、强调跨学科情境创设和注重概念理解进阶性等显著特征,致力于追溯学生概念理解的动态发展轨迹。后者则更加关注学生在真实问题情境中识别并运用跨学科概念解决问题的能力,主要体现为设计多维综合的评估任务、创设高质量的评估情境以激发学生运用跨学科概念进行意义建构,同时也关注学生概念应用能力的进阶轨迹,展示学生从最初的简单应用,逐步发展至能够像领域专家一样灵活应用跨学科概念的提升过程。尽管二者存在差异,但均凸显了跨学科概念在推动学生深度学习、助力发展21世纪技能方面的关键价值,为科学教育评估提供了全新视角与方法。三、启示与建议基于我国科学教育状况与发展愿景,结合国际科学教育中跨学科概念评估的研究成果,本文针对我国开展跨学科概念评估从三个方面提出建议,以有效评估并促进学生的跨学科概念学习。(一)使评价与教学目标一致,强化学生对跨学科概念及其价值的认知新课标提出了为学生提供明确且连贯的跨学科概念教学支持的要求[34]。与之相呼应,学生科学学习评估任务的设计应将跨学科概念评估明确纳入其中,切实贯彻教—学—评一体化的教育理念。开发显性取向的评估任务,无论是对特定跨学科概念理解的评估,还是对跨学科概念应用能力的评估,都能为学生跨学科概念学习成效提供有力证据。教师或研究者应根据评估目的、预期的评估对象以及实际条件,选择适宜的评估方法或工具,系统地收集能够反映学生跨学科概念相关能力发展与课程标准期望匹配程度的证据,并依据评估结果指导教学实践,从而实现课程、教学与评估的一致性,确保所有学习者在跨学科概念学习过程中获得有力支持。从实践层面来看,明确设计并实施跨学科概念评估工作意义深远。一方面,有助于教师准确把握学生理解和应用跨学科概念的现状,动态追踪学生跨学科概念理解与应用能力的进阶轨迹,为优化教学策略与实施干预措施提供关键信息,真正实现“以评促学”“测试即学习”的理念[35]。另一方面,能够帮助学生认识到跨学科概念在理解现象、解决问题过程中的重要作用,确保每位学生都能明确如何运用不同跨学科概念视角来理解现象和解决问题,从而实现对这些概念的深入理解与灵活运用,成长为熟练且富有创造力的意义建构者和问题解决者。(二)创设高质量的评估情境,搭建学生展示理解与应用能力的平台跨学科概念代表着科学家和工程师在面对陌生现象和复杂问题时的思维方式[36],在知识整合与问题解决过程中发挥着关键作用。基于此,评估任务情境的设计对于引导学生展现对跨学科概念的理解与应用能力具有重要意义。理想的评估情境应兼具多重功能,既要有效激发学生的探究兴趣,又要为学生创造能够使用跨学科概念解释现象或提出解决方案的机会,同时为学生参与任务及充分展示自身能力提供支持。总体而言,评估任务情境的设计应具备以下关键特征:1)情境能够引导学生参与到应用跨学科概念的意义建构活动中;2)情境所要求学生应用的跨学科概念及其子概念与学生的年级水平相匹配;3)所探讨的现象和问题应蕴含足够的不确定性,使学生仅依靠学科核心概念、科学与工程实践难以给出完整解答,从而凸显跨学科概念在解决问题过程中的关键价值,引导学生突破学科边界,实现知识的综合应用[11,37]。在设计评估情境时,可充分借鉴PISA、TIMSS和NEAP等国外测评项目的经验,遵循新颖性、真实性、不确定性、公平性和广泛性等原则[38],聚焦与文化相关的现象和问题,同时注重学生的经历和体验。需要注意的是,虽然提供充足的情境信息能够提升学生对评估任务的参与度,但应避免引入不必要的细节或专业术语,以免增加学生的认知负荷,对评估效果产生负面影响。(三)强化评估任务的进阶性,为优化教学策略与干预措施提供依据跨学科概念的学习是一个长期且持续的过程。当学生在不同课程或不同年级间从一个核心概念转向另一个核心概念时,他们能够持续运用跨学科概念作为稳定的认知框架,对新的现象或问题进行意义建构,逐步形成对科学与工程领域系统化、连贯且可应用的理解[10]。因此,对跨学科概念的评估应是跨学段的累积性任务,并充分体现进阶性。具体而言,评估工作应着重关注学生在学习路径上的能力进阶,而非仅仅评价某一时间点上学生作答的正误;评估应揭示学生部分正确或尚不完整的理解,并提供其运用跨学科概念能力的发展证据,帮助教师洞察学生的学习情况,为改进教学策略和采取干预措施提供信息。事实上,尽管学习进阶的理念在科学课程内容组织与教学中得到广泛应用,但在科学评估领域依然是一个相对陌生的概念,在科学评估工具的开发中很少被充分纳入考虑。这也造成跨学科概念的学习进阶评估在设计、实施和准确解读方面面临挑战[39]。为此,科学教育研究者、学科专家、测量与评估专家和一线教师之间应展开合作,借鉴学习进阶观点,改变传统评估只关注处于特定年级的学生是否了解具体内容(事实)的现状,开发能够更加准确和差异化地描述学生跨学科概念学习情况的评估工具,支持和监测学生在不同年级和学段中不断发展并逐渐提高理解和应用能力,为跨学科概念教学的持续改进提供有力支撑。致谢:感谢华东师范大学裴新宁教授为本文提供的帮助。参考文献略

徐光木 等:教育考试执法裁量基准问题探讨

2025-04-01

引用格式:徐光木, 黄健, 尤明青, 等. 教育考试执法裁量基准问题探讨[J]. 中国考试, 2025(3): 71-80.作 者徐光木,湖北师范大学经济管理与法学院副教授。黄健,湖北师范大学经济管理与法学院在读硕士。摘 要:宽严失当、同案不同罚等现象是当前教育考试执法中的突出问题,引发了社会广泛关注。执法裁量基准作为一种具体执法尺度和标准,能够弥补教育考试立法不足、防止执法擅权、量化执法标准和稳定执法结果预期。当前,我国教育考试执法裁量基准建设相对滞后,与法治政府建设要求相比尚有明显距离,具体表现为主体权限不够明确、程序不够规范、内容不够合理,需要从明确制定规则、规范制定程序、优化具体内容、提升实施效果等方面加以改进。同时,裁量基准并非万能之药,需要避免因过度基准化而沦为阻碍正常执法的桎梏。关键词:教育考试;考试执法;裁量基准;依法治考党的二十大报告指出,要深化行政执法体制改革,全面推进严格规范,公正文明执法,加大关系群众切身利益的重点领域执法力度,完善行政执法程序,健全行政裁量基准[1]。为贯彻这一决策部署,国务院办公厅印发《关于进一步规范行政裁量权基准制定和管理工作的意见》(以下简称《意见》),提出到2023年底前,行政裁量权基准制度普遍建立,基本实现行政裁量标准制度化、行为规范化、管理科学化的总体目标[2]。2023年以来,国务院各部委和各省(自治区、直辖市)陆续出台行政裁量权基准指导性文件,对本部门、地方行政裁量权的行使做出具体安排,教育行政裁量权基准制度也在酝酿中。教育考试执法作为教育行政执法的重要组成部分,其规范程度不仅关系到法治政府建设成效,也与教育行政裁量权基准制度的制定息息相关。开展教育考试执法研究,特别是深入研究教育考试执法裁量基准,已成为教育领域进行裁量权基准制度探索的一项重点课题,它能够为教育行政部门出台相关指导性文件和规范教育考试执法行为提供理论支撑。本文主要从教育考试裁量基准的概念内涵、发展现状、存在问题和对策建议四个方面进行讨论。一、教育考试执法裁量基准内涵(一)教育考试执法裁量基准的含义有法律就有裁量。由于法律要覆盖到社会生活的方方面面,故而不可能事无巨细、面面俱到,这为自由裁量权预留了空间。行政执法裁量权(又称自由裁量权)本质上是行政主体在基于对多元利益关系的审视和平衡后,针对具体情境采取决策行为的职权[3]。其对应的行为可以是作为或者不作为,评判其合理性应当考虑个案的具体情形,如行政相对人的行为时机、方式、程度等[4]。裁量权的意义在于克服立法中存在的粗疏,但在实际执法过程中又可能出现裁量权行使不当的问题,违背设定裁量权的规范目的。英国行政法学家威廉·韦德(William Wade)因此指出,所有的裁量权都可能被滥用,对每一项权力都应设置一定程度的法律限制[5]。教育考试执法亦是如此。当前,我国教育考试执法的依据涵盖法律和部门规章两个效力位阶:一是以《教育法》为代表的法律,对教育考试执法做出原则性、概览式规定,包括教育考试执法的主体、职权、方式等[6];二是以教育部颁布的《国家教育考试违规处理办法》(以下简称《办法》)为代表的行政法规规章,对教育考试执法的种类、情形、程序、救济等做出具体规定[7]。但这些法律和规定仍然不能完全排除自由裁量空间,如《教育法》第七十九条只是列举了考试作弊的五类情形,规定了五种处罚措施,对执法认定事实、选择处罚幅度预留了较大的裁量空间[6];《办法》虽然对《教育法》的若干条款进行了细化,但仍然不够具体,如第九条规定,有组织团伙作弊等四种情形之一的,可以视情节轻重,同时给予暂停参加该项考试一至三年的处理;情节特别严重的,可以同时给予暂停参加各种国家教育考试一至三年的处理[7]。对于团伙作弊的判断标准、团伙规模与处罚幅度的关系、情节特别严重的判断标准等执法层面的问题,《办法》并未涉及。此外,在考试资格确认、成绩评定、高等教育自学考试毕业资格认定等环节,也存在一定的裁量空间。为进一步规范教育考试执法行为,全面推进依法治考,防止执法宽严失当、同案不同罚等现象,根据《意见》要求制定教育考试执法裁量基准势在必行。《意见》指出,行政裁量权基准是行政机关结合本地区本部门行政管理实际,按照裁量涉及的不同事实和情节,对法律、法规、规章中的原则性规定或具有一定弹性的执法权限、裁量幅度等内容进行细化量化,以特定形式向社会公布并施行的具体执法尺度和标准[2]。可见,教育考试执法裁量基准作为一种具体执法尺度和标准,通过对法律法规规章中的原则性规定和具有一定弹性的执法权限、裁量幅度等内容进行情节细化、效果格化和程序制式化,实现教育考试执法裁量标准制度化、行为规范化、管理科学化,确保教育行政机关在具体行政执法过程中有细化量化的执法尺度目标。从制定主体上看,教育考试执法裁量基准一般应由教育行政部门制定,但教育考试机构也可在法律法规授权的范围内,并在教育行政部门的指导下制定相应的裁量基准;从制定程序上看,它需要履行相应程序并向社会公布;从效力位阶上看,它是对法律法规规章和上级规范性文件的具体解释和细化,不得逾越前者规定的幅度;从涉及范围看,以考试处罚为主,但也包括考试资格确认、考试成绩认定、考试监督检查、考试安全管理、考生权益保护等多个方面,详见表1。(二)教育考试执法裁量基准的功能当前,行政裁量基准已经在我国得到普遍应用,并在立法、执法、司法、守法等层面发挥作用,教育考试执法亦不应例外,理由包括以下四个方面。第一,教育考试执法裁量基准有助于弥补立法不足,提高考试立法的科学化水平。虽然《教育法》等相关法律法规在教育考试领域具有高位阶和高效力,但因其内容相对固定而不可避免地带来滞后效应和呈现抽象特征,使其难以应对复杂多变的现实情况,导致执行困难。在此背景下,教育考试执法裁量基准应运而生。它通过对法律条文进行细化和实操化处理,为执法提供明确标准,进而有助于正确处理稳定与变化之间的关系。具体来说,在教育考试执法实践中,由于法律语言的模糊性,以及对于“情节严重”等表述缺乏具体界定,导致执法人员拥有较大的自由裁量权,同时也给公众留下执法不够精确严谨的印象[8],甚至可能导致权力滥用。因此,出台教育考试执法裁量基准,有助于引导执法人员正确行使裁量权,有效弥补立法的不足,确保教育考试执法公平公正。第二,教育考试执法裁量基准有助于防止执法擅权,为考生权利提供额外保障。受传统行政管理思维的影响,一些教育考试执法人员超出立法本意,恣意对违纪和作弊的具体情形进行扩大化解释,或者不论作弊情形轻重与否,对作弊考生一律给予停考三年的处罚,导致考生的合法权益在不同程度上受到侵犯,对教育考试的公信力亦构成损害。教育考试执法裁量基准通过设定裁量标准、公示决策依据、明确裁量范围等措施,能够有效限制执法机关及其执法人员滥用自由裁量权,防止裁量中可能出现的同案异罚、因违反平等对待原则而损害实质正义等现象,有效实现前者的自我约束[9]。第三,教育考试执法裁量基准有助于量化司法标准,为司法审查提供参考。传统观念中,裁量不予审查是行政法的共识,行政执法裁量行为不受司法控制[10]。但这并不意味着行政执法裁量基准和司法不会产生联系,这种联系在教育考试类行政诉讼中有所体现。由于司法审查不可避免会涉及教育考试执法的尺度和标准,如果教育考试执法机关不制定裁量基准,就会产生对司法机关审查裁量权行使是否合理的质疑,进而引发司法干预行政的嫌疑。裁量基准的制定为法院提供了审查的客观标准[11],通过将教育考试执法机关的具体裁量行为转化为规范化文本,使司法机关可以将其作为司法审查时的参考,进一步促进司法公正和提高司法效率。第四,教育考试执法裁量基准有助于稳定结果预期,对行政相对人发挥教育作用。由于教育考试执法涉及对具体情形的深入分析和判断,教育考试执法人员需要在法律允许的范围内合理行使裁量权,这对其综合素质的要求极高。如果没有明确裁量基准,执法人员可能会受到个人理解、已有经验或情感等因素的影响,对相似案件或情形做出截然不同的处置。通过制定并公开裁量基准,执法过程变得更加公开透明,这既有利于提高教育考试执法的可预测性,增强结果预期的准确性,也使考生能够更清楚地了解执法依据和过程,提高执法决定的可接受度。通过公开裁量基准,使考生更易于接受处置结果的过程,这实际上也是一个普法教育的生动过程,可以提高裁量基准的制定质量以及为基准的实施营造良好的社会环境[12]。二、我国教育考试执法裁量基准制定现状(一)制定主体根据行政裁量基准一般理论,依法享有执法权的行政主体均有权制定行政裁量基准[13]。在我国,行政主体一般是政府行政机关,但少数经法律法规授权的其他社会组织也可被赋予行政主体地位。如《教育法》第二十一条规定,国家实行国家教育考试制度。国家教育考试由国务院教育行政部门确定种类,并由国家批准的实施教育考试的机构承办[6]。因此,教育考试机构是经法律授权的行政主体,依法享有教育考试执法裁量基准制定权。但由于我国尚未对行政执法裁量基准的制定主体做出统一限定,在实际操作中,各地有关裁量基准制定主体的规定有所不同,大致可以分为三类。一是上级行政机关具有制定行政裁量基准的指导权。例如,青海省规定省级行政机关有权制定行政裁量基准,下级机关需遵循上级机关制定的标准,或在上级机关仅进行原则性规定时,下级机关方可依此制定行政裁量基准[14]。二是上级行政机关具有制定行政裁量基准的优先权。如甘肃省规定,下级行政机关只能在上级行政机关对行政裁量基准进行制定后,方可制定对应基准,且必须与上级基准保持一致[15]。三是允许各行政机关结合实际制定裁量基准。如黑龙江省规定各级行政机关都有权力制定行政裁量基准,不同层级的行政机关可以根据各自职责制定相应的法律法规,其中包括行政裁量标准[16]。可见,除《教育法》和《办法》对我国教育考试执法裁量基准的制定主体做了一些限定外,各地还结合实际做出了一些个性化规定。(二)制定思路当前,我国国家层面和省级层面的教育考试执法机关均未针对教育考试执法领域制定明确的裁量基准。在此背景下,各省普遍选择将《办法》作为本区域内教育考试执法的基本依据。因此,《办法》在一定程度上承担着我国教育考试执法裁量基准的重要职责。通过深入剖析《办法》的文本内容,可以初步探索并理解我国教育考试执法裁量基准的制定思路和技术。首先,在裁量基准结构方面,我国教育考试执法裁量基准采用“违法情形列举+基准+适用指引”的思路。如《办法》第十条规定,考生有第八条所列行为之一的,应当终止其继续参加本科目考试,其当次报名参加考试的各科成绩无效;考生及其他人员的行为违反《中华人民共和国治安管理处罚法》的,由公安机关进行处理;构成犯罪的,由司法机关依法追究刑事责任[7]。其次,在细化裁量情节方面,主要采用“列举+兜底”的思路,即先列举常见违规和作弊行为,对于不能穷尽的,最后采用其他兜底。如《办法》第五条第九项、第六条第九项、第七条第五项、第八条第五项等均属于兜底条款。最后,在裁量效果设定方面,主要采用经验划分法。这种方法高度依赖执法人员的专业经验和主观判断能力,而非倚重于固定的技术框架,因而能够有针对性地提出具有普适性的关键指标和标准,确保执法的灵活性。如《办法》第九条第二款规定,视情节轻重,可同时给予停考一至三年,或者延迟毕业时间一至三年的处理[7],就是给专业经验发挥作用留有余地。(三)制定规范《教育法》《办法》的规定较为宏观和抽象,为裁量基准预留了大量空间。教育考试执法裁量基准不仅包括行政处罚,还应包括行政许可、行政确认、行政强制、行政检查等。但教育考试法律法规规章主要围绕考试行政处罚的主体、种类、情形和程序等做出规定,并未能实现对教育考试执法工作的全覆盖,从而形成“教育考试处罚=教育考试执法”的错误认识。因此,离开事实上的裁量基准,教育考试执法呈现的可能是八仙过海各显神通的场景。但在教育考试执法实践中,上述情况并未出现,主要原因是国家和省级教育考试执法机关在实际工作中普遍以正式或非正式方式制定了大量具有裁量基准性质或发挥裁量基准作用的材料(以下统称具有裁量基准性质的材料),以公告、通知、守则、工作提示等较为常见。例如,湖北省教育考试院在2023年高考前夕发布《考前提示》,强调考试过程中若发现手机,无论是否开机或使用,均按作弊论处;各科的选择题和非选择题都必须在专用的答题卡指定区域内作答,在试卷或草稿纸上作答的,答题一律无效[17];山东省教育招生考试院在《致2024年春季高考技能测试考生的一封信》中也指出,考试过程中考生如携带手机等具有发送或者接收信息功能的设备,无论使用与否,均将认定为考试作弊并受到严惩;试题、答题卡、草稿纸等均属于涉考材料,严禁以任何方式拍照传出或带离考场[18]。此外,省级教育考试机构印发的教育考试考务手册也是裁量基准的重要载体。这类手册不是正式文件,但在事实上发挥裁量基准的作用。因此,从形式上看,教育考试执法裁量基准是新生事物,但实际上教育考试执法机关已经进行了较长时间的实践探索,积累了比较丰富的经验。三、我国教育考试执法裁量基准存在的问题(一)主体不够明确在全国统一的教育考试执法裁量基准及其指导意见缺位的情况下,我国教育考试执法裁量基准呈现出各地各机构各自为政的复杂局面。一方面,从规范角度看,各级教育考试执法机关均未能制定出严格意义上的教育考试执法裁量基准,即缺乏以“裁量基准”明确命名的规范性文件。这反映出在教育考试执法裁量基准的制定过程中,缺乏明确的指导原则和统一标准,导致相关执法机关在裁量基准的命名和制定上呈现出较大随意性,进而影响了裁量基准的权威性和有效性。另一方面,从实证角度看,尽管尚未出台统一的教育考试执法裁量基准指导性文件,但在实际执法中,各级教育考试执法机关又在适时印发各种具有裁量基准性质的材料。这些材料在一定程度上为教育考试执法提供了依据和参考。但由于缺乏统一的制定标准、程序和必要的权威性,各地裁量基准在内容、标准和尺度上存在较大差异和不确定性。这不仅使不同地区、不同部门、不同考试的执法尺度和标准难以统一,影响了教育考试执法的水平公平,也容易激发社会矛盾,甚至滋生各种寻租行为,为不法分子提供可乘之机。例如,2011年某省教育考试院所属标准化考点越权制定事实上的裁量基准,对高考艺术类考生李某给予取消当年高考所有科目成绩的处罚,李某对处罚不服,遂对该标准化考场及教育考试院提起诉讼,法院最终做出责令教育考试院撤销处罚的判决,并提出关于完善行政处罚程序的若干司法建议[19]。这是裁量基准制定主体不明确情况下发生的典型案例。(二)程序不够规范行政裁量基准从性质上看,应当归为内部行政规范性文件。此类文件与一般意义上的行政规范性文件相对,是指上级行政机关对内部行政人员和下级行政机关的工作进行规范、指导和约束的行为准则[20]。根据这一定位,裁量基准的制定过程应严格遵循一系列法定程序,包括评估、征求意见、审核、审议及公布等;设计这些程序旨在确保制定行政规范性文件的程序正义,彰显裁量基准文本的合法性与合理性。然而,在教育考试执法实践中,裁量基准的制定鲜有能够完全履行上述程序者,体现出一定的随意性。以各省(市、区)在工作实践中发挥高考执法裁量基准作用的高等学校招生委员会发布的《关于做好普通高校招生工作的通知》为例,通常涵盖了考试、招生违规处理、信息公开、安全保密等执法事项,是教育考试执法的重要依据。然而,除了文件形成后根据《政府信息公开条例》进行公开发布外,并未看到有任何省份在文件制定过程中或公布前公开征求公众意见。例如,2020年浙江考生吴某曾以《2020年浙江省普通高校艺术类专业招生办法》在发布前未组织听证、公开征求意见等为由提起诉讼[21]。这反映出在裁量基准的制定过程中,存在明显的程序不规范问题。这不仅削弱了裁量基准的合法性和合理性基础,也影响了其在实际执法中的权威性和有效性。必要评估、征求意见等关键程序的缺乏,可能导致裁量基准内容与实际情况脱节,无法满足实际执法的需要;同时,也可能使公众对裁量基准的制定过程产生质疑,降低公众对教育考试执法工作权威性、专业性的认可。(三)内容不够合理裁量基准作为教育考试执法的重要依据,其内容的合理性直接关系到执法公平公正。当前我国教育考试执法裁量基准在内容上也存在一些问题,主要表现为情节细化考量因素单一和裁量阶次划分不科学。在情节细化方面,现行裁量基准往往过于简单粗糙、不够具体,未能充分考虑各种实际情况和个体差异。这种简单的处理方式无法有效应对教育考试中出现的多种违规作弊行为。例如,在涉及不同情节的违规作弊行为时,现行基准往往没有根据情节轻重进行细致区分,而是采取了一刀切的处罚方式。这种方式不仅可能导致处罚过重或过轻,影响执法的公正性和合理性,还可能因为模糊性和不确定性而给执法过程造成潜在风险,增加执法难度和不确定性。此外,在阶次划分方面,现行基准也缺乏科学性和规范性,主要表现为未能严格按照相关法规进行阶次划分,导致对不同情节和程度的违规作弊行为缺乏合理区分。例如,在作弊处罚方面,对于轻微、一般、严重等不同程度的违规作弊行为,基准往往没有明确的界定和区分,而是采取了一刀切的处罚方式;在评卷判分方面,对于美术类、主观题类试题等,基准往往不够科学或不具可操作性,容易导致执法过程中的不公平和不合理现象,损害考试公平性和公信力。近年来,各地因艺术类考试、主观题判分依据不合理或缺乏依据,处罚依据不充分等而引发的诉讼屡见不鲜。例如,浙江省美术高考生范某诉浙江省教育考试院案[22]、北京市硕士研究生入学考试考生任某诉北京教育考试院案[23],武某俊诉云南某大学行政处罚案[24]等,都与教育考试执法裁量基准内容不够合理和完善有关。四、完善教育考试执法裁量基准的建议举措(一)明确裁量基准的制定规则立法权限划分是立法体制的核心。行政立法作为执行性立法,同样应把权限划分摆在突出位置。没有行政裁量权,便没有裁量基准。针对当前教育考试执法裁量基准制定主体权限不明确的问题,应参照立法的宗旨和精神,对裁量基准的制定权限进行明确划分,形成层级裁量基准体系[25],即通过构建教育考试执法裁量基准的制定规则,使各级教育考试执法机关在制定裁量基准时有章可循、逐级递进。这是确保裁量基准合法、合理和科学的前提。首先,构建多层次制定体系是关键。省级以上教育考试执法机关因具备丰富的资源、人才和经验优势,应成为主导裁量基准制定的核心力量。同时,为确保基准的实操性,应吸纳基层教育考试执法人员参与制定过程,充分听取其实践经验与建议。其次,建立动态调整机制不可或缺。教育考试执法裁量基准的制定和执行是一个不断探索和完善的过程。在执行过程中,可能会遇到各种新的问题和挑战,需要根据实施过程中的具体情况,适时调整权限划分和基准内容,以达到通过增加动态要素形成要素间的协动机制来促进法律规范与现实相适应的目标[26]。这要求各级教育考试执法机关保持高度敏锐性和灵活性,及时收集和分析反馈信息,对基准进行必要的修订和完善。最后,强化监督问责机制是保障。通过强化监督问责,可以推动各级教育考试执法机关更加认真、负责地履行制定和执行裁量基准的职责,确保教育考试执法的公正性和权威性。(二)规范裁量基准的制定程序行政程序法具有公正价值、效率价值、秩序价值,其立法意义在于保障公民权利、提高行政效率[27],教育考试执法裁量基准亦不例外。如果抛弃提高行政效率这一要义,制定基准的必要性将被大大削弱。因此,提出规范裁量基准制定程序的建议,不是照搬照抄立法的程序性规定,而是结合教育考试执法的具体实际,对立法的程序性规定做出适当调整、简化,使之既符合立法精神,又契合教育考试工作实际。为实现合法、合理、科学制定教育考试执法裁量基准的目标,有三个环节需要重点考虑。一是评估论证。重点是评估该裁量基准的合法性、合理性,既应充分肯定裁量基准的积极意义,又应避免掉入“唯基准化”陷阱,导致基准成为教育考试执法活动正常开展的障碍。二是合法性审查。主要是依据《国务院办公厅关于全面推行行政规范性文件合法性审核机制的指导意见》[28]对各级教育考试执法机关制定的教育考试执法裁量基准进行审查,确保合法合规。三是公开发布。2021年修订的《中华人民共和国行政处罚法》明确规定行政处罚裁量基准应当向社会公布[29],因此除依法需要保密和不宜公开的文件资料外,教育考试执法裁量基准应主动予以公开。(三)优化裁量基准的具体内容优化裁量基准的选取与细化标准是确保教育考试执法公正、公平的关键。裁量情节作为影响最终处理决定的重要因素,必须予以全面考量。这要求教育考试执法机关在制定裁量基准时正确处理法定情节与酌定情节的关系,避免倚重单一因素导致决策偏颇。法定情节指法律法规明文规定教育考试执法机关在做出处理决定时必须予以考虑的情节,如是否非法获取考试试题或者答案、是否携带或者使用考试作弊器材(资料)、是否让他人代替自己参加考试或代替他人参加考试、是否组织团伙作弊、属于考试违纪还是作弊等,酌定情节则需基于一线执法经验灵活纳入考量。同时,法定情节与酌定情节应按比例原则合理裁量,确保裁量基准既具灵活性又不失原则性。例如,各地关于考生忘记携带身份证件的处理办法不尽一致,甚至出现因人而异的情况:有的考生直接被拒于考场外,有的考生被要求(请他人)将身份证件在考试结束前送至考场,还有的被要求在后续考试前带至考场即可等等。这些各不一致的处置办法给教育考试执法带来困扰,因此存在纳入裁量基准的必要。我国香港特别行政区考评局发布的《公正处理考试异常事件准则》将教育考试处罚种类按照情节轻重划分为警告、扣分、降低成绩等级、取消科目成绩、取消全部考试成绩五类;其相较于《办法》取消本科目考试成绩、取消全部考试成绩、取消考试资格三类,更加凸显比例原则。其中,扣分机制根据考生行为的危害程度、主观态度等情节扣除相应比例的分数作为处罚[30],具有一定借鉴意义。(四)提升裁量基准的实施效果提升教育考试执法裁量基准的实施效果是一项系统性任务,需要各方协作、共同完成,主要包括四个方面。一是加强培训与指导。实现教育考试执法人员培训和指导的全覆盖,提高相关人员熟练运用裁量权基准解决执法问题的能力,确保执法规范性和一致性。可通过定期举办培训班、研讨会等活动,使教育考试执法人员充分了解裁量基准的制定背景、内容和要求,掌握正确执法方法和技巧。二是强化监督与考核。聚焦主体的合法性、程序的正当性、内容的合理性,统筹基准制定的合规与灵活,统一和明确裁量基准的审查标准,做到审查标准不过细,范围不过度扩张[31]。应将裁量基准制定和管理工作纳入教育考试执法机关建设考评指标体系,通过定期检查和评估,确保裁量基准的有效实施,并对不符合要求的情况进行及时纠正。三是建立反馈与调整机制。定期收集和分析教育考试执法过程中的反馈意见,对执法裁量基准进行动态调整和优化,特别是为避免裁量怠惰、裁量僵化,要在裁量基准规范文本中合理设置逸脱条款[32]。四是注重运用现代科技手段。充分利用大数据、人工智能等技术对执法数据进行收集、分析和挖掘,为裁量基准的制定、实施和完善提供科学依据,从而达到提升裁量基准实施效果的目的。五、结束语中共中央、国务院印发的《法治政府建设实施纲要(2021—2025年)》提出,全面落实行政裁量权基准制度,细化量化本地区各行政执法行为的裁量范围、种类、幅度等并对外公布[33]。《教育强国建设规划纲要(2024—2035年)》进一步要求健全教育法律法规规章[34]。作为细化量化行政执法行为的重要抓手,行政裁量基准通过有效规范行政裁量权,可推动提升行政执法的质量和效能,切实维护人民群众合法权益[35]。教育考试执法裁量基准作为保障教育考试公平公正、提升教育考试执法效率的关键举措,其重要性毋庸赘言。通过精心构建制定规则、严格规范制定程序以及不断优化基准内容,能够确保教育考试执法裁量基准的合法性、合理性和科学性,从而为教育考试执法提供坚实的制度保障。同时,我们也应清醒地认识到,裁量基准并非万能之药,它既可以作为防范权力滥用的有效工具,也会由于过度裁量基准化而沦为执法工作正常开展的阻碍。因此,教育考试执法机关在探索制定裁量基准的过程中,应采取积极而审慎的态度。一方面,针对教育考试中呈现的地域间、不同考试间可能影响考试公平的差异性执法举措,应通过建立裁量基准进行积极干预,确保执法的统一性和公正性;另一方面,对于尚未对考试公平构成明显不利影响的执法举措,应遵守法律保留原则,即保留各级教育考试执法机关的自由裁量权和合理设置逸脱条款,以应对复杂多变的现实情况和防止行政权对立法权的僭越[36]。借助这种双向平衡,既能有效防止权力滥用,保障考试公平公正,又能确保执法工作弹性和效率,使之更加符合教育考试执法实际需要。参考文献略

王俊民 彭宗生:基于课程领域的批判性思维和创造性思维测评: 澳大利亚NAP-SL2023的经验及启示

2025-03-31

引用格式:王俊民, 彭宗生. 基于课程领域的批判性思维和创造性思维测评:澳大利亚NAP-SL2023的经验及启示, 2025(3): 81-91.作 者王俊民,重庆师范大学初等教育学院副教授。彭宗生,重庆师范大学初等教育学院在读硕士生。摘 要:批判性思维和创造性思维是学生核心素养的重要内容,也是拔尖创新人才必须具备的关键素质。如何测评批判性思维和创造性思维是推进义务教育改革和培养拔尖创新人才亟须解决的重要问题。澳大利亚NAP-SL2023项目将批判性和创造性思维融入国家科学素养测评项目,采用多种方式测评科学课程领域的批判性思维和创造性思维。该方案具有基于课程领域将两种思维整体性融入认知维度的特点,表现出思维测评情境化和基于特殊领域的趋势,在国际大规模学业测评项目中具有一定代表性。NAP-SL2023对我国基于课程领域开展批判性思维和创造性思维测评具有多方面的启示。关键词:澳大利亚;NAP-SL2023;批判性思维;创造性思维;科学素养测评引言2023年5月,教育部办公厅印发《基础教育课程教学改革深化行动方案》,要求以教学评价牵引基础教育课程教学改革,注重以核心素养立意的教学评价[1]。2024年3月,教育部部长怀进鹏在全国两会记者会上指出,培育和发展新质生产力,创新是核心要素,要通过教育来培养拔尖创新人才[2]。批判性思维和创造性思维是学生核心素养的重要内容,也是拔尖创新人才必须具备的关键素质。如何测评批判性思维和创造性思维是深化义务教育课程教学改革、培养拔尖创新人才亟须解决的重要议题,也是国内外学者关注的热门话题。在国际上,尽管不同学者对批判性思维和创造性思维的定义各有侧重,但典型的测评工具主要从两种思维的过程和核心特点出发进行测评[3]。例如,国际上使用较为广泛的托兰斯创造性思维能力测验(The Torrance Tests of Creative Thinking)主要通过言语测验、图形测验、声音和词测验开展创造性思维测评[4];加利福尼亚批判性思维技能测验(California Critical Thinking Skills Test)通过基于实例分析的标准化考试测查大学生和高中生的分析、评价、解释、演绎等思维能力;美国教育考试服务中心(ETS)编制的HEIghten批判性思维测试主要考查大学生的分析与综合能力[3]。这些测评工具虽然得到较为普遍的认可和应用,但存在独立于课程领域、与学科内容和学生日常生活脱节等现象,并可能导致思维训练的形式化、机械化和目的虚化等问题[5]。一些学者对一般性测评的局限性展开了反思性研究。例如,一些研究发现,将批判性思维拆解为不同维度进行独立测评可以有效测量知识和基本认知能力,但不适用于高阶综合能力的测评[6-7];由于创造力所需的知识结构、特质和技能在不同领域具有较大的差异[8],因此对创造力的研究应该从一般性转向特殊性领域[9]。一些学者或项目探索研制了基于特定领域的批判性和创造性思维测评工具。例如,蒂鲁内(Tiruned)等基于物理学电磁学知识开发了测评大学生物理批判性思维的测试[10];萨克(Sak)等基于生物、物理等五个科学学科开发了面向六年级学生的创造性科学能力测试(Creative Scientific Ability Test)[11];而PISA2021从文字表达、视觉表达、社会问题解决和科学问题解决四个维度测量学生的创造性思维水平[12]。上述测验或项目使批判性和创造性思维测评与学科内容和学生的日常生活相联系,探查特定情境下学生的高阶思维发展水平,得到了广泛应用。它们为基于课程领域,尤其是科学课程开展批判性和创造性思维大规模测评提供了新思路。我国心理学界较早关注批判性和创造性思维,测评工具中既有对西方测量工具的修订或改编,也有基于本土文化开发的针对性测评。例如,罗清旭对加利福尼亚批判性思维技能测验进行了翻译和修订[13],张德琇开发了面向小学生的创造性思维潜能测验[14],郑日昌和肖蓓苓[15]、骆方和孟庆茂[16]等都开发过面向中学生的创造性思维测评工具。这些工具被广泛应用于教育教学改革和创造性人才培养与评价等多个领域,进一步推动了我国早期的批判性和创造性思维研究。特殊领域的批判性思维和创造性思维测评在2000年以后才逐渐引起学界关注。近年来,有关创造力、批判性思维的研究工具和成果逐渐增多。其中,申继亮、胡卫平、林崇德编制的青少年科学创造力测验具有良好的信效度[17],先后被改编、施测于土耳其、马来西亚等国家的中小学生,在国际上具有一定的影响力;彭运石、王玉龙从模型建构、测评工具研制及应用等方面,对社会科学、自然科学等多个领域的创造性人格进行实证研究[18];殷莉莉在借鉴加利福尼亚批判性思维技能测验的基础上,结合化学学科知识开发了化学批判性思维测试[19];胡欣阳、姚晓红基于科学课程领域开发了高中生批判性思维测评工具并进行实证研究[20-21]。综合来看,有关批判性、创造性思维的测评研究正从关注一般性转向强调特殊领域,基于课程领域开发情境性测评工具已经成为国际研究的新趋势。然而,现有研究和项目主要将批判性思维和创造性思维进行独立测评,且多局限于小规模或小范围测评,在国家课程、大规模学生学业测评项目中的应用还十分有限,相关研究结果和结论尚不充分,实践经验还比较缺乏。在学科课程领域,如何将两种思维融入具体课程并开展科学评价还是一个具有挑战性的任务。2023年,澳大利亚国家测评项目(National Assessment Program,NAP)首次将批判性思维和创造性思维融入科学素养测评项目进行考查,为基于课程领域的批判性思维和创造性思维大规模测评开辟了新的实践路径[22]。本文以澳大利亚2023年NAP科学素养测评项目(NAP-Science Literacy 2023,NAP-SL2023)为研究对象,对其批判性和创造性思维(critical and creative thinking,CCT)测评框架、测评方式、试题及显著特征等进行深入分析,以期对我国学生核心素养发展背景下的批判性和创造性思维测评开展提供参考借鉴。一、NAP-SL2023项目概述NAP-SL是由澳大利亚课程、评估和报告管理局(Australian Curriculum, Assessment and Reporting Authority, ACARA)开发和管理的全国性科学素养测评项目,属于抽样性监测。该项目每三年开展一次,自2018年开始测评对象为六年级和十年级学生,主要目的是监测学生的科学素养发展情况。2019年12月,澳大利亚全国教育委员会发布了《爱丽斯泉(姆帕恩特韦)教育宣言》[The Alice Springs(Mparntwe)Education Declaration,以下简称《教育宣言》],其远景目标是将澳大利亚课程打造成为世界一流水平[22]。作为国家课程实施效果监测的一部分,NAP-SL2023通过监测学生的科学素养进步状况以评价《教育宣言》目标的达成情况。因此,NAP-SL2023测评框架设计的主要依据是国家课程《澳大利亚课程:科学》[The Australian Curriculum: Science,以下简称《科学课程》]。图1为NAP-SL2023项目的基本框架,主要由内容维度和认知维度构成[22]。其中,内容维度包括《科学课程》中的内容领域(content domain)、关键概念(key ideas)、跨学科优先事项(cross-curriculum priorities)、通用能力(general  capabilities)四部分内容,由于后三者具有跨学科性质,主要通过融入内容领域的方式进行间接考查,但通用能力也可以与认知维度对应进行考查。(一)内容领域内容领域是《科学课程》的核心内容,包括科学理解(science understanding)、作为人类活动的科学(science as a human endeavour)和科学探究(science inquiry)三个维度,每个维度都以核心概念(core concepts)的形式呈现具体内容,见表1。科学理解指应用科学知识解释和预测现象,并将这些知识应用于新的情境中,包括生物、化学、物理、地球与宇宙科学四个学科分支的十个核心概念。作为人类活动的科学指科学的本质,包括科学的本质和发展、科学的应用与影响两个子维度共五个核心概念。科学探究关注科学家研究自然世界的不同方式,并基于证据提出解释,包括提问与预测、计划与实施、处理数据和构建模型及分析、评价、交流五个二级维度共六个核心概念。NAP-SL2023将NAP-SL2018测评框架中的科学探究技能改为科学探究,意在强调科学探究包括技能和认知两个方面[22]。(二)认知维度认知维度在NAP-SL2018中已经提出,旨在明确学生作答过程中的思维技能,其设计主要依据学生应用科学知识、科学探究的方式及认知复杂性,同时借鉴包括布卢姆教育目标分类学在内的认知理论框架,以及澳大利亚课程中关于批判性和创造性思维认知过程的描述。与NAP-SL2018相同,NAP-SL2023中的认知维度包括了解和应用程序,推理、分析和评价,综合与创造三个方面,并明确描述了批判性和创造性思维与认知维度的对应关系,为其融入科学素养测评提供了框架。(三)关键概念、跨学科优先事项和通用能力NAP-SL2023将关键概念、跨学科优先事项和通用能力作为与内容领域并列的内容维度列入测评框架,这一维度具有跨学科性或通用性,因此其测评主要通过内容领域实现。关键概念本质上是科学课程领域的跨学科概念,具体包括模式、秩序和组织,形式与功能,稳定与变化,比例与测量,物质与能量,系统等六个关键概念,主要基于科学理解进行考查。跨学科优先事项属于科学与人文的融合,包括土著和托雷斯海峡岛民历史和文化、澳大利亚与亚洲的交往、可持续性三个方面,主要基于三大内容领域进行考查。通用能力指澳大利亚国家课程提出的七种通用能力,分别是读写、计算、数字素养、批判性和创造性思维、伦理理解、跨文化理解、个人与社会能力(相当于我国的核心素养),主要通过学科课程教学实现。NAP-SL2015和NAP-SL2018都曾经尝试将通用能力融入科学素养测评,但最终只是作为间接内容在试题和背景材料以及科学探究考查过程中有所呈现[23]。NAP-SL2023首次将批判性和创造性思维这一通用能力作为重点内容纳入科学素养测评。二、NAP-SL2023批判性和创造性思维的界定及其与认知维度的关系(一)批判性和创造性思维的界定澳大利亚课程、评估和报告管理局2024年发布的测评报告指出,批判性思维涉及学生分析和评估可能性、构建和评估论点以及使用信息、证据和逻辑得出合理结论和解决问题;创造性思维要求学生产生新的想法,考虑不同的解释和可能性,并将知识和技能转移到新的和不熟悉的环境中[24]。这与澳大利亚官方课程网站对批判性和创造性思维的界定基本一致。该课程网站将批判性思维和创造性思维整合为一个通用能力,即批判性和创造性思维,包括探究(inquiring)、生成(generating)、分析(analysing)和反思(reflecting)四个连续要素,其在科学素养测评框架中的体现见表2[25]。由表2可以看出,批判性思维和创造性思维相互交织,共同体现在四个要素中。虽然创造性思维主要体现在生成要素中,但在探究和反思中也有一定的体现,如创造性地提出问题和探索概念。从科学课程的视角来看,批判性和创造性思维的四个要素在结构上的连续性与科学探究的要素具有对应关系。批判性和创造性思维嵌入提问和预测、制订计划和实施探究、分析和评估证据以做出决策和得出结论等科学探究要素;创造性思维使个人新的想法得到发展,是科学理解发展的内在本质[26]。这就将批判性和创造性思维与科学探究过程中的思维活动、科学理解等联系起来,为科学素养测评中考查批判性和创造性思维提供可能。(二)批判性和创造性思维与认知维度的关系NAP-SL2023认为,批判性和创造性思维的各个方面都源于科学探究和科学思维中固有的重要认知技能,因此,批判性和创造性思维通过认知维度整合到NAP-SL2023项目,同时与科学探究和科学思维紧密联系。NAP-SL2023列出了三个认知维度的具体内容以及对应的批判性和创造性思维要素或子要素,表3仅列出推理、分析和评价认知维度对应的具体内容。可以看出,推理、分析和评价维度包括比较、对比和分类、表征等七个认知领域,每个认知领域对应批判性和创造性思维的一至三个要素。例如,表征对应批判性和创造性思维的探究和反思两个要素,并明确说明对应的子要素。由此,当科学素养测评考查认知维度相关内容时,实际上也就对应地考查了批判性和创造性思维。综合来看,澳大利亚课程对批判性和创造性思维的界定以及NAP-SL2023的认知维度建构使科学素养测评中考查批判性和创造性思维成为可能,为基于课程领域测评批判性和创造性思维评价提供了新路径,并可融入教师的课堂教学。(三)批判性思维和创造性思维作为整体进行测评的合理性NAP-SL2023将批判性思维和创造性思维作为整体并转化为认知维度融入中小学生科学素养测评项目,与澳大利亚国家课程的设计及其对通用能力的界定紧密相关。首先,两者的高相关性决定其可以作为整体进行测评。从哲学或心理学的角度看,批判性思维旨在分析问题,创造性思维旨在解决问题,两者既相互关联,又在问题解决过程中交替进行[27]。有研究提出,批判性思维是创造性思维的基础和前提[28]。实证研究发现,创造性思维和批判性思维在解决问题中具有互补作用,都是创新的关键要素[29-30],在非常规问题解决过程中,两种思维的相关系数更高[31],表明两者在问题解决过程中进行整体组合评价具有合理性。澳大利亚国家课程指出,虽然批判性思维和创造性思维不能互换,但它们密切相关,都是学生应对21世纪复杂环境、社会和经济压力必须具备的核心能力[25]。从通用能力在课程领域的体现来看,批判性思维和创造性思维被嵌入到科学探究的过程中,也体现了两种思维在问题解决过程中的相互关联。其次,澳大利亚国家课程设计及其对通用能力的界定需要将两者统合测评。将两种思维融入课程领域开展测评在国内外研究中虽有先例,但将两者作为认知维度融入学科素养测评还较为少见。美国哲学会于1990年发布的批判性思维德尔菲报告得到广泛认可,报告指出批判性思维可分为认知技能和人格倾向两个方面[32]。目前,学者们已就批判性思维认知技能的存在及其内涵达成共识,包括分析论据、主张或证据、归纳或演绎推理、判断或评价、作出决策或解决问题等[33]。该共识在澳大利亚通用能力批判性和创造性思维的要素中得以充分体现,且较好地对应了澳大利亚科学素养测评的认知维度,尤其是推理、分析和评价。针对创造性思维,有研究从过程视角出发,认为创造性思维涉及批判性思维的客观分析[34]、建立联系[35]、形成想法或假设、验证假设、交流结果、修改或重新验证假设[36]等多个思维过程,在澳大利亚通用能力批判性和创造性思维的生成要素中得以体现,较好地对应了澳大利亚科学素养测评的认知维度,尤其是综合与创造维度。综合来看,NAP-SL2023更多关注批判性思维认知技能和创造性思维过程,因而能很好地将两者进行整合并作为认知维度融入测评框架。三、NAP-SL2023批判性和创造性思维的测评试题设计澳大利亚NAP-SL2023已实现基于计算机的测评全覆盖,利用新技术手段使图片、动画、音频、视频以及其他网络媒体资源等都成为可能的背景素材,不仅扩大了材料选择范围,而且拓展了评价的内容范围和题型,拓宽了试题的任务复杂度,使以往难以考查的过程性能力和难以捕捉的思维变化得以呈现,极大地丰富了批判性和创造性思维的测评空间。(一)测评形式NAP-SL2023的测评形式包括基于计算机的客观测试、探究任务和问卷调查。六年级学生完成客观测试和探究任务限时60分钟,十年级学生限时75分钟,调查问卷没有严格的时间限制,计划用时约为20分钟[24]。客观测试主要以试题单元的形式呈现,即围绕一个情境素材设计1~5个小题,考查所有内容维度。为了拓宽情境素材、评估内容以及学生作答时所需的认知复杂度范围,NAP-SL2023继续加强信息技术在测评中的应用,主要包括:1)更多采用视频或动画来呈现背景素材及相关题目信息,减少学生的阅读负担;2)将多种信息来源或媒体数据视为评估科学与社会之间互动的情境素材;3)采用预测—观察—解释的模式,要求学生对某个事件做出预测,观察令他们惊讶的视频或动画,最后补充或改变他们的观点。信息技术增强的测评手段使学生在与现实世界相关的真实情境下解决问题,为客观考查学生的批判性和创造性思维提供了更多空间。探究任务也是基于计算机完成,侧重于无法在较短的任务或项目中有效或高效考查的科学探究要素。NAP-SL2023加强对控制变量以外的其他科学探究方法考查,如观察、分类、模式识别和建模等,极大地拓展了认知维度的考查范围,使批判性和创造性思维的评价更加全面和深化。学生问卷主要调查学生对科学本质的理解和科学态度相关信息,同时了解其校内外科学学习经历,涵盖作为人类活动的科学、学生的科学参与度、科学的教学与学习三个主要方面。NAP-SL2023特别新增了批判性和创造性思维相关内容,包括学校教学中对学生批判性和创造性思维的培养、解决问题时的自我效能感、校外活动对学生批判性和创造性思维的影响、学生对批判性和创造性思维价值的态度,以及学生参与批判性和创造性思维活动的情况。(二)测评题型为了充分考查学生的认知维度及批判性和创造性思维,NAP-SL2023主要采用建构类题型和中等约束题型,同时保留了一定的开放题。其中,建构类题型要求学生通过生成一个回答做出反应,如填空、填表、简答等;中等约束题型介于高度约束的选择类题和完全开放题之间,既能较大限度地考查学生的认知水平,又能实现计算机系统自动评分,如交互式匹配选择(选择单词填空)、交互式匹配拖放(选择文本或图像拖放)、下拉菜单选择等。(三)试题样例分析以NAP-SL2023的一道科学试题[24]为例,分析其如何在科学素养测评中实现对批判性和创造性思维的考查,该题同时面向六年级和十年级学生。试题单元:分解土壤中含有一种被称为“分解者”的生物,指以动植物等生物的遗体、残骸、粪便等为食的生物,它们能分解不同的物质。“分解者”包括:1)食用以上物质的昆虫和蠕虫等动物;2)真菌和细菌,他们会分泌化学物质在体外分解以上物质。图2的土壤中含有分解者。能被分解者分解的物质被称为可生物降解物质。一组同学想要研究以下每种材料(见图3)的可生物降解性,他们计划将大小相似的材料碎片同时埋在潮湿的土壤中。问题1:同学们决定通过记录每种材料的观察结果来收集数据,其中一名同学希望每小时记录一次观察结果。但在这个探究任务中,这个时间间隔不合理,请你说明原因。(1分)问题2:确定一个适当的时间间隔来记录每种材料的观察结果并说明理由。(2分)问题3:同学们在透明的塑料片上打印边长5毫米的网格。在12周后,探究即将结束前,网格塑料片被放置在每种材料上,同学们数出材料分解的方块数量。下列表格(表4)显示了探究结果。在探究之前,同学们预测食物会比其他材料更容易被生物降解。同学们的预测正确吗?请根据探究结果用证据支持你的观点。(2分)具体而言,问题1和问题2要求学生批判性地思考收集准确数据的方法、识别提议方法的不足之处,并提出更有效的替代方案。考查的内容维度为科学探究的计划与实施,对应的认知维度为推理、分析和评价。从批判性和创造性思维的视角来看,这两个问题分别考查探究和生成两个要素,问题1对应子要素为识别、处理和评估信息,问题2对应子要素思考替代方案。题型均为建构类试题,具有一定的认知复杂度。问题3要求学生批判性地分析给定的数据表格,判断探究结果是否支持预测。根据数据表格,食物确实比某些非食物物品(例如塑料和铝箔)更容易生物降解,但一些非食物材料(如纸板)也更易于生物降解。因此,如果学生只是简单地认为预测正确或不正确,表明他处理复杂数据的能力还有待提高,只能获得部分分数。问题3考查的内容维度为“科学探究的处理数据和构建模型及分析”,对应的认知维度为“推理、分析和评价”。从批判性和创造性思维的视角来看,问题3主要考查批判性思维,题型为建构类试题,具有较大的认知复杂度。四、启示当前,我国正在积极推进核心素养导向的基础教育课程改革,批判性思维和创造性思维以学科核心素养形式被融入学科课程内容。例如,《义务教育科学课程标准(2022年版)》将科学思维作为核心素养维度之一,包括模型构建、推理论证和创新思维三个方面[37],主要对应批判性和创造性思维的内容。借鉴澳大利亚NAP-SL2023项目基于科学素养测评考查学生批判性和创造性思维的经验做法,对于我国开展相关领域的评价工作具有以下三个方面启示。第一,立足学生核心素养发展目标,构建基于课程领域的显性化思维测评体系。当前,我国虽然强调发展学生的批判性思维和创造性思维,但从课程设计来看,并没有明确批判性思维和创造性思维的内涵、关系及其在学科课程的表现形式。以义务教育阶段的科学课程为例,虽然科学思维是批判性思维和创造性思维的集中体现,但学科视角下的教学与测评更加关注模型建构等子要素,忽视问题解决过程中的思维连贯性,从而导致无法从整体上把握批判性思维和创造性思维,也不利于复杂情境下的高阶思维能力教学与评价。立足学生核心素养发展目标,在国家课程中应明确界定批判性思维和创造性思维,并将其与学科课程标准的核心素养维度进行对应,使其在具体课程领域进一步显性化。此外,在科学教育等学科质量监测框架中基于问题解决过程构建连贯的思维测评框架,使其在学科素养测评中显性化,更好地引导学科教学关注批判性和创造性思维。第二,兼顾拔尖创新人才选拔和培养的需要,建立学生批判性和创造性思维的评价体系。拔尖创新人才培养是当前我国教育强国建设的一项重要任务,批判性和创造性思维是拔尖创新人才必须具备的关键素质,也是基础教育阶段人才早期识别与培养的重要指标。现阶段,我国还没有构建起系统的批判性和创造性思维教学与评价体系,不利于收集思维发展的相关证据以支持拔尖创新人才的早期识别与培养。在此基础上,一方面要基于具体的学科课程领域构建测评框架和情境化试题,以清晰地探究学生在特殊领域中两种思维的发展水平;另一方面,要采用国际公认或基于本土文化开发的一般性思维测评工具收集反映学生一般性思维的数据,整合测评数据系统刻画学生两种思维的发展全貌。第三,响应教育评价数字化转型发展要求,应用新技术手段创新试题情境及评价方式。随着人工智能技术的飞速发展,教育评价与人工智能深度融合已成为教育评价改革的主流趋势,人机交互的情境化试题将成为批判性和创造性思维测评的重要方式,基于计算机交互任务的创新思维能力测评研究[38]近年来相继出现。今后一段时期,批判性和创造性思维测评可基于人工智能等新技术手段,应用多种形式的背景素材,丰富试题情境,创新评价方式,积极开发基于本土文化背景的人机交互试题,从而实现对思维过程的深度考查。参考文献略

国家义务教育质量监测结果区域应用的现实困境与纾解进路

2025-03-26

★原载《教育测量与评价》(双月刊)2024年第6期作者简介王庆如/深圳市教育科学研究院副研究员,博士。张海洋/深圳市罗湖区教育质量监测中心正高级教师。【摘  要】国家义务教育质量监测是推动义务教育高质量发展的重要手段,也是建设教育强国的重要保障。随着国家义务教育质量监测的深入推进,如何有效落实监测结果的区域应用,如何推进监测赋能教育高质量发展,已经成为当下教育质量监测工作必须面对的重要课题。聚焦“谁来用”“用什么”“怎么用”等痛点问题,回归国家义务教育质量监测设计的基本逻辑,并在借鉴国际教育质量监测结果应用经验的基础上,从建立多元主体协同机制、促进监测的延伸与下移、构建“3456”应用模式等方面着力,推动国家义务教育质量监测结果区域应用体系的构建。【关键词】国家义务教育质量监测;监测结果区域应用体系;“3456”应用模式;“实证+”赋能;教育高质量发展国家义务教育质量监测紧密围绕落实立德树人根本任务,扭转唯分数、唯升学等不科学的教育评价导向,引导聚焦教育教学质量、遵循教育规律,以全面客观的监测数据支撑教育决策、服务改进教育教学管理,促进培养德智体美劳全面发展的社会主义建设者和接班人。[1]它是推动义务教育高质量发展的重要手段,也是建设教育强国的重要保障。自2015年全面启动以来,国家义务教育质量监测工作在全面诊断省级义务教育质量状况、服务国家教育决策等方面发挥了积极作用。但在区域层面如何用好监测结果指导教育教学改进、助力教育教学质量提升,依然是一个需要不断探索的课题。本文聚焦国家义务教育质量监测,深入探讨监测结果区域应用的困境及其破局之道。一、国家义务教育质量监测结果区域应用面临的困难和问题国家义务教育质量监测结果的区域应用,始终存在“谁来用”“用什么”“怎么用”等痛点。这些痛点深刻揭示了当前教育质量监测中存在的困难和问题。一是不够重视。目前,各地义务教育质量监测更多地停留在教育督导这条线上,从组织实施到结果应用都很难走出这个范围,这在很大程度上是因为教育质量监测工作尚未得到足够重视,相关教育部门、学校和教师对监测结果并未完全接纳,在监测结果应用过程中往往被动参与,甚至存在一定的应对或抵触情绪。二是不够了解。义务教育质量监测结果目前仅报告至区(县)层面,且监测工具对外严格保密,很多管理人员、教研人员以及教师既不清楚监测的具体目标和内容,也不了解监测指标和要求,无法对结果报告数据进行深入挖掘,也就难以发挥教育质量监测对日常教育教学行为的引领作用。三是缺乏有效落实。对于由谁来统筹落实教育质量监测的结果应用,虽然不同地方都有自己的做法,但仍存在工作目的不明确、职能分工不清晰、工作推进无抓手以及跟进落实不到位等问题,监测结果的应用难以有效落实。四是协同乏力。义务教育质量监测属于综合性监测,涉及学生发展、课程教学、教师发展、教育管理以及资源建设多个领域,需要相关业务部门和行政部门共同参与。但在实际开展过程中,往往是督导或监测部门在唱“独角戏”,呈现“一方搭台,大家看戏”的局面。五是赋能作用被忽视。虽然监测本身不能提升教育质量,但监测结果能为改进教育教学提供依据,从而助力教育教学的质量提升。但当前各地监测结果的应用很难落实到学校和课堂,始终存在“最后一公里”的问题,难以赋能教育质量的不断提升和可持续发展。二、国家义务教育质量监测结果区域应用的逻辑推演与归因分析国家义务教育质量监测的实施主体是政府督导部门,通过抽取能代表各省(区、市)教育质量状况的样本进行质量监测,形成国家、省(区、市)和参测区(县)的监测报告,并通过各种保密措施保障数据的客观性。然而受质量监测目的指向的清晰度、参与主体的适切性、抽测样本的代表性、报告解读的可行性和保密要求等因素的影响,各地在应用监测结果时难以完全了解监测指标、要求等,难以调动各部门积极参与,难以对监测结果原始数据做进一步分析挖掘。1 目的因素分析国家义务教育质量监测代表国家意志,以“推动落实立德树人根本任务,促进义务教育质量提升”为目的,其结果主要应用于服务国家教育决策咨询、督促省级教育问题整改、支撑县域教育督导评估、引领地区教育质量提升等4个方面[1],但对如何将监测结果落实应用到地(市)、区(县)和学校教育教学实践的改进,《国家义务教育质量监测方案(2021年修订版)》中却未有提及,需做进一步探索。2 主体因素分析国家义务教育质量监测由各级政府教育督导部门统筹组织,具体业务工作由各级教育质量监测中心负责落实。在监测结果应用上,主张各地建立省级统筹、区(县)为主的监测结果应用制度,并提出由教育督导部门牵头,加强与有关部门协同联动,积极探索适合本地区的监测结果应用模式。这里比较容易混淆的问题是,把监测组织实施与结果应用工作两者的主体等同起来。如此一来,监测就较难走出教育督导的工作圈了。我们必须清楚,监测组织实施的主体是各级督导部门,监测结果应用的主体是教育部门和学校等。[2]因此,监测结果应用必须多主体,即由各级教育督导部门牵头,有关部门和学校积极联动并主动赋能。3 样本因素分析国家义务教育质量监测以省域为单位,抽取样本在省级层面具有较好的代表性,但因样本区(县)的抽取不考虑覆盖每一个地(市),故不能较好反映地(市)、区(县)全面教育情况;加之样本学校因抽取学生数量少也不能精准反映学校具体教育情况。如,广东每年仅抽样18个区(县),考虑到抽取的区(县)要反映全省平均教育水平,故不会将样本数平均分配给各区(县)。因此,地(市)、区(县)和学校在应用国家义务教育质量监测结果时会受掣肘。4 报告因素分析国家义务教育质量监测根据目的、内容和阅读对象的不同,主要研制形成国家监测报告、省级监测报告、区(县)诊断报告、政策咨询报告等,以供各级政府、教育部门以及学校使用或参考。事实上,这些报告在使用的针对性上都有所欠缺,故国家特别倡导在进行结果应用时加强数据分析和挖掘,并组织好各级分层分类结果的反馈。但从目前情况来看,质量监测的原始数据、具体工具、专业人员等都还很缺乏,给各级反馈、解读监测结果带来了困难。5 保密因素分析开展国家义务教育质量监测需要营造一个客观真实的监测环境,需要从关注数据走向关注数据背后的事实和原因。因此,它非常重视保密,既不向外界公开监测工具,也不向各级教育部门提供原始数据。但我们都知道,监测具有引导、诊断和改进等功能。如果不知道监测工具和监测原始数据,就很难发挥监测对教育教学的引导作用,很难做好对监测结果的分析挖掘,很难有效落实监测结果的区域应用。这就导致质量监测工作与教育教学实践难以有效建立连接,更难以相互印证。三、国际视域下教育质量监测结果应用的启示与破题国家义务教育质量监测对深化课程改革、落实“双减”和“五项管理”、推动区域义务教育优质均衡发展等发挥了一定作用,但将监测结果应用到省、市、区(县)和学校的路径还不成熟,区域义务教育质量监测体系还没有形成,监测结果区域应用机制还不够健全。自20世纪60年代国际教育成就评价协会发起第一次国际数学和科学测评后,教育质量监测逐渐进入人们视野,监测结果也在国际和参测国家或地区得到广泛应用。[3]国际上的经验和做法对我国国家义务教育质量监测结果区域应用体系的整体建构具有启发意义。1强化统筹,推进部门协同联动目前,各国各地区都重视教育质量监测结果应用的政府统筹,注重调动各个部门主动参与和协同联动,全面、系统、整体推进监测结果应用工作。如,我国香港地区2001年参加国际阅读素养进展测试(PIRLS),在参与的35个国家和地区中成绩排名第十四,这个结果引起了香港社会和教育界对学生阅读的广泛关注。香港特区政府提出了“阅读特别任务计划”行动,并将其列入教育四大关键项目之一,要求教育统筹委员会、教育统筹局、语文教育及研究常务委员会等部门协同联动,还出台了一系列阅读政策、文件和方案,开展了一系列教师培训和研讨活动,为提升学生阅读素养提供了有力保障。此后,香港地区在PIRLS 2006测试中排名第二,在PIRLS 2011测试中名列榜首。香港的做法就是由政府统筹,教育行政部门、业务部门和学术机构协同联动,“一盘棋”推动监测结果应用工作,这是值得我们内地参考借鉴的好思路。2走向学校,推动监测结果应用落地许多国家强调监测结果走进学校和课堂,让教育质量监测回归教育发生的地方,并真正为教育教学发展提供数据支撑。如,芬兰有一套全面的教育质量监测体系,涵盖学生的学业成绩、学习态度、学校环境等,如果监测发现某些地区或学校的学生在特定学科上表现较弱,国家会增加对这些地区或学校的投入和支持;美国全国性和州级的教育质量监测并存,收集的数据包括学业成就、毕业率、不同种族和不同社会经济地位学生的成绩差距等,监测结果为学校改进计划和个性化教育提供了支持;日本在就全国学力调查发布的监测结果报告中,详细呈现了从国家到学校等各个层面的学生测试结果,对所有测试题目的属性和学生作答情况进行分析并提出了具体建议,对各个层级做好教育教学改进发挥了重要的指导作用。3助力发展,发挥实证赋能作用目前,各国都重视教育质量监测结果应用的赋能作用,将监测结果作为教育治理、行政决策和业务指导的参考。如,在PISA 2000测试中,德国的阅读、数学、科学3个学科的分数均低于OECD平均水平,这对德国教育系统乃至整个德国社会产生了极大的冲击和影响。德国政府立即行动,采取了一系列教育教学改革措施,包括开展学制改革、扩建全日制学校、研制教育标准以及推动课程改革等,不断推动德国教育教学质量提升,终于在PISA 2012测试中实现了阅读、数学、科学3个学科全部明显高于OECD平均水平的目标。德国的经验告诉我们,监测结果为国家教育教学改革提供依据,可以帮助政府部门围绕实证结果重建国家教育教学新体系,不断打破影响教育教学发展的滞后因素,建立适应新时代发展需要的体制机制。四、国家义务教育质量监测结果区域应用体系的整体建构要突破当前国家义务教育质量监测结果区域应用的局限,需坚持“国家、省、市、区、校”五位一体的理念,遵循各级监测结果应用相互贯通衔接的原则,推动义务教育质量监测结果区域应用的整体构建。因此,本研究根据国家义务教育质量监测结果应用的思维逻辑[4],围绕如何破解监测结果应用中“谁来用”“用什么”“怎么用”等问题,探索建立国家义务教育质量监测结果区域应用体系的基本模型。(见图1)图1 国家义务教育质量监测结果区域应用体系建构的思路与模型1 谁来用:建立多元主体协同机制国家义务教育质量监测内容的覆盖领域,决定了监测结果应用的关联主体。监测内容涉及学生发展质量、各学科领域的课程或教育活动开设、学生学业负担、教学条件保障、教师配备、教育教学、学校管理以及区域教育管理情况等,监测结果应用必然与教育各个部门、学校以及师生紧密相关。(见图2)                                                                                图2 国家义务教育质量监测结果                                                                                区域应用体系的多元主体构成(1)督导统筹。监测是由教育督导部门统筹组织实施的,监测结果应用当然也需由其统筹落实。而且督导部门在政府各部门、教育各部门、区校等之间起着链接的“纽带”作用,说明其本身就具有良好的工作统筹优势和条件。因此,教育督导部门尤其要从整体上部署监测结果应用工作,研制监测结果应用工作方案,组织开展监测结果应用研讨,跟踪检查监测结果应用成效,宣传推广监测结果应用成果,使监测结果应用工作成体系、聚焦点并有抓手。(2)监测支撑。监测结果数据贯穿于监测结果应用过程,也是牵引教育教学改进的线索。作为实施监测的主要部门,各地教育质量监测中心不应只是结果数据的生产者,还应是落实数据应用的支撑者。因此,他们必须围绕结果解读、问题梳理、专项调研、数据应用和效果监测等积极开展工作,切实发挥数据分析、数据挖掘、数据管理和数据赋能的作用,为推进监测结果有效应用提供数据支撑。(3)全体参与。对于监测结果的有效应用,各教育部门、学校不能做旁观者,而应该积极主动去了解、参与并担起责任,注意将监测结果与教育教学工作结合起来,并使其成为一种专业上的自觉行为。在面对监测结果数据时,要树立正确的数据观,建立科学的数据思维,提升数据分析的素养,做好对数据内涵的深入挖掘。在教育教学工作上,要打破经验主义的惯性,充分尊重客观事实,通过数据循诊把脉,有针对性地实施和行动,全面提升教育教学的质量和效益。2 用什么:促进监测的延伸与下移国家义务教育质量监测的设计定位是面向全国,了解省级义务教育质量情况,为国家教育政策的制定和调整提供支撑。因此,国家义务教育质量监测结果数据为国家教育决策提供参考是足够的,但要为各级教育教学改进提供依据却远远不够,必须探索义务教育质量监测的下移,即在国家义务教育质量监测基础上,探索将监测延伸至区(县)、学校和师生[5],切实为各级落实监测结果应用提供数据参考和依据。(见图3)                                                                              图3 国家义务教育质量监测结果区域应用体系的监测延伸思路(1)监测延伸到区(县)。国家义务教育质量监测可以监测到样本区(县),但样本区(县)只是部分代表且不是固定监测对象,因此无法对区(县)教育质量进行全面、稳定的跟踪监测。目前,各地都在积极探索将监测延伸到区(县)。如,广西通过委托服务的方式,借助国家义务教育质量监测,对全部区(县)进行全面监测;广东建立了全省义务教育质量监测方案,借助第三方专业机构的力量,对全省所有区(县)进行跟踪监测;江苏苏州、浙江温州等地由监测部门牵头,实现对全市所有区(县)的常态化监测;等等。各地经验显示,由省级教育部门统筹,参考国家义务教育质量监测的做法,结合各省(区、市)的实际情况,开展全部县域义务教育质量监测,可以为落实监测结果的县域应用提供有力支撑。(2)监测延伸到学校。监测延伸到区(县)为区(县)掌握教育质量情况提供了依据,但区(县)监测报告依然不能反映学校情况,尤其是不能反映每一所学校的情况,因此很难将监测结果应用落实到学校层面。可建立监测结果区域应用专项调研制度,全面摸排学校情况并查找问题产生的原因,切实将监测结果应用落实到各个学校。具体做法是:对区域报告进行分析挖掘,梳理监测结果中发现的问题和不足,建立区域共性问题清单,通过访谈、文献研究等方式吃透问题,在此基础上围绕问题研制出学生、教师以及管理人员调查问卷,开展面向义务教育阶段全部学校、全部4年级和8年级师生的问卷调查,最后形成区域和学校调研结果诊断报告,并分层分类开展报告反馈和解读工作。(3)监测延伸到师生。学校要基于调研结果诊断报告把脉全校总体情况,并针对学校存在问题开展全面深入调研,从教与学层面查摆问题产生的根源,从而对症下药解决具体问题,最终提升教育教学质量。特别是,学校要借监测结果应用之机,将解决诊断报告中发现的问题作为学校阶段性攻坚工程,形成攻坚策略,集合校内外资源和力量推进攻坚工作,不断改进问题,提升质量,形成成果乃至打造特色。3 怎么用:构建问题引领、任务驱动的结果应用模式国家义务教育质量监测结果区域应用是一项系统工程,需要将监测结果应用工作要素化、流程化和模式化[6],提高监测结果应用的有序性、系统性和有效性。要尊重监测结果区域应用的基本规律,立足“问题导向、任务驱动”,以“三个融合”为路径,以“四个联动”为机制,以“五个步骤”为流程,以“六个落实”为策略,构建问题引领、任务驱动的“3456”应用模式,切实解决监测结果应用“怎么用”的问题。(见图4)图4 国家义务教育质量监测结果                                                                               区域应用体系的“3456”应用模式(1)思路:坚持问题导向,谋划监测整改。监测结果的有效应用,源于对监测报告数据的深度挖掘,落实在对所发现问题的深入解读与探索上,最后转化为教育教学改进的行动。因此,收到监测报告后,有关部门或单位要对报告进行全面分析,透过监测报告数据揭示区域义务教育质量状况。按照“对比找优势、对焦找差距、对标找空间”3个维度,从“学生、教师、学校、家长”4个层面,全面梳理区域义务教育质量的成绩和不足。国家义务教育质量监测结果区域应用要坚持以“问题导向”为思路,将问题清单作为整改的线索,全面谋划监测结果应用实施方案,并责任到人。(2)路径:坚持有机融合,部署监测整改。要坚持“教学测评”一体化监测整改思想,建立监测结果应用与教育教学常规相互融合的工作思路[7],切实提高监测结果应用的针对性和有效性。可以建立“三个融合”监测结果应用工作路径。其基本内容包括:一是与区域教育融合,区域负责监测整改的全面统筹,将监测整改方案融入年度区域教育工作,实现区域监测整改常态化推进;二是与学校教育融合,学校是落实监测整改的主阵地,将监测整改方案融入年度学校教育工作,可以提高学校教育教学工作的针对性和有效性;三是与学科教育融合,学科教育是监测整改的落脚点,将监测整改方案融入年度学科教学工作,可充分发挥监测的诊断、改进和质量提升功能。(3)机制:坚持有效联动,统筹监测整改。监测结果应用涉及多个层面,需要实现部门之间的有效联动,为落实监测结果应用工作注入活力。可建立“四个联动”监测结果应用工作机制。其基本内容包括:一是建立内外联动机制,推动与区域外监测部门、学术研究组织、专业监测机构的研讨交流;二是建立部门联动机制,推动教育行政、教育督导、质量监测和教研训等科室的有效协同;三是建立上下联动机制,推动区域部署、学校管理和学科教研的有效协同;四是建立校内联动机制,推动学校管理、德育、教学及培训等工作的有效协同。比如,深圳市罗湖区就建立了“党建+四位一体”部门联动工作机制,形成了联席会议、协同工作、联合工作等工作方式,增强了部门协同联动的工作意识,发挥了各部门在监测结果应用上的主动性。(4)流程:坚持任务驱动,推进监测整改。可按照“督导统筹,监测支撑,部门协同,学校落地”的工作职能,落实基于“任务驱动”的项目制工作方式,建立“五个步骤”监测结果应用工作流程。第一步是解读报告,查摆问题。通过分析数据、查摆问题以及梳理问题清单,分层分类召开区(县)、学校及学科层面的报告解读会。第二步是深入调研,归因分析。要求开展学校样本调研活动,准确把握问题形成原因,形成区校两级调研结果诊断报告。第三步是制定方案,落实整改。在深入调研的基础上,研究制定区域、学科和学校问题整改方案,跟进了解学校整改落实情况。第四步是交流研讨,跟踪督导。围绕整改问题,积极开展课题研究、专题研讨和经验交流等活动,把监测结果应用纳入经常性督导内容。第五步是总结提炼,推动发展。重视整改经验积累,总结提炼整改成果,跟踪检查问题整改成效,引导学校逐步形成办学特色。        (5)策略:坚持实证支撑,落实监测整改。要创新“实证+”监测结果应用工作方法[8],不断推动教育教学从基于经验转向基于实证,切实让教育质量监测结果应用回归教育教学实践。可建立“六个落实”监测结果应用工作策略。一是“实证+施策:发挥督导部门统筹协调作用”,督导部门做好监测整改工作的全面规划、部署、组织、协调和落实,为推动整改工作提供政策、制度和财力支持;二是“实证+监控:发挥监测部门数据支撑作用”,监测部门负责开展监测结果应用专项调研,为推进落实监测结果应用提供数据支撑,对教育教学整改效果进行跟踪和检查;三是“实证+治理:发挥行政部门协同共建作用”,教育、督导、体艺卫、财务、人事等行政部门积极推动,建立与监测、研训、学校等业务部门的联动机制,使监测结果应用工作成为一个系统工程;四是“实证+研训:发挥研训部门专业引领作用”,研训部门做好监测整改项目的设计、研究、实践和总结,将监测整改与学科研训有机融合在一起,从专业上指导教育教学改进,推动教育教学质量提升;五是“实证+办学:发挥全区学校积极效能作用”,全区学校要积极配合监测整改项目工作,聚焦在监测中发现的具体问题,推动落实教育教学问题的整改;六是“实证+育人:发挥全体师生主动担当作用”,引导广大师生积极参与整改工作,并将整改转化为师生的行为自觉,推动师生不断发展、进步和自我超越。五、国家义务教育质量监测结果应用的价值取向与实践反思1 教育质量监测重在落实结果应用近年来,随着教育质量监测越来越受重视,各种质量监测活动也纷纷开展起来。殊不知,只想通过大量监测来评估教育教学质量,而不重视落实监测结果的应用,这是非常不科学也不切实际的短视行为。当前各地在结果应用上的办法还不多,结果应用工作还不能有序组织起来,结果数据和报告被尘封的现象依然存在。不重视结果应用的监测,就会让监测效益大打折扣。在质量监测的制度设计上,建议把监测组织实施和结果应用放在一起全盘考虑,做到在监测组织实施和结果应用上共同发力。2 监测结果应用可转化为生产力质量监测本身不能直接提质增效,而且大量的监测可能会影响教育教学秩序,增加教育教学工作压力,弄不好会给教育教学带来负面影响,甚至破坏整个教育生态。但科学的监测结果可以为教育教学改进提供依据,从而提高教育教学的针对性和有效性。也就是说,监测结果的有效应用可以转化为教育发展的生产力。因此,在质量监测结果应用上,要重视做好“国家、省、市、区(县)、校”各级统筹衔接,建立上下融通的义务教育质量监测结果应用体系,切实将结果应用落实到学校、课堂等教学一线,同时避免重复、多头监测评价情况的发生,不断提高结果应用的效率、质量和影响。3 监测结果应用指向高质量发展在监测结果应用中,一定要看到教育质量的发展和进步。或者说,追求教育质量的发展和进步,是推进落实监测结果应用的努力方向。如果只考虑质量监测工作本身,而不去关心教育质量发展,就难以真正做好质量监测。仅有“监测人”在探讨结果应用,仅有“监测人”在呼吁用好结果数据,无疑不应该成为教育质量监测的现实走向。在推进监测结果应用过程中,需要全体教育人共同树立质量发展意识,推动“监测人”与“被监测人”双向奔赴,通过共商、共研和共建的结果应用机制,打造教育与测评一体化的生态体系,切实发挥质量监测的助力和赋能作用。教育质量监测要遵循从教育中来又回到教育中去的原则,倾向于在教育内部构建教育质量监测结果区域应用体系,这样做无疑有利于发挥教育部门在监测结果应用上的主动性。同时,监测结果应用需要政府部门多方支持,由各级教育行政部门对接政府其他部门推动落实,或者由教育督导部门联系各地政府教育督导委员会予以解决。参考文献: