首页    >    教育资讯
黄锡汝 等:初中科学实践课堂评价的困境、方向与路径

2025-05-21

引用格式:黄锡汝, 周文叶, 顾亭亭. 初中科学实践课堂评价的困境、方向与路径[J]. 中国考试, 2025(5): 44-52.作 者黄锡汝,女,华东师范大学课程与教学研究所在读博士生。周文叶,女,华东师范大学课程与教学研究所教授。顾亭亭,女,华东师范大学课程与教学研究所在读硕士生。摘 要:科学教育在提升国家科技竞争力、培养创新人才的过程中发挥着基础性作用。随着我国教育评价改革的推进与科学课程学习方式的变革,科学实践愈发受到重视,课堂评价和学业成就评价方式也需随之革新,其核心在于通过实践性评价捕捉学生做中学、用中学、创中学的实际表现。然而,当前科学实践课堂评价中存在认知理解偏差、方法工具匮乏等问题。为解决这些问题,评价目标需从传统的知识掌握向问题解决能力培养转变,评价内容需从低阶单一向高阶融合转变,评价方式需从纸笔测验向表现性评价转变。实践课堂评价改革应从制订多类型评价目标、设计表现性评价任务、开发高质量评分规则等举措入手,确保评价的科学性和有效性,提升科学实践的育人成效。 关键词:科学实践;课堂评价;科学素养;科学教育;教育评价改革科学教育在提升国家科技竞争力、培养创新人才的过程中发挥着基础性作用。《教育强国建设规划纲要(2024—2035年)》提出要加强科学教育,注重学生的科学素养培养。在这一宏观背景下,科学实践显得尤为重要,它是落实素养导向的科学课程与教学的有效途径,在学生科学素养的发展中发挥着关键作用。《义务教育科学课程标准(2022年版)》(以下简称新课标)明确指出,义务教育科学课程是一门体现科学本质的综合性基础课程,具有实践性[1]。新课标将“探究实践”确定为科学课程的核心素养内涵之一,倡导以探究和实践为主的多样化学习方式,让学生主动参与、动手动脑、积极体验,经历科学探究以及技术与工程实践的过程[1]。实践取向的科学教育需要新的课堂评价和学业成就评价模式,以评估学生在日常实践活动中的表现,以及是否具备解决现实问题的实践能力[2]。然而,初中阶段的科学实践如火如荼,其课堂评价却未能同步跟进。沿袭传统模式的课堂评价,既不能有效衡量学生在科学实践中的综合能力,从实践取向上反映学生真实素养水平,也不能提供有效的评价反馈以帮助学生改进其在科学实践中的表现,发挥促进学习的作用。在此背景下,本文尝试剖析当前科学实践课堂评价所面临的问题与挑战,分析课堂评价难以有效促进学生科学实践能力发展的原因,并在此基础上,从理论角度阐明其改进方向,提出具体的改革路径建议,以期为优化初中科学实践课堂评价、提高学生科学素养提供参考。一、科学实践课堂评价的现实困境 科学实践让学生通过具身参与主动进行知识建构,体验知识由何而来、去往何处,在学习和运用科学知识的过程中体悟科学的价值与实践的意义,形成科学观念、掌握思维方法、发展探究能力、树立责任态度。它强调学习不是根据预先设定按部就班进行,而是一种不断生成和修正的状态,是一个动态、弹性、可持续的过程[3]。 然而,由于部分教师对科学实践的认知较为形式化和浅表化,重知识轻能力、重理论轻实践的知识教育观仍普遍存在。譬如,有研究发现,调查样本中90.9%的八年级物理教师认为知识的理解与应用在科学素养中至关重要;认为数据的收集与分析等实践要素应占据重要地位的教师仅占15%[4]。这种认知失衡导致课堂教学呈现出知识本位特征。在实际课堂教学中,科学基本事实和基础知识的教授依然占据主要地位,科学实践往往流于形式[5],得不到充分展开,“教”而非“做”的现象较为普遍[6]。因此,针对科学实践的评价往往侧重于将对科学基本事实和基础知识的掌握程度作为衡量学生科学实践能力的标尺,忽略了对学生实践表现的综合性评价[7]。有研究指出,在科学实验类活动中,课堂评价多以一问一答、一问多答等形式进行,教师发起的师生对话占92.4%,大多数问题由教师主导提出,其中封闭性问题占92.8%[6]。这种评价导向不仅无法全面反映学生真实的科学素养水平,更可能抑制学生实践能力的发展,造成“重教轻学”现象。 此外,目前大多数教师使用终结性测评工具对科学实践进行评价,存在对学生的学习结果做出对/错、优良等简单评价、忽视学生在过程中的表现、缺少形成性评价等问题[8]。教师往往依赖于通过纸笔测验进行评价,不仅评价方式单一,也背离了科学实践本质,难以评估学生的实际能力表现[9]。纸笔测验所遵循的标准化测量范式与科学实践所需的情境化评价要求存在根本性错位,无法全面评估学生的实验设计、数据解读等综合实践能力。对此,有学者尝试引介国外科学实践相关评价工具,如美国针对科学实践设计的课堂评估任务模板(Integrating Science Practice into Assessment Tasks)等[2]。但由于国情和教育理念差异、教学情境适配性等问题,这些工具并未能在我国实现本土化转化应用。评价方式和工具的缺乏,使得教师在对科学实践这一学习方式进行评价时无从下手,大多数教师依然沿用传统评价方式。即使一部分教师尝试针对科学实践进行评价设计,但由于缺乏高质量的评价案例参照,质量也往往良莠不齐。有研究者在实际调研中发现,科学实践评价量规形同虚设的现象较为普遍[10]。 总之,当前科学实践课堂评价主要面临两大现实困境:一是教师对科学实践的认知存在偏差,导致评价无从下手;二是科学实践缺少与之相匹配的有效评价方法和工具,导致实践效果不明显。教师对科学实践的本质内涵认识不足,也导致其对科学实践的评价定位不准,不清楚科学实践课堂评价是什么、评什么、为什么评,成为制约课堂评价有效实施的首要难题。而教师对科学实践的评价缺乏有效的方法和工具,不清楚科学实践具体怎么评、用什么评,使得教师难以全面判断学生在科学实践中的表现与进步。这些困境不仅限制了科学实践的实施效果,也阻碍了学生科学素养的全面提升,因此亟须寻求行之有效的方案,推动科学实践课堂评价的改进与优化。二、科学实践课堂评价的改进方向 为解决上述困境和问题,初中科学实践课堂评价亟须对标课程育人要求,充分发挥课堂评价促进科学素养落地的导向作用。新课标提出,利用具有探究性和操作性的任务或问题有效测评学生的能力,突出评价方式的实践性[1]。具体而言,可以从评价目标、评价内容、评价方式三个方面做出调整与改进。 (一)评价目标:从知识掌握到真实问题解决传统科学课堂教学主要依赖于教师讲授和单向提问,将学生的学习任务简化为程序性的探究方案、观察和结果,其核心目的在于阐释并验证既定的科学知识。这种目标取向往往导致学生缺乏参与实践的机会,难以触及更高层次的思考与决策过程,甚至容易将科学实验视为一种决定科学见解的机械化过程[11],如此,学生在学校所学的知识技能与社会实际需求之间的差距会越来越大[2]。为弥合这一差距,科学实践的评价目标需要实现从知识掌握到真实问题解决的根本转变,促使学生像科学家一样思考和实践。科学实践是一个依托真实情境、与现实生活和社会实践紧密关联的过程,强调技能迁移、融会贯通,致力于解决现实生活中的实际问题。科学实践将学生的角色从被动的知识接受者转变为主动的意义建构者,学生需要根据在实践中遇到的新现象、新问题,协商出新的实践方案[2],培养面对不确定性、复杂性情境时解决真实问题的高阶思维能力[12]。因此,科学实践课堂评价的目标应指向学生在真实情境中的问题解决能力,强调学生在融合科学核心素养的实践活动中的真实表现。教师需要通过情境化的驱动性问题唤醒学生的实践兴趣,并借助科学论证、科学建模等多种实践方法,加强科学知识与学生个人经验、现实生活、社会实践之间的联系,架起科学学习与现实世界之间的桥梁,引发学生灵活运用所学解决真实问题的实践行动,并由此评估学生的科学理解与实践能力,而不是一味把学生封闭或局限在知识世界里进行“机械备考”和“虚假实践”。 (二)评价内容:从低阶单一到高阶融合在传统科学实践课堂评价中,评价内容往往是低阶单一的,大多关注某一特定的科学要素,并且多集中在科学学科内部,鲜少关注学生的跨学科综合实践。然而,科学实践是一个多要素相互作用的整体过程,涉及科学概念、科学思想、科学探究、科学态度等多个方面。同时,许多科学问题不是单一学科知识所能解决的,而是需要综合运用多个学科技能交互协作[13]。 为了促进学生科学素养的整体发展,帮助他们适应未来复杂多变的科学和社会环境,科学实践的评价内容亟须实现从低阶单一向高阶融合的转型升级。一方面,科学教育评价不应孤立地评估学生对核心概念或思想的理解,而脱离其在科学实践中的应用能力。相反,应当将这两者综合起来,考查学生是否在掌握科学概念的同时还能够将其灵活应用,通过科学实践活动来观察、调查自然世界,解决有意义的真实问题[14]。另一方面,当前的科学评价过分局限于单一学科领域,有必要引入跨学科内容和方法加以完善,以此激发学生的创造性和综合性思维[15],使学生能够扎实掌握科学核心概念,并有能力通过跨学科方式综合运用这些概念,以应对新情况、新现象和新情境等。 因此,科学实践课堂评价应更加关注科学观念、思维方式、探究方法以及科学态度等高阶要素的培养与评估,同时鼓励学生将不同学科的知识和方法整合起来,以解决复杂的科学问题。这意味着评价不应仅停留在学生对基础科学知识的记忆和理解层面,而应深入考查他们如何运用这些知识理解科学现象、解决科学问题。教师需要从整体出发,设计开放的综合性评价内容,将科学实践核心概念与其他学科进行整合,引导学生在多个学科的交互性实践中更好地理解科学知识如何获得、科学问题如何解决以及科学如何把具有跨学科普遍意义的概念联系起来。 (三)评价方式:从纸笔测验到表现性评价在当前的科学教育中,纸笔测验仍是评价的主要手段,考查学生对实验步骤、操作流程和注意事项的记忆与理解。然而,纸笔测验主要反映学生的认知能力,并不能全面反映他们的科学实践能力和科学素养,无法有效检测其动手能力、创新思维以及科学态度等。相较于纸笔测验,表现性评价可以更全面地评估科学实践能力。它要求学生在现实的科学探究活动中实际运用这些技能,通过操作真实的设备和材料来解决问题[16]。在科学教育中,表现性评价通常指操作型表现性评价(hands-on performance assessment)[17]。学生通过观察、探索和推理,利用真实材料进行小型调查、实验等方法解决问题。这种评价方式能够充分收集有关学生表现的信息,从而对学生的科学学习过程及所掌握的技能进行有效评估,包括掌握科学方法、进行科学推理,以及为实现特定结果而采取某一程序或策略[18]。更重要的是,表现性评价为学生提供了实践机会,使他们通过拟定解决方案而不是回忆事实来展示和应用科学知识与技能,进而提升问题解决能力、推理能力,并对复杂科学现象建构起认知模型[16]。 因此,科学实践课堂评价应超越传统的纸笔测验,积极探索并实施表现性评价这一更为生动有效的评价方式。教师需要设计具有挑战性的科学实践任务,提供真实的设备和材料资源,引导学生亲手操作,亲身体验科学探究的过程,让学生能够在实践中深化对科学原理的理解。同时,教师需要观察、记录和分析学生在完成任务过程中的表现,以全面、准确地评估学生的科学实践能力及素养水平,并提供有针对性的指导和反馈,促进学生的持续发展。三、科学实践课堂评价实施路径 从评价目标的转变到评价内容的优化,再到评价方式的革新,旨在加强课堂评价的探究性和操作性。换言之,上述改进方向可以经由评价目标制订、评价任务设计以及评分规则开发三种举措得以落实。下面以义务教育科学课程核心概念“人类活动与环境”中的学习内容“自然灾害”为例,具体阐释如何以多类型评价目标指引科学实践方向,以表现性评价任务作为载体促进实践落地,同时以高质量评分规则来保障实践成效,从而实现高质量的初中科学实践课堂评价设计。 (一)以多类型评价目标指引实践方向作为一个融合系列科学要素且广泛涉及多学科领域的综合性过程,科学实践课堂评价的目标必须体现全面性,涵盖知识性、推理性、技能性、成果性、情感性等多种类型,以确保从多方面、全方位地捕获学生在科学实践中的表现信息。同时,评价目标旨在引导学生在评价过程中从多方面投入努力,通过完成实践任务,不仅在知识、技能和思维能力上获得提升,也促进情感态度价值观的积极发展,实现综合素养的提升。因此,教师在制订评价目标时,需立足整体视角,兼顾各类目标,避免片面强调知识、技能或单一追求成果创造和情感体验,确保评价目标的多元化与综合性,以全面促进学生问题解决能力的提升。 美国学者Chappuis在《促进学习的课堂评价:做得对用得好》一书中明确指出,优质课堂评价的关键要素之一便是清晰的目标[19],具体包括五个方面内容。其一,教师应重视知识性目标,即学生对科学事实性信息、程序性知识以及相关概念的理解[19]。虽然教师不应只将注意力放在科学知识上,但也不可对之盲目忽视或舍弃。知识性目标构成了其他类型学习目标的基础,不存在无知识的推理、无知识的熟练表现和无知识的产品开发[19]。没有科学知识作为基础,科学实践不免陷入“巧妇难为无米之炊”的窘境。其二,教师应关注推理性目标,即学生在科学实践中有效运用所学知识进行思考的过程,包括推断、分析、比较、分类、评价以及综合[19],帮助学生通过科学实践发展高阶思维、实现深度学习。其三,教师需要重视技能性目标,即学生在科学实践中的实时行为和表现[19],培养学生的真本领、硬功夫,而不仅仅是掌握“知道如何做”的程序性知识。其四,教师要引导学生展现成果性目标,即形成成果,如用手工制品来呈现学习结果等,将自身对科学的理解和思考外显出来,使科学核心素养“可视化”[19]。成果性目标不仅是衡量知识和推理能力的参照,同时形成成果本身就是一种学习形式。其五,教师不应忽视情感性目标,即影响学生学习方法的态度、动机和兴趣等教育体验的“副产品”,包括积极和消极情感两个方面,以及其中多种情感强度水平[19]。 本研究参考了斯坦福大学表现性评价任务库中的极端天气规划应对(Planning for Extreme Weather)评价任务设计[20],依据新课标中的课程内容要求对其进行适应性改编,以契合我国科学实践的内涵特征与情境需求。以“自然灾害”的学习为例,课堂评价可以设计为要求学生结合信息技术调查特定地区的自然灾害,分析和解读相关数据,并预测未来的灾难性事件,以减轻其影响。具体评价目标如下:1)分析并解释自然灾害的概念和分类(知识性目标);2)计划并开展一项关于特定地区自然灾害的调查,建构有关自然灾害的数据模型(图形/图表/地图等),制作探究海报(技能性目标、成果性目标);3)分析并阐释自然灾害数据及其模型,感受自然灾害如何影响人们的生产生活(推理性目标、情感性目标);4)基于对自然灾害数据模型的分析,预测未来的灾害趋势(推理性目标)。 以上评价目标不仅包含基本的科学知识(如自然灾害的概念和分类),还涉及科学思维的培养(如分析并阐释自然灾害数据及其模型),能够锻炼学生的科学探究技能(如开展调查、数据收集、处理和分析),同时鼓励学生进行成果创造(如制作海报)。在这一过程中,学生需要综合运用科学、地理、数学、信息技术等学科领域的知识和技能,体现出评价目标的跨学科性和综合性。同时,评价目标中的情感性目标(如感受自然灾害如何影响人们的生产生活)不仅可以培养学生的同理心和责任感,还有助于促进其科学态度的形成。这种对自然灾害影响的深刻理解和情感体验,有助于学生更加积极地参与到问题解决的过程中。此外,对自然灾害数据模型进行分析并预测未来的灾害趋势,不仅可以考查学生的推理思维,评价任务还直接指向其真实问题解决能力的发展。 (二)以表现性评价任务推动实践落地科学实践课堂评价强调学生在真实性情境中,通过融合多方面科学要素以及进行跨学科实践解决现实问题的能力,其根本目的在于对学生在真实情境中完成复杂任务或解决复杂问题的过程表现及结果做出判断,并促进学生的深度学习以及高阶思维发展,最终实现科学素养的提升。科学实践课堂评价应将表现性评价作为主要路径,让学生在真实问题情境中,展示运用所学知识和技能的水平,旨在引发核心素养的相关表现[21]。表现性评价是促进科学实践在课堂中落地的重要抓手和关键推动力,学生完成表现性评价任务的过程即解决真实问题的实践过程。 在设计与表现期望相关的评价任务时,教师需要考虑四个方面的问题:1)期望学生运用的概念模型及证据;2)适合学生认知水平的评价情境;3)任务特征选项(如基于计算机的模拟或动画、纸笔书写和绘画等)以及这些选项中的哪些对于激发学生的期望表现至关重要;4)揭示学生理解和技能水平的证据类型[22]。具体而言,科学实践表现性评价任务的设计首先需要提供真实或模拟真实的科学实践情境,指定学生在任务中需要完成的实践目的或挑战(如调查、实验等),同时需要明确学生在任务中的角色(如科学家、工程师等),以及学生用以展示其对素养目标掌握程度的作品或表现形式(如调查报告、海报等),以作为评估学生素养水平的证据。此外,还需要确定任务结果的受众,即学生的作品或表现给谁看、为谁完成[21]。 基于前文所设定的评价目标,表现性评价任务可设计如下:想象你是一位科学家,请以小组为单位,计划并开展一项调查,探究我国某个地区的自然灾害发生情况及规律,以海报的形式呈现探究过程及结果,并预测该地区未来的自然灾害发生趋势,为科学家、工程师、救援队等群体的防灾减灾、应急救灾工作提供参考,以尽可能减轻自然灾害的影响。教师可以创设“我国是自然灾害频发的国家,如山区的泥石流、东南沿海地区的台风、北方地区的干旱、南方地区的洪涝等,都给人们的生产生活造成了严重危害。作为小科学家,我们如何探究不同地区自然灾害的发生规律,为防灾减灾、应急救灾等提供解决方案,以尽可能减轻自然灾害的影响呢?”这一真实情境,引导学生以“小科学家”的角色,计划并开展一项关于我国某地区自然灾害发生情况的探究活动,并制作一张海报,内容包括调查地点、研究问题、待收集的数据、数据收集表、数据结果显示(图形/图表/地图等)、对研究问题的回答等信息。具体而言,学生需要完成如下任务:1)明确自然灾害的概念和分类,选择一种自然灾害进行解释和分析;2)提出一个关于某地区自然灾害的可调查的研究问题,计划并开展数据收集;3)根据收集结果构建数据模型,以图形/图表/地图等形式进行呈现;4)分组对数据进行分析和解释,并征求另一个小组的反馈,以改进本组的数据呈现和解读;5)以小组为单位,使用自己的数据来概述自然灾害问题,预测未来十年该地的灾害趋势,以指导科学家和工程师等考虑自然灾害的未来影响和解决方案。 (三)以高质量评分规则保障实践成效不同于传统评价只以结论的获取作为终点的做法[23],科学实践课堂评价强调对学生的科学实践表现进行多维度、全方位的动态评价,关注学科以及跨学科素养的发展。评分规则作为教师课堂教学评价的指导,可以在多方面促进学生的学习。高质量的评分规则是确保科学实践评价有效实施的重要因素,它不仅可以明确教师的评价标准和评分细则,而且可以让学生清楚地了解到在科学实践任务中高水平的表现具体是什么样、如何可以达成[24]。科学实践的评分规则应当具备完整、清晰和一致的评价维度、等级水平、描述语设置和表现样例,重视学生在科学实践中的形成性表现,不仅需要评估各方面科学要素,也要关注跨学科层面的发展。 科学实践课堂评价覆盖学生科学学习的不同方面,因此完整的评分规则应同时指向科学实践、核心概念以及跨学科概念,囊括与评价任务相关的重要方面。以前文表现性任务为例,首先,要基于课程标准明确三个评价维度,包括科学实践、核心概念和跨学科概念。以科学实践为首要层面,结合核心概念和跨学科概念,综合考量后可提炼出一个涵盖评价目标的高质量表现[25],见表1。其次,要关注学生在实践中的外在表现,应当对每个评价维度下的具体行为进行清晰界定,以确保这些表现是可直接观察到的,而非依赖于评分者的主观推论[26]。评价维度还应当与课程标准和评价任务保持内在一致性,并在评价任务的提示中明确告知学生具体的评价要求,为学生理解评价维度提供支持。再次,等级水平和描述语也是评分规则的关键要素。理想状态下,评分规则若包含多个等级水平便能够更充分地覆盖学生的表现并提供详尽信息。然而,过多的等级划分也可能制约学生在科学实践中的形成性表现和创造性发挥。因此,在设置等级水平数量时,需要在清晰传达目标期望的同时,确保其处于可管理的限度内,以实现评价维度与等级水平之间的平衡[27]。各等级水平的描述语应当足够清晰而简练,准确界定在科学实践中所期望的学生表现,以便师生双方能够依据评分规则,有针对性地改进教与学的过程[28]。最后,高质量的评分规则还应包括表现样例,即符合评分规则中某一等级描述的实例,在等级描述下给出相应的学生表现案例,为教师和学生理解和运用评分规则提供支持,见表2。四、结束语 科学实践作为新课程背景下育人方式的重要变革,担负着为国家培养具有科学素养和创新能力的高质量人才的重要使命,急需与之相匹配的课堂评价,以捕捉学生在实践过程中的行动表现,着力促进学生科学素养的提升。本文在深入剖析当前科学实践课堂评价所面临困境的基础上,针对评价目标、评价内容以及评价方式三个方面,提出了明确的改进方向,并结合案例提供了初中科学实践课堂评价设计策略。未来研究还需更多关注如何构建和应用科学实践的多层次、多角度素养评价体系,以更好地推进与深化素养导向的教育评价改革。 参考文献略

王薇:中小学德育评价PDCA循环模型的建立与应用

2025-05-21

引用格式:王薇. 中小学德育评价PDCA循环模型的建立与应用[J]. 中国考试, 2025(5): 35-43.作 者王薇,北京教育科学研究院研究员。摘 要:当前,中小学德育评价存在理论支撑不足、系统性缺失、衔接性不够、工具化倾向明显等现实问题。借鉴国际PDCA理论,本研究构建了一个由计划(Plan)、执行(Do)、分析(Check)、应用(Act)四个环节构成的德育评价循环模型。评价目标指向马克思主义全面发展学说,评价内容兼顾德育实践活动过程与结果,评价方式融合质性描述与量化分析,评价应用指向持续改进的完整体系。为实现中小学德育工作持续性改进和评价体系的系统化构建,德育评价应建立一体化评价标准,强化家校社协同育人评价机制,以数智化德育评价推动评价模式转型。 关键词:德育评价;中小学;PDCA循环理论;评价模型立德树人是新时代学校教育的根本任务。为全面贯彻党的教育方针,培养德智体美劳全面发展的社会主义建设者和接班人,中小学必须把德育工作摆在素质教育的首要位置,将立德树人作为学校工作的核心目标。2017年,教育部颁布《中小学德育工作指南》,要求切实将党和国家关于中小学德育工作的要求落细落实,着力构建方向正确、内容完善、学段衔接、载体丰富、常态运行的德育工作体系[1]。如何提高学校德育工作的专业化、规范化和实效化水平,使德育工作目标更明确、体系更完善、反馈更及时、效果更明显,是中小学需要研究并加以解决的现实问题。本文从德育评价理论与现实问题出发,探索构建中小学校德育评价PDCA循环模型,以期为立德树人根本任务的落实和学校德育工作的持续改进提供参考。一、中小学德育评价的理论与现实问题 近年来,随着《中小学德育工作指南》等文件的出台及各地实践探索,中小学德育评价在制度化、规范化建设上取得了积极进展。然而,德育评价的理论根基与实践体系仍面临深层挑战,在评价理念、内容架构、实施逻辑与功能发挥等方面存在诸多现实问题,亟须从系统性视角深入剖析与破解。 (一)德育评价的理论支撑不足德育评价首先要解决“依据什么评”的问题,即用什么评价理论来指导德育评价。一方面,仅用教育评价的一些基本理论来指导德育评价往往存在适切性不足的问题。因德育评价有其特殊性和复杂性,它允许对一部分对象作出非客观化的分析判断、对思想品德中的某些特征只给出定性描述,不像学业评价那样可以进行相对客观的实证分析和得到量化结果。现实中,一些学校在学生品德评价中移植学业评价的百分考核制,将文明礼貌、集体意识等抽象的品德指标机械量化,如“帮助同学”对应10分、“主动值日”对应5分等,忽视了道德行为背后的动机差异与情感体验,暴露出对理论生硬套搬的问题缺陷。另一方面,德育评价并非伦理学中的行为评价,它不是针对单个行为进行个体分析,而是在综合大量行为群的基础上进行总体评价[2]。目前,德育评价理论中的一些基本问题,如德育评价目标制订的依据和方法、德育评价的可能性与困难性、主体与客体、范围和功能、质量和效度、德育评价方法的多元性和科学化、德育评价结果的分析和运用等,都有待德育和评价研究者展开深入研究。 (二)德育评价内容的系统性缺失目前,关于我国中小学德育评价内容的研究大多围绕思想品德测评展开,就学生品德评价的内容方法提出了诸多建设性意见[3],重点关注学生品德的评价范围。从系统性角度而言,德育评价不应只关注品德评价,还应将视野扩大到包括德育课程、活动和制度在内的学校德育工作评价;不应只解决如何测和如何评的技术问题,还应解决如何鉴定德育评价质量、解释评价结果、避免评价负效应影响等价值问题[4]。例如,一些学校的德育评价仅强调对学生是否遵守行为规范的结果进行打分,忽视了对校园文化节、志愿服务等德育活动的过程性评估。同时,德育评价不应只解决评价方案制订和评价内容设计的理论问题,还应解决方案实施、应用等实践性问题;不应只偏重于某种评价模式的推介应用或个别试点学校的具体操作程序,以及特定实验场景下的局部实施方法,还应建立起真正适应我国中小学德育工作实际和学生品德发展规律的评价机制,更有效地推进立德树人根本任务的落实。 (三)德育评价体系的分层分类与学段衔接不畅与西方国家德育仅指道德教育(moral education)不同,我国的德育目标旨在通过课程育人、文化育人、活动育人、实践育人、管理育人、协同育人等途径,培养学生的政治素质、道德品质、法治意识和行为习惯,形成积极健康的人格和良好心理品质。在此观念下形成了“大德育”的教育内容,涉及理想信念教育、社会主义核心价值观教育、中华优秀传统文化教育、生态文明教育、心理健康教育等。因此,德育评价活动须建立起适合“大德育”观念的评价体系。当前,德育评价目标缺少系统设计和过渡衔接,评价内容缺少针对性的分类分层,普遍忽视真实情境下道德行为发生的情境性和复杂性,以及品德形成的阶段性和德育工作的长效性,评价体系缺少相应的结构效度[5]。以社会责任感评价指标为例,评价观测点应体现学生在小学、初中、高中不同学段的认知差异:小学侧重遵守纪律,初中侧重社会实践,高中侧重公民意识等,不能搞“一刀切”。此外,中小学德育评价实践大多仍采取一次性或阶段性评价,缺乏持续性和连贯性;德育评价结果在学校后续教育教学管理中的应用明显不足,未能充分发挥评价的导向和改进作用。 (四)德育评价的表层化倾向明显当前,中小学德育评价存在评价内容同质化、评价方法过于注重量化、评价主体单一、评价结果使用功利化等问题,在一定程度上脱离了学生的真实生活[6]。德育评价是对德育活动实施效果的价值判断,而衡量德育实施最终效果的则是学校德育工作的改进和学生道德行为水准的提升[7]。在实践中,不少学校将德育评价方法的科学化简单地等同于量化方法,在对学生的品德做出评价时,习惯于构建德育评价指标,人为设定评价权重和评价标准,对学生德育水平进行量化评分或划定等级,片面追求评价的标准化和定量化,未对德育工作开展的针对性和实效性予以充分重视。这是以量化评分代替德育评价产生的弊端。例如,一些学校实施的“品德分数大比拼”“品德成长排行榜”等都是不可取的做法,因为这会导致学生为争分而刻意表现,忽视了道德情感的内化过程,暴露了评价中重结果轻过程、重分数轻体验的功利化倾向,背离了德育育人的本质。二、中小学德育评价PDCA循环模型的基本思路与框架 针对当前中小学德育评价中存在的问题,亟须引入科学的理论模型以破解实践困境。PDCA循环理论所蕴含的持续性改进理念、系统性架构及螺旋上升机制,与德育评价追求的目标导向、过程管理和质量提升高度契合,为构建兼具科学性与实践性的德育评价体系提供了新的方法论视角。 (一)PDCA循环理论对学校德育评价的适用性PDCA循环理论的提出可追溯到二十世纪二十年代,美国休哈特(Walter A. Shewhart)提出计划—执行—检查(Plan-Do-See,简称PDS)模型的雏形[8]。美国管理学家戴明(W. Edwards Deming)对PDS模型做了进一步补充完善,发展成为计划—执行—检查—处理(Plan-Do-Check-Act)模型,简称PDCA循环模型[9]。 PDCA理论的核心思想是持续性改进,即通过不断优化评价内容、思路、方法、措施等,帮助管理者达成管理目标,实现管理质量的提升[10]。PDCA循环包括四个周而复始的步骤,即计划、执行、检查、处理。计划指目标的确立和工作计划的制订;执行指计划的落实,方案的具体操作实施;检查指对计划的执行进行检验,判断目标达成情况及完成效果,肯定经验,找出问题;处理指进一步处理检查结果,提炼成功经验,在下一循环中适当推广,并总结反思失败教训,对未解决的问题提出有针对性的措施,归入下一个PDCA循环中加以解决。其中,处理是整个循环理论的核心和关键,总结经验并查找不足,为下一轮循环提供改进目标和方向。在上述四个环节中,处理既是一个周期的最后环节,也是下一周期首个环节的前提和基础,处理和计划的无缝衔接形成PDCA循环式递进圈,由此构成质量可持续改进的模型[11](见图1)。该循环是确立目标、执行计划、验证效果、分析问题、改进提升的过程,精髓在于不断发现问题、改进问题,实现质量的阶梯式上升,形成自我改进、自我完善的机制,达成良性循环的目标。教育领域引入PDCA循环理论主要是通过对学校评价的研究分析来提升管理工作质量[12]。在此之前,学校管理主要关注三个环节,即计划、实施、总结;引入PDCA循环理论后,遂形成计划、实施、评价、总结的循环回路。在该循环中,计划是在评价和总结的基础上针对发现问题所制订的计划,实施是计划的严格落实和条件保障,评价是对计划目标达成度的阶段性判断和检验,总结是对照目标进行回顾分析并提出改进措施的总结。由此,计划、实施与总结环环相扣,融为一体,使目标制订、计划执行、工作改进的逻辑性更强,关联性更紧密,通过管理促进提升得到更有效的保障。 德育工作是学校工作的重要内容,但德育管理并不像学校管理那样重视评价功能的运用。事实上,德育评价周而复始,需要经历从方案制订、组织实施再到分析改进的过程,不断循环以确保德育评价的持续推进,促进学校德育质量提升。这一过程与PDCA理论循环圈非常相似,因此PDCA理论适用于学校德育评价模型的构建研究。 (二)学校德育评价PDCA循环模型的特征与价值1.学校德育评价PDCA循环模型的特征由于中小学德育工作的独特性,德育评价引入PDCA循环体系后需要做出一些必要的调整,具体表现在五个方面。一是德育评价目标的确立,应从将德育视为学校的局部工作,转变为依据学校办学理念落实立德树人根本任务的整体设计;二是德育评价内容的制订,应从学校管理者的行政工作,转变为全体师生的共同愿景和操作方案;三是德育评价方式和方法的选择,应从标准化的量化打分,转变为听取教师、学生和家长的意见和建议,特别是充分考虑学生的内心体验、情感认同和成长需求;四是德育评价主体的转变,应从单一的外部评价,转变为包含教师、班级、年级等在内的自我评价与外部评价相结合;五是德育评价结果的反馈,应从无法反映建设性意见的等级分数,转变为学校管理人员、教师的问题讨论、交流分享和未来展望等。 作为学校德育评价的实施模型,PDCA循环体系具有以下三个核心特征。一是四个环节紧密相连,密切衔接。学校德育评价PDCA循环体系由计划、执行、分析、应用四个环节构成,关联起来才能形成闭环,任何一个环节都不可或缺。二是大循环嵌套小循环,层层递进。学校德育评价是一个大循环,其中包含各部门、各专项工作的中循环,各学段、各年级的小循环,以及各班级、各教师的微循环,形成如图2所示环环相嵌的格局[13]。每个层级的循环均向总目标推进,微、小、中、大循环目标一致,层层递进,推动德育评价实践效果和德育工作整体质量的提升。三是循环周而复始,螺旋上升。学校德育评价PDCA体系的运转不是一次性的,而是周期性循环往复。每次评价都能解决一些问题,使工作得到一定改观,遗留及发现的新问题则会进入下一轮循环中继续处理;经过周而复始的解决与改进,实现德育工作质量进阶式提升,形成学校德育评价的阶梯式运转模式。2.学校德育评价PDCA循环模型的实践价值学校德育评价PDCA循环模型对于落实立德树人根本任务,推进全员全程全方位育人具有三个方面的实践价值。一是系统性。德育评价是一项系统性工程,涉及的部门繁杂、人员众多,容易出现工作混乱和条理性不强等问题。PDCA循环评价体系能有效消除德育工作各自为政的弊端,将学校的德育处、学生处、年级组、班级等组织起来,通过大环带动小环,形成上级牵引下级的评价模式,使各部分在各自运行的基础上整体推动学校育人工作。二是发展性。通过每级循环中对新问题的发现和解决,推动学校德育工作向更高层次发展,由此避免在各级循环中,问题未被及时发现或未得到足够重视和真正解决。由于PDCA螺旋上升基本态势的保持,一些在本学期没有解决的问题并不会被掩盖,而是会随着循环推进到下一周期被重新提出,直至问题解决。PDCA循环体系正是基于一个个问题的解决,达到循环往复、持续提升的效果。三是操作性。新时代大思政工作在基础教育阶段具有重要的战略意义,但中小学德育工作依然存在“说起来重要,做起来次要,忙起来不要”的实施困境,缺乏针对性、实效性的问题解决方法。PDCA循环体系为学校德育评价提供了可操作的模型支架,为德育工作的改进提供了工具支撑。 (三)学校德育评价PDCA循环模型的建立1.计划阶段(P):德育评价目标指向马克思主义人的全面发展学说德育评价是教育评价的薄弱环节,根源在于学界尚未形成统一理论共识。有研究指出,德育价值观是理论构建与方法应用的基础,其认知偏差会直接削弱评价的客观性与科学性[14]。因此,德育评价的理论根基必须深植于马克思主义人的全面发展学说中,以党和国家教育政策为导向,凸显德育本质特性。 计划阶段是学校德育评价PDCA循环周期内的初始环节,清晰的德育评价目标和明确的评价计划是PDCA德育评价循环取得实效的必要前提。该阶段可分为四个操作步骤。首先,分析现状,查摆问题。即根据上一轮评价循环周期总结出的问题,结合实地调研与访谈等方法,确定本轮循环需要解决的问题,如德育课程内容缺乏衔接、学生对德育活动兴趣不足、德育工作实效性不强等。其次,剖析原因,寻找根源。通过组织学校德育干部、班主任、科任教师等参与讨论,认真分析问题产生的原因,提炼可能对德育活动内容和形式等产生影响的因素。再次,找准关键因素,确定目标。对讨论中提出的若干影响因素进行比较,找出主要、直接的影响因素,作为本轮PDCA德育评价的主攻方向;同时,结合上级教育行政部门对中小学德育工作提出的总体要求,以及该学期德育工作的基本任务,从综合布局出发确定德育评价的整体目标,各部门、年级、班级及教师则负责拟定各级组织及个人的德育评价具体目标。例如,某小学在计划阶段通过学生调查问卷发现,劳动教育评价存在重形式、轻体验的问题,据此将构建劳动素养发展性评价体系作为本轮评价工作目标,明确家务劳动过程记录、校园劳动岗位执行等具体指标。最后,制订措施,提出计划。基于学校德育评价目标的顶层设计,在分析问题原因和制订整改措施的基础上,针对上一轮评价发现的问题和本轮评价的总体任务,制订德育评价总体方案,各部门、年级、班级及教师制订整改计划,包括年级德育评价方案、班主任评价方案、各学科课程思政评价方案等。 2.执行阶段(D):德育评价内容应兼顾德育实践活动过程与结果在教育研究中,品德评价与德育评价常被混淆,实则二者内涵不同。品德评价是德育工作的关键,旨在培育符合社会需求的人才。德育评价本质是聚焦德育活动成效,评估思想品德的发展状况[15]。但若仅以学生品德成长来评判德育实践效果,则容易陷入形式主义与功利化困境。在学校德育评价PDCA循环模型里,德育评价要涵盖德育工作过程与成效,兼顾立德树人的过程和结果,如此才能凸显其价值。 执行阶段作为学校德育评价PDCA循环的主体环节,按照既定的评价目标执行行动方案,是PDCA评价循环实现工作质量提升的核心任务。该阶段可分为四个操作步骤。首先,按照计划,执行措施。即对照德育评价目标,按照计划阶段既定的评价计划落实行动方案。涉及学校相关部门及教师,则应认真完成职责范围内的相关任务,分别在课程育人、文化育人、活动育人、实践育人、管理育人、协同育人方面执行德育评价计划的具体措施。其次,关注进展,协调跟进。执行阶段不仅涉及评价计划的落实,还应根据党和国家的教育评价政策要求,做到及时跟进和修订完善。再次,挖掘资源,多元评价。德育评价的实施需要充分吸纳不同群体参与评价过程,整合校内外资源,发挥家校社协同育人力量。例如,学校可以建立由班主任、科任教师、心理教师、社区人员组成的评价团队,班级则可以组建以家委会为代表的评价主体。例如,有中学在法治教育主题活动中,邀请社区民警担任校外评委,家长通过家校共育平台记录学生在社区普法活动中的表现,形成学校+家庭+社会三方评价数据的实时汇聚。最后,收集信息,记录过程。在实施德育评价方案时,务必及时收集评价信息,这些信息不仅包括评价的主题、内容、方式、过程及效果,也包括学生参与德育活动的收获、体会和反思等。这些过程性评价资料的积累,既是德育评价分析结果的基础性材料,也是下一阶段德育评价循环的起点和依据。 3.分析阶段(C):德育评价融合质性描述与量化分析2020年,《深化新时代教育评价改革总体方案》发布,提出改进结果评价、强化过程评价、探索增值评价、健全综合评价的要求[16]。这一文件对德育评价产生了深远影响,推动德育评价摆脱工具理性束缚,凸显人文关怀。从哲学视角看,人文主义取向的德育评价秉持以人为本,聚焦学生道德品格的生成、发展与整体塑造,综合运用质性与量化方式,回归学生道德人格和品格发展的本体价值[17]。 分析阶段是学校德育评价PDCA循环的关键环节,为整个评价提供丰富的评价结果。分析阶段的引入,既是对德育评价方案目标达成度的判断,也是对评价效果进行总结和反思的直接依据。该阶段也可分为四个实施步骤。首先,确立标准,制订评价细则。即根据德育评价目标和内容确立评价标准,制订可操作的评价细则。在评价标准的确定上,可以按照学校整体要求建立统一的绝对评价基准,也可根据各部门和教师的具体工作,建立适合每个个体的差异化评价标准。其次,选择评价方法,开发评价工具。即建立德育评价数据库,存储和管理评价信息。研发适合学校的德育评价系统,将德育主题、内容、方式、过程等纳入其中,随时上传德育评价过程记录。学校可运用信息技术自主开发德育成长云平台,记录学生参与志愿服务的时长(量化数据),收录学生在活动中的反思日志、同伴评价等,描绘出每个学生的道德情感发展曲线,为个性化精准分析提供依据。再次,解释结果,判断目标达成情况。按照德育评价细则进行评价信息的质性判断和量化分析,对评价结果做出从简单到复杂的解释说明,向学校不同教职工群体推送。最后,提炼经验,查找问题。该阶段以形成清晰简明的评价结论为目标,肯定德育工作中的成功之处和取得的经验,对相应人员予以肯定和奖励;同时,明确评价结果中显现的问题,并告知相关人员,以此作为处理和改进后续工作的重要依据。 4.应用阶段(A):德育评价应用指向持续改进的完整体系德育评价是一个完整、连贯的过程,应包含确定评价目标、设计评价指标体系、组织与实施评价以及分析评价结果等环节[18]。在教育评价改革背景下,德育评价数智化转型成为必然趋势,能有效增强评价结果应用效果[19],推动学生在智能技术与德育评价的融合中,获得独立思考和反思自身道德发展的能力,实现智能技术与德育评价的协同发展[20]。 应用阶段是学校德育评价PDCA循环在一个周期内的最后环节,同时也是下一周期开始前的准备阶段。该环节是完成德育评价PDCA整个闭环的过渡阶段,但在实际工作中往往被忽视。如果忽略这一阶段,就无法形成评价闭环,可见此阶段在PDCA循环体系中具有重要作用。 应用阶段也可分为四个实施步骤。首先,整理意见,提出改进建议。根据上一阶段(C阶段)形成的评价结论,将评估过程中收集到的所有意见和建议进行归类整理,分别从学校干部、教师、学生、家长等相关群体的视角形成德育工作改进建议,尤其应关注德育工作方向的正确性、内容的适切性和方式的多样性。其次,总结经验,宣传推广。即及时归纳总结上一阶段评估形成的成功经验和做法,在适当情况下交流分享德育工作的成果和心得,扩大其在校内的影响力,为进一步推广奠定基础。例如,一些学校将家长德育观察员制度化,成为学校常规工作,每学期末召开家校评价成果发布会,将优秀家长评价案例汇编成册,形成可复制的协同育人模式。再次,保持稳定,形成评价制度。一方面,学校要持续推进循环评价以保证其应用的长期有效性;另一方面,要将证明行之有效的措施制度化,形成稳定的德育评价流程,并制订标准化操作指南,确保评价工作的规范一致性。最后,聚焦问题,转入下一循环。对分析阶段发现的问题进行整理归纳,将本循环周期内仍未解决的问题以及出现的新问题转入下一循环,作为新的PDCA周期的起点阶段的重点内容,形成德育评价不断改进和持续完善的动态过程。三、中小学德育评价PDCA循环应用的展望与建议 中小学德育评价PDCA循环模型为提升德育质量提供了理论框架与实践路径。针对不同阶段德育特点,建立具有衔接性和一体化的评价标准、强化家校社协同育人评价机制以及借助数智技术推动评价模式转型,不仅是完善德育评价体系的必然要求,更是顺应时代发展趋势、促进学生全面成长的关键举措。 (一)针对不同学段德育特点,建立衔接性一体化的德育评价标准在构建学校德育评价体系的过程中,深刻认识并尊重不同年级学生心理发展特征及小学、初中、高中各学段德育工作的独特性,是确保评价体系科学性和富有实效的关键。小学阶段的学生处于品德形成的基础期,德育评价应侧重日常行为习惯的养成、基本道德观念的树立及社会责任感的初步培养;评价标准宜采用直观、具体的行为指标,如诚实守信、团结友爱等;评价方式应简单易行,便于学生理解与自我反思。进入初中学段,随着学生自我意识的增强和抽象思维的发展,德育评价应更加注重价值观的引导和道德判断力的培养,评价标准应融入公民意识、法治观念及初步的人生规划意识,鼓励学生参与社会实践,通过角色扮演、情境模拟等方式深化道德认知。在高中阶段,学生面临更加复杂的社会环境与人生选择,德育评价需强调道德自律、批判性思维及社会责任感,评价标准应体现对多元文化的理解尊重、对社会责任的主动担当及对未来生活的积极规划,评价方式应包含项目式学习、社会服务、领导力展示等多元设计。例如,某十二年一贯制学校建立全学段红色基因传承评价体系,小学低年级设置认识国旗国徽、学唱红色歌曲等具象指标,实施红色勋章收集的游戏化评价;初中阶段设置红色故事宣讲、社区红色志愿等实践指标,采用项目完成度+同伴互评的过程性评价;高中阶段设置红色文化调研、红色精神创新表达等研究型指标,采用学术报告+社会影响评估的发展性评价,实现感知—实践—创新的螺旋上升,使德育评价真正成为学生品德成长的导航仪。 建立衔接性一体化的德育评价标准和评价细则,需紧密结合学校办学理念和育人目标,在PDCA循环模型中构建符合学生成长规律与各学段德育工作特点的阶梯式评价目标,通过计划—执行—分析—应用的循环往复实现评价标准的动态优化,为培养德智体美劳全面发展的社会主义建设者和接班人奠定基础。 (二)强化家校社协同育人评价机制构建家校社三位一体协同育人机制,目的不仅在于实现多方主体共同参与,也在于构建家校社协同育人评价机制,发挥评价的导向功能、诊断功能和反馈功能。德育评价不应局限于学校内部,而应拓展至家庭和社会,形成全员参与的格局;也需突破校园边界,与生活紧密相连,成为一种生活教育[21]。因此,德育评价要取得实效,必须吸收家长和社会评价。首先,在评价主体上,应打破学校单一评价的局限,构建学校、家庭、社会多元参与的评价体系,充分发挥家长、社区等主体的育人作用;其次,在评价内容上,既要关注学生的在校表现,也要重视其在家庭和社会中的行为实践,将品德修养、社会责任、家庭美德等纳入评价范畴;再次,在评价方式上,可通过家校联系手册、社区实践记录、成长档案袋等形式,实现评价信息互通共享,在PDCA循环中建立基于多元评价数据的收集机制(计划阶段)、协同分析机制(检查阶段)与改进反馈机制(处理阶段);最后,在评价结果运用上,应建立正向激励机制,将评价结果作为改进家校社协同育人工作的重要依据,促进三方形成育人合力。 例如,杭州市上城区创新构建家校社协同评价机制,为基础教育阶段的德育评价树立了典型样例。他们通过由班主任、家长代表、社区教育专员组成的三方评价委员会,开发家庭美德存折、社区实践护照等工具,记录学生在家庭孝亲、社区服务等场景的表现,并依托学校日常观察+家庭情景记录+社区实践档案的数智化平台整合数据,生成每学期的协同育人成长报告。该机制不仅设立家校社协同育人先锋榜以表彰优秀家庭和社区,还针对评价中发现的问题(如家长参与度不均),启动专属爸爸班、乐学父母成长营等专项改进计划,形成基于PDCA循环的问题发现—精准干预—持续优化的协同育人闭环管理,被教育部列为全国家校社协同育人典型案例。 (三)以数智技术赋能德育评价,推动评价模式转型在数字化与智能化深度融合的时代背景下,数智赋能教育评价已成为必然趋势。随着大数据、云计算等技术的蓬勃发展及广泛应用,针对智能化德育评价开展技术探索显得尤为迫切,促使传统德育评价由单向度、结果导向、标准化向智慧化转型,实现评价数据的精准采集、动态分析和智能反馈。中小学校可利用智慧校园平台记录学生的日常行为数据,结合机器学习算法,构建个性化的德育画像;通过区块链技术确保评价数据的真实性和可追溯性,增强评价的公信力;借助虚拟现实(VR)和增强现实(AR)技术,创设沉浸式德育场景,提升评价的实践性和体验感。值得注意的是,智能技术在德育评价中的应用并非单纯的信息技术测评,而是在全面收集学生道德行为资料的基础上,以图像、音频、文本等多元化形式,立体、直观、个性化地展现评价结果。其中,线上档案袋评价便是典型例证。相较于每学期一次的传统成长档案袋静态评估,线上档案袋能够实时捕捉并记录学生的成长轨迹,多方评价主体能在德育课程与活动中进行即时反馈,同时也赋予学生持续自我完善的机会。德育智能评价系统能够整合学生的课堂学习表现、校园生活行为、社区实践记录等不同内容和各类场域的即时数据,通过大数据分析自动生成品德发展过程性报告,同时提供个性化改进建议,支持家校社三方实时查看评价数据,共同制订育人方案。 数智赋能不仅使德育评价更加科学化、精细化,实现数据采集—智能分析—精准干预—效果反馈的闭环管理,而且通过技术手段支撑PDCA循环模型在德育评价实践中的落地,推动评价从静态结果转向动态过程,从经验判断转向数据驱动,从标准化评价转向个性化发展,形成计划—执行—分析—处理的数智循环改进体系,为学生的全面发展提供更加精准的成长支持。 参考文献略

武倩:国际科学教育中跨学科概念学习评估:进展与启示

2025-04-28

引用格式:武倩. 国际科学教育中跨学科概念学习评估:进展与启示[J]. 中国考试, 2025(4): 91-99.作 者武倩,女,华东师范大学教育学部在读博士生。摘 要:跨学科概念是学生科学学习的重要内容,也是提升科学教育质量的关键。当前,国外跨学科概念学习的评估主要分为两种类型:一是概念理解的评估,聚焦于学生整合相关概念和观念的能力;二是概念应用的评估,强调学生将跨学科概念与学科核心概念、科学与工程实践相结合,理解现象和解决问题的能力。以之为鉴,我国开展跨学科概念学习评估应推动科学教育研究者、学科专家、测量与评估专家及一线教师深度协作,围绕贯彻教—学—评一致性、创设高质量评估情境以及强化评估任务进阶性等开发科学高效的评估工具,促进学生深度学习。关键词:科学教育;跨学科概念;评估设计;深度学习2025年1月,中共中央、国务院印发的《教育强国建设规划纲要(2024—2035年)》中明确提出,要加强科学教育,强化学生核心素养培育,并完善拔尖创新人才的发现和培养机制[1]。近年来,我国科学教育正经历从知识传授向素养培育的转型。跨学科概念作为连接STEM(科学、技术、工程、数学)各学科的共通语言、思维和推理框架,在促进学生理解科学本质、掌握科学思维与方法、提升科学素养等方面发挥着不可或缺的作用[2-3],受到科学教育界的广泛关注。实际上,利用跨学科概念促进学生科学学习已成为全球新一轮科学课程改革的核心共识,并促使各国纷纷将跨学科概念纳入国家课程政策文件[4-5]。我国《义务教育科学课程标准(2022年版)》(以下简称新课标)明确提出了物质与能量、结构与功能、系统与模型、稳定与变化四个跨学科概念[6],指出学生应逐渐形成和理解这些概念,并将其应用于真实情境,为推动基础教育阶段科学教育的高质量发展提供了重要抓手。与此同时,我国普通高中生物、化学、物理等学科的新课标也将跨学科概念作为各学科教与学的重要内容和目标,旨在促进学生的知识整合与深度学习。例如,《普通高中生物学课程标准(2017年版2020年修订)》强调学生应形成结构与功能观、进化与适应观、稳态与平衡观、物质与能量观[7];《普通高中物理学课程标准(2017年版2020年修订)》明确指出,物理观念包含物质观念、运动与相互作用观念、能量观念等核心要素[8];《普通高中化学课程标准(2017年版2020年修订)》则倡导教师应重视跨学科内容主题的选择和组织,适当融合跨学科知识,以发展学生解决综合问题的能力[9]。研究表明,深入理解并熟练应用跨学科概念,有助于学生增强对不同情境中学习内容的整合性理解,增强知识的适用性、持久性和可迁移性,从而形成连贯的、基于科学的世界观[10]。鉴于跨学科概念在学生理解和参与科学方面的作用和价值,其教、学、评方面的研究亦成为国际科学教育领域的热点议题。理想的跨学科概念评估不仅能够为科学教育研究者和实践者提供学生理解和应用跨学科概念能力的现状和发展轨迹等信息,还能为课堂教学提供实质性的反馈与指导,助力实现新课标中将跨学科概念融入科学课程的愿景。然而,目前我国学界关于学生跨学科概念学习的评估研究较为薄弱,尚不足以满足实践需求,如评估任务的设计、评估方式的选择和评估结果的利用等均缺乏充分的实证研究支持。本文旨在通过系统梳理国际科学教育中学生跨学科概念学习的评估现状、理论基础与典型特征,对典型案例进行深入剖析,为我国跨学科概念评估的研究与实践提供参考借鉴。一、跨学科概念学习的常见评估类型作为美国具有影响力的教育改革机构,达成公司牵头研发了《新一代科学教育标准》(Next Generation Science Standards),并将当前国际科学教育领域中跨学科概念的评估方式分为隐性(implicit)、具体明确(specific)、灵活推理(flexible reasoning)三种类型[11]。基于这一分类,本研究对现有跨学科概念评估案例进行系统分析后,进一步将已有评估方式归纳为隐性和显性两种取向。隐性取向的评估主要关注学科核心概念、科学实践等科学学习维度,而将跨学科概念看作是学生思维和表现的内隐部分。具体而言,此类任务虽与特定跨学科概念存在潜在关联,但学生无需特地调用跨学科概念认知即可完成任务。这类评估方式并未聚焦于学生对跨学科概念的理解与应用能力的发展,因此很难提供有关学生跨学科概念学习和发展的明确证据。鉴于此,本研究将重点围绕跨学科概念的显性评估展开讨论。显性取向的评估明确针对跨学科概念进行设计和实施,通常采用两种方式收集关于学生跨学科概念学习效果的证据。其一,对特定跨学科概念理解的评估,即评估学生对指定跨学科概念理解的变化。这种评估方式倾向于在试题中设置明确的提示,以引导学生展示他们对指定跨学科概念及其关键内容要素的理解。例如,询问学生食物中储存的能量从何而来。其二,对跨学科概念应用能力的评估,即评估学生如何以有意义的方式使用跨学科概念,使其与学科核心概念、科学与工程实践等科学学习维度相结合,以理解现象和解决问题。这类评估通常会为学生提供一个情境任务,在学生完成任务的过程中收集他们运用跨学科概念相关能力的证据。例如,任务可设计为引导学生使用跨学科概念在自身与科学相关的体验经历、现象和问题之间建立联系;又如,利用跨学科概念探究新的现象或挑战,并提出新的问题、预测、解释和解决方案;再如,将不同的跨学科概念作为观察现象、发现现象突出特征的视角,揭示有关情境的更多信息;等等。二、跨学科概念的两类显性评估显性评估方法旨在全面评估学生在长期学习过程中逐步形成的对跨学科概念的理解和应用能力,从而确保学习者能够有效地将这些概念作为认知世界的有力工具。下面将系统分析当前两类显性评估方法,并结合典型案例,阐明其重要性及实践路径。(一)跨学科概念理解的评估研究学习科学、心理学以及教育研究均将学习描述为一个复杂且动态的过程。在此过程中,学生的知识网络不断经历重组,表现为向自身知识网络中添加新观念、梳理已有观念,以及建立、改变、完善和强化观念之间的关联(connections)[12-13]。在诸多概念类型中,一些概念相较于其他概念具有更强的关联性,充当着关联不同概念的枢纽角色,跨学科概念便是其中的典型代表。跨学科概念作为科学、技术与工程等领域共有的概念和思维方式,能够打破学科壁垒,将分散的知识整合为有机整体,为学生知识网络的组织与构建提供支持。具体来说,学生对跨学科概念理解的发展或进阶过程,对应由跨学科概念及其内容要素构成的复杂系统的结构性变化,包括整合新要素以及建立现有要素间的新链接(links)等[14-15]。例如,学生对能量概念理解的发展,可以被描述为一个越来越复杂的知识系统的演进过程。这一过程既包含对能量各关键内容要素的学习,即从认识能量来源、形式、转移,到探究能量耗散、守恒等[16],还涉及不同概念之间的结构变化,这种变化可以借助认知发展相关的理论、模型、框架进行描述。例如,知识整合框架(knowledge integration framework)将学生对科学理解的发展过程,描述为学生构建与科学相关的规范观念并在将这些观念链接起来方面所取得的进展。具体来说,该框架根据学生回答问题时使用的观念和链接的数量,将学生的概念理解划分为不相关、无链接、部分链接、完整链接、复杂链接等多个渐趋复杂的知识整合水平[13,17]。总体而言,跨学科概念理解的评估研究有较长历史,相关评估案例丰富,并呈现以下三个典型特征。一是聚焦单维概念理解。评估任务通常仅涉及对跨学科概念的理解这一单一维度,通过引导学生思考特定的跨学科概念或其子概念[18-20],评估学生对目标概念的理解程度。例如,Yang采用测验法对美国4~8年级和9~12年级共5581名学生的六个跨学科概念的理解情况进行了考查,包括系统与模型、物质与能量、结构与功能等[21]。该研究设计了诸如“搓手为何会让手更暖和”等一系列明确指向物质与能量等跨学科概念的试题,来评估学生的单维概念理解水平。Kohn等通过访谈法调查了美国14名正在修读化学和生物学导论课程的大学生对能量转移和守恒两个子概念的理解情况[22]。有学者在研究综述中指出,目前国际科学教育领域对跨学科概念的评估研究集中于物质与能量、系统与模型、尺度、比例与数量等方面,而鲜见针对其他概念的评估研究[23]。由此看来,对学生跨学科概念理解和学习情况的评估研究仍有待丰富。二是强调跨学科情境的创设。传统上针对单一学科情境设计的试题,在衡量学生对跨学科概念的理解时存在明显局限,难以实现与其他学科的直接比较。例如,Neumann等开发了用于测量学生对能量概念理解的评估工具,仅聚焦于物理学情境,无法有效评估学生在跨学科视域下对能量概念的理解程度[15]。为了准确获取学生在不同学科中对同一跨学科概念的理解情况,评估设计需要开发并使用同一标准衡量不同学科试题,从而实现对学生理解能力的跨学科比较。例如,Park和Liu开发了一套在不同科学学科情境中对能量概念理解的标准化测量工具,该工具由物理、化学、生物和环境科学四种测试组成,不同学科的测试题包含跨学科情境的共同题目(作为链接题/锚题)和学科特定的不同题目,既能分别评估学生在不同学科中对能量大概念的理解,又能通过将各学科置于同一衡量标准,实现对学生能力和题目难度的比较[24]。三是关注概念理解的进阶性。这一特征旨在揭示学生对跨学科概念理解的现状和发展轨迹。已有研究通过评估学生对物质与能量等概念的理解,发现学生对跨学科概念的理解能力会随着时间的推移而逐步提升。例如,Opitz等采用定量横断面研究设计,通过多项选择题考查了540名德国3~6年级学生在生物学情境中对能量概念理解的进阶情况,发现处于小学向初中过渡阶段的学生能够逐渐深化对该概念的理解[25]。Yang等基于Rasch模型开发了一套用于评估4~8年级学生在多个学期内对跨学科概念理解的测评工具,研究结果显示,学生从小学至初中阶段在跨学科科学理解方面有显著提升[26]。Bain和Towns通过访谈的方式考察了从本科到博士等不同学历层次的学生对于能量概念理解的变化,揭示了学生在各学段理解该概念时的具体特征及面临的困难[27]。(二)跨学科概念应用能力的评估研究美国国家研究委员会(National Research Council)制定并发布的科学教育领域的重要文件《K-12科学教育框架:实践、跨学科概念和核心概念》(A Framework for K-12 Science Education: Practices, Crosscutting Concepts, and Core Ideas,以下简称《框架》)提出了科学教育的新愿景[10],以适应21世纪的社会需求。《框架》强调科学学习包含学科核心概念、科学与工程实践、跨学科概念三个相互依赖的维度。这三个维度协同作用,使学生能够理解现象并解决问题。这一理念被称为三维学习(Three-Dimensional Learning,3D Learning)。其中,学科核心概念指物质科学、生命科学、地球与空间科学等学科的重要观念,用于解释一系列自然现象;跨学科概念,如模式、因果关系、系统与模型等,既存在于学科内部,也跨越学科边界,能够有效帮助人们理解和解释科学、工程等多个领域的现象和问题;科学与工程实践指科学家和工程师用于研究、探索自然世界及人为创造世界的认知与实践方式。学生既在参与科学实践的过程中学习学科核心概念和跨学科概念,同时也在运用这些概念的过程中掌握科学实践方法,三者共同促进学生构建可用知识(knowledge-in-use)[4,28-29],推动其整合性理解能力的发展。基于这一学习观,对跨学科概念学习的评估也随之发生了新转向。评估不再仅关注学生对跨学科概念相关知识的构建,而更加强调学生在真实问题情境中使用跨学科概念的能力[23,30]。以美国国家教育进展评估项目(The National Assessment of Educational Progress, NAEP)为例,其最新制订的科学评估框架(2028 NAEP Science Assessment Framework,以下简称NAEP 2028)明确将科学成就(science achievement)定义为运用相关学科概念(物质科学、生命科学、地球与空间科学)、科学与工程实践以及跨学科概念,来识别和解决问题、理解现象、评估信息以做出明智决策的能力[31]。由此可见,NAEP 2028与《框架》提出的三维学习理念高度契合,均倡导开展三维评估(Three-Dimensional Assessments, 3D Assessments),呼吁科学教育与评估应有机整合科学的三个关键维度,以此帮助学生理解自然现象,并在现实情境中解决复杂问题。在《框架》发布十余年后,此类评估研究初步出现了一些成熟案例[31-32],为学界提供了可资借鉴的评估素材与参考依据,主要呈现出以下三个典型特征。第一,多维任务驱动下的综合能力考查。评估任务不再局限于对单一维度科学能力的考查,而是通过多维任务来评估学生整合学科核心概念、跨学科概念、科学与工程实践的能力。评估任务通常由一系列环环相扣的问题和子任务构成,要求学生充分调动并整合多维能力,对现象进行深入分析或有效解决现实问题[33]。其中,跨学科概念发挥着不可或缺的关键作用,美国科学教育界将其比喻为分析现象显著特征的“透镜”(lenses)、连接不同领域和现象的“桥梁”(bridges)、参与科学实践的“认知工具”(tools)以及为学生理解复杂世界提供秩序和结构的“规则”(rules of the game),在学生意义建构过程中起到引导或约束作用[4]。其常见评估方式包括:1)将跨学科概念作为现象或问题的切入点,提出解释、论证、问题或假设;2)对一些仅依靠学科核心概念难以充分理解的现象或不易解决的难题,以跨学科概念的方式提出新的问题、预测、解释和解决方案;3)借助跨学科概念将某一现象(或数据、模型)与其他不同现象(可能是不同尺度的现象)相关联,实现知识的近迁移或远迁移。以NAEP 2028中的“人类迁徙至阿巴拉契亚”评估任务为例,该任务要求学生通过改进或完善已有的计算模型,更准确地预测迁徙对当地居民获取自然资源的影响。该任务同时考查学生对学科核心概念、跨学科概念、科学与工程实践三个维度科学能力的掌握。其一,该任务涉及对“人类活动引起的环境变化(如栖息地破坏、污染、外来物种入侵、资源过度开发和气候变化等)可能会扰乱生态系统,减少生物多样性并威胁部分物种生存”这一学科核心概念的考查。学生需要理解人类迁徙这一活动会如何引发该地区的环境与生态系统的变化,以及会怎样影响当地居民获取自然资源。其二,任务需要学生应用因果关系这一跨学科概念。因果关系为学生提供了解释和预测复杂的自然和人为设计系统的推理框架。而这种解释往往需要对系统内的小规模机制进行检验与建模。例如,学生需要分析不同因素(如月平均气温、农业基础设施、资源的获取)如何相互作用,从而导致人口迁徙的变化。其三,该任务还考查了学生在开发和使用模型方面的实践能力。学生在分析数据或设计、编程、测试和修正科学模型时,需要应用或调整算法,以解释和设计解决方案。在这一任务中,跨学科概念为学生推理现象成因提供了清晰的结构与焦点,能够有效促进学生将科学知识应用于新情境。可见,与单纯考查学生对跨学科概念理解的单一评估维度相比,此类评估更注重学生整合科学学习各维度进行意义建构的综合能力,要求学生自主识别问题与知识之间的关联,并综合运用知识和技能解决问题。第二,精心创设评估情境,聚焦能力展示。评估任务高度重视情境的创设,通过提供富有探究价值的评估情境和选取高质量的科学现象或问题,为学生创造灵活运用跨学科概念进行意义建构的机会。从知识应用视角出发设计的评估,通常会向学生呈现充满不确定性或模糊性的情境,来激发学生的思考和应答。这些情境通常融合文本和视觉元素,如图像、数据表格等,以直观呈现数据并展现某种现象。理想情况下,设计的情境应能突出关键内容。这些情境可能存在令人困惑之处,或与常规认知相悖,抑或是在区域性乃至全球层面具有重要意义,从而有效激发学生的探究兴趣。例如,“人类迁徙至阿巴拉契亚”案例中,人类实际迁徙数量超出了模型预测,在此情境下,学生需要运用因果关系这一跨学科概念,对模型进行修正,使其更精准地反映影响阿巴拉契亚不同地区人类迁徙的因素。第三,关注概念应用能力进阶,实现动态评估。评估任务关注随着时间推移与学科情境变化,学习者对跨学科概念应用能力的动态发展过程,旨在确保跨学科概念内化为学习者理解世界的有力工具。例如,NEAP将学生科学成就水平划分为三个层级:1)基本成就水平,即学生能初步理解与所在年级相适配的核心概念,并能简单应用相关的跨学科概念及科学与工程实践,以理解现实世界的情境和常见现象;2)熟练成就水平,即学生能够扎实理解其所在年级对应的核心概念,并能够熟练应用相关的跨学科概念及科学与工程实践,对现实世界的情境和现象进行推理和解释;3)高级成就水平,即学生能够深度理解与其年级相适应的概念,并能够像专家一样灵活应用跨学科概念及科学与工程实践,对现实世界的情境与现象进行解释、阐明和预测[31]。NAEP将学生对跨学科概念的应用能力划分为此三个逐级递增的学习进阶水平,有助于教育者准确把握学生的学习进展,从而更好地支持学生在跨学科概念应用能力上的持续发展。综上所述,当前并存的两类跨学科概念显性评估模式,即指向知识整合的概念理解评估与指向知识应用的概念应用能力评估,各有其侧重。前者关注学生对跨学科概念的深度理解及相关知识网络的构建,呈现出聚焦单维概念理解、强调跨学科情境创设和注重概念理解进阶性等显著特征,致力于追溯学生概念理解的动态发展轨迹。后者则更加关注学生在真实问题情境中识别并运用跨学科概念解决问题的能力,主要体现为设计多维综合的评估任务、创设高质量的评估情境以激发学生运用跨学科概念进行意义建构,同时也关注学生概念应用能力的进阶轨迹,展示学生从最初的简单应用,逐步发展至能够像领域专家一样灵活应用跨学科概念的提升过程。尽管二者存在差异,但均凸显了跨学科概念在推动学生深度学习、助力发展21世纪技能方面的关键价值,为科学教育评估提供了全新视角与方法。三、启示与建议基于我国科学教育状况与发展愿景,结合国际科学教育中跨学科概念评估的研究成果,本文针对我国开展跨学科概念评估从三个方面提出建议,以有效评估并促进学生的跨学科概念学习。(一)使评价与教学目标一致,强化学生对跨学科概念及其价值的认知新课标提出了为学生提供明确且连贯的跨学科概念教学支持的要求[34]。与之相呼应,学生科学学习评估任务的设计应将跨学科概念评估明确纳入其中,切实贯彻教—学—评一体化的教育理念。开发显性取向的评估任务,无论是对特定跨学科概念理解的评估,还是对跨学科概念应用能力的评估,都能为学生跨学科概念学习成效提供有力证据。教师或研究者应根据评估目的、预期的评估对象以及实际条件,选择适宜的评估方法或工具,系统地收集能够反映学生跨学科概念相关能力发展与课程标准期望匹配程度的证据,并依据评估结果指导教学实践,从而实现课程、教学与评估的一致性,确保所有学习者在跨学科概念学习过程中获得有力支持。从实践层面来看,明确设计并实施跨学科概念评估工作意义深远。一方面,有助于教师准确把握学生理解和应用跨学科概念的现状,动态追踪学生跨学科概念理解与应用能力的进阶轨迹,为优化教学策略与实施干预措施提供关键信息,真正实现“以评促学”“测试即学习”的理念[35]。另一方面,能够帮助学生认识到跨学科概念在理解现象、解决问题过程中的重要作用,确保每位学生都能明确如何运用不同跨学科概念视角来理解现象和解决问题,从而实现对这些概念的深入理解与灵活运用,成长为熟练且富有创造力的意义建构者和问题解决者。(二)创设高质量的评估情境,搭建学生展示理解与应用能力的平台跨学科概念代表着科学家和工程师在面对陌生现象和复杂问题时的思维方式[36],在知识整合与问题解决过程中发挥着关键作用。基于此,评估任务情境的设计对于引导学生展现对跨学科概念的理解与应用能力具有重要意义。理想的评估情境应兼具多重功能,既要有效激发学生的探究兴趣,又要为学生创造能够使用跨学科概念解释现象或提出解决方案的机会,同时为学生参与任务及充分展示自身能力提供支持。总体而言,评估任务情境的设计应具备以下关键特征:1)情境能够引导学生参与到应用跨学科概念的意义建构活动中;2)情境所要求学生应用的跨学科概念及其子概念与学生的年级水平相匹配;3)所探讨的现象和问题应蕴含足够的不确定性,使学生仅依靠学科核心概念、科学与工程实践难以给出完整解答,从而凸显跨学科概念在解决问题过程中的关键价值,引导学生突破学科边界,实现知识的综合应用[11,37]。在设计评估情境时,可充分借鉴PISA、TIMSS和NEAP等国外测评项目的经验,遵循新颖性、真实性、不确定性、公平性和广泛性等原则[38],聚焦与文化相关的现象和问题,同时注重学生的经历和体验。需要注意的是,虽然提供充足的情境信息能够提升学生对评估任务的参与度,但应避免引入不必要的细节或专业术语,以免增加学生的认知负荷,对评估效果产生负面影响。(三)强化评估任务的进阶性,为优化教学策略与干预措施提供依据跨学科概念的学习是一个长期且持续的过程。当学生在不同课程或不同年级间从一个核心概念转向另一个核心概念时,他们能够持续运用跨学科概念作为稳定的认知框架,对新的现象或问题进行意义建构,逐步形成对科学与工程领域系统化、连贯且可应用的理解[10]。因此,对跨学科概念的评估应是跨学段的累积性任务,并充分体现进阶性。具体而言,评估工作应着重关注学生在学习路径上的能力进阶,而非仅仅评价某一时间点上学生作答的正误;评估应揭示学生部分正确或尚不完整的理解,并提供其运用跨学科概念能力的发展证据,帮助教师洞察学生的学习情况,为改进教学策略和采取干预措施提供信息。事实上,尽管学习进阶的理念在科学课程内容组织与教学中得到广泛应用,但在科学评估领域依然是一个相对陌生的概念,在科学评估工具的开发中很少被充分纳入考虑。这也造成跨学科概念的学习进阶评估在设计、实施和准确解读方面面临挑战[39]。为此,科学教育研究者、学科专家、测量与评估专家和一线教师之间应展开合作,借鉴学习进阶观点,改变传统评估只关注处于特定年级的学生是否了解具体内容(事实)的现状,开发能够更加准确和差异化地描述学生跨学科概念学习情况的评估工具,支持和监测学生在不同年级和学段中不断发展并逐渐提高理解和应用能力,为跨学科概念教学的持续改进提供有力支撑。致谢:感谢华东师范大学裴新宁教授为本文提供的帮助。参考文献略

徐光木 等:教育考试执法裁量基准问题探讨

2025-04-01

引用格式:徐光木, 黄健, 尤明青, 等. 教育考试执法裁量基准问题探讨[J]. 中国考试, 2025(3): 71-80.作 者徐光木,湖北师范大学经济管理与法学院副教授。黄健,湖北师范大学经济管理与法学院在读硕士。摘 要:宽严失当、同案不同罚等现象是当前教育考试执法中的突出问题,引发了社会广泛关注。执法裁量基准作为一种具体执法尺度和标准,能够弥补教育考试立法不足、防止执法擅权、量化执法标准和稳定执法结果预期。当前,我国教育考试执法裁量基准建设相对滞后,与法治政府建设要求相比尚有明显距离,具体表现为主体权限不够明确、程序不够规范、内容不够合理,需要从明确制定规则、规范制定程序、优化具体内容、提升实施效果等方面加以改进。同时,裁量基准并非万能之药,需要避免因过度基准化而沦为阻碍正常执法的桎梏。关键词:教育考试;考试执法;裁量基准;依法治考党的二十大报告指出,要深化行政执法体制改革,全面推进严格规范,公正文明执法,加大关系群众切身利益的重点领域执法力度,完善行政执法程序,健全行政裁量基准[1]。为贯彻这一决策部署,国务院办公厅印发《关于进一步规范行政裁量权基准制定和管理工作的意见》(以下简称《意见》),提出到2023年底前,行政裁量权基准制度普遍建立,基本实现行政裁量标准制度化、行为规范化、管理科学化的总体目标[2]。2023年以来,国务院各部委和各省(自治区、直辖市)陆续出台行政裁量权基准指导性文件,对本部门、地方行政裁量权的行使做出具体安排,教育行政裁量权基准制度也在酝酿中。教育考试执法作为教育行政执法的重要组成部分,其规范程度不仅关系到法治政府建设成效,也与教育行政裁量权基准制度的制定息息相关。开展教育考试执法研究,特别是深入研究教育考试执法裁量基准,已成为教育领域进行裁量权基准制度探索的一项重点课题,它能够为教育行政部门出台相关指导性文件和规范教育考试执法行为提供理论支撑。本文主要从教育考试裁量基准的概念内涵、发展现状、存在问题和对策建议四个方面进行讨论。一、教育考试执法裁量基准内涵(一)教育考试执法裁量基准的含义有法律就有裁量。由于法律要覆盖到社会生活的方方面面,故而不可能事无巨细、面面俱到,这为自由裁量权预留了空间。行政执法裁量权(又称自由裁量权)本质上是行政主体在基于对多元利益关系的审视和平衡后,针对具体情境采取决策行为的职权[3]。其对应的行为可以是作为或者不作为,评判其合理性应当考虑个案的具体情形,如行政相对人的行为时机、方式、程度等[4]。裁量权的意义在于克服立法中存在的粗疏,但在实际执法过程中又可能出现裁量权行使不当的问题,违背设定裁量权的规范目的。英国行政法学家威廉·韦德(William Wade)因此指出,所有的裁量权都可能被滥用,对每一项权力都应设置一定程度的法律限制[5]。教育考试执法亦是如此。当前,我国教育考试执法的依据涵盖法律和部门规章两个效力位阶:一是以《教育法》为代表的法律,对教育考试执法做出原则性、概览式规定,包括教育考试执法的主体、职权、方式等[6];二是以教育部颁布的《国家教育考试违规处理办法》(以下简称《办法》)为代表的行政法规规章,对教育考试执法的种类、情形、程序、救济等做出具体规定[7]。但这些法律和规定仍然不能完全排除自由裁量空间,如《教育法》第七十九条只是列举了考试作弊的五类情形,规定了五种处罚措施,对执法认定事实、选择处罚幅度预留了较大的裁量空间[6];《办法》虽然对《教育法》的若干条款进行了细化,但仍然不够具体,如第九条规定,有组织团伙作弊等四种情形之一的,可以视情节轻重,同时给予暂停参加该项考试一至三年的处理;情节特别严重的,可以同时给予暂停参加各种国家教育考试一至三年的处理[7]。对于团伙作弊的判断标准、团伙规模与处罚幅度的关系、情节特别严重的判断标准等执法层面的问题,《办法》并未涉及。此外,在考试资格确认、成绩评定、高等教育自学考试毕业资格认定等环节,也存在一定的裁量空间。为进一步规范教育考试执法行为,全面推进依法治考,防止执法宽严失当、同案不同罚等现象,根据《意见》要求制定教育考试执法裁量基准势在必行。《意见》指出,行政裁量权基准是行政机关结合本地区本部门行政管理实际,按照裁量涉及的不同事实和情节,对法律、法规、规章中的原则性规定或具有一定弹性的执法权限、裁量幅度等内容进行细化量化,以特定形式向社会公布并施行的具体执法尺度和标准[2]。可见,教育考试执法裁量基准作为一种具体执法尺度和标准,通过对法律法规规章中的原则性规定和具有一定弹性的执法权限、裁量幅度等内容进行情节细化、效果格化和程序制式化,实现教育考试执法裁量标准制度化、行为规范化、管理科学化,确保教育行政机关在具体行政执法过程中有细化量化的执法尺度目标。从制定主体上看,教育考试执法裁量基准一般应由教育行政部门制定,但教育考试机构也可在法律法规授权的范围内,并在教育行政部门的指导下制定相应的裁量基准;从制定程序上看,它需要履行相应程序并向社会公布;从效力位阶上看,它是对法律法规规章和上级规范性文件的具体解释和细化,不得逾越前者规定的幅度;从涉及范围看,以考试处罚为主,但也包括考试资格确认、考试成绩认定、考试监督检查、考试安全管理、考生权益保护等多个方面,详见表1。(二)教育考试执法裁量基准的功能当前,行政裁量基准已经在我国得到普遍应用,并在立法、执法、司法、守法等层面发挥作用,教育考试执法亦不应例外,理由包括以下四个方面。第一,教育考试执法裁量基准有助于弥补立法不足,提高考试立法的科学化水平。虽然《教育法》等相关法律法规在教育考试领域具有高位阶和高效力,但因其内容相对固定而不可避免地带来滞后效应和呈现抽象特征,使其难以应对复杂多变的现实情况,导致执行困难。在此背景下,教育考试执法裁量基准应运而生。它通过对法律条文进行细化和实操化处理,为执法提供明确标准,进而有助于正确处理稳定与变化之间的关系。具体来说,在教育考试执法实践中,由于法律语言的模糊性,以及对于“情节严重”等表述缺乏具体界定,导致执法人员拥有较大的自由裁量权,同时也给公众留下执法不够精确严谨的印象[8],甚至可能导致权力滥用。因此,出台教育考试执法裁量基准,有助于引导执法人员正确行使裁量权,有效弥补立法的不足,确保教育考试执法公平公正。第二,教育考试执法裁量基准有助于防止执法擅权,为考生权利提供额外保障。受传统行政管理思维的影响,一些教育考试执法人员超出立法本意,恣意对违纪和作弊的具体情形进行扩大化解释,或者不论作弊情形轻重与否,对作弊考生一律给予停考三年的处罚,导致考生的合法权益在不同程度上受到侵犯,对教育考试的公信力亦构成损害。教育考试执法裁量基准通过设定裁量标准、公示决策依据、明确裁量范围等措施,能够有效限制执法机关及其执法人员滥用自由裁量权,防止裁量中可能出现的同案异罚、因违反平等对待原则而损害实质正义等现象,有效实现前者的自我约束[9]。第三,教育考试执法裁量基准有助于量化司法标准,为司法审查提供参考。传统观念中,裁量不予审查是行政法的共识,行政执法裁量行为不受司法控制[10]。但这并不意味着行政执法裁量基准和司法不会产生联系,这种联系在教育考试类行政诉讼中有所体现。由于司法审查不可避免会涉及教育考试执法的尺度和标准,如果教育考试执法机关不制定裁量基准,就会产生对司法机关审查裁量权行使是否合理的质疑,进而引发司法干预行政的嫌疑。裁量基准的制定为法院提供了审查的客观标准[11],通过将教育考试执法机关的具体裁量行为转化为规范化文本,使司法机关可以将其作为司法审查时的参考,进一步促进司法公正和提高司法效率。第四,教育考试执法裁量基准有助于稳定结果预期,对行政相对人发挥教育作用。由于教育考试执法涉及对具体情形的深入分析和判断,教育考试执法人员需要在法律允许的范围内合理行使裁量权,这对其综合素质的要求极高。如果没有明确裁量基准,执法人员可能会受到个人理解、已有经验或情感等因素的影响,对相似案件或情形做出截然不同的处置。通过制定并公开裁量基准,执法过程变得更加公开透明,这既有利于提高教育考试执法的可预测性,增强结果预期的准确性,也使考生能够更清楚地了解执法依据和过程,提高执法决定的可接受度。通过公开裁量基准,使考生更易于接受处置结果的过程,这实际上也是一个普法教育的生动过程,可以提高裁量基准的制定质量以及为基准的实施营造良好的社会环境[12]。二、我国教育考试执法裁量基准制定现状(一)制定主体根据行政裁量基准一般理论,依法享有执法权的行政主体均有权制定行政裁量基准[13]。在我国,行政主体一般是政府行政机关,但少数经法律法规授权的其他社会组织也可被赋予行政主体地位。如《教育法》第二十一条规定,国家实行国家教育考试制度。国家教育考试由国务院教育行政部门确定种类,并由国家批准的实施教育考试的机构承办[6]。因此,教育考试机构是经法律授权的行政主体,依法享有教育考试执法裁量基准制定权。但由于我国尚未对行政执法裁量基准的制定主体做出统一限定,在实际操作中,各地有关裁量基准制定主体的规定有所不同,大致可以分为三类。一是上级行政机关具有制定行政裁量基准的指导权。例如,青海省规定省级行政机关有权制定行政裁量基准,下级机关需遵循上级机关制定的标准,或在上级机关仅进行原则性规定时,下级机关方可依此制定行政裁量基准[14]。二是上级行政机关具有制定行政裁量基准的优先权。如甘肃省规定,下级行政机关只能在上级行政机关对行政裁量基准进行制定后,方可制定对应基准,且必须与上级基准保持一致[15]。三是允许各行政机关结合实际制定裁量基准。如黑龙江省规定各级行政机关都有权力制定行政裁量基准,不同层级的行政机关可以根据各自职责制定相应的法律法规,其中包括行政裁量标准[16]。可见,除《教育法》和《办法》对我国教育考试执法裁量基准的制定主体做了一些限定外,各地还结合实际做出了一些个性化规定。(二)制定思路当前,我国国家层面和省级层面的教育考试执法机关均未针对教育考试执法领域制定明确的裁量基准。在此背景下,各省普遍选择将《办法》作为本区域内教育考试执法的基本依据。因此,《办法》在一定程度上承担着我国教育考试执法裁量基准的重要职责。通过深入剖析《办法》的文本内容,可以初步探索并理解我国教育考试执法裁量基准的制定思路和技术。首先,在裁量基准结构方面,我国教育考试执法裁量基准采用“违法情形列举+基准+适用指引”的思路。如《办法》第十条规定,考生有第八条所列行为之一的,应当终止其继续参加本科目考试,其当次报名参加考试的各科成绩无效;考生及其他人员的行为违反《中华人民共和国治安管理处罚法》的,由公安机关进行处理;构成犯罪的,由司法机关依法追究刑事责任[7]。其次,在细化裁量情节方面,主要采用“列举+兜底”的思路,即先列举常见违规和作弊行为,对于不能穷尽的,最后采用其他兜底。如《办法》第五条第九项、第六条第九项、第七条第五项、第八条第五项等均属于兜底条款。最后,在裁量效果设定方面,主要采用经验划分法。这种方法高度依赖执法人员的专业经验和主观判断能力,而非倚重于固定的技术框架,因而能够有针对性地提出具有普适性的关键指标和标准,确保执法的灵活性。如《办法》第九条第二款规定,视情节轻重,可同时给予停考一至三年,或者延迟毕业时间一至三年的处理[7],就是给专业经验发挥作用留有余地。(三)制定规范《教育法》《办法》的规定较为宏观和抽象,为裁量基准预留了大量空间。教育考试执法裁量基准不仅包括行政处罚,还应包括行政许可、行政确认、行政强制、行政检查等。但教育考试法律法规规章主要围绕考试行政处罚的主体、种类、情形和程序等做出规定,并未能实现对教育考试执法工作的全覆盖,从而形成“教育考试处罚=教育考试执法”的错误认识。因此,离开事实上的裁量基准,教育考试执法呈现的可能是八仙过海各显神通的场景。但在教育考试执法实践中,上述情况并未出现,主要原因是国家和省级教育考试执法机关在实际工作中普遍以正式或非正式方式制定了大量具有裁量基准性质或发挥裁量基准作用的材料(以下统称具有裁量基准性质的材料),以公告、通知、守则、工作提示等较为常见。例如,湖北省教育考试院在2023年高考前夕发布《考前提示》,强调考试过程中若发现手机,无论是否开机或使用,均按作弊论处;各科的选择题和非选择题都必须在专用的答题卡指定区域内作答,在试卷或草稿纸上作答的,答题一律无效[17];山东省教育招生考试院在《致2024年春季高考技能测试考生的一封信》中也指出,考试过程中考生如携带手机等具有发送或者接收信息功能的设备,无论使用与否,均将认定为考试作弊并受到严惩;试题、答题卡、草稿纸等均属于涉考材料,严禁以任何方式拍照传出或带离考场[18]。此外,省级教育考试机构印发的教育考试考务手册也是裁量基准的重要载体。这类手册不是正式文件,但在事实上发挥裁量基准的作用。因此,从形式上看,教育考试执法裁量基准是新生事物,但实际上教育考试执法机关已经进行了较长时间的实践探索,积累了比较丰富的经验。三、我国教育考试执法裁量基准存在的问题(一)主体不够明确在全国统一的教育考试执法裁量基准及其指导意见缺位的情况下,我国教育考试执法裁量基准呈现出各地各机构各自为政的复杂局面。一方面,从规范角度看,各级教育考试执法机关均未能制定出严格意义上的教育考试执法裁量基准,即缺乏以“裁量基准”明确命名的规范性文件。这反映出在教育考试执法裁量基准的制定过程中,缺乏明确的指导原则和统一标准,导致相关执法机关在裁量基准的命名和制定上呈现出较大随意性,进而影响了裁量基准的权威性和有效性。另一方面,从实证角度看,尽管尚未出台统一的教育考试执法裁量基准指导性文件,但在实际执法中,各级教育考试执法机关又在适时印发各种具有裁量基准性质的材料。这些材料在一定程度上为教育考试执法提供了依据和参考。但由于缺乏统一的制定标准、程序和必要的权威性,各地裁量基准在内容、标准和尺度上存在较大差异和不确定性。这不仅使不同地区、不同部门、不同考试的执法尺度和标准难以统一,影响了教育考试执法的水平公平,也容易激发社会矛盾,甚至滋生各种寻租行为,为不法分子提供可乘之机。例如,2011年某省教育考试院所属标准化考点越权制定事实上的裁量基准,对高考艺术类考生李某给予取消当年高考所有科目成绩的处罚,李某对处罚不服,遂对该标准化考场及教育考试院提起诉讼,法院最终做出责令教育考试院撤销处罚的判决,并提出关于完善行政处罚程序的若干司法建议[19]。这是裁量基准制定主体不明确情况下发生的典型案例。(二)程序不够规范行政裁量基准从性质上看,应当归为内部行政规范性文件。此类文件与一般意义上的行政规范性文件相对,是指上级行政机关对内部行政人员和下级行政机关的工作进行规范、指导和约束的行为准则[20]。根据这一定位,裁量基准的制定过程应严格遵循一系列法定程序,包括评估、征求意见、审核、审议及公布等;设计这些程序旨在确保制定行政规范性文件的程序正义,彰显裁量基准文本的合法性与合理性。然而,在教育考试执法实践中,裁量基准的制定鲜有能够完全履行上述程序者,体现出一定的随意性。以各省(市、区)在工作实践中发挥高考执法裁量基准作用的高等学校招生委员会发布的《关于做好普通高校招生工作的通知》为例,通常涵盖了考试、招生违规处理、信息公开、安全保密等执法事项,是教育考试执法的重要依据。然而,除了文件形成后根据《政府信息公开条例》进行公开发布外,并未看到有任何省份在文件制定过程中或公布前公开征求公众意见。例如,2020年浙江考生吴某曾以《2020年浙江省普通高校艺术类专业招生办法》在发布前未组织听证、公开征求意见等为由提起诉讼[21]。这反映出在裁量基准的制定过程中,存在明显的程序不规范问题。这不仅削弱了裁量基准的合法性和合理性基础,也影响了其在实际执法中的权威性和有效性。必要评估、征求意见等关键程序的缺乏,可能导致裁量基准内容与实际情况脱节,无法满足实际执法的需要;同时,也可能使公众对裁量基准的制定过程产生质疑,降低公众对教育考试执法工作权威性、专业性的认可。(三)内容不够合理裁量基准作为教育考试执法的重要依据,其内容的合理性直接关系到执法公平公正。当前我国教育考试执法裁量基准在内容上也存在一些问题,主要表现为情节细化考量因素单一和裁量阶次划分不科学。在情节细化方面,现行裁量基准往往过于简单粗糙、不够具体,未能充分考虑各种实际情况和个体差异。这种简单的处理方式无法有效应对教育考试中出现的多种违规作弊行为。例如,在涉及不同情节的违规作弊行为时,现行基准往往没有根据情节轻重进行细致区分,而是采取了一刀切的处罚方式。这种方式不仅可能导致处罚过重或过轻,影响执法的公正性和合理性,还可能因为模糊性和不确定性而给执法过程造成潜在风险,增加执法难度和不确定性。此外,在阶次划分方面,现行基准也缺乏科学性和规范性,主要表现为未能严格按照相关法规进行阶次划分,导致对不同情节和程度的违规作弊行为缺乏合理区分。例如,在作弊处罚方面,对于轻微、一般、严重等不同程度的违规作弊行为,基准往往没有明确的界定和区分,而是采取了一刀切的处罚方式;在评卷判分方面,对于美术类、主观题类试题等,基准往往不够科学或不具可操作性,容易导致执法过程中的不公平和不合理现象,损害考试公平性和公信力。近年来,各地因艺术类考试、主观题判分依据不合理或缺乏依据,处罚依据不充分等而引发的诉讼屡见不鲜。例如,浙江省美术高考生范某诉浙江省教育考试院案[22]、北京市硕士研究生入学考试考生任某诉北京教育考试院案[23],武某俊诉云南某大学行政处罚案[24]等,都与教育考试执法裁量基准内容不够合理和完善有关。四、完善教育考试执法裁量基准的建议举措(一)明确裁量基准的制定规则立法权限划分是立法体制的核心。行政立法作为执行性立法,同样应把权限划分摆在突出位置。没有行政裁量权,便没有裁量基准。针对当前教育考试执法裁量基准制定主体权限不明确的问题,应参照立法的宗旨和精神,对裁量基准的制定权限进行明确划分,形成层级裁量基准体系[25],即通过构建教育考试执法裁量基准的制定规则,使各级教育考试执法机关在制定裁量基准时有章可循、逐级递进。这是确保裁量基准合法、合理和科学的前提。首先,构建多层次制定体系是关键。省级以上教育考试执法机关因具备丰富的资源、人才和经验优势,应成为主导裁量基准制定的核心力量。同时,为确保基准的实操性,应吸纳基层教育考试执法人员参与制定过程,充分听取其实践经验与建议。其次,建立动态调整机制不可或缺。教育考试执法裁量基准的制定和执行是一个不断探索和完善的过程。在执行过程中,可能会遇到各种新的问题和挑战,需要根据实施过程中的具体情况,适时调整权限划分和基准内容,以达到通过增加动态要素形成要素间的协动机制来促进法律规范与现实相适应的目标[26]。这要求各级教育考试执法机关保持高度敏锐性和灵活性,及时收集和分析反馈信息,对基准进行必要的修订和完善。最后,强化监督问责机制是保障。通过强化监督问责,可以推动各级教育考试执法机关更加认真、负责地履行制定和执行裁量基准的职责,确保教育考试执法的公正性和权威性。(二)规范裁量基准的制定程序行政程序法具有公正价值、效率价值、秩序价值,其立法意义在于保障公民权利、提高行政效率[27],教育考试执法裁量基准亦不例外。如果抛弃提高行政效率这一要义,制定基准的必要性将被大大削弱。因此,提出规范裁量基准制定程序的建议,不是照搬照抄立法的程序性规定,而是结合教育考试执法的具体实际,对立法的程序性规定做出适当调整、简化,使之既符合立法精神,又契合教育考试工作实际。为实现合法、合理、科学制定教育考试执法裁量基准的目标,有三个环节需要重点考虑。一是评估论证。重点是评估该裁量基准的合法性、合理性,既应充分肯定裁量基准的积极意义,又应避免掉入“唯基准化”陷阱,导致基准成为教育考试执法活动正常开展的障碍。二是合法性审查。主要是依据《国务院办公厅关于全面推行行政规范性文件合法性审核机制的指导意见》[28]对各级教育考试执法机关制定的教育考试执法裁量基准进行审查,确保合法合规。三是公开发布。2021年修订的《中华人民共和国行政处罚法》明确规定行政处罚裁量基准应当向社会公布[29],因此除依法需要保密和不宜公开的文件资料外,教育考试执法裁量基准应主动予以公开。(三)优化裁量基准的具体内容优化裁量基准的选取与细化标准是确保教育考试执法公正、公平的关键。裁量情节作为影响最终处理决定的重要因素,必须予以全面考量。这要求教育考试执法机关在制定裁量基准时正确处理法定情节与酌定情节的关系,避免倚重单一因素导致决策偏颇。法定情节指法律法规明文规定教育考试执法机关在做出处理决定时必须予以考虑的情节,如是否非法获取考试试题或者答案、是否携带或者使用考试作弊器材(资料)、是否让他人代替自己参加考试或代替他人参加考试、是否组织团伙作弊、属于考试违纪还是作弊等,酌定情节则需基于一线执法经验灵活纳入考量。同时,法定情节与酌定情节应按比例原则合理裁量,确保裁量基准既具灵活性又不失原则性。例如,各地关于考生忘记携带身份证件的处理办法不尽一致,甚至出现因人而异的情况:有的考生直接被拒于考场外,有的考生被要求(请他人)将身份证件在考试结束前送至考场,还有的被要求在后续考试前带至考场即可等等。这些各不一致的处置办法给教育考试执法带来困扰,因此存在纳入裁量基准的必要。我国香港特别行政区考评局发布的《公正处理考试异常事件准则》将教育考试处罚种类按照情节轻重划分为警告、扣分、降低成绩等级、取消科目成绩、取消全部考试成绩五类;其相较于《办法》取消本科目考试成绩、取消全部考试成绩、取消考试资格三类,更加凸显比例原则。其中,扣分机制根据考生行为的危害程度、主观态度等情节扣除相应比例的分数作为处罚[30],具有一定借鉴意义。(四)提升裁量基准的实施效果提升教育考试执法裁量基准的实施效果是一项系统性任务,需要各方协作、共同完成,主要包括四个方面。一是加强培训与指导。实现教育考试执法人员培训和指导的全覆盖,提高相关人员熟练运用裁量权基准解决执法问题的能力,确保执法规范性和一致性。可通过定期举办培训班、研讨会等活动,使教育考试执法人员充分了解裁量基准的制定背景、内容和要求,掌握正确执法方法和技巧。二是强化监督与考核。聚焦主体的合法性、程序的正当性、内容的合理性,统筹基准制定的合规与灵活,统一和明确裁量基准的审查标准,做到审查标准不过细,范围不过度扩张[31]。应将裁量基准制定和管理工作纳入教育考试执法机关建设考评指标体系,通过定期检查和评估,确保裁量基准的有效实施,并对不符合要求的情况进行及时纠正。三是建立反馈与调整机制。定期收集和分析教育考试执法过程中的反馈意见,对执法裁量基准进行动态调整和优化,特别是为避免裁量怠惰、裁量僵化,要在裁量基准规范文本中合理设置逸脱条款[32]。四是注重运用现代科技手段。充分利用大数据、人工智能等技术对执法数据进行收集、分析和挖掘,为裁量基准的制定、实施和完善提供科学依据,从而达到提升裁量基准实施效果的目的。五、结束语中共中央、国务院印发的《法治政府建设实施纲要(2021—2025年)》提出,全面落实行政裁量权基准制度,细化量化本地区各行政执法行为的裁量范围、种类、幅度等并对外公布[33]。《教育强国建设规划纲要(2024—2035年)》进一步要求健全教育法律法规规章[34]。作为细化量化行政执法行为的重要抓手,行政裁量基准通过有效规范行政裁量权,可推动提升行政执法的质量和效能,切实维护人民群众合法权益[35]。教育考试执法裁量基准作为保障教育考试公平公正、提升教育考试执法效率的关键举措,其重要性毋庸赘言。通过精心构建制定规则、严格规范制定程序以及不断优化基准内容,能够确保教育考试执法裁量基准的合法性、合理性和科学性,从而为教育考试执法提供坚实的制度保障。同时,我们也应清醒地认识到,裁量基准并非万能之药,它既可以作为防范权力滥用的有效工具,也会由于过度裁量基准化而沦为执法工作正常开展的阻碍。因此,教育考试执法机关在探索制定裁量基准的过程中,应采取积极而审慎的态度。一方面,针对教育考试中呈现的地域间、不同考试间可能影响考试公平的差异性执法举措,应通过建立裁量基准进行积极干预,确保执法的统一性和公正性;另一方面,对于尚未对考试公平构成明显不利影响的执法举措,应遵守法律保留原则,即保留各级教育考试执法机关的自由裁量权和合理设置逸脱条款,以应对复杂多变的现实情况和防止行政权对立法权的僭越[36]。借助这种双向平衡,既能有效防止权力滥用,保障考试公平公正,又能确保执法工作弹性和效率,使之更加符合教育考试执法实际需要。参考文献略

王俊民 彭宗生:基于课程领域的批判性思维和创造性思维测评: 澳大利亚NAP-SL2023的经验及启示

2025-03-31

引用格式:王俊民, 彭宗生. 基于课程领域的批判性思维和创造性思维测评:澳大利亚NAP-SL2023的经验及启示, 2025(3): 81-91.作 者王俊民,重庆师范大学初等教育学院副教授。彭宗生,重庆师范大学初等教育学院在读硕士生。摘 要:批判性思维和创造性思维是学生核心素养的重要内容,也是拔尖创新人才必须具备的关键素质。如何测评批判性思维和创造性思维是推进义务教育改革和培养拔尖创新人才亟须解决的重要问题。澳大利亚NAP-SL2023项目将批判性和创造性思维融入国家科学素养测评项目,采用多种方式测评科学课程领域的批判性思维和创造性思维。该方案具有基于课程领域将两种思维整体性融入认知维度的特点,表现出思维测评情境化和基于特殊领域的趋势,在国际大规模学业测评项目中具有一定代表性。NAP-SL2023对我国基于课程领域开展批判性思维和创造性思维测评具有多方面的启示。关键词:澳大利亚;NAP-SL2023;批判性思维;创造性思维;科学素养测评引言2023年5月,教育部办公厅印发《基础教育课程教学改革深化行动方案》,要求以教学评价牵引基础教育课程教学改革,注重以核心素养立意的教学评价[1]。2024年3月,教育部部长怀进鹏在全国两会记者会上指出,培育和发展新质生产力,创新是核心要素,要通过教育来培养拔尖创新人才[2]。批判性思维和创造性思维是学生核心素养的重要内容,也是拔尖创新人才必须具备的关键素质。如何测评批判性思维和创造性思维是深化义务教育课程教学改革、培养拔尖创新人才亟须解决的重要议题,也是国内外学者关注的热门话题。在国际上,尽管不同学者对批判性思维和创造性思维的定义各有侧重,但典型的测评工具主要从两种思维的过程和核心特点出发进行测评[3]。例如,国际上使用较为广泛的托兰斯创造性思维能力测验(The Torrance Tests of Creative Thinking)主要通过言语测验、图形测验、声音和词测验开展创造性思维测评[4];加利福尼亚批判性思维技能测验(California Critical Thinking Skills Test)通过基于实例分析的标准化考试测查大学生和高中生的分析、评价、解释、演绎等思维能力;美国教育考试服务中心(ETS)编制的HEIghten批判性思维测试主要考查大学生的分析与综合能力[3]。这些测评工具虽然得到较为普遍的认可和应用,但存在独立于课程领域、与学科内容和学生日常生活脱节等现象,并可能导致思维训练的形式化、机械化和目的虚化等问题[5]。一些学者对一般性测评的局限性展开了反思性研究。例如,一些研究发现,将批判性思维拆解为不同维度进行独立测评可以有效测量知识和基本认知能力,但不适用于高阶综合能力的测评[6-7];由于创造力所需的知识结构、特质和技能在不同领域具有较大的差异[8],因此对创造力的研究应该从一般性转向特殊性领域[9]。一些学者或项目探索研制了基于特定领域的批判性和创造性思维测评工具。例如,蒂鲁内(Tiruned)等基于物理学电磁学知识开发了测评大学生物理批判性思维的测试[10];萨克(Sak)等基于生物、物理等五个科学学科开发了面向六年级学生的创造性科学能力测试(Creative Scientific Ability Test)[11];而PISA2021从文字表达、视觉表达、社会问题解决和科学问题解决四个维度测量学生的创造性思维水平[12]。上述测验或项目使批判性和创造性思维测评与学科内容和学生的日常生活相联系,探查特定情境下学生的高阶思维发展水平,得到了广泛应用。它们为基于课程领域,尤其是科学课程开展批判性和创造性思维大规模测评提供了新思路。我国心理学界较早关注批判性和创造性思维,测评工具中既有对西方测量工具的修订或改编,也有基于本土文化开发的针对性测评。例如,罗清旭对加利福尼亚批判性思维技能测验进行了翻译和修订[13],张德琇开发了面向小学生的创造性思维潜能测验[14],郑日昌和肖蓓苓[15]、骆方和孟庆茂[16]等都开发过面向中学生的创造性思维测评工具。这些工具被广泛应用于教育教学改革和创造性人才培养与评价等多个领域,进一步推动了我国早期的批判性和创造性思维研究。特殊领域的批判性思维和创造性思维测评在2000年以后才逐渐引起学界关注。近年来,有关创造力、批判性思维的研究工具和成果逐渐增多。其中,申继亮、胡卫平、林崇德编制的青少年科学创造力测验具有良好的信效度[17],先后被改编、施测于土耳其、马来西亚等国家的中小学生,在国际上具有一定的影响力;彭运石、王玉龙从模型建构、测评工具研制及应用等方面,对社会科学、自然科学等多个领域的创造性人格进行实证研究[18];殷莉莉在借鉴加利福尼亚批判性思维技能测验的基础上,结合化学学科知识开发了化学批判性思维测试[19];胡欣阳、姚晓红基于科学课程领域开发了高中生批判性思维测评工具并进行实证研究[20-21]。综合来看,有关批判性、创造性思维的测评研究正从关注一般性转向强调特殊领域,基于课程领域开发情境性测评工具已经成为国际研究的新趋势。然而,现有研究和项目主要将批判性思维和创造性思维进行独立测评,且多局限于小规模或小范围测评,在国家课程、大规模学生学业测评项目中的应用还十分有限,相关研究结果和结论尚不充分,实践经验还比较缺乏。在学科课程领域,如何将两种思维融入具体课程并开展科学评价还是一个具有挑战性的任务。2023年,澳大利亚国家测评项目(National Assessment Program,NAP)首次将批判性思维和创造性思维融入科学素养测评项目进行考查,为基于课程领域的批判性思维和创造性思维大规模测评开辟了新的实践路径[22]。本文以澳大利亚2023年NAP科学素养测评项目(NAP-Science Literacy 2023,NAP-SL2023)为研究对象,对其批判性和创造性思维(critical and creative thinking,CCT)测评框架、测评方式、试题及显著特征等进行深入分析,以期对我国学生核心素养发展背景下的批判性和创造性思维测评开展提供参考借鉴。一、NAP-SL2023项目概述NAP-SL是由澳大利亚课程、评估和报告管理局(Australian Curriculum, Assessment and Reporting Authority, ACARA)开发和管理的全国性科学素养测评项目,属于抽样性监测。该项目每三年开展一次,自2018年开始测评对象为六年级和十年级学生,主要目的是监测学生的科学素养发展情况。2019年12月,澳大利亚全国教育委员会发布了《爱丽斯泉(姆帕恩特韦)教育宣言》[The Alice Springs(Mparntwe)Education Declaration,以下简称《教育宣言》],其远景目标是将澳大利亚课程打造成为世界一流水平[22]。作为国家课程实施效果监测的一部分,NAP-SL2023通过监测学生的科学素养进步状况以评价《教育宣言》目标的达成情况。因此,NAP-SL2023测评框架设计的主要依据是国家课程《澳大利亚课程:科学》[The Australian Curriculum: Science,以下简称《科学课程》]。图1为NAP-SL2023项目的基本框架,主要由内容维度和认知维度构成[22]。其中,内容维度包括《科学课程》中的内容领域(content domain)、关键概念(key ideas)、跨学科优先事项(cross-curriculum priorities)、通用能力(general  capabilities)四部分内容,由于后三者具有跨学科性质,主要通过融入内容领域的方式进行间接考查,但通用能力也可以与认知维度对应进行考查。(一)内容领域内容领域是《科学课程》的核心内容,包括科学理解(science understanding)、作为人类活动的科学(science as a human endeavour)和科学探究(science inquiry)三个维度,每个维度都以核心概念(core concepts)的形式呈现具体内容,见表1。科学理解指应用科学知识解释和预测现象,并将这些知识应用于新的情境中,包括生物、化学、物理、地球与宇宙科学四个学科分支的十个核心概念。作为人类活动的科学指科学的本质,包括科学的本质和发展、科学的应用与影响两个子维度共五个核心概念。科学探究关注科学家研究自然世界的不同方式,并基于证据提出解释,包括提问与预测、计划与实施、处理数据和构建模型及分析、评价、交流五个二级维度共六个核心概念。NAP-SL2023将NAP-SL2018测评框架中的科学探究技能改为科学探究,意在强调科学探究包括技能和认知两个方面[22]。(二)认知维度认知维度在NAP-SL2018中已经提出,旨在明确学生作答过程中的思维技能,其设计主要依据学生应用科学知识、科学探究的方式及认知复杂性,同时借鉴包括布卢姆教育目标分类学在内的认知理论框架,以及澳大利亚课程中关于批判性和创造性思维认知过程的描述。与NAP-SL2018相同,NAP-SL2023中的认知维度包括了解和应用程序,推理、分析和评价,综合与创造三个方面,并明确描述了批判性和创造性思维与认知维度的对应关系,为其融入科学素养测评提供了框架。(三)关键概念、跨学科优先事项和通用能力NAP-SL2023将关键概念、跨学科优先事项和通用能力作为与内容领域并列的内容维度列入测评框架,这一维度具有跨学科性或通用性,因此其测评主要通过内容领域实现。关键概念本质上是科学课程领域的跨学科概念,具体包括模式、秩序和组织,形式与功能,稳定与变化,比例与测量,物质与能量,系统等六个关键概念,主要基于科学理解进行考查。跨学科优先事项属于科学与人文的融合,包括土著和托雷斯海峡岛民历史和文化、澳大利亚与亚洲的交往、可持续性三个方面,主要基于三大内容领域进行考查。通用能力指澳大利亚国家课程提出的七种通用能力,分别是读写、计算、数字素养、批判性和创造性思维、伦理理解、跨文化理解、个人与社会能力(相当于我国的核心素养),主要通过学科课程教学实现。NAP-SL2015和NAP-SL2018都曾经尝试将通用能力融入科学素养测评,但最终只是作为间接内容在试题和背景材料以及科学探究考查过程中有所呈现[23]。NAP-SL2023首次将批判性和创造性思维这一通用能力作为重点内容纳入科学素养测评。二、NAP-SL2023批判性和创造性思维的界定及其与认知维度的关系(一)批判性和创造性思维的界定澳大利亚课程、评估和报告管理局2024年发布的测评报告指出,批判性思维涉及学生分析和评估可能性、构建和评估论点以及使用信息、证据和逻辑得出合理结论和解决问题;创造性思维要求学生产生新的想法,考虑不同的解释和可能性,并将知识和技能转移到新的和不熟悉的环境中[24]。这与澳大利亚官方课程网站对批判性和创造性思维的界定基本一致。该课程网站将批判性思维和创造性思维整合为一个通用能力,即批判性和创造性思维,包括探究(inquiring)、生成(generating)、分析(analysing)和反思(reflecting)四个连续要素,其在科学素养测评框架中的体现见表2[25]。由表2可以看出,批判性思维和创造性思维相互交织,共同体现在四个要素中。虽然创造性思维主要体现在生成要素中,但在探究和反思中也有一定的体现,如创造性地提出问题和探索概念。从科学课程的视角来看,批判性和创造性思维的四个要素在结构上的连续性与科学探究的要素具有对应关系。批判性和创造性思维嵌入提问和预测、制订计划和实施探究、分析和评估证据以做出决策和得出结论等科学探究要素;创造性思维使个人新的想法得到发展,是科学理解发展的内在本质[26]。这就将批判性和创造性思维与科学探究过程中的思维活动、科学理解等联系起来,为科学素养测评中考查批判性和创造性思维提供可能。(二)批判性和创造性思维与认知维度的关系NAP-SL2023认为,批判性和创造性思维的各个方面都源于科学探究和科学思维中固有的重要认知技能,因此,批判性和创造性思维通过认知维度整合到NAP-SL2023项目,同时与科学探究和科学思维紧密联系。NAP-SL2023列出了三个认知维度的具体内容以及对应的批判性和创造性思维要素或子要素,表3仅列出推理、分析和评价认知维度对应的具体内容。可以看出,推理、分析和评价维度包括比较、对比和分类、表征等七个认知领域,每个认知领域对应批判性和创造性思维的一至三个要素。例如,表征对应批判性和创造性思维的探究和反思两个要素,并明确说明对应的子要素。由此,当科学素养测评考查认知维度相关内容时,实际上也就对应地考查了批判性和创造性思维。综合来看,澳大利亚课程对批判性和创造性思维的界定以及NAP-SL2023的认知维度建构使科学素养测评中考查批判性和创造性思维成为可能,为基于课程领域测评批判性和创造性思维评价提供了新路径,并可融入教师的课堂教学。(三)批判性思维和创造性思维作为整体进行测评的合理性NAP-SL2023将批判性思维和创造性思维作为整体并转化为认知维度融入中小学生科学素养测评项目,与澳大利亚国家课程的设计及其对通用能力的界定紧密相关。首先,两者的高相关性决定其可以作为整体进行测评。从哲学或心理学的角度看,批判性思维旨在分析问题,创造性思维旨在解决问题,两者既相互关联,又在问题解决过程中交替进行[27]。有研究提出,批判性思维是创造性思维的基础和前提[28]。实证研究发现,创造性思维和批判性思维在解决问题中具有互补作用,都是创新的关键要素[29-30],在非常规问题解决过程中,两种思维的相关系数更高[31],表明两者在问题解决过程中进行整体组合评价具有合理性。澳大利亚国家课程指出,虽然批判性思维和创造性思维不能互换,但它们密切相关,都是学生应对21世纪复杂环境、社会和经济压力必须具备的核心能力[25]。从通用能力在课程领域的体现来看,批判性思维和创造性思维被嵌入到科学探究的过程中,也体现了两种思维在问题解决过程中的相互关联。其次,澳大利亚国家课程设计及其对通用能力的界定需要将两者统合测评。将两种思维融入课程领域开展测评在国内外研究中虽有先例,但将两者作为认知维度融入学科素养测评还较为少见。美国哲学会于1990年发布的批判性思维德尔菲报告得到广泛认可,报告指出批判性思维可分为认知技能和人格倾向两个方面[32]。目前,学者们已就批判性思维认知技能的存在及其内涵达成共识,包括分析论据、主张或证据、归纳或演绎推理、判断或评价、作出决策或解决问题等[33]。该共识在澳大利亚通用能力批判性和创造性思维的要素中得以充分体现,且较好地对应了澳大利亚科学素养测评的认知维度,尤其是推理、分析和评价。针对创造性思维,有研究从过程视角出发,认为创造性思维涉及批判性思维的客观分析[34]、建立联系[35]、形成想法或假设、验证假设、交流结果、修改或重新验证假设[36]等多个思维过程,在澳大利亚通用能力批判性和创造性思维的生成要素中得以体现,较好地对应了澳大利亚科学素养测评的认知维度,尤其是综合与创造维度。综合来看,NAP-SL2023更多关注批判性思维认知技能和创造性思维过程,因而能很好地将两者进行整合并作为认知维度融入测评框架。三、NAP-SL2023批判性和创造性思维的测评试题设计澳大利亚NAP-SL2023已实现基于计算机的测评全覆盖,利用新技术手段使图片、动画、音频、视频以及其他网络媒体资源等都成为可能的背景素材,不仅扩大了材料选择范围,而且拓展了评价的内容范围和题型,拓宽了试题的任务复杂度,使以往难以考查的过程性能力和难以捕捉的思维变化得以呈现,极大地丰富了批判性和创造性思维的测评空间。(一)测评形式NAP-SL2023的测评形式包括基于计算机的客观测试、探究任务和问卷调查。六年级学生完成客观测试和探究任务限时60分钟,十年级学生限时75分钟,调查问卷没有严格的时间限制,计划用时约为20分钟[24]。客观测试主要以试题单元的形式呈现,即围绕一个情境素材设计1~5个小题,考查所有内容维度。为了拓宽情境素材、评估内容以及学生作答时所需的认知复杂度范围,NAP-SL2023继续加强信息技术在测评中的应用,主要包括:1)更多采用视频或动画来呈现背景素材及相关题目信息,减少学生的阅读负担;2)将多种信息来源或媒体数据视为评估科学与社会之间互动的情境素材;3)采用预测—观察—解释的模式,要求学生对某个事件做出预测,观察令他们惊讶的视频或动画,最后补充或改变他们的观点。信息技术增强的测评手段使学生在与现实世界相关的真实情境下解决问题,为客观考查学生的批判性和创造性思维提供了更多空间。探究任务也是基于计算机完成,侧重于无法在较短的任务或项目中有效或高效考查的科学探究要素。NAP-SL2023加强对控制变量以外的其他科学探究方法考查,如观察、分类、模式识别和建模等,极大地拓展了认知维度的考查范围,使批判性和创造性思维的评价更加全面和深化。学生问卷主要调查学生对科学本质的理解和科学态度相关信息,同时了解其校内外科学学习经历,涵盖作为人类活动的科学、学生的科学参与度、科学的教学与学习三个主要方面。NAP-SL2023特别新增了批判性和创造性思维相关内容,包括学校教学中对学生批判性和创造性思维的培养、解决问题时的自我效能感、校外活动对学生批判性和创造性思维的影响、学生对批判性和创造性思维价值的态度,以及学生参与批判性和创造性思维活动的情况。(二)测评题型为了充分考查学生的认知维度及批判性和创造性思维,NAP-SL2023主要采用建构类题型和中等约束题型,同时保留了一定的开放题。其中,建构类题型要求学生通过生成一个回答做出反应,如填空、填表、简答等;中等约束题型介于高度约束的选择类题和完全开放题之间,既能较大限度地考查学生的认知水平,又能实现计算机系统自动评分,如交互式匹配选择(选择单词填空)、交互式匹配拖放(选择文本或图像拖放)、下拉菜单选择等。(三)试题样例分析以NAP-SL2023的一道科学试题[24]为例,分析其如何在科学素养测评中实现对批判性和创造性思维的考查,该题同时面向六年级和十年级学生。试题单元:分解土壤中含有一种被称为“分解者”的生物,指以动植物等生物的遗体、残骸、粪便等为食的生物,它们能分解不同的物质。“分解者”包括:1)食用以上物质的昆虫和蠕虫等动物;2)真菌和细菌,他们会分泌化学物质在体外分解以上物质。图2的土壤中含有分解者。能被分解者分解的物质被称为可生物降解物质。一组同学想要研究以下每种材料(见图3)的可生物降解性,他们计划将大小相似的材料碎片同时埋在潮湿的土壤中。问题1:同学们决定通过记录每种材料的观察结果来收集数据,其中一名同学希望每小时记录一次观察结果。但在这个探究任务中,这个时间间隔不合理,请你说明原因。(1分)问题2:确定一个适当的时间间隔来记录每种材料的观察结果并说明理由。(2分)问题3:同学们在透明的塑料片上打印边长5毫米的网格。在12周后,探究即将结束前,网格塑料片被放置在每种材料上,同学们数出材料分解的方块数量。下列表格(表4)显示了探究结果。在探究之前,同学们预测食物会比其他材料更容易被生物降解。同学们的预测正确吗?请根据探究结果用证据支持你的观点。(2分)具体而言,问题1和问题2要求学生批判性地思考收集准确数据的方法、识别提议方法的不足之处,并提出更有效的替代方案。考查的内容维度为科学探究的计划与实施,对应的认知维度为推理、分析和评价。从批判性和创造性思维的视角来看,这两个问题分别考查探究和生成两个要素,问题1对应子要素为识别、处理和评估信息,问题2对应子要素思考替代方案。题型均为建构类试题,具有一定的认知复杂度。问题3要求学生批判性地分析给定的数据表格,判断探究结果是否支持预测。根据数据表格,食物确实比某些非食物物品(例如塑料和铝箔)更容易生物降解,但一些非食物材料(如纸板)也更易于生物降解。因此,如果学生只是简单地认为预测正确或不正确,表明他处理复杂数据的能力还有待提高,只能获得部分分数。问题3考查的内容维度为“科学探究的处理数据和构建模型及分析”,对应的认知维度为“推理、分析和评价”。从批判性和创造性思维的视角来看,问题3主要考查批判性思维,题型为建构类试题,具有较大的认知复杂度。四、启示当前,我国正在积极推进核心素养导向的基础教育课程改革,批判性思维和创造性思维以学科核心素养形式被融入学科课程内容。例如,《义务教育科学课程标准(2022年版)》将科学思维作为核心素养维度之一,包括模型构建、推理论证和创新思维三个方面[37],主要对应批判性和创造性思维的内容。借鉴澳大利亚NAP-SL2023项目基于科学素养测评考查学生批判性和创造性思维的经验做法,对于我国开展相关领域的评价工作具有以下三个方面启示。第一,立足学生核心素养发展目标,构建基于课程领域的显性化思维测评体系。当前,我国虽然强调发展学生的批判性思维和创造性思维,但从课程设计来看,并没有明确批判性思维和创造性思维的内涵、关系及其在学科课程的表现形式。以义务教育阶段的科学课程为例,虽然科学思维是批判性思维和创造性思维的集中体现,但学科视角下的教学与测评更加关注模型建构等子要素,忽视问题解决过程中的思维连贯性,从而导致无法从整体上把握批判性思维和创造性思维,也不利于复杂情境下的高阶思维能力教学与评价。立足学生核心素养发展目标,在国家课程中应明确界定批判性思维和创造性思维,并将其与学科课程标准的核心素养维度进行对应,使其在具体课程领域进一步显性化。此外,在科学教育等学科质量监测框架中基于问题解决过程构建连贯的思维测评框架,使其在学科素养测评中显性化,更好地引导学科教学关注批判性和创造性思维。第二,兼顾拔尖创新人才选拔和培养的需要,建立学生批判性和创造性思维的评价体系。拔尖创新人才培养是当前我国教育强国建设的一项重要任务,批判性和创造性思维是拔尖创新人才必须具备的关键素质,也是基础教育阶段人才早期识别与培养的重要指标。现阶段,我国还没有构建起系统的批判性和创造性思维教学与评价体系,不利于收集思维发展的相关证据以支持拔尖创新人才的早期识别与培养。在此基础上,一方面要基于具体的学科课程领域构建测评框架和情境化试题,以清晰地探究学生在特殊领域中两种思维的发展水平;另一方面,要采用国际公认或基于本土文化开发的一般性思维测评工具收集反映学生一般性思维的数据,整合测评数据系统刻画学生两种思维的发展全貌。第三,响应教育评价数字化转型发展要求,应用新技术手段创新试题情境及评价方式。随着人工智能技术的飞速发展,教育评价与人工智能深度融合已成为教育评价改革的主流趋势,人机交互的情境化试题将成为批判性和创造性思维测评的重要方式,基于计算机交互任务的创新思维能力测评研究[38]近年来相继出现。今后一段时期,批判性和创造性思维测评可基于人工智能等新技术手段,应用多种形式的背景素材,丰富试题情境,创新评价方式,积极开发基于本土文化背景的人机交互试题,从而实现对思维过程的深度考查。参考文献略