工作动态    >    工作详情

范佳荣 等:指向学科核心素养的数字化测评工具设计——以初中物理科学探究素养为例

2024-12-06

中国考试  2024年12月03日 14:32 北京

引用格式:范佳荣, 赵雪妍, 钟绍春. 指向学科核心素养的数字化测评工具设计: 以初中物理科学探究素养为例[J]. 中国考试, 2024(11): 55-66.

作 者

微信图片_20241206182511.jpg

范佳荣,吉林师范大学新闻与传播学院讲师。

微信图片_20241206182518.jpg

赵雪妍,东北师范大学信息科学与技术学院在读硕士生。

微信图片_20241206182525.jpg

钟绍春,东北师范大学信息科学与技术学院教授,教育部数字化学习支撑技术工程研究中心主任(通信作者)。

摘 要:随着新版义务教育课程标准的颁布,学科核心素养培养成为教育教学的核心。传统测评方式难以准确反映学生的学科核心素养水平,数字化测评工具则为突破该难题提供了路径。本研究在分析国内外学科能力与素养数字化测评相关研究的基础上,围绕测评工具的构成要素与学科核心素养水平构建了学科核心素养导向的数字化测评框架;以初中物理学科科学探究素养为例,研制了数字化测评工具;编制相应核心素养数字化测试题并进行质量分析,得到的难度、区分度、信度等各项指标良好。研究结果对于广大教育研究者转变教育测评范式具有启发意义。

关键词:学科核心素养;测评工具;数字化测评;初中物理

以数字化和信息化为基本特征的新一轮科技革命和产业变革加速推进,智能时代已经到来。个体无法仅依靠基础知识和技能应对各种复杂的新问题和新场景,而是需要更复杂的综合能力与核心素养。在此背景下,我国将核心素养贯穿于基础教育学科教学过程,提出了学科核心素养。在以此为导向的新一轮课程改革中,学习测评由考查学生的知识掌握与应用水平,扩展为对于知识、能力、学科思维等核心素养培养情况的全面评价。学科核心素养是指学生在学科学习中,通过思考、探究、推理、反思等深度学习过程中的学习体验与感悟而形成的知识结构、解决问题的能力,以及稳定的学习品格[1]。学科核心素养具有复杂性、内隐性特点,如何在测验中实现对学科核心素养多方面要素的评价,成为一项具有挑战性的任务。


一直以来,纸笔测验是教学实践中最常见、最主要的评价方式。尽管纸笔测验方式在目前仍具有优势,但其局限性也逐渐显露[2]。例如,标准化纸笔测验难以提供直观、形象的测试情境,难以了解学生内在的思维变化过程[3]。人工智能、大数据等技术作为教育系统性变革的内生力量,推动了教育理念、学习范式、治理模式等全方位的教育变革和体系重构,为突破传统纸笔测试局限提供了可能。以深沉浸、强交互、自动化、虚拟化为特征的增强现实测评和智能化测评,为指向素养的测评提供了超越传统测验的手段和途径。目前,指向学科核心素养的数字化测评已成为教育技术研究领域的热点和难点,测评工具设计是其中具体化、操作化的关键过程。因此,本研究在综述相关理论和已有研究成果的基础上,设计指向学科核心素养的数字化测评工具,并以初中物理学科的科学探究核心素养为例,分析其有效性。

一、学科能力与素养数字化测评研究现状


数字技术对核心素养测评产生了深刻影响,开发基于计算机的数字化测评已成为当前国际教育评价变革的趋势。PISA2015首次将计算机测评引入科学、阅读、数学等评估框架中,PISA2018将阅读载体扩大至屏显文本和录音、电影、电视、动画等视觉语言[4]。PISA2021创造性思维测评要求学生在由触摸屏和标准台式计算机等组成的测评平台上完成复杂的交互任务[5],利用数字技术测评学生的跨学科核心素养。国际数学与科学趋势研究项目(TIMSS)于2019年宣告采用基于计算机的测评方式,即e-TIMSS测评[6]。澳大利亚国家评估项目(NAP)也充分利用信息技术开发新型试题,并于2015年首次使用计算机完成科学素养测评项目(NAP-Science Lit­eracy,NAP-SL),测评形式主要包括目标测试、探究性任务和问卷调查三种。2018年的NAP-SL同样全部借助计算机完成,将探究任务嵌入到虚拟实验中,通过技术手段呈现相应现象或操作,使探究性任务更加逼真、交互性更强[7]。芬兰赫尔辛基大学建立了一套综合的学会学习(learning to learn)核心素养测评框架,内容包含与情境相关的信念、与自我相关的信念及学习能力,其中前两部分主要采用计算机化量表进行测评,学习能力则通过学生在数字化认知任务中的表现进行评定[8]


除大型测评项目外,Shen等基于网络的科学探究环境WISE平台,开发了一套以渗透作用为问题情境、涉及多学科知识主题的测评工具,用于评估大学生的跨学科理解水平[9]。Stoeffler等提出一种基于游戏的协作问题解决技能评估方法,要求参评学生与虚拟代理进行互动,以解决迷宫环境中的一系列挑战,通过日志文件、点击流、人机交互和项目响应数据对学生内在认知与心理过程动态变化的问题空间进行表征,由此评估学生在协作问题解决中的技能、行为和过程[10]。Atesgoz等设计动画场景评估儿童在开放型任务中的科学创造力[11]。Shute等将评估嵌入“物理游乐场”游戏环境中,通过收集学生在运用物理知识应对不同关卡时的表现性数据,评估初中生的创造性潜力[12]。齐宇歆基于对PISA评价模式的细致分析,设计了学习素养评价系统,并应用于初中数学学科[13]。王飞将协作评估任务以游戏形式嵌入测评系统,促使学习者在协作过程中展现多方面能力,以支持对协作学习能力的评估[14]


从世界范围来看,尽管数字技术还未大规模进入基础教育测评领域,但利用数字化工具开展指向学生素养的测评已成为诸多国际测评组织和研究者主攻的热点,智能化评价范式开始流行。而在我国各地开展的基础教育质量监测工作中,纸笔测评仍是主要的测评手段,在考查学生素养方面存在局限。在数字化时代,进一步发挥计算机和互联网在数据收集与分析方面的优势,是对当前仅凭作答结果评分的测验体系的有效补充。因此,设计指向学科核心素养的数字化测评工具、实现基于人机交互的教育测评,是学界亟待深入探讨的研究课题。

二、指向学科核心素养的数字化测评工具设计框架


数字化测评工具主要指基于计算机交互的测试题,开展对于高阶思维等认知与非认知能力的评价,能够更加全面、真实地反映学习者的内在素养。参考已有研究,一个测试题的构成要素主要包括情境、条件、任务、问题四个方面[15]。情境主要指任务的背景和执行主体、问题提出的环境,表现为人物、场景、事件等;条件主要指可以介入某个问题情境的媒体形式,以及可以嵌入问题解决的工具,其中,媒体形式包括文字、数字、图表等,工具包括虚拟仿真工具、绘图工具、学科工具等;任务指学生需要完成的事项,体现对学生应有学业表现的一种预期;问题主要指试题中明示或需要提炼的需求、需要解答的疑问等。测试的构成要素如图1所示,一个任务中可以包含多个问题,厘清问题是完成任务的前提。学科核心素养导向的数字化测试工具是传统测试题的创新形式,也应围绕情境、条件、任务、问题四个基本要素进行设计。


微信图片_20241206182842.jpg

为激发学生学科核心素养表现,需要创设真实的测评情境。情境为连接现实生活和学科领域提供了载体。Wiggins认为,考查学生在与现实社会生活相同或相似情境中表现的任务,才是有价值的任务,是真实性任务[16]。因此,真实测评情境是数字化测评工具的基础,越是与学生日常生活紧密相关的情境,越能够帮助学生形成问题解决的积极心理倾向,引导学生形成发现问题、提出问题、分析问题、解决问题的思维逻辑,促进学科核心素养的逐层深化。


学科核心素养数字化测评工具需要设计基于递进式问题链的表现性任务。教育评价是一种基于证据的推理过程,即通过学生在某些任务上的表现来推断他们在教育建构上的特征或能力水平[17]。由此概念出发,学科核心素养测评需要明确素养的内涵、构成及其表现期望(即测评指标体系),厘清不同素养水平对学生认知能力的要求,以及能够有效引发学生素养表现的典型任务情境及其特征。因此,以情境为背景,设计能够反映学生学科核心素养水平的任务是关键。而在每个任务中,以真实、连续、递进的问题链为主线,建立层次合理、清晰的问题体系,能够有效引导学生由浅入深、循序渐进地完成知识建构,逐层推进问题解决,是数字化测评工具的核心。


依据学科能力水平划分的现有研究成果[18-19],结合布卢姆认知目标分类理论[20],将学生学科核心素养表现分为学习理解、应用实践和迁移创新三个层次。其中,学习理解水平对应学习的意义建构阶段,属于知识的简单运用形式,意在掌握知识;应用实践水平对应学习的能力生成阶段,属于知识的综合运用形式,意在内化知识;迁移创新水平对应学习的意义升华阶段,属于知识的高阶运用形式,意在知识迁移。以此为基础,通过改变试题的结构化程度及其涉及的因素数量和关系,可以在指向学科核心素养的数字化测评工具中设计三类任务,即学习理解型任务、应用实践型任务、迁移创新型任务。其中,学习理解型任务表现为课程学习问题或生活实践问题的简单关联,结构良好,任务与问题明确;应用实践型任务表现为复杂的课程学习或生活实践问题,需要整合不熟悉的直接经验或间接经验;迁移创新型任务表现为复杂的实践探索问题,具有一定的创新性与开放性。将这三类任务建立多节点、多联结、多层次的关联关系,可以在不断变化的情境中拓展问题解决的意义,深度评价学生的学科核心素养水平。


另外,学科核心素养测评还需要嵌入可操作的数字化技术手段作为支撑。为了捕获学生问题解决过程中的关键事件和状态变化,需要在设计测评工具时加以规范,确保测验形式结构化、系统化,为提取测量证据、进行数据分析奠定基础[21]。数字技术不仅使丰富的问题情境建构成为可能,还能够通过计算机实时记录学生的操作行为和作答过程,从中提取关键行为特征,方便统计学生的学科核心素养表现。因此,可操作的数字化技术手段嵌入是实现精准评价的保障。


综上,指向学科核心素养的数字化测评工具整体设计思路为:1)深刻分析所要测量的学科核心素养的内涵与特征,明确其测评指标体系;2)针对知识的学习理解、应用实践与迁移创新三层面,从创设真实测评情境出发,顺应情境任务合理提问,寻找问题与不同素养点下属指标之间的契合点,使具体问题对应学生学科核心素养的不同指标,从而构成系统、连贯的任务,并通过具体问题之间承上启下的关系帮助学生获得完整的问题解决体验[22];3)根据每个任务的要求或设问,嵌入虚拟仿真实验室、图像绘制、思维导图等可操作的技术手段,以记录学生在具体问题上的作答过程,反映其在各素养点上的表现情况。具体设计框架如图2所示。

微信图片_20241206182921.jpg

三、指向初中物理科学探究素养的数字化测评工具设计思路与案例


基于上述学科核心素养导向的测评工具设计框架,以初中物理学科科学探究素养为例,阐述数字化测评工具的设计思路,设计指向科学探究素养的数字化测评工具并给出样例。


(一)工具设计思路

科学探究是人类探索自然、获取科学知识的主要方法。在物理学科中,科学探究素养重点关注学生在实验和实践层面关键能力的发展,要求学生使用科学方法和工具独立思考,探究物质本质和规律,从而对解决科学问题建立起宏观、系统的认识。


从问题解决的视角看,科学探究素养是在物理实际情境中发现问题、收集证据、形成结论、解释结果等方面的能力。指向科学探究素养的数字化测评工具应基于科学实验的过程进行设计。那么,首先就要创设真实的物理实验情境,在情境中设置测评科学探究素养不同能力水平的任务。根据上述素养表现的三层次,可将初中物理课程中的科学探究素养分为三个水平:一是学习理解水平,具体包括根据控制变量法制订实验方案、正确使用实验仪器、正确读取和记录实验数据、通过展示和简单数据处理得出实验结论等;二是应用实践水平,即在具体的生活或科技情境中提出科学探究问题,作出合理的猜想与假设,制订探究方案,收集并利用数据,进行因果判断和分析;三是迁移创新水平,即基于新的应用场景和已学实验,提出物理问题,制订新的实验方案,完成实验验证,形成书面报告。据此,设计对应的学习理解型、应用实践型和迁移创新型任务,并根据任务要求,适当嵌入虚拟仿真实验室等数字技术手段,改变传统填空、简答和计算的实验题形式。其中,学习理解水平任务的问题主要是让学生在虚拟环境中操作学过的实验,利用实验结论回答一些简单问题;而应用实践水平任务和迁移创新水平任务的问题主要是强化科学探究,给学生一个教材外的情境,让学生在已学实验的基础上进行探究,给出实验设计方案和结论等,二者的区别在于情境复杂度、陌生程度不同。这样的数字化测评,不仅能收集到传统测评的学生答案,还能采集到学生利用虚拟仿真工具进行探究的过程数据。基于以上分析,指向科学探究素养的数字化测评工具设计思路如图3所示。

微信图片_20241206183000.jpg

(二)工具设计示例

指向学科核心素养的数字化测评工具页面主要分为任务描述、实验操作和作答三个区域,任务描述区域描述任务背景、任务要求等,呈现形式主要为文字和图片;实验操作区域包括设置区和实验区,学生可以在设置区调节实验参数,在实验区完成操作、观察变化;作答区域呈现问题,学生对应题号作答。整个工具页面都围绕测评任务这一核心,因此,任务编制是测评工具能否有效评价学生核心素养的关键。本研究基于指向科学探究素养的数字化测评工具设计思路,呈现以下任务示例。


1.学习理解型任务示例

科学探究素养的学习理解型任务对应实验操作题,选取学习内容“凸透镜成像规律”设计测评任务,如图4所示。该任务从凸透镜成像规律的应用(近视眼和远视眼的成因)出发设置问题,不仅考查学生是否熟悉已学实验的探究流程和规范、能否制订简单的科学探究方案,还考查学生能否分析和处理信息、提取事物或过程的本质特征以得出结论,考查学生对物理规律的认识。

微信图片_20241206183033.jpg

2.应用实践型任务示例

科学探究素养的应用实践型任务对应交互探究题,选取“固体与液体的密度”这一知识点设计测评任务,如图5所示。在该任务中,学生需要在已学实验的基础上,发现并提出物理问题,根据已有经验作出假设,选取能够测量和计算出石块密度的实验材料进行组合,设计问题解决方案;通过虚拟仿真实验获得数据并进行描述与分析,根据实验结果建立合适的模型来描述和解释现象,最终形成结论,解决问题。

微信图片_20241206183103.jpg

3.迁移创新型任务示例

科学探究素养的迁移创新型任务对应交互探究题,选取“不同物质的导电性”这一知识点设计测评任务,如图6所示。学生在此之前已经学习了物体导电性实验,该任务则创设陌生情境,要求学生对学习过的物理实验进行迁移和创新应用,需要学生合理选择实验器材,对比多组数据来检测不同水样的导电性能,熟练掌握导电性能强弱的多种表现形式,利用控制变量的思想,基于多个角度分析、解决生产生活中的复杂问题。

微信图片_20241206183134.jpg

四、指向初中物理科学探究素养的数字化测试题编制


为了对学生的素养进行完整、系统的测评,需要进一步丰富情境化测评任务,将数字化测评工具设计框架细化形成可用于施测的数字化测试题,具体包括初步编制、修订、质量验证三个重要环节。


(一)数字化测试题的初步编制

依据初中物理新课标要求,参考国内初中物理练习测试题及中考试卷,借鉴国外大规模学生素养评估项目中的数字化测评试题形式,围绕初中物理学科核心素养的学习进阶,考虑试题形式、试题属性、评分规则三个方面,在物理学科教研员的指导下,编制了指向初中物理科学探究素养的数字化测试题初步版本,共包含14个任务。


1.试题形式

以符合学生认知心理特征的情境为背景,嵌入图片、视频等媒体及虚拟仿真实验室、思维导图等工具,设置试题形式为数字化情境任务,每个任务中包含若干问题。在试题情境选择上,本研究参考相关研究成果,创设日常生活类、科技类、环境与自然类三种情境类型[23-24],相关界定如表1所示。

微信图片_20241206183205.jpg

2.试题属性

试题属性主要描述试题的各种性质和关系,包括形式属性、自然属性、统计属性和内容属性。其中,形式属性主要是指试题的题型、分值等;自然属性是指编制时间、人员、版本等;统计属性是指试题难度、区分度等;内容属性则包含试题考查的目标和知识能力等[25]。试题的内容属性是试题编制的核心,在编制过程中,应当给定每道题目指向的知识点、能力素养水平等。据此,本研究在编制测试题时为每道题目标定的属性包括考查的知识要素(如牛顿第一定律)、关联的学科核心素养水平(如学习理解水平)、题型(如交互探究题)。


本研究邀请五名具有多年教学实践经验的初中物理教师和教研员组成标定小组,共同商讨并确立指向科学探究素养学习理解水平、应用实践水平和迁移创新水平的表现标准。小组成员根据不同水平的行为表现,对每个任务及具体问题所测量的核心素养水平进行标定。对标定不一致的题目展开讨论,至少三人统一意见后方可定论。最终,使每项任务中的每个问题都能确定对应的知识要素、学科核心素养水平及题型。


3.评分规则

若一项任务包含多个问题,且每个问题都有标准答案,则对每个问题分别进行0/1计分;若一项任务属于主观建构的开放式任务,则采用分步计分法,将作答情况分为完全错误、较差、较好、非常好四个等级,由低到高依次计分为0、1、2、3,教师依照教学和评价经验判断等级并进行赋分。


(二)数字化测试题的修订

与传统纸笔测验的开发流程基本一致,编制数字化测试题也需要通过预测试来完善题目和测验质量。本研究在长春市、苏州市两地分别选取一所区级中学,从初三年级中各随机抽取一个班进行分层抽样,基于成绩划分不同层次,在每个层次中抽取相同数量的学生,以减少成绩带来的偏差,最终共有30名学生参与预测试。使用ConQuest软件进行题目难度估计及拟合指标检验,若0.7<MNSQ<1.3,|ZSTD|<2,则符合rasch模型的各项拟合指标[26]。对于指数不在该范围内的试题,考虑删减或修改。试题难度及拟合指标结果见表2。

微信图片_20241206183239.jpg

由表2可见,14个任务的加权MNSQ、未加权MNSQ取值均在0.7~1.3之间,大部分题目的|ZSTD|小于2,数据拟合较好。任务2和任务7加权和未加权的ZSTD皆不在理想范围,二者分别从物质主题、能量主题对指向科学探究素养的应用实践水平进行测查。结合本测验的诊断性目的,仍保留这两道试题,但对题目作出如下修改:第一,针对任务的不同难度,设定测试时间,要求学生在规定时间内完成;第二,针对报告撰写类任务,在题设要求后附上评分参照,如可从背景、影响和损害、原因分析、应对措施等方面撰写。


(三)数字化测试题的质量分析

为了进一步确认测试题的质量,对苏州市一所区级中学的90名初三年级学生实施测验,检验试题的难度、区分度、信度、效度等主要指标。同时,在其中随机抽取10名学生,对他们和任课教师进行半结构化访谈,获取质性评价以佐证数据结论。


1.难度与区分度

项目难度系数是影响被试正确作答概率的主要属性,对于某个任务,如果大部分学生都能答对,特别是在其他任务上表现不佳的学生也能答对,难度就小,反之难度就大。根据教育测量的一般原则,试卷整体难度应在0.40~0.65之间,大部分试题的难度应分布在0.30~0.80之间[27]。根据表3中的数字化测试题难度系数结果,最难的试题难度系数为0.21,最简单的试题难度系数为0.80,难度分布在0.30~0.80之间的试题有12道,占比86%,整份试卷难度为0.53,表明该测试题难度适中,能够反映学生的真实素养水平。

微信图片_20241206183312.jpg

区分度表示测验题目能在多大程度上区分所要测量的心理特质,区分度高的题项能将表现优秀、一般、差三个层次的学生按一定比例分布。参考已有文献,高于0.40表示区分度非常好,0.30~0.40表示区分度良好,0.20~0.30表示区分度一般,低于0.20表示区分度较差[28]。根据表3中的数字化测试题区分度系数结果,测评工具整体区分度为0.39,区分度良好。所有题目的区分度均大于0.20,达到合格以上标准。


2.信效度

信度是反映试题可靠程度的重要指标,信度越高表明试题测量误差越小。本研究中数字化测试题的总体内部一致性α系数为0.88,表明该测试题具有较好的信度。


效度是反映试题有效性的指标,根据测试题设计思路与特点,在此主要关注测试题能否测评学生的学科核心素养,并不涉及内在结构是否一致的问题,即关注试题的内容效度。一方面,本研究中数字化测评工具的设计具有良好的理论基础和原则依据。本研究的测试题编制是在初中物理新课标对科学探究素养的目标与要求指导下,综合科学探究素养学习质量标准,针对具体核心素养特点,参考国内外测评项目经验进行的。另一方面,在测试题编制过程中邀请了一线教师、教研员进行评估,一定程度上保证了测评工具的内容效度。因此,本研究编制的测试题能够应用于初中物理学科核心素养常态化测评。


3.访谈分析

在半结构化访谈中,与学生的访谈内容主要包括试题难度、试题的可用性和可读性等方面,与教师的访谈内容主要包括试题与初中物理科学探究素养指向性的匹配度、试题呈现形式的优势和不足等方面。


对学生受访者的回答进行分析,主要归纳出如下观点:1)测试题整体具有一定难度,但其中也有一些基础理解和应用考查点;2)突然由传统的纸笔考试转变为数字化形式,学生一开始难以进入状态;3)数字化测试题的可读性不如纸笔考试试卷,但可用性强,学生在日常课堂中对完成数字化测试题的积极性更高。


对教师受访者的回答进行分析,主要归纳出如下观点:1)测试题有助于学生进一步细化和明晰具体的学科核心素养,帮助他们发现自己在解决实际问题、完成复杂任务过程中的薄弱环节;2)测试题涉及作图、实验、简答等常见的物理学科题目类型,也结合具体情境给出了适合学生进行高阶思维逻辑运演的任务,体现了物理学科的科学探究素养;3)测试题中包含学生没有训练过的陌生任务,促使学生结合已有知识仔细观察、思考并解决问题,能够更深刻地反映学生的思维发展水平;4)数字化测评形式解决了学科核心素养导向的常态化测评难以实施的问题,但其界面交互设计还可以进一步优化。


综上,受访者普遍认为指向初中物理科学探究素养的数字化测试题质量可靠,与教师的深入访谈也表明试题具有较好的内容效度,能充分反映学生真实能力,可以在一定程度上衡量学生的学科核心素养水平。

五、结束语


传统认知测验利用试题评价学生的认知反应,而指向学科核心素养的测评需要依托具体情境,从测评“知道什么”转向测评“运用知识能做什么”,要求学生对习得的知识技能、思维方法、情感态度等进行灵活运用。为此,本研究将学科核心素养考查蕴含在学生系统性、创造性解决情境性问题的过程中,利用任务刺激学生的行为反应和表现,设计指向学科核心素养的数字化测评工具。具体来说,在分析已有研究的基础上,搭建了学科核心素养数字化测评工具设计框架,并以初中物理科学探究素养为例,阐述了数字化测评工具设计思路、给出了示例,编制数字化测试题,验证了数字化测评工具的目标指向性和信效度。本研究对指向学科核心素养的数字化测评工具的设计与验证,拓展了数字化技术在指向学科核心素养的教学评价中的实际应用,对于广大教育研究者转变教育测评范式具有启发意义。


然而,由于时间和条件的限制,本研究中数字化测评的表现性数据主要依靠仿真软件和学科工具获得,测试样本较小,尚不能完成基于全样本、全过程、全景式的教育数据采集,也不能对学生行为表现的全过程进行跟踪分析。在未来研究中,可以探索如何在数字化测评工具中嵌入可穿戴传感、视频采集、体感交互等其他自动的采集装备与技术,在不增加师生负担的前提下提高多模态学习过程数据获取的便利性,在不同的学习场景中结合各类行为数据与学习过程中累积的日志类环境数据,进行自动化数据标注、融合、分析与解释。


参考文献略。