首页    >    教育资讯    >    教育科学研究详情

基于数字化设备的中小学生科学素养评测设计

2022-08-08

基于数字化设备的中小学生科学素养评测设计

作者:湛蓝  柏毅  东南大学脑与学习科学系

   //  【摘要】:科学素养是当前科学教育领域关注的重点概念,它既是学生自身成长的需要,又是国家社会对人的素质要求。《义务教育科学课程标准(2022年版)》倡导提升学生科学素养,这进一步凸显了科学教育的重要地位。设计适合义务教育阶段的科学素养评测方案具有推动科学教育发展的现实意义。纸笔评测无法实现对探究实践等要素的评价,而数字化设备以其定量直观、实时准确的优势,逐渐进入科学教育工作者的视野。笔者认为在评测中运用计算机和数字化设备,将虚拟情境和真实情境结合,能使学生的探究更接近科学本质,为科学素养评测工作提供极大的助力。

一.  国际科学素养评测现状

随着社会与科技的发展,众多组织和学者从不同的层次和角度对科学素养的定义进行归纳与完善。笔者综合国内外学者和我国课程标准对科学素养内涵的定义,兼顾评测实施的可操作性,在本文中主要关注学生能否借助科学知识和科学过程来了解自然的奥秘,能否应用科学素养来从事各种科学研究。

为了了解学生科学素养情况,众多组织和研究者进行了评测方案的研发。目前有三项大规模样本的科学素养评测在国际上具有广泛的影响,它们分别是国际学生评估项目(The Program for International Student Assessment,PISA)、美国国家教育进步评价(National Assessment of Educational Progress,NAEP)和国际数学与科学趋势研究项目(The Trends in International Mathematics and Science Study,TIMSS)。早期项目的形式主要是纸笔测试,随着信息技术的发展,研究者逐步开发了基于信息和通信技术(Information and Communication Technology,ICT)的单元评估。2009年,NAEP率先尝试基于计算机情境评测,加入了计算机交互任务(Interactive Computer Task)和动手操作任务(Hands-on Task),创设虚拟的任务情境,评估学生的问题解决能力,并于2019年完成从纸笔测试到基于数字的评估的过渡。PISA于2012年引入了基于计算机的评估平台,用于问题解决、数学和数字化阅读三个方面的测试。随着评估框架的更新调整,新项目的开发均是基于计算机平台。虽然纸笔评估至今仍然是一种选择,但大多数国家都选择在计算机平台上实施和交付整个评估。TIMSS在2019年也进入了计算机评估系统研发的初始阶段,最新的TIMSS 2023手册表明该项目将于2023年完成升级。仅使用计算机平台创设虚拟情境难以全面评测学生的科学素养,开发者还应该考虑科学探究的真实性和可操作性。为此,研究团队构建相应的探究实验平台,并将数字化设备引入评测体系,以便学生在真实情境中自主探究,在实践中评估操作水平,从而填补科学素养评测的缺口。

. 基于数字化设备的科学素养评测方案

《义务教育科学课程标准(2022年版)》在“评价建议”中倡导教师采用非纸笔测试的方式,重点评价学生的科学探究能力、技术与工程实践能力、创新解决实际问题的能力等。因此,数字化设备进入科学素养评测非常符合新课标的精神。以下,笔者结合东南大学百研工坊科学教育团队开发的评测方案,论述数字化设备与学生科学素养评测深度融合的方式。

(一)数字化设备在科学素养评测中的应用

数字化设备是一种建立在测量技术上的检测装置,能将模拟信号转换成数字信号输出。笔者所述数字化设备指的是将信息技术、网络技术和传感器技术等相结合的一系列工具(如图1),即为完成评测而采用的传感器、数据采集器、计算机和配套应用软件。

179.png

1 数字化设备运行模式

其工作原理如下:传感器将采集的信息转化成电信号,数据采集器将电信号转换成数字信号反馈给计算机软件,最终通过数字化信息系统实验室(Digital Information System Laboratory,DISLab)系统将实验结果以可视化图形呈现。借此,学生可以快速采集实验数据、监控信号量的实时变化数据,完成监测、统计、绘图和分析工作。数字化设备具有定量、直观、实时、准确等特点,是改进传统实验耗时长、器材多、步骤繁、不精确等缺点的重要手段。教师使用数字化设备可以有效提高学生的数据处理、模型建构、科学推理等能力。数字化设备在义务教育阶段科学教学中应用广泛(见表1)。

表1 数字化设备及其适用的科学实验

180.png

(二)科学素养评测理论模型

1.ECD概念评估框架

百研工坊的科学素养评测方案是依据ECD(Evidence-Centered Design)模型设计的。ECD模型是由梅斯雷弗(Robert J. Mislevy)等人开发的系统性评价设计的模式,经过多年的研究与发展,该模型被广泛用于PISA、NAEP等国际评测项目。ECD模型有五个层次的测试开发:领域分析、领域建模、概念评价框架、评估预实验、评估交付。其中,概念评价框架通常有五个子模式:学生模式、证据模式、任务模式、组合模式和呈现模式(如图2)。学生模式涵盖了学生应掌握的知识,相当于评测目标与内容,即“我们能测量什么”;证据模式指所选的实验范式,相当于评测手段和方式,即“我们如何测量”;任务模式指具体情境的选择,即“任务的框架和情境是什么”;组合模式则表明了前三种模式是如何相互结合的;呈现模式指的是评价实际采用的具体方式,如纸笔、实验操作、计算机交互等。这些子模式协同构建了一个科学完整的评价框架。

181.png

图2 ECD概念评价框架

 

在评测方案中,静态评估和计算机交互任务都在计算机上呈现,而动手实操任务借助的是数字化设备搭建的实验平台。研究团队参考NAEP中富技术环境(Technology-Rich Environments,TRE)下关于问题解决的研究方法,应用学生模式和证据模式设计了基于数字化设备的科学素养评测目标(见表2)。学生模式下的评估目标由科学探究能力(又分为知识探索能力、综合推理能力)与信息技术能力组成。证据模式下的评估目标则是针对不同情境、不同方案进行不同的细节划分,如分为知识点掌握、实验探究步骤、应用技术手段等内容,其中特别增加了对数字化设备操作的考核要求,由主试者评分。

 

表2 基于数字化设备的科学素养评测目标

182.png

2.项目反应理论Rasch模型

研究团队设计新方案的另一个重要的理论基础是项目反应理论(Item Response Theory, IRT)。它是当前评测项目中的常用理论,弥补了经典测量理论的项目依赖性与样本依赖性等不足,其科学性主要体现在:被试者的能力评估值与评测的具体内容无关,即不考虑测量误差时,从不同难度和内容的评测项目中所得到的能力评估值是相同的。此外,被试者的能力分布也不影响项目参数,这对于评测方案的质量检验和结果分析非常有价值。

    Rasch模型是丹麦学者乔治·拉希(Georg Rasch)基于IRT提出来的一种潜在特质模型,它是一个单参数IRT模型。Rasch模型的优势在于:(1)项目参数具有不变性,即进行Rasch分析时不需要较大的样本量;(2)特征参数具有不变性,即特征参数的估计与测量项目是没有关系的,回避了经典测量理论中项目依赖的问题;(3)可以分析多级评分项目,例如主观题的评分。Rasch模型是一个理想化的数学模型,它的运用需要满足两个前提条件:一是对于任何被试个体,在难度低的题目上的表现要好于在难度高的题目上的表现;二是对于任何题目,能力水平高的个体要比能力水平低的个体有更大可能回答正确。Rasch模型公式如下:

183.png

其中,Pni表示被试n正确回答问题i的可能性,Bn表示被试的能力,Di表示问题i的难度。

 笔者分析时,将被试者的原始成绩转换为logit分数(即线性数据,例如4级记分法:回答不正确记0分,答对30%~60%记1分,60%以上记2分,完全正确记3分),将被试者的能力水平和题目难度放在同一水平标尺上进行直观准确的比较,从而客观地对评测方案检验分析。

3.Logistic模型

Logistic模型也可作为测评方案的质量检验工具,用于估计评测方案中各题的区分度、难度系数、猜测系数。20世纪50年代美国学者伯恩鲍姆(Birnbaum)在正态肩型曲线模型基础上提出了Logistic模型,适用于记分为对或错的二级记分试题。Logistic模型表达式如下:

184.png

其中θ为能力参数,a为区分度,b为难度系数,c为猜测系数(不会随着能力水平而变化),D为常数,取D=1.7,当c=0时可得到二参数模型,当c=0且a=1时可得到单参数模型。图3为三参数模型的项目特征曲线,纵坐标代表被试正确作答该题的概率,拐点的θ值为项目难度参数,拐点处的斜率表示项目的区分度a。

185.png

图3 三参数Logistic模型的项目特征曲线

 模型的优选一定要基于一定的理论依据与实践研究。研究者需要对预实验数据进行模型拟合度测试,选择更适宜的Logistic参数模型进行参数估计,从而完成评测方案的质量验证。

 

 

(三)平台功能与方案实施

1.评测平台

 笔者基于信息通信技术和传感器技术构建了科学素养评测平台,包括评测试题模块(如图4)、实验评分模块(如图5)以及系统管理模块(如图6)。评测试题模块为被试者呈现试题信息和操作要求;实验评分模块可实现对部分静态评估题自动评分,其他题型如简答题、实验操作题由主试者赋分;系统管理模块具有用户管理、数据查询、数据存储的功能,主要优势在于主试者不用即时评分,后台实时生成数据报表,协助后期数据挖掘工作。三大模块协调衔接,为后续评测奠定了扎实的基础。

图4 评测试题模块页面

186.png

5 实验评分模块页面

187.png

6 系统管理模块页面

2.评测内容与维度

评测内容的设计非常关键。研究团队依据《义务教育科学课程标准(2022年版)》,参考国际科学素养评测项目框架和命题思路,使评测内容与相应年龄段学生的认知发展水平相适应,从个人、社会和全球视角审视,聚焦现实世界中自然资源、环境等方面的问题,如清洁能源、温室效应等。此外,科学素养评测的四个维度(PISA2015科学素养评估框架:能力、知识、态度、情景)在方案中都有体现:在情境上参考了PISA任务背景的分类维度(区域/国家/全球层面,自然资源/物理/科技前沿等),科学态度则是以发放人口学调研问卷的形式收集,科学知识和科学能力两个维度在试题的主体部分进行考评,呈现方式包括静态评估题(如选择题、简答题)、计算机交互任务、实际操作任务等。

3.实施过程

笔者将计算机任务情境与学生操作相结合进行评测,让被试者根据页面呈现的试题信息作答。对于实验操作题,被试者需要选取器材,组建装置进行实验。传感器将数据实时传输到计算机的配套应用软件上,由被试者处理分析。在这一过程中,主试者使用标准引导语引导被试者作答,并根据评分细则对实验操作项打分。与纸笔测试和单纯的机试相比,数字化评测效果更佳,能全面地衡量学生知识的掌握和探究实践能力的发展水平,实现对学生科学素养的综合考评。 

(四)评测数据的分析与处理

 信效度分析是评测方案开发的重要一环,评测方案必须经历多次理论论证和实践评估并加以改进才能完成交付。科学可靠的方案将为ICT评估的发展和数字化科学素养评测系统的完善提供有力的支持。

1.评测数据的预处理

数据预处理的步骤包括缺失值填补和数据筛选。为了尽可能利用测试数据,教师可使用SPSS软件中的EM填补法或平均值填补法完成数据缺失值的填补,后续对评测总分进行样本Z分数的计算,将异常数据值剔除。

2.信效度分析

笔者完成数据预处理后,使用SPSS软件进行正态性检验、信度分析与相关性分析,从而检验方案的信效度。首先,笔者根据样本量选择W检验或D检验,确定PISA效标卷总分和评测方案总分是否符合正态分布;然后,对方案总体及各因子使用克隆巴赫α系数信度估计方法,判断内部一致性与稳定性的情况;最后,检验PISA效标卷与评测方案的外部相关性,确定评测方案是否具有较好的效标关联效度。

3.Rasch模型数据分析

除上述方法外,结合Rasch模型进行试题要素分析也是验证评测方案科学性的方式之一。在数据预处理后,笔者使用Winsteps软件对方案进行整体质量检验,根据拟合指标判断题目的拟合情况;然后,实施单维性检验,根据标准残差图判断方案是否考评了被试者同一潜在特质;根据怀特图中数据点的分布情况,检验题目难度与被试者能力的匹配程度;最后,运用项目拟合、气泡图等进一步分析,对难度不合理、拟合度较差的题目予以修改保留或舍弃。笔者以某地区六年级学生的科学素养评测数据的气泡图为例进行简要分析(如图7),气泡与题目一一对应,气泡直径代表该题的标准差,纵坐标代表题目难度,横坐标代表Outfit MNSQ(即拟合度检验的未加权均方拟合统计量),该值在0.5~1.5则表示题目满足拟合要求。从图7中可以清晰地判断出,该评测方案大部分题目都在合理的区间内,但第5、6两题超出可接受的范围,与模型预期不太拟合。此外,第13、14题的气泡半径明显大于其他各题,说明在检验被试者能力水平时误差较大,需要查阅题目对其进行修改或删除。

188.png

7 气泡图

4. Logistic模型数据分析

 教师评测试题质量还可以采用项目反应理论Logistic模型,该模型适用于二级评分试题。笔者首先检验数据是否符合单维性假设,方法有定义分析法、探索性因子分析法等,假设成立则可以进行参数估计;通过拟合度检验选择更合适的Logistic模型进行参数估计,绘制出项目特征曲线,考虑修改或删除不符合项目曲线规律的题目;然后通过信息函数曲线判断该方案所适合的学生的能力水平;最后对能力值进行估计,优化评测题目(如个别题目的表述、答案设置等)从而使方案更加完善。以某评测方案的项目特征曲线为例,笔者调用R软件TAM package中的plot函数绘制项目特征曲线(如图8),编号S1-1-1的题目为标准项目特征曲线,同时查找该题的难度系数与区分度,结果各参数均在可接受范围内,而编号S4-3的图像平缓接近直线,说明区分度过低,需要对题目进行修改,S6-3-3则为反向的项目特征曲线,不符合检验规律,应考虑删除该题。

189.png

8 部分题目的项目特征曲线

. 反思与展望

随着信息技术在教育教学中的应用普及,PISA、NAEP、TIMSS等国际科学素养评测项目大力发展均得益于用计算机评估任务,而国内传统的以纸笔测试为基础的评价方式存在滞后性和模糊性。笔者基于数字化设备开发评测方案为我国中小学开拓了科学素养评测研究的新范式。

该评测方案不仅创设了与生活环境密切相关的真实任务,评测形式也超越了以往的简单测量,走向静态评估单元、计算机交互任务、动手实操任务的多元化发展方向,在这个方面,ICT技术与数字化设备充分发挥各自的优势,奠定了良好的技术基础。此外,已开发的评测方案覆盖了科学三大领域,研究者可将各方案灵活组合、简化或拓展,调整计分规则,使其适用于各种规模、范围的科学素养评测,建立学段和地区的评价数据常模,从而切实推动科学教育的发展。

研究团队在科学素养评测领域开展了一些探索工作,取得了相对成熟的成果。在之后的研究中,笔者一方面会对已有的方案继续改进,另一方面将面向更多年龄段、涉及更多领域、开发更多主题的子系统,为深入研究我国学生科学素养奠定良好基础。

 

注:本文发表于中小学数字化教学,2022(07):5-810摘录于:百研工坊。