首页    >    教育资讯    >    教育考试研究详情

几种增值评价方法的对比分析及实证研究

2022-09-26

陈安琪 关丹丹:几种增值评价方法的对比分析及实证研究

124.png

原文刊载于《中国考试》2022年第9期第54—62页。

作者

125.png

陈安琪,教育部教育考试院研究实习员。

126.png

关丹丹,教育部教育考试院副研究员。

摘要探索增值评价是深化新时代教育评价改革的任务之一。为研究常见增值评价方法在实际应用中的有效性,选取30所学校共34830名高三年级学生的2次数学考试数据作为样本,分别使用标准分法、效应量法、分层回归法及学生成长百分位法计算增值效应,以评价不同学校及不同特征群体的增值表现。结果显示:增值评价能够提供区别于结果评价之外的有效信息,拓宽了评价学校整体表现的视角;较其他增值评价方法,学生成长百分位法可以较好地解决优秀学生进步空间受限等局限性。增值评价在实践中尚存在诸多探索空间,但也要注意应慎用增值评价的结果,使用时应结合其他评价指标作为综合参考。

关键词教育评价改革;增值评价;学校评价;分层回归法;学生成长百分位法

 

正文

0 

引言

2020年10月,中共中央、国务院印发《深化新时代教育评价改革总体方案》,明确坚决克服“五唯”顽瘴痼疾,扭转不科学的教育评价导向,更好发挥教育评价的指挥棒作用,其中提出的“改进结果评价,强化过程评价,探索增值评价,健全综合评价,充分利用信息技术,提高教育评价的科学性、专业性、客观性”[1]为指导教育评价改革提供了方法论。
  与传统评价相比,增值评价是一种理念的创新,其不再仅仅“以结果论英雄”,而是将结果与之前基础作比较,通过二者的差距,判定评价对象的进步水平[2]“增值”的基本价值在于提供教育主体(包括教师、学校及其所在区域等)对学生表现的贡献的最公平的信息。计算“增值”最简单的方法是比较学生的基线成绩与当前观察到的成绩,以确定他们在一定时间内成绩的增长情况。增值评价将学生的基础特征在统计上进行均等化,是评估教师、学校及其所在区域工作质量的有效措施,对提高教育质量、促进教育公平、优化教育教学管理、改进教学实际等具有重要参考价值。增值评价能够反映真实的教育成果,进而辅助实现资源合理分配并满足社会公众监督的效果。
  增值评价模型最初应用于商业和经济领域,19世纪后期,随着教育研究工作者开始使用这些模型来衡量教师的绩效,有关教育增值评价的研究便如雨后春笋般蓬勃发展起来。如今,世界各地的学校系统越来越多地使用学校增值模型和学生标准化测试来监测和评估学校的表现。这些模型旨在衡量学校对学生学习的影响,即学校实现的增值,典型的例子包括澳大利亚、智利、英国和美国的问责制度。以美国为例,为了衡量教师的教学成效,美国各州和学区开发应用了不同类型的增值模型,如田纳西州增值评估系统(Tennessee Value-Added Assessment System,TVAAS)和达拉斯增值问责系统(Dallas Value-Added Accountability System,DVAAS)等,这些模型的共同假设是,学生在校的学业表现能够反映其接受的教学质量。在美国,许多州已经实施了基于增值的评估系统,2015年有41个州建议在人力资源决策中使用增值分数或有关学生成长的其他衡量标准[3]。增值模型能够帮助教育评价工作者从学生的绝对水平中识别出相对进步,进而分离出反映优质教学实践如有效利用的课堂时间、清晰和结构化的课程、教师的专业发展、以立德树人为导向的氛围、良好纪律的课堂环境等方面的教学成果。近年来,在评估教育主体和教学项目时使用增值方法作为考试成绩平均分替代方法的重要性上,国内外学者已达成了统一认识,但目前对于如何最好地估计增值分数还没有达成共识。目前,较常使用且易推广至实践的4种方法为标准分法、效应量法、分层回归法及学生成长百分位法,本研究比较这4种方法的计算原理、使用范围和优劣势,并辅之以真实数据的实证对比,以期为一线教育评价工作者提供参考。

1 

4种增值评价方法的比较

 

1.1 标准分法

  将当前成绩与基线成绩相减再进行数值比较是计算增值的一种直观方法。由于2次成绩存在分数分布和相对位置的差异,需要将2次分数进行数据标准化处理。数据标准化是将数据集中的每一个数据减去均值后除以标准差,变换后的数据集均值均为0,方差均为1,即经过数据标准化之后,数据集特征有了相同的变化范围。增值分计算公式如下:

127.png

1.2 效应量法

  效应量大小可以描述均值之间的差异,其中Cohen’s d值常用于计算效应的标准化平均差。Cohen将2组样本观察值之间的标准化平均差称为ds[4]。因此,增值分的计算即为样本2次分数的平均值之差,再除以二者的联合标准差,计算公式如下:

128.png

与标准分法类似,效应量法对学校均值的直接计算同样会损失学生个体差异信息。

1.3 分层回归法
  分层回归法考虑数据的嵌套结构,并能够在组织数据的多个层级上同时提供效果估计。具体而言,将学生后测成绩作为因变量,将学生前测成绩作为预测变量,学校实际增量与理论增量的残差值即为学校对学生成绩影响的效能[5]。分层回归法还可以将学生背景信息等因素纳入考虑,捕捉“组合”效应(如更好的家庭学习环境会有利于学生进步等),从而提供对学校增值效能更加准确的估计。具体模型如下:

129.png

其中,i代表学生,j代表学校,t代表年份,γ为学校层的均值,μ为学校层的随机效应,ε为学生层的随机效应,yijtj学校的i学生在第t年的成绩,β为学生在第t年成绩的斜率。
  得到每个学生的增值分后,按学校进行平均值计算即可得到对应学校的整体增值分,同时可以计算学校增值分的区间。一般而言,若95%置信区间的下限大于0,则认为该学校实现正增值,显著高于平均水平,对学生成绩整体有积极影响;若95%置信区间的上限小于0,则认为该学校实现负增值,显著低于平均水平,对学生成绩整体有负向影响;若0位于95%置信区间内,则认为该学校为零增值。
  分层回归法虽然避免了损失学生的个体进步信息,但因为其将单个学生的实测成绩与预测成绩对比衡量增值,仍会面临增值评价中的天花板效应,即优秀学生因增值空间有限而不可能获得较大进步幅度,进而得到较低增值评价结果的现象[6]。该方法对教育评价工作者的统计分析技能有一定的要求。

1.4 学生成长百分位法
  学生成长百分位法将学生与同水平学生进行对比判断增值,为解决优秀学生绝对增长空间不足的问题提供了新视角。学生成长百分位(student growth percentile,SGP)将同等水平学生作为比较群体以量化学生的进步,即将学生某项分数的变化与上一次具有相似分数的其他学生的此项分数的变化进行比较。百分位数表示低于某个特定分数的人数百分比,如一名学生5年级数学的SGP为90,说明他从四年级到五年级的数学成绩进步超过90%的同等水平学生(具有相似分数历史的学生)。学生成长百分位从1到99不等,数字越大代表成长越快。
  SGP衡量的是表现的变化,而不是绝对表现,因此,学生上一周期的考试表现并不重要。所有学生,无论在过去的考试中获得的分数如何,都有平等的机会在下一次考试中达到99个百分位数中的任意一个。SGP不仅适用于评价学生个体的成长,还适用于班级、学校、地区等的成长评价,即按班级、学校或地区汇总学生的成长百分位数。由于百分位数是一个相对值,因此在比较百分位数时,平均值不是合适的度量,报告群体增长的最合适的衡量标准是学生成长百分位中位数(median student growth percentile,mSGP,如果将个体学生成长百分位数从高到低排列,则为中间分数),这是描述群体中学生典型成长的好方法。相对分层回归法,该方法在实际应用中更易理解,且可以较好地解决优秀学生绝对上升空间被设限的问题,但该方法也需要较大的样本量以保证每名学生有足够的同水平样本进行对比。

2 

实证研究与结果对比

 

2.1 数据来源

  本研究数据选取某省30所学校共34830名高三年级学生为样本,这些学生均参加了2次数学考试,考试时间均在高三最后一学期,间隔时间为6个月,每次测试时,所有学校试卷相同且统一组织阅卷。在样本选择时,剔除了人数较少的学校,选取的30所学校均规模适中。

2.2 统计方法
  本研究分别使用标准分法、效应量 Hedge’s g法、分层回归法及学生成长百分位法计算学校增值效应并作对比。其中:分层回归法使用HLM7.0软件,以第一次数学考试成绩为前测成绩、第二次数学考试成绩为后测成绩构建模型;学生成长百分位法使用R中的SGP包计算单个学生的SGP,进而得到不同学校以及不同特征群体的学生成长百分位中位数(mSGP)。
    2.3 研究结果
    2.3.1 4种增值评价结果的对比
  表1汇总30所样本学校的数学考试成绩使用不同评价方法从高到低排列的结果,数字代表排名。在结果评价排序中,T1成绩和T2成绩列代表2次考试成绩排序的结果。在增值评价排序中,标准分法、效应量Hedge’s g法、分层回归法和SGP法代表使用这4种方法计算出的增值排序的结果。

130.png

增值评价排序为评价学校整体表现拓宽了维度,其与结果评价排序存在较大差异。单看结果排序,可以发现30所样本学校2次考试成绩的排序非常相近,整体表现基本无变化,排名位次之差最大值仅为3,有17所学校排名位次之差在1名以内,8所学校排名完全相同。当把增值纳入考虑后,可以发现学校排序发生了较大变化:学校20、21和22,结果评价排序靠后,但增值表现优异,增值排名均非常靠前;学校28,结果排序靠前,但增值表现较差,排在较为靠后的位置。

  对比4类增值评价方法计算得出的增值排序,可以发现分层回归法与SGP法的排序相对一致,排名位次之差平均值为1.3,最大值为4,有超过60%的学校位次之差在1以内。位次之差最大的学校为结果排序中2次考试的第一名,这可能是由分层回归法对优秀群体增值评价的天花板效应造成的。图1直观展示了分层回归法与SGP法的结果差异。标准分法和效应量法与SGP法结果有较大差异,排名位次之差平均值分别为2.8和7.3,最大值则分别为8和21,分别仅有3%和13%的学校排名完全相同,远小于分层回归法的结果,这可能是由标准分法和效应量法损失了学生个体进步信息造成的。

131.png

2、图3分别展示分层回归法与SGP法下30所样本学校的增值情况,直观反映出各学校的增值排序。不难发现,无论从学校增值排序还是学校增值判定上,2类方法所得出的结果差异很小。其中,14所学校的置信区间下限大于0且mSGP值大于50,对学生进步有显著积极影响。

132.png

133.png

2.3.2 结果评价与增值评价的结合分析

  为更好地比较增值评价与结果评价应用于学校表现评价时的差异,绘制象限图(图 4)以观察2类方法的排序结果,即使用横坐标表示学校成长(mSGP)排序,纵坐标表示学校第二次考试成绩(T2成绩)排序,实现在同一个图中展示学校成长(增值评价)和成绩(结果评价)的综合情况。可以看出,有些学校存在成绩与成长倒挂的现象,成绩相对较差的学校可以取得较好的成长水平,而成绩相对较高的学校也可能在成长方面表现不佳;因此在评价学校时,仅用单一指标是不全面的。值得注意的是,有相当一部分学校成绩与成长的表现较为一致,说明二者在一定范围内存在相关关系,这可能是由于学校的成绩与成长水平均受到某些相同因素的影响,如师资力量、教学资源、学校环境等。

134.png

2.3.3 男生与女生的增值情况比较

  为比较男生和女生在高三年级最后一个学期数学科的成长表现,将样本学生按照性别分成2组,并将学生成长百分位按每20% 划分为一个等级(极低、低、中等、高和极高),观察男生和女生2个群体在5个成长等级上的分布情况,计算mSGP和2次测试的平均分,以进一步探究数学成绩和成长表现的性别差异。男生和女生的mSGP分布比较如图5所示。

135.png

 总体来看,男生和女生第一次测试的平均分分别为77.91和72.45,第二次测试的平均分分别为89.06和83.03,男生和女生的 mSGP分别为54和47,男生的各项指标均高于女生;男生高成长和极高成长学生占比分别为20.30%和23.80%,同样均高于女生(分别为19.70%和17.20%)。结果表明,在样本数据中,男生的绝对水平和进步水平均相对较高,男生在高中数学科上可能具备一定的学科优势和后发优势。

3 

结论与讨论

3.1 学生成长百分位法是一种简单高效的增值评价方法
  本研究通过采集30所学校高三学生2次数学考试成绩数据,分别从结果评价和增值评价的角度比较不同学校之间和不同特征群体之间的表现差异。结果显示,增值评价能够提供区别于结果评价之外的有效信息,避免了单一评价方法的偏差。与静态的结果评价不同,增值评价可以向学生、教师、学校和教育行政管理机构提供更加多维动态的反馈信息,有利于改变人们对教育的关注点,推动树立内生的教育发展观和科学的教育质量评价观。
  增值模型的种类繁多,不同的估计方法有各自不同的特点。在讨论并应用标准分法、效应量法(Hedge’s g法)、分层回归法以及学生成长百分位法计算增值效应时,学生成长百分位法显示出其独特优势,其增值思想简单易懂,充分利用了学生个体成长信息,较好地避免了优秀学生成长空间受限现象。在美国,学生成长百分位法也是使用最广泛的一种成长评估模型,因为它可以不依赖纵向量表进行成长评估,不包含线性假设和方差齐性假设,具有较大的灵活性。在实际应用中,学生成长百分位法可以帮助各级教育工作者更好地了解学生、学校的表现和变化。正如每个学生成长背后都有一个故事,寻找这些故事,探索高成长水平和低成长水平的原因,识别处于不同增长点的学生特征、学校特征,能够帮助各级教育工作者更好地引导学生发挥优势,改进教育教学。办好人民满意的教育,就是要办好每一所学校,教好每一位学生,避免低成长,追求高成长。作为一种新的学生个体及群体表现的衡量标准,学生成长百分位法是落实增值评价的重要参考指标,对于推动实现教育高质量发展有重要意义。

3.2 增值评价的应用前景
  引入增值评价,可以摆脱以往基于一次考试的绝对成绩评判学生个体或群体的绝对成就的局限,用动态的眼光评价个体或群体在学习过程中付出的努力和取得的进步,提升了评价的科学性、客观性和公平性。尽管增值评价可以帮助教育工作者拓宽评价视角,但“探索增值评价”这一改革要求也告诉我们,未来在实际应用中还存在诸多探索空间。
  首先,发挥增值评价在引导学生德智体美劳全面发展上的作用。若增值评价只关注学生的考试分数和成绩的进步状况,而不管学生或者学校在整个学习过程中其他方面的进步情况,则其也会不可避免地走向唯分数评价的藩篱。德智体美劳五育并举,是新时代的教育观、人才观。五育与试题内容、情境等深度融合形成更为全面的考查体系,除了整体学业成绩的增值效应之外,还需要探索德智体美劳模块化的增值效应,即通过试题与五育的归属关系,评价学生不同层面的进步表现,进而为促进学生的全面发展提供更具有针对性的参考信息。
  其次,挖掘增值评价在促进教师专业发展和区域均衡发展中的价值。教师是影响学生成绩的关键校本因素之一,研究考试成绩在多大程度上准确反映了教师对学生的学习贡献对于教师群体的教学激励和改进有重要意义。教师层面的增值研究需要收集不同学段相同教师教授相同学生的成绩数据,并在应用时注意数据质量和测量误差,以保证评估结果的准确、稳定、有效。学生成长百分位法可以计算一定区域内学生的典型成长,因此对评价地区教育质量有重要的参考价值。值得注意的是,增值评价模型的稳定性在近年来已成为国内外研究的热点问题,本研究同样观察到学校增值效应会因所使用的统计模型而有一定差异。除此之外,样本选择、数据质量等因素都会影响对教育主体的评价结果,因此不应将区域、学校及教师等的增值评价结果用作问责、奖惩等高风险决策的唯一衡量标准。增值评价的结果应慎用,并在使用时结合其他评价指标作为参考综合考量。
  第三,探索增值评价中机器学习方法应用的可能性。要加强增值评价模型的研究,已有的增值评价模型在实践中仍存在一些亟待解决的问题,需要在不断研究和持续积累证据的基础上,逐步改进和完善增值评价方法的使用,提高增值评价手段的科学性。传统统计模型相对透明,易于相关研究人员和从业者理解,但受限于可能限制其预测准确性的假设条件,而如神经网络、随机森林、支持向量机等非线性集成方法则可以较好地解决这类问题。目前,机器学习方法在社会科学和教育等领域仍有较大的探索空间,随着数据质量的提高和数据数量的不断增加,大规模教育数据已经具备深度挖掘的基础,在增值评价领域使用机器学习方法估计增值效应有丰富的探索空间和潜在用途。

 

参考文献

136.png