教育科学研究详情 - 天津市教育考试研究所

原创孙杭金艳中国考试 2024-06-26 15:10 北京

引用格式：孙杭, 金艳. 考试分数报告研发的国际经验及启示[J]. 中国考试, 2024(6): 79-89.

摘　要：分数报告是考试结果的呈现形式，作为考试开发人员与考试使用者的沟通媒介，它在很大程度上影响着考试能否达成预期目的。十多年来，在教育与心理测量领域，分数报告的研究与实践取得丰硕成果。本文聚焦于国际前沿的分数报告开发流程和评价方法，对国内外大型外语考试分数报告案例进行分析，提出我国教育考试分数报告的改革和创新可以从整体规划、理论构建和加强信息技术运用等三个方面展开，为我国分数报告的理论和实践创新提供参考。

关键词：分数报告；教育评价改革；研发框架；评价体系；国际经验

作为考试结果的呈现形式，分数报告（score report）是实现考试功能的重要环节。Zapata-Rivera等指出，分数报告是连接考试信息和考试使用者决策或行动的桥梁^[1]。无论一个考试的构思、设计和实施过程如何科学合理，假如考试使用者不能正确地理解和使用分数报告，则所有前期努力都将付诸东流^[2]。分数报告作为考试的外部形象，是公众了解考试信息最直观的材料，直接影响着公众对考试的看法^[3]。一直以来，考试研发人员将大部分精力放在如何开发技术上能够通过公众和专业人士严格审查的考试，而对如何组织、报告和使用考试结果的研究相对较少^[4]。在很长一段时间里，大多数考试的分数报告几乎只包含总分及对考试使用者来说不太相关的信息，给人留下负面刻板印象，认为考试就是将每个考生标记成一个数字或提供一堆令人无法理解的信息^[5]585。有研究表明，无论是教育决策者、教学工作者还是公众，在理解和使用考试结果方面都存在不少困难^[6-8]。

十多年来，社会公众以及教育界对考试后效（washback）不断反思，促使教育与心理测量领域重新认识和关注分数报告的重要性。有关分数报告的相关研究迅猛增长，已经逐渐成为一个重要且独立的研究领域。同时，分数报告的研究内容也不再局限于分析考试分数的心理测量学特质，而是扩展到如何在设计分数报告时充分考虑特定受众的需求和特征，如何利用不同的图示和支持性材料提高使用者对分数报告的理解，以及如何促进考试信息的合理使用等方面^[9]。

目前，我国大规模教育考试组织严格规范、命题质量高，但对考试分数报告的关注不足、相关研究也较少，尚未形成独立的理论体系和实践模式。国内有关研究发现，分数报告存在内容和形式单一、对教学和学习的导向作用不强等问题，考生认为现有大规模考试分数报告的丰富性有待提高^[10-11]。同时，越来越多的国内学者意识到挖掘和利用考试数据、对分数报告进行改革和创新的重要性^[12-14]。鉴于此，本文通过梳理和分析国际教育考试研究中分数报告的基本特征、开发步骤与评价方法，总结大型考试分数报告的实践现状，探索科学有效的分数报告内容和形式，以促进我国教育考试分数报告的理论研究和实践探索。

一、分数报告的基本特征

由于不同考试的考试目的和分数报告对象存在明显差异，因此并不存在一体通用的分数报告模式。然而，分数报告研发时应考虑的因素和分数报告的构成要素上存在诸多共性。有研究者在总结大量现有分数报告的基础上，构建了分数报告的基本特征汇总表^[15]，见表1。

该框架将分数报告的特征分为八个基本要素，其中：1）报告对象，指报告的使用者，包括学生、家长、教师、教育管理人员等，在很大程度上决定报告的内容和信息呈现方式；2）分数量表，指分数的呈现形式，包括原始分、标准分、百分位数等多种形式，每种分数各有利弊；3）分数参照，指考试分数可以提供学生在学校、地区或国家常模群体中的位置（即常模参照），或学生对某些知识内容的掌握是否达到标准（即标准参照）；4）评价单元，包含题目分、单项分和总分，总分是最常见的评价单元，特定知识/技能领域的单项分更能提供对教与学具有指导意义的信息，如提供诊断性反馈；5）报告单元，指报告可以提供给考生个人、班级、学校、地区等不同层面，且每个单元具有独特性；6）测量误差，指报告对考试的测量误差进行呈现和解释，如提供单项分的同时也提供该层面的测量误差；7）呈现方式，指报告中包含的数字、图表、文字叙述三种呈现方式；8）报告媒介，指报告传播的三种方式，纸质版是传统的报告媒介，网络版本（包含静态型和互动型）随着信息技术的发展愈发常见。在上述八个要素中，报告对象和报告单元是对报告目标受众的界定，分数量表、分数参照、评价单元和测量误差四项主要关注考试结果的报告方法，呈现方式和报告媒介强调报告内容的信息呈现方式和发放形式等。在研发分数报告时，考试开发人员首先应该考虑和确认这些基本特征。

Zenisky和Hambleton在解析分数报告的基本要素时指出，应充分考虑分数报告的内容（描述和数据）、发放方式（纸质或电子版）、发放对象（个人或群体）^[5]586-591。其中，报告内容的描述部分是对分数报告进行基本的描述和解释，具体包含考试名称/标识、考试日期、报告标题、报告目的、考试目的、介绍性引言、考生个体或群体信息标题、附加资源（如课程资料、解释性指南）的外部链接、分数使用指导、术语表、后续步骤等多项信息。数据部分是分数报告的核心，包括总结性结果、表现级别描述、单项表现、题目层面结果、常模参照结果、形成性或诊断性信息、进步情况预测和题目映射（item mapping）等七个主要内容。此外，根据2014年版《教育与心理测量标准》（Standards for Educational and Psychological Testing）要求，考试机构应帮助报告对象正确理解考试分数的意义^[16]119。因此，分数报告应清晰、易于理解，且提供分数解释的相关信息，如提供计分方法和分数准确性的说明等。同时还应认识到，分数报告包含的最重要的信息和呈现这些信息的最佳方式取决于目标受众、考试目的及考试分数的心理测量学特质^[17]。

二、分数报告的研发框架与流程

近年来，教育与心理测量领域发表了一系列有关分数报告开发步骤的研究。这些研究为考试开发人员提供了科学合理、基于研究支撑的研发框架，有助于收集相关的效度证据。其中，Zapata-Rivera^[18]、Hambleton等^[19]、Slater等^[20]开发的三个框架应用较广泛，本文以主要研究者的名字命名其框架名称，每个框架的主要阶段划分和具体内容示例见表2。

微信图片_20240701084956.jpg

通过对比以上三个框架可知，Zapata-Rivera框架对应Hambleton等框架的前三个阶段，而后者在第四阶段强调发布后的分数报告进行持续调整和维护的重要性。Slater等框架增加制订分数报告研发进度表阶段（阶段二），并强调收集考试委托方反馈（阶段四）和使用者反馈（阶段五）的重要性。总体而言，上述三个框架都强调了报告研发前的准备工作、研发报告样例、收集反馈并加以修订、确定分数报告四个主要阶段。下面以Hambleton等框架为例，对考试开发者在各阶段应采取的行动和注意事项进行详细介绍。

（一）阶段一：奠定研发基础

Hambleton和Zenisky将分数报告研发的前期基础工作分为四步。第一步是对贯穿整个考试设计的分数报告应考虑的因素进行说明。例如，考试测量什么能力或技能？分数报告想要提供哪些信息？这一步的首要关注点是确保分数报告准确地反映考试想要达成的目标，并在考试开发的最初阶段厘清和说明考试、分数和分数报告的关系。第二步是确认报告对象，即明确根据分数报告做出决策或采取行动的利益相关者。例如，谁是分数报告的主要使用者？他们会根据分数报告做出哪些决策？不同群体对分数报告的需求不同，如教师可以根据分数报告调整教学，学生可以借助报告有针对性地开展自主学习，教育管理部门可以将报告作为评价、筛选的重要依据等。第三步是对报告对象进行需求分析。在与报告使用者的沟通过程中，应关注他们想要了解考试表现的哪些方面，哪些信息对他们有用以及如何获取和使用分数报告等^[5]593。对报告对象的分析不仅包括鉴定他们的需求，还包括了解他们的测评素养^[1]。测评知识较少的群体需要给他们提供更多的解释性、支持性信息以协助他们正确地理解报告内容。第四步是阅读相关文献，包括行业行为准则和有关实证研究^[21]。这些行为准则和研究可以为考试开发人员提供科学可靠的参照。目前，很多考试机构都公开其分数报告样式，通过查阅分数报告实例，可以借鉴先进经验并避免重复他人犯过的错误^[2]。

（二）阶段二：研制分数报告样例

基于阶段一收集到的信息资料，考试开发人员要设计一份或多份分数报告样例。分数报告样例也被称为预期分数报告（prospective score report, PSR），是最终版本的分数报告内容和呈现形式的模型^[22]。按照考试开发流程，研发人员应在考试开发初期提前设计PSR，并在考试开发流程推进中根据发展变化对其进行相应的修订。然而，实际情况是很多分数报告经常是在考试开发的最后阶段才被提上研究日程，此时留给设计和修改分数报告的时间和资源都极其有限^[5]591，由此导致分数报告可能无法提供一些重要信息。此外，PSR既要与测试目标和特定受众的需求相匹配，还要充分考虑整体设计和信息呈现的清晰程度和准确性，因此需要不同领域的专家通力合作。根据分数报告的形式和功能，专家团队包括专业领域专家、测量学专家、信息技术专家、图表设计师等^[19]。

（三）阶段三：获取反馈并进行修正

这一阶段旨在获取相关人员对PSR的反馈信息，并根据反馈信息修正报告，是分数报告研发过程中不可或缺的重要步骤。首先，进行内部审核并达到满意结果，这需要考试开发人员根据收集到的信息对PSR进行几轮审查和修改。其次，采用问卷调查法、焦点小组法、访谈法、有声思维法、直接观察法或眼动实验等等多种研究方法进行外部审核，既要收集报告使用者的态度和感受，也要探究他们能否正确地理解报告内容。考试开发人员可以给报告使用者提供不同版本的分数报告，以了解他们偏向于哪个版本中的哪些特征^[20]。最后，要认真、仔细地分析数据并作为依据修改报告。这是一个不断重复的过程，因为分数报告在版本确定和正式投入使用前必须经过多轮修改。

（四）阶段四：评估和维护报告

在分数报告正式对外发布后，考试研发人员还要对其进行维护。在阶段三中提及的数据收集方法也可应用于本阶段。评价分数报告需要大规模地收集报告对象的意见反馈，既包括对报告内容和形式的反馈（如信息的可读性、视觉化效果、对不同内容和呈现方式的偏好），也包括对分数报告的理解和使用情况的调查。例如，报告对象能否正确地描述分数的含义？他们根据分数报告做出哪些决策？此阶段应着重关注报告使用者在何种程度上理解（或误解）和使用（或误用、滥用）分数报告，以及由此产生哪些正面、负面的影响等。

总之，研发框架可以为分数报告的设计提供科学、有效的模板，使考试开发工作有章可循、有据可依。上述研发框架具有一定的灵活性，可以应用在不同的考试场景中。此外，分数报告的研发步骤已经发展为迭代设计方法（iterative methodology design），即根据需要不断地利用后期搜集的信息修改和重复前期工作^[17,19]，这种重复的迭代方法在Zapata-Rivera的分数报告开发流程中得到体现，见图1。

微信图片_20240701085022.jpg

三、分数报告的评价体系

为了确保分数报告的效度，需要对分数报告自身及研发流程等进行客观评估，为此不同学者设计了不同的评价系统，以下三种是比较典型的分数报告评价体系。

与分数报告开发框架相对应，Zenisky和Hambleton针对每一阶段如何评价分数报告的研发进程同步设计了评价表，见表3^[5]595。该评价表由开放式问题组成，旨在鼓励考试开发者清楚地记录分数报告开发过程中的细节。Zenisky和Hambleton认为，通过明确地记录和说明分数报告的开发过程，考试机构可以积累分数报告开发的效度证据以支持报告的合理使用^[5]597。

微信图片_20240701085051.jpg

此外，Zenisky和Hambleton还就如何评价分数报告提出37个指导性问题，涵盖八个方面。这里，每个领域仅列举一个代表性问题，具体如下：1）总体方面，了解分数报告是否反映主要利益相关者的信息需求；2）报告介绍和描述方面，了解分数报告是否说明考试目的；3）考试分数和表现级别方面，了解分数报告是否详细描述了所使用的表现级别或心理状态，如合格、不合格，基础、熟练、通过等；4）考试表现指标方面，了解分数报告是否通知报告使用者分数的精确程度；5）分数报告内容的其他方面，了解分数报告是否提供电话号码、网站等联系方式以便报告使用者有问题时可以进行咨询；6）语言表述方面，了解分数报告是否去除对报告使用者来说难以理解的统计学或其他专业术语和符号；7）设计方面，了解报告是否清晰且合乎逻辑地被划分为不同部分以提高可读性；8）说明性指南和其他辅助性材料方面，了解说明性指南是否存在，能否提供清晰、有用的信息等。总之，这些指导性问题是对现有分数报告实践和研究的总结，可以为全面地评价分数报告提供支撑。

从考试效度概念中对分数的解释和使用角度出发，O’Leary提出关注结果的分数报告评价方法（outcomes-focused evaluation of score reporting），该方法包含清晰度和实用性两个原则，具体分为七个要素^[23]。清晰度要求分数报告能让使用者较为容易地理解，具体包含四个要素：1）设计特征，即分数报告的设计必须基于现有的最佳实践，包括当代最优秀的报告范例、行为准则以及文献建议；2）解释性指南，指分数报告必须是独立的，应将充分理解报告信息所需要的额外工作降到最少；3）呈现方式，指分数报告必须融合多种数据呈现方式；4）语言形式，分数报告的语言必须容易理解，而实用性则要求分数报告的目的、预期解释以及预期的行动与后果等三个要素必须明确。

综上可知，上述三个分数报告评价体系存在一定区别，其中，Zenisky和Hambleton设计的第一个评价表，其目的在于评价分数报告研发流程，引导考试开发者对开发步骤进行自查；第二个体系关注分数报告本身，以提问的方式检查分数报告的各个组成部分；O’Leary提出的评价体系源于研究者对分数报告效度的要求，从结果使用角度出发对报告进行评估。考试开发机构可根据自身需要，选择合适的分数报告评价体系。

四、国内外大型外语考试分数报告案例的分析比较

推进和深化分数报告的改革和创新，应基于对现有实践的了解之上。因此，本研究以Ryan以及Zenisky和Hambleton的分数报告基本特征框架作为理论依据，选取国内外测试人数多、具有一定代表性和影响的七项语言测试的分数报告进行分析比较，结果见表4。

微信图片_20240701085129.jpg

上述七项语言测试分别为托福（TOEFLiBT）、雅思（IELTS）、剑桥高级英语证书考试（CAE）、培生学术英语考试（PTE-Academic，简称PTE）、多邻国英语考试（Duolingo English Test，简称Duolingo）、大学英语四级考试（CET-4）和汉语水平考试（HSK）。表4为七项分数报告目前包含的信息类型和信息呈现方式。由于这七项分数报告都包含基本信息（考生和考试信息），因此在表中未重复呈现。本研究关注的重点是考试的分数报告，因此在考试官网出现的其他信息未在表中呈现。

由表4可知，现有大型外语考试的分数报告在内容和形式上既存在共性，也有相当大的差异。首先，考试总分是考生最关注的信息。上述七种考试的分制为9~710分不等，说明不同分数报告的评分系统差异很大。Zenisky和Hambleton认为，考试采用不同的计分方法，部分原因是考试机构希望将自己的考试分数与其他考试进行区分，以防止错误理解考试^[5]590。然而，繁多且复杂的评分系统会使非测试专家，如考生、家长、教师等群体难以理解分数的真实含义。为了帮助考试使用者进一步理解分数的含义，部分考试提供分数与等级量表的对应关系。例如，IELTS和CAE在分数报告上直接体现分数与欧洲语言共同参考框架（CEFR）的比照；TOEFL和Duolingo虽然没在分数报告上直接体现，但在官网上可找到对应信息，Duolingo还提供与TOEFL和IELTS的分数比照，以帮助读者理解自身的能力水平。其次，在信息的丰富性上，虽然这几种考试对语言技能分类稍有不同，但都提供语言技能的单项分。此外，TOEFL还提供考生的历史最高分，HSK为帮助考生了解其分数在常模群体中的位置专门报告百分等级，CET-4在官网的分数解释中提供常模信息、单项分、总分的百分位表等信息。再次，在提供诊断性信息方面，PTE提供考生个人技能档案，并提供技能定义和个性化建议，以帮助考生进一步了解自己的强弱项。最后，在语言能力描述方面，Duolingo报告考生总体能力，CET-4报告口试中语言能力的三个等级，TOEFL等考试在官网上对不同技能和水平进行描述，但并未体现在具体的分数报告上。此外，上述考试多将比较详细的分数解释性指南放在官方网站上，但考生是否能快速找到这些信息，与分数报告上是否标明其位置有关，其中TOEFL、CAE、Duolingo、CET-4四类考试直接在报告上注明相关信息的位置。

下面以Duolingo和PTE两个考试的分数报告为例进行分析，见图2、图3。

微信图片_20240701085153.jpg

由图2可以看到，Duolingo分数报告可分为三个区域。第一部分是考生和考试的基本信息。第二、三部分是报告的主体，分别为考生的总分和单项分。在第二部分，报告通过加大字号和橙色字体呈现报告使用者最关注的总分，同时采用要点罗列的方式简要描述考生的总体语言能力，以帮助报告使用者了解考生可以用英语完成的任务。除数字和文字呈现外，报告还用图示方式直观地展现考生分数在量尺上的位置。在第三部分，分别报告阅读和写作、阅读和听力、听力和口语以及写作与口语四个单项分数，同样用明亮的橙色字体进行标示，辅以简洁的文字描述和图形展示。值得注意的是，Duolingo报告在分数展示图中呈现考生总分和单项分的分数范围（score range），这涉及考试分数的精确度（the precision of test scores）。2014年版《教育与心理测量标准》一书中明确指出考试开发者应提供报告使用者有关分数精确度的信息^[16]119，有研究认为分数精确度的信息有助于防止使用者对分数信息过度解读^[7]。Duolingo以图示方式展示考生分数范围的作法，既遵循了优秀分数报告的实践标准，也对如何报告分数精确度进行了有益探索。然而，由于报告上并没有对分数范围的含义进行解释，因此使用者是否理解该部分信息仍有待研究。最后，Duolingo报告还在底部通过“了解更多”信息告知考试使用者有关测试评分详细信息的网址，并用橙色字体进行提示。

Duolingo的分数报告简洁清晰、可读性强，没有过多的信息堆积，在空间组织、颜色运用和图表、文字、数字搭配上科学合理，符合有效的分数报告的基本原则，给考生提供分数范围也是一个亮点。然而，有研究发现报告使用者通常难以理解分数精确度的相关信息^[7]（如标准误差和置信区间等），如果能辅以适当解释可能会有更好的效果。

图3为PTE的分数报告。该报告包含四个分区。第一分区是考生考号和注册信息，右侧是考生总分，并通过图形化和背景色方式突出信息重要性。第二分区是听、读、说、写四个交际技能的单项分，同样通过图形和颜色进行强调。第三分区分为两个部分，左侧用柱状图再次呈现单项技能得分和总分，更直观地展现分数间的对比；右侧呈现考生信息。第四分区位于报告底端，是考场信息。当考生在线阅读PTE报告时，还可看到包含口语和写作的开放式作答、短篇写作等八个子技能的个人技能档案，同时还有技能的概述和个性化建议。其中，个人技能档案部分用耳机、书本、对话框和钢笔等图形形象地展示了所涉及的单一或多种技能，并用柱状图展示该领域的能力水平，建议部分则采用要点罗列的文字叙述。这些针对考生个体的详细的诊断性信息可以帮助考生了解自己语言能力的强弱项和未来学习的方向，有助于考生进行有针对性的自主学习。

从内容上看，PTE分数报告信息丰富，除报告考生和考试信息、总分、单项分以外，还提供详细的诊断性信息和未来建议，提升考试的促学功能；从呈现方式来看，报告有效地将数字、文字和图表结合起来，但第三分区右侧考生信息部分的排版或可进一步优化，如合并到第一分区中可能会更加清晰。

总体来看，上述报告展现了一些优秀的分数报告的样式和内容，包括利用不同形式呈现信息（包括文字、数字、图表）、对重要信息进行突出强调、根据内容重要性合理分区、提供分数解释性指南等；但也存在一些问题，如部分报告缺乏个性化反馈信息、缺少其他资源的具体位置信息等。

五、对我国教育考试分数报告改革的启示

我国教育考试的种类多、规模大、社会影响深远，对促进教育公平和社会稳定发挥着重要作用^[26]。考虑到考试分数对社会的巨大影响，考试机构应充分认识考试分数报告的重要意义，积极探索分数报告的改革。具体而言，借鉴参考国际先进经验做法，我国未来的相关研究和实践可从以下三个方面展开。

第一，整体规划考试项目，从研发最初阶段即对分数报告进行全面的设计和考虑。主要有四方面需要提前重点规划：1）确定考试的性质和目的，充分考虑教师、学生、学校等相关方面的信息需求和测评素养；2）将分数解释指南等辅助性材料的研发纳入设计方案，例如，在研发和评价分数报告样例时，应运用不同的实证研究方法（如有声思维、问卷、访谈、眼动实验）调查各类报告使用者（如学生、教师、教育管理人员）对分数报告的态度、偏好、理解，并依据使用者的反馈进行相应修改；3）分数报告发放后，采用追踪研究、个案研究、民族志研究等研究方法持续调查报告使用者依据报告做出的决策和采取的行动，特别要关注分数报告对学生学习和教师教学的导向作用；4）积极借鉴国际前沿的分数报告开发框架和优秀案例，并详细记录和评价具体开发流程，收集分数报告开发的效度证据。

第二，进行理论构建和创新，形成本土化的分数报告开发和评价的行为准则和指导方针。理论构建包括分数报告的基本特征、开发步骤、评价方法和效度验证等方面。行为准则和指导方针是对优秀分数报告应该遵循的原则和标准的界定，具体可参考2014年版《教育与心理测量标准》中有关分数报告的行业标准^[16]119-144，以及国际测验委员会（International Test Commission）于2014年发布的分数报告质量标准的指导纲要^[27]。建立本土化分数报告的行为准则和指导方针，有助于规范我国教育考试分数报告的实践，提高分数报告质量。

第三，积极探索信息技术，特别是人工智能辅助下的在线互动型分数报告的设计开发和应用。在线互动型分数报告允许报告使用者选择和排序所展示的信息、探索更深层次的信息、改变信息呈现的方式，使针对性、个性化的立体多维的分数报告成为现实。然而，开发互动型报告的步骤和应遵循的原则与传统书面报告有哪些异同，在技术上如何实现突破，都值得进一步研究探索。在线互动型分数报告的研制离不开跨学科领域专家团队的通力合作，应充分挖掘认知科学、信息设计学、美学、用户界面研究等领域在分数报告设计开发中的应用和作用。

对考试分数的解释始于人们阅读分数报告，因此，分数报告的设计和发放直接影响考试效果^[17]。优秀的分数报告应该以考试利益相关者能理解的方式给他们提供所需要的信息，从而帮助他们采取合理的行动^[2]。在深化新时代教育评价改革的背景下，国内相关领域应转变和创新分数报告的设计理念，深入挖掘考试数据以提供多维、有效的分数报告，为教学和学习提供丰富的信息反馈。通过帮助和引导大众正确理解和使用测试结果，构建和推进科学的教—学—评联动体制，从而提升教育考试的整体质量。

参考文献略。

孙杭 金艳：考试分数报告研发的国际经验及启示

孙杭金艳：考试分数报告研发的国际经验及启示