教育考试研究详情 - 天津市教育考试研究所

原创中国考试中国考试 2025年01月08日北京

引用格式：杨向东：素养导向嵌入式评价系统的设计与实施[J]. 中国考试, 2025(1): 1-16.

作　者

微信图片_20250120185357.png

杨向东，华东师范大学课程与教学研究所研究员，教育学部教育心理学系主任、教授。

摘　要：在素养导向的课程改革理念指导下，推进当前课程改革需要构建与课程和教学相整合的素养导向嵌入式评价系统。该系统以学生的核心素养发展为主线，以素养导向的学业成就表现进阶为参照框架，通过任务设计、评分和测量学建模等方式，整合贯穿课程学习过程的不同评价证据，构建能够呈现学生素养发展历程的纵向测量尺度，提供有实质内容、能改进教学和学习的持续反馈信息。设计和实施素养导向嵌入式评价系统要强调教师和学生的主导地位，重视教师评价素养、评价协调机制、数字化支持平台等方面的建设工作。

关键词：素养导向嵌入式评价系统；核心素养框架；学业成就表现进阶；教师评价素养；评价协调机制；数字化设施

随着素养导向的课程改革持续推进，核心素养评价成为我国教育研究和实践中的重要议题。目前，国内的学者和教育工作者围绕表现性评价、情境化命题等开展了大量研究和探索，但仍无法满足素养导向的课程改革这一系统工程的多方面需求。2020年，中共中央、国务院印发《深化新时代教育评价改革总体方案》，强调整合各种评价形式，探索对学生的“全过程纵向评价”和“全要素横向评价”，“综合发挥导向、鉴定、诊断、调控和改进作用”^[1]。因此，在素养导向的课程改革理念指导下，应采取系统观思考评价的地位和作用，整合不同的评价形式和功能，从而构建与课程和教学紧密结合的、促进学生核心素养发展的新型评价体系，即素养导向嵌入式评价系统。

一、素养导向嵌入式评价系统的特征

科学的评价系统需要在素养导向的课程改革理念下思考和建构，一个完善的嵌入式评价系统至少应具备以下七个方面的特征。

一是坚持素养导向。进入二十一世纪，素养导向的课程改革迅速席卷全球。我国在新一轮高中和义务教育课程标准颁布后，也正式开启了素养导向的基础教育课程改革。坚持素养导向，评价系统就在理念和目标上与当前课程改革保持了一致，以确保改革目标的达成。

二是与课程和教学相协调。首先，嵌入式评价系统既要协调内部各种要素之间的关系，也要协调与系统外部的课程、教学之间的关系，确保三者在教育目标、学习结果、学与教方式上的一致性。其次，评价任务或形式应多元，能全面反映素养导向的课程形态和教学方式的变化和要求。最后，评价实施和反馈机制也要与课程和教学的进程、节奏和关键节点协调一致，及时为学生和教师提供有针对性的证据和反馈。

三是以真实任务（authentic task）为统整。嵌入式评价系统应以核心素养为评价指向，以具有现实意义的真实任务为基准，通过创设不同复杂度、开放度的多样化任务类型，采取多元评价方式收集学生的表现证据，实现对核心素养不同整合程度或发展水平的系统考查。

四是有机整合不同来源和类型的评价证据。依据共同的目标框架和测量学标准，通过任务设计、结果评分和测量学建模等技术，整合来自不同评价任务、评价形式和时间节点的学生表现，实现对学生素养发展的科学推断。

五是全面呈现学生素养发展历程。在统一的测量尺度上推断和标定素养导向的学生学业水平纵向发展情况，并形成学生素养发展报告，为增值评价、教师教学改进和学生自主学习奠定基础。

六是提供有实质内容的持续反馈。在提供具有实质内容的学生素养发展水平或进步状况的基础上，以预期目标或学业水平为参照，给出有针对性的改进建议并建立持续性的反馈、改进机制。

七是以教师和学生为主导。让教师和学生成为主导者，成为评价系统的研究者和使用者。对教师而言，应深度参与系统研发和应用环节，如参与系统设计、评价目标及学业水平的确定、评价任务的设计与实施、评价标准的研制与使用、评价结果的解释与反馈等。这样做，既能提升教师的评价能力，又能反哺日常的教学、评价工作，助力评价系统促学、促教功能真正落地。对学生而言，可以通过评价系统的反馈信息开展自我评价，主动改进和调整学习计划，培养自主学习能力等。

二、素养导向嵌入式评价系统的构成要素

根据上述素养导向嵌入式评价系统应具备的七大特征，构建评价系统基本概念框架，见图1。

微信图片_20250120185424.png

图中横坐标表示不同课程单元的教学进程，纵坐标表示学业质量标准中的水平进阶，虚线表示学生核心素养发展轨迹。推断证据来自教学中的过程性评价、形成性评价、终结性评价等真实数据。基于共同的素养测量尺度，评价系统可以给学生、教师、学校及区域教育机构等提供有实质内容、能满足不同需求的反馈信息。该评价系统主要包括以下五个要素，且各自发挥重要作用。

（一）核心素养框架

核心素养框架在评价系统中具有纲领作用，决定着评价系统要测量的核心素养类别、结构或层次关系、内涵、关键维度和评价指标等重要内容。在测量学领域，核心素养框架就是评价系统想要测量的构念（construct）^[2]，代表着系统开发者认为重要和有价值的教育目标。然而，评价系统的核心素养框架不能只从评价角度思考，还要从教育视角深刻理解核心素养提出的时代背景。进入二十一世纪以来，各国教育都发生了巨大变革，一些国际组织和发达国家相继提出核心素养的概念和框架。可以说，核心素养已经成为回应二十一世纪挑战的重要教育理念，阐明了新时期基础教育育人要求的关键理论变量，本质上是在回答“培养什么人”的问题，是对基础教育阶段理想育人目标的具体界定和描述。

建构核心素养框架，需要考虑核心素养与课程、教学的一致性。核心素养有超越具体知识和技能的合理抽象度，也有跨越时段的内涵稳定性，可以为建立课程、教学、评价三者共享的目标框架提供可能的变量。然而，究竟以哪些核心素养作为教学和评价的共享目标，还需要有充分的学理依据。

2022年，教育部印发《义务教育课程方案和课程标准（2022年版）》（以下简称“新课标”），这是国家课程的基本纲领性文件，标志着我国基础教育课程改革进入新阶段。在新课标中，各学科的核心素养都有明确和具体的要求，这是在反思学科本质、凝练学科育人价值的基础上提炼出来的。理论上，每门学科都应兼有独特的育人价值和共通的育人价值。然而，最新颁布的高中和义务教育阶段的新课标都更多地关注了前者，而对批判性思维、创造力、团队协作、沟通交流等跨学科核心素养重视不够。如何在学理上找到合理依据，建立学科与跨学科素养有机统整的核心素养框架，是亟须解决的重要问题。

（二）以素养为导向的学业成就表现进阶

对评价系统而言，核心素养是用来刻画和追踪学生在不同时间节点上学业成就水平及其发展变化的进阶变量（progress variable）^[3]。每个变量均代表当前教育理念下学生学业成就的一个关键维度或方面。作为进阶变量，核心素养的发展贯穿学生课程学习和教学进程始终，具有跨年级、跨学段的连续性；同时，其发展又依托不同学段、模块或主题课程内容，具有伴随学习进程显现的质性阶段特征。由此，以核心素养为主线，可以通过实证研究，研制学生伴随学习进程而呈现的学业水平进阶，阐明不同进阶的典型特征。

在新课标中，学业质量标准阐述了不同学段的学生在素养导向学业成就上的表现预期。具体表现为以学科核心素养为关键维度，整合学段课程内容，整体刻画和描述不同学业成就水平应该具有的表现特征。新课标中的学业质量标准秉持整合的、实践取向的学业质量观，同时也蕴含着新的学习观和知识观^[4]。其中，整合的学业质量观主要强调两个层面的整合：一是学科知识和技能层面，学习不是孤立零碎的学科知识和技能的简单积累，而是围绕核心观念不断结构化的过程；二是学业成就层面，不同的核心素养之间并非彼此独立，而是有机整合在学生和现实世界的互动实践中。学业水平差异体现了学生在整合不同素养及领域的知识和技能、应对复杂情境或解决现实问题时的表现差异和发展差异。此外，学业质量标准旨在描绘学生群体的预期表现，代表了处于不同水平的学生群体所展现出的典型特征。相比之下，素养导向嵌入式评价系统则通过整合学习历程中的各种评价证据，试图刻画学生在素养导向学业成就方面的实际发展水平和变化趋势。研究人员可以在学业质量标准的基础上，结合相关课程内容和教学过程，建立更符合学生实际情况的学业成就表现进阶体系。

新课标中的学业质量标准为教育评价提供了上位理论基础。在具体实践中，研究者可以根据评价目的和现实需求，自主选择评价系统中纵向学业成就进阶的结构、编排和呈现方式。其中，最直接的方式是遵循学业质量标准中已有的结构和编排方式，在整合的学业质量层面建立纵向进阶，并明确每个水平的表现特征。与之对应的评价系统可以在纵向的连续性测量尺度上推断学生的学业成就水平，并呈现和反馈学生在该水平上的综合表现。另一种方式是以核心素养为主线，为每个素养建立单独的水平进阶。与之对应的评价系统可以在不同测量尺度上推断学生在不同核心素养上的发展。这两种设计方式在系统构成、任务设计与实施、数据分析和建模等方面要求不同，评价目的也不同。此外，也可以整合上述两种方式，使其兼顾具体素养的诊断和学业成就综合水平的推断，从而实现评价系统功能的多样化。

（三）多样化的评价形式与任务类型

评价系统需要创设多样化的评价任务，并规划和组织有效的评价形式，旨在激发学生的真实表现并收集相关证据。根据时间节点，可以将评价分为教学前的诊断性评价、课堂教学中的过程性评价、课时或单元结束后的形成性评价，以及学期或学年结束后的终结性评价四种主要形式。其中，前三种评价与教学活动紧密相连，旨在通过持续的评估和反馈促进学生发展，属于形成性评价；第四种与日常教学有一定距离，主要用于对学生学习成果进行概括总结，属于终结性评价。然而，无论采用哪种评价形式，都要严格遵循素养导向的评价设计理念，确保评价真实、准确地反映学生的学业水平和素养发展情况。

过程性评价也常被称作课堂评价。在我国教育实践中，课堂评价往往指教师使用自编的纸笔测验（如填空、选择题等）检验即时的教学效果。在素养导向的课程改革背景下，评价系统要与课程和教学深度整合，全面体现素养导向的教学理念所要求的多样化任务形态。以素养导向下的单元教学为例，应强调以任务或项目为驱动，让学生在解决问题或完成项目的实践过程中掌握学科知识和技能，进而发展核心素养。在此情境下，单元表现性任务或探究项目兼具单元教学与评价的双重功能，既是教学（或学习）任务，也是评价任务，因此无须再开发专门的评价任务。学生课堂展示、小组对话或讨论、科学实验、产品或作品设计（如项目计划、作文、实验报告、绘画等）、艺术表演、作品展览、教师提问、课堂观察等活动，都可以视为过程性评价的多种表现形式。学生在这些活动中的思考、行为、作品、解释和讨论等表现，都是评价可收集的学生信息。教师则需要依据素养目标及表现进阶精心研制评分标准，对学生在活动中的表现进行客观、全面的评定，以确保评价真实准确。

课时或单元结束后的形成性评价包括作业、单元测验等形式，需要单独开发评价任务，明确核心素养指向及其内涵，并紧密结合本单元课程内容。除传统任务类型外，还应增加整合的、开放性的情境化任务，如真实表现性任务或具有现实意义的探究项目等，以确保评价真实性。终结性评价也需要单独开发评价任务，由于课程内容覆盖范围更广，因此题目的类型和难度区间也更大。在素养导向的评价理念下，要打破终结性评价就是书面纸笔考试的固化观念，设计指向核心素养的新型任务形态和施测方式，构建包括素养、内容、情境三大维度在内的评价框架，还要明确每个维度的内涵及构成，厘清三个维度之间的关系。在此基础上，还应整合不同维度，结合学业成就进阶形成一系列具体的学生素养表现预期，并将其作为评价任务设计的测评指向。通过对任务指向、情境类型及复杂或开放程度的系统调整，实现对核心素养及其水平的全面考查。

对评价系统而言，不同评价形式和任务类型虽然目的各异，但并非相互独立，而是在素养目标和学业成就进阶层面具有统一性。本质上，这些素养及其水平进阶共同构成评价系统的构念理论（construct theory）^[5]，是规划和指导任务设计、布局、评分、测量建模以及结果汇报的构念地图（construct map）^[6]。然而，在评价的不同阶段，首先需要根据学生所在年级及当前课程具体内容，明确评价的具体内涵和表现特征，然后再设计与之对应的任务。纵向来看，每个任务都指向具体的学习内容，具有特定的特征和要求，并引发该阶段学生特有的素养表现；不同阶段的不同任务可以为学生提供基于素养本身的多重表现机会。不同时间节点的任务虽然在具体主题、内容、类型、评价指向及水平要求上有差异，但在所关注的深层构念上可以进行统整。这种整合既可以在同一单元或年级进行，也可以在不同单元或年级之间进行。

（四）证据的整合、推断和解释机制

要整合来自不同评价任务、形式和时间的证据，除了在设计任务时明确素养指向和水平要求，还要密切联系单个任务层面的证据识别和跨任务之间的证据整合及推断机制。

1.单个任务层面的证据识别

在单个任务层面，证据识别和推断的关键是如何评价学生在单个任务上的表现水平。概括讲，任务的评分结构要与学生任务表现所表征的素养指向和发展水平的内在结构保持一致^[2]。Briggs等认为，如果一道选择题的不同选项可以考查学生对某一学科核心概念的不同理解程度，那么评分标准就应明确和细化，即选项得分与该选项所反映的理解程度要保持一致^[7]。如果学生选择了反映更高理解程度的选项，其得分就应高于选择反映较低理解程度的选项。对于考查多个素养（或同一素养的多个维度）的评价任务而言，评分标准要解决两个问题。首先，要根据该任务所指向的素养结构或特征界定评价维度，逐一明确学生表现与不同评价维度相对应的具体特征。本质上，这是一个识别和归类的质性问题，即建立学生表现与任务所要考查的素养在内涵、维度和构成要素上的对应关系。然后，在此基础上，评分标准要根据素养发展水平进阶，进一步界定与每个评价维度相对应的、可以反映不同素养发展水平的学生表现特征。显然，这是建立学生表现与素养水平之间量化关系的问题，即什么样的学生表现反映更高（或低）的核心素养水平。单个任务层面的证据识别和水平判定至关重要。如果评分标准只关注任务的特有特征，而没有建立学生表现与素养结构或水平的联系，那么任务得分就不能提供学生素养发展情况的证据，也无法实现跨任务间的证据整合。

2.跨任务之间的证据整合

原则上，跨任务之间的证据整合可以在测量理论指导下，借助具体的测量模型和测量建模手段来完成。测量模型是形式化的数理模型，能够以模型参数的方式建立学生素养构成和水平（学生模型）、任务特征（任务模型）、学生任务得分（证据模型）三者之间在结构和水平上的概率性对应关系^[8]。

微信图片_20250120185449.png

需要指出的是，公式（1）和（2）只是用形式化的概率模型建立了学生素养构成和水平、任务特征与得分之间一种可能的对应关系，既不能说明这种关系是唯一的，也不能说明它必然成立。上述模型可以看作是一种假设，如果想在实践中应用，还要借助实际观测数据进行检验。模型拟合检验既包含任务得分和素养指向之间结构关系的质性检验，也包含任务得分和素养水平之间量化关系的检验。只有通过验证的模型，才能用于整合来自不同任务的证据，并进一步推断学生素养水平。

一旦确认模拟拟合学生观测数据，就可以基于该模型得出两个重要结果：一是基于核心素养模型和素养学业成就进阶，为每个核心素养建立跨越不同任务、评价形式和时间的测量尺度；二是根据观测数据估计每个学生的素养水平，并将其标定在对应素养的测量尺度上。二者结合，评价系统可以建立既具有实质意义，也能满足测量学要求的素养发展尺度，从而科学准确地测量学生素养水平和进步程度。

（五）结果报告与反馈机制

通过整合不同来源的证据，评价系统可以在一个统一的测量尺度上推断学生的素养水平及其发展情况，这意味着可以给每个学生建立一个纵向的素养发展报告（也称学习结果画像）。该报告可以与素养导向的学业成就进阶对接，进而提供更具体、更具有实质内容的学业表现特征描述。然而，报告中如果只呈现学生的素养水平或进步状况，并不能构成有效反馈。Sadler指出，在缺乏有效反馈的情况下，学生为了更好地理解评价结果，不仅要对学习目标或预期学习结果有清晰的认知，还要熟悉当前表现和预期目标之间的差距以及可以减少或消除差距的方法等信息^[10]。这对学生来说很难实现。因此，在提供反馈信息时，除了提供素养表现的基本信息，还要以预期目标或学业水平为参照，提供三类信息：一是分析学生既有表现中值得肯定的地方，激发学生继续学习的动机；二是结合学生具体表现明确指出不足或有待改善的地方；三是结合学生具体表现分析可能的原因，并给出改进建议。

此外，结果报告中的反馈信息要想真正发挥作用，还必须满足及时性和连续性两个条件。一方面，反馈要和学生当下的学习过程紧密结合，学生在完成某个任务或环节后可以迅速获得针对性反馈，从而帮助学生调整后续的解决思路或行动。另一方面，评价—反馈—改进—评价的过程要形成持续的、反复迭代的闭环，因此提供的结果反馈必须是目标导向、改进指向、及时与连续的。

三、素养导向嵌入式评价系统的设计与实施

在开发素养导向嵌入式评价系统时，要遵循一条重要原则，即不同构成要素本质是一个有机协调整体的原则。在该原则指导下，评价系统的设计与实施包括以下五个关键步骤。

（一）构建素养目标框架与素养导向的学业表现进阶

开发素养目标框架的关键是如何在教育理念、学理依据和现实可操作性三者之间实现平衡。具体来说，素养目标框架需要满足三个条件：一是素养的层次、结构或构成相对完整合理，体现当前教育理念对学生成长和发展的理解；二是合理处理核心素养与课程内容、学科知识或技能之间的关系；三是从现实性来讲，框架中核心素养的数量不宜太多。

构建素养目标框架的方法有多种，其中一种是从素养导向的改革理念出发，深入反思学科本质，在不同层次上发掘不同学科在育人层面的共同价值和独特价值。笔者采用该方法从领域实践、社会文化实践和反思性实践三个层次分析学科本质，构建跨学科和学科核心素养有机整合的核心素养冰山模型^[11]，见图2。该模型可以从学理层面反映素养结构、层次与学科知识之间的关系问题。

微信图片_20250120185514.png

结合现实考虑，设计人员可以进一步调整核心素养数量。以Wilson等开发的中学科学课程整合评价系统^[3]为例，该系统提出五大素养目标（也被称为进阶变量），见表1。确定素养目标后，研究人员可以根据课程内容、学生群体等信息，通过实证研究构建符合学生实际发展情况的素养发展水平进阶。在具体实践领域，可以借鉴学习进阶（learning progression）相关研究结果^[12-13]。

微信图片_20250120185535.png

（二）绘制与课程、教学相整合的评价蓝图

为了确保评价与课程、教学有机结合，研究人员要制订素养评价蓝图，明确不同教学单元需要评价的素养目标及其维度、任务形态、评价形式等。评价蓝图是评价的整体规划，是指导任务设计、实施和评分的基础。

素养是在课程学习过程中逐渐形成和发展的，因此，不同的内容单元有助于培养学生不同的素养或素养维度。课程规划旨在根据不同单元和素养目标之间的关系，整体规划和布局内容学习和教学设计，以确保所有素养在课程学习过程中得到培养。相应的，素养评价蓝图旨在明确评价与不同单元素养目标之间的对应关系，以确保评价系统能够及时捕捉到学生素养发展的时间，并科学规划评价指向和评价内容。

表2为科学课程中素养目标与课程内容相结合的评价蓝图示例，改编自Wilson等研究结果^[3]。由表2可知，不同素养目标及其构成维度在不同课程单元的评价指向不同。而且，并非所有素养在每个课程单元都需要评价，有些单元只需要评价调查设计，有些更适合评价证据使用和权衡。但跨越不同课程内容单元，评价蓝图要确保所有素养目标都得到合理评价。

微信图片_20250120185603.png

对整个评价系统而言，除了考虑在教学单元中规划评价指向和内容之外，还要考虑过程性与形成性评价的衔接，以及形成性评价与终结性评价的衔接等问题。在过程性或形成性评价中，可以采用多重机会、纵向设计等方式增加评价信度和内容代表性^[14]。例如，在一个学期或学年的课程进程中，可以先选择若干内容单元并设计指向同一素养的评价任务，然后通过增加评价任务与不同课程内容的结合给学生提供多次机会。为建立统一的纵向测量尺度，还可以在课程进程中选择合适的节点设置铆题或铆测验，确保对学生素养水平推断的前后一致性。

（三）开发评价任务与评分标准

确定评价蓝图后，可以结合课程内容创设不同形态的评价任务，研制标准化的评分标准。

1.创设不同形态的评价任务

评价任务的开发要遵循五个原则。第一，确保每个评价任务都有清晰的素养指向，即在设计任务时必须明确任务考查的是哪种（些）核心素养。素养指向并非只是任务开发者的主观意图，还必须有实证数据支持，以确保任务的构念效度（construct validity）。第二，尽可能采用整合的、情境化的真实任务。真实任务是指人们在现实生活或专业实践中从事或面临的任务，再现了真实世界中素养使用或检验的场景、方式和要求^[15]，也是保证素养评价生态效度（ecological validity）的关键。即便是为了更加明确地考查某个素养，需要对任务进行简化，也应该尽量保持情境和限制条件的现实性。第三，每个任务所要考查的素养（或素养关键维度）要保持适当的完整性和综合性，避免出现整体任务情境是真实的、综合的、有现实意义的，但子任务或具体问题却指向拆解过细的技能或知识点等情况。例如，名义上考查“史料实证”这一历史素养，但实际问题是考查学生“区分一手或二手史料”的技能；名义上考查科学思维，但实际问题是考查“知道实验背后的科学原理”的知识；等等。第四，确保单元评价任务和形式与所在单元的教学和学习活动形成有机整体。参照评价蓝图要求，评价任务要与单元素养目标一致、与教学内容匹配，并在形式上与单元教学活动兼容。在具体实践中，可以让教师作为评价主体，既负责整体设计单元教学和评价，也负责开发教学和评价任务；还可以将教学任务和评价任务合二为一，通过与教学活动相融的各种方式（如项目计划表、小组对话或讨论、课堂展示、产品或作品设计、作品展览及解说等）收集学生真实表现。第五，在评价系统层面，评价任务要有合理的数量和分布，能够实现对素养及水平进阶的系统考查。具体而言，要确保在对素养水平进行推断时，在不同维度、阶段或层面都能满足效度、信度、公平性、可推广性等测量学指标要求。

在具体实践中，可以尝试开发适用于不同情况的任务模板（task template）^[16]，并将其作为评价任务设计的基础。任务模版又称设计模式（design pattern），是对具有相同评价指向的一组任务共同结构和特征的抽象界定^[8]。这些特征包括认知要求、学科内容、情境特征、学生表现特征等。表3改编自Harris等研究结果^[17]，是美国《下一代科学标准》（Next Generation Science Standards，NGSS）中某一成就水平的任务模板样例。借助任务模板，研究人员可以创设具有相同抽象特征的新任务，既提高了开发效率，也能保证质量稳定性。

微信图片_20250120185634.png

2.研制素养导向的评分标准

研制科学的评分标准是评价设计中的重要环节。素养评价强调整合、开放性的情境化任务，没有所谓的标准答案。因此，研制素养评分标准时应最大限度地考虑各种可能出现的情况。在研制过程中还要解决一个关键问题，即如何确保每个评价任务的评分标准既与素养及其成就进阶保持一致，又与学生在任务上的具体表现相契合。核心素养及其学业成就进阶通常比较概括，是跨越不同任务情境或条件的抽象表述。如果将其直接作为评分标准，会显得过于笼统、缺乏可操作性；如果只关注任务特有的学生表现，而没有建立与素养的联系，也不能提供学生素养发展情况的有效证据。

针对上述情况，一种可能的解决方式是将自上而下的演绎方式和自下而上的归纳方式相结合。具体来讲，首先，根据任务的素养指向明确评分标准需要关注哪种（些）素养及其水平；其次，结合评价任务的具体内容或特征，将所指向的素养及其水平进阶中的概括性表述具体化。例如，如果素养进阶中的表述是“学生能否提出科学问题”，那么在考查该素养与生态系统有关的任务上，可以将表述具体化为“学生能否提出与当前生态系统有关的科学问题”，并列举出当前生态系统中可能存在的科学问题。这种演绎方式在很大程度上可以确保不同评价任务在评分标准上的一致性，但也可能出现与学生实际表现不符的情况。补救方法是收集学生在该任务上的实际表现，通过进行自下而上的概括，与演绎形成的评分标准对比后再进行调整，从而使评价标准更符合当前任务和施测群体。

（四）收集证据与推断学生素养水平

对嵌入式评价系统而言，要尽量采取内部评价方式，让教师成为任务实施和证据收集的主导力量。其中，过程性和形成性评价主要由教师组织，终结性评价可以由教研组或区域教研部门负责实施。此外，还可以将课程进程作为证据主线，为每个学生建立一段时间内跨越不同教学单元、任务类型及评价形式的档案袋。这种做法可以收集多方位的学生证据、证据载体（任务作答、项目计划、课堂讨论记录、学生作品或产品、解说或表演的音视频文件等）以及相关任务或情境等信息。

任务评分工作也同样以教师为主导。教师要理解当前任务的素养指向，明确素养的具体内涵及其水平特征，并了解这些内涵或特征在评分标准中的具体体现。在此基础上，教师可以基于评分标准对学生提供的材料、产品或作答表现进行全面深入分析，从而识别出与素养相关的特征并判断学生所处的不同水平。如果要更好地完成该项工作，教师需要不断地反省自身对评价标准的理解，提升从学生表现中识别证据和基于证据进行推理的能力。具体而言，教师可以组成团队，并在评价专家的指导下以教研活动的形式开展合作评分。评分过程中，教师分享自己对评分标准的理解和对特定任务表现的评定结果，团队成员通过比较发现差异，再经过反复讨论和调整最终达成共识。

证据整合和学生素养水平的推断要满足效度、信度、可推广性和公平性等测量学质量指标的要求。在项目反应理论框架指导下，具体实践主要分为四个步骤。

第一步，基于学生数据对使用的模型进行拟合检验。例如，可以在模型整体、模型假设、任务和学生个体等多层面进行检验，以期全面检验拟合效果。

第二步，综合测量学规范和现实需求，界定模型参数标定或测量尺度。按照实际需求，既可以界定一个综合的测量尺度，也可以给每种素养各自界定一个测量尺度。目前，常用的方法有三种：一是将学生参数（和任务参数）界定为平均数为0，标准差为1的尺度；二是通过线性转换，形成平均数为μ，标准差为σ的尺度；三是构建按年级或年龄呈现的测量尺度，学生可以自主评价自身实际的素养水平与对应年龄或年级预期素养水平之间的差距，便于学生理解评价结果。

第三步，根据预先安置的铆题或铆测验，将学生的表现证据（任务得分）标定到确定好的测量尺度上以评估其素养水平，也可以同步将任务参数标定在共同尺度上。这样做不仅可以将不同学生的素养水平与素养导向的学业表现进阶进行关联，还可以与特定任务表现进行关联。

第四步，根据学生实际表现，评估其在不同时间点的素养水平以及学习一段时间后素养水平的发展变化情况。

（五）报告与反馈评价结果

通过将学生的素养水平、任务特征和素养学业成就进阶标定在一个纵向的共同测量尺度上，评价系统可以超越简单的分数或等级，给每个学生提供具有实质内容的素养水平描述。笔者对Griffin等提出的学生素养水平和任务难度分布图进行改编，形成图3^[18]。

微信图片_20250120185654.png

由图可知：第一列是均数为0、标准差为1的共同测量尺度，从下到上代表能力逐渐增加；第二列是基于测量尺度的学生素养水平分布情况，“x”代表处在同一素养水平的一个或若干个学生；第三列是基于该测量尺度的不同测验任务的难度分布情况，每个数字代表了具有同一难度水平的任务编码，如任务18对应的难度最低；第四列是某一特定素养由低到高的六个水平，以及每个水平在测量尺度上的区间位置和跨度。以素养水平2为例，其对应-3到-2的区间，编码为2、4、27、28、30的五个任务考查了该水平的素养要求。从图中可以看出，处在该区间的共有8个“x”。因此，评价者可以依据素养水平2的表述，为8个“x”所代表的学生提供具有实质内容的素养水平描述，并可以用他们在这五个任务上的具体表现作为例证。

基于相同的学理，评价系统可以报告学生在多个核心素养上的表现情况，见图4^[18]。其中，左边方框图表示编号为WRKSHP001的学生在某一素养上的结果报告，中间尺度上黑色粗线表示该学生实际素养水平，两侧文字是对应素养水平的表现描述；右边方框图为该学生在社会技能、认知技能以及数字网络化学习技能三个维度上的发展水平，黑色粗线表示学生实际水平，并提供学生在每个维度的实际发展水平描述。

微信图片_20250120185716.png

基于上述思想，可以汇报学生随课程进程发生的素养水平发展或变化情况。以“证据和权衡”发展水平变化地图^[3]为例，见图5。

微信图片_20250120185722.png

其中，椭圆表示某个学生在一个学期各种评价中有关“证据使用与权衡”的得分。这些评价包含学期初的前测、三个内容单元（水、材料科学、能量）的各种过程性或形成性评价、期末后测等。借助预先设置的三个铆测验，可以将学生在不同时间点的得分标定到一个共同的测量尺度上，即“指向公众理解的科学教育项目（science education for public understanding project，SEPUP）”测量尺度。一方面，该测量尺度与证据使用与权衡素养的五个发展水平相关联，因此，可以提供素养的不同水平在测量尺度上的区间跨度；另一方面，整合上述要素后，既可以报告学生在每个单元的“证据使用与权衡”素养方面的发展水平，也可以报告学生素养随课程进程的发展程度。此外，研究者还可以通过综合素养水平描述和学生的具体任务表现，记录和追踪学生素养发展情况，如呈现学生已经掌握或需要努力的地方、提供与当前教学内容和进度密切结合的反馈信息等，从而真正指导教师教学和学生学习。

四、素养导向嵌入式评价系统实施的条件保障

评价系统的设计和实施是一个系统工程，需要一系列条件保障。其中，提高教师评价素养水平、建立评价协调机制、完善数字化支持平台三项保障措施尤为重要。

（一）提升教师评价素养水平

评价系统要想与课程和教学紧密结合，教师具有不可替代的作用。教师应深度参与评价实施的全过程，主动成为评价系统开发和使用的主导者。这就需要教师能深度理解素养导向的评价理念，结合课程内容制订合理的素养目标，选择或创设恰当的评价任务和形式，采取与教学活动相互支持的证据收集方法，识别和评定来自不同评价任务、形式或类型的学生表现证据，能结合当前教学情况合理解释评价结果，在此基础上改进教学或指导学生学习。因此，教师评价素养亟须提升，有必要加强相关培训与指导。

（二）建立评价协调机制

嵌入式评价系统涉及各种任务类型和评价形式，包含教师、学生、学校及区域管理人员、专业人士等不同主体，可以通过引入评价协调（assessment moderation）机制，确保从素养目标制订到结果反馈等一系列环节的质量稳定性。评价协调机制最初指教师集体分享、讨论和协商对特定（任务）情境下学生作品或表现的理解和评定，以确保参与者能够在共同框架或评判标准下，达成对学生表现的理解、评分及解释的共识^[19]。教师可以据此调整评判标准和后继评分，与共同标准保持一致。评价协调机制以一种公开的、集体协商的方式进行分数评定，有助于保证评分公平性和一致性。利用这种方式，不仅可以提高评分质量，还可以作为一种教师专业发展模式，促使教师不断反省和改进，并提升其评价素养。在评价系统中，可以将评价协调机制拓展到所有环节，包括更多参与人员，形成一种基于评价协调的质量监控机制。

（三）建设数字化支持平台

数字化平台对评价系统不可或缺，可以在不同层面支撑评价系统的运行。首先，数字化平台可以提高评价效率和便捷程度。借助于数字化平台，教师可以不受时空限制随时开展评价，在线记录评价过程，收集学生表现或作品。平台可以辅助教师开发任务，根据需求更为方便、快捷、及时地分析和集成数据，展示评价结果和生成评价报告。第二，数字化平台能够变革既有评价模式。借助于虚拟现实、多媒体等技术，数字化平台可以支持教师创设虚拟的复杂情境或探究任务，以人机互动的方式在线进行学科或跨学科任务的施测，收集动态的、多模态的过程数据，实现对学生多方面核心素养的综合评价。第三，数字化平台还能够实现评价与学习的真正融合。以学生个性化学习和发展为核心，通过创设沉浸式的学习环境，支持学生在线开展协作式的学科或跨学科探究，并通过生成式人工智能技术，实现对学生学习过程追踪、数据挖掘及动态评价，提供即时的智能化和个性化的结果反馈、学习建议和资源推送，使学习与评价真正融为一体^[20]。

参考文献略。