引用格式:黄丽燕, 赵连杰, 吕生禄, 等. 高中英语学业水平合格性考试命题质量评估框架的构建与应用[J]. 中国考试, 2025(10): 49-57.
作 者

黄丽燕,华南师范大学教授。

赵连杰,首都师范大学副教授。
摘 要:本研究基于语言测试有用性框架等理论,构建了包含命题导向、命题规划、试卷设计、试题设计、参考答案与评分标准五个部分的高中英语学业水平合格性考试命题评估框架,并以A省2024年高中英语合格性考试为例进行验证分析。结果表明,该评估框架具有实践可行性,能有效诊断命题质量;当前考试命题在规范性和基础性方面表现良好,基本符合高中英语课程标准的要求。同时,研究也发现命题中存在选材的时代性不足、语言能力考查不全面等问题。该研究为完善高中英语学业水平合格性考试质量评估体系、推进学科核心素养落地提供了理论与实践参考。
关键词:高中英语学业水平合格性考试;考试命题质量评估;语言测试有用性;评估框架
命题质量评估是监控考试设计、施测、评分、分数解释与使用的科学性和有效性的重要环节。一方面,命题质量评估能够通过量化指标(如平均分、难度、区分度等)精准诊断试卷质量的优劣,为命题改进提供依据;另一方面,科学的命题质量评估能确保考试科学性,有效引导教学实践,促进学生素养发展。评估框架构建是开展命题评估的关键环节,是确保考试内容有效性、公平性与导向性的基础,对实现以评促教、促进学生发展的最终目标具有核心价值。本文基于教育测量理论,参考国内外相关研究成果,探索高中英语学业水平合格性考试(以下简称高中英语合格性考试)命题质量评估框架的构建逻辑与实践路径,为教育行政部门、命题机构及一线命题人员在评估框架构建、命题规范制定与命题质量改进等方面提供理论与实践参考。 一、考试命题质量评估的理论基础 (一)考试命题质量评估的理论依据 考试命题质量评估,一般基于经典测验理论(classical testing theory)和项目反应理论(item response theory)两种主要的测量理论[1]。经典测验理论以信度(reliability)和效度(validity)为核心指标。信度反映测量结果的稳定性,可通过重复测试或平行试卷的分数一致性判断试题的可靠性;效度则关注考试是否准确测量目标构念[2]。经典测验理论在标准化考试中广泛应用,其分析方法易于理解和操作,但该理论体系存在两个明显局限:一是测验结果受样本特征和测验内容的双重影响,导致参数解释缺乏稳定性;二是通过平均分、标准差等传统信度指标评估测验可靠性,难以精准刻画测量误差的分布特性,评估精度相对有限[3]。项目反应理论则通过数学模型提升评估的科学性。在该理论框架下,考试命题质量评估通过数学模型对试卷和题目特性进行系统性统计分析,核心在于利用概率模型同时估计学生能力(θ)与题目参数(如难度b、区分度a、猜测c),从而实现对考试质量的科学诊断。具体而言,题目参数的估计基于学生答题数据与理论模型的匹配程度。项目反应理论支持通过参数筛选优化题目分布,剔除低区分度或难度极端的题目,并结合自适应测试动态调整题目难度以提高测量效率。与传统经典测验理论相比,项目反应理论的优势在于其参数独立于样本群体,能够提供更为稳定、可比较的测验结果,并支持跨版本试卷的等值化分析[4]。这一理论不仅提升了命题的科学性,也为考试公平性、精准性和适应性提供了理论支撑,但在实践中仍面临技术门槛高、应用成本大的挑战。考虑到评估的可操作性等问题,命题单位一般会在经典测验理论框架下开展命题质量评估。 此外,学界还提出多种效度验证框架为试题质量评估提供理论指导。以Weir的社会—认知效度框架(social-cognitive validity framework)[5]为例,效度验证可划分为考前与考后两个阶段:考前阶段通过理论效度明确需测量的核心构念,并以情境效度确保任务设计与真实应用场景的一致性;考后阶段则通过评分效度验证评分结果的稳定性,借助准则关联效度将测验结果与外部标准进行对比,同时运用后果效度评估测验对教育实践及社会层面的潜在影响,最终形成从构念界定、情境设计到评分验证、准则关联及后果评估的完整效度验证链条。 除了相关理论指引,在考试命题质量评估实践中,政策文件、课程标准[如《普通高中英语课程标准(2017年版2020年修订)》[6],以下简称课程标准]等也是构建试题质量评估框架的重要依据。近年来,人工智能与大数据技术的应用进一步推动了评估方法的革新,如自然语言处理技术用于作文评分一致性分析,或通过机器学习模型预测试题的区分度。 (二)测试有用性框架 Bachman与Palmer提出的测试有用性(test usefulness)框架为语言测试效度验证与质量评估提供了学理指导。该框架包含信度、构念效度、真实性、交互性、可行性及后效六类测试质量属性。信度体现测试结果的稳定性与一致性,构念效度反映测试是否准确测量目标能力,真实性强调测试任务需贴近真实语言应用场景,而交互性关注语言的交际功能,可行性与测试实施的可操作性相关,后效关注测试对教学实践的正向或负向影响[7]。 在测评质量评估中,信度与构念效度是评估框架的核心要素。信度关注测量结果的一致性与稳定性,要求学生在相同测试条件下重复作答时能获得相近的分数。为实现这一目标,试题设计需在多个方面满足技术规范:首先,题目表述必须严谨无歧义,以确保测量目标构念的准确性;其次,难度与区分度须合理平衡,避免因过易而无法区分不同能力层次的学生,也防止因过难而影响学生信心;最后,测试实施的标准化(如时间控制、环境一致性)与评分标准的统一性(如主观题评分细则的明确化)同样是保障信度的关键环节[8]。以某省高中英语合格性考试的写作部分为例,评分采用双盲评分与量化标准。统一培训评分教师,作文按语言准确性等12项指标进行批改,并由专家进行抽检复核。通过统一培训、量化标准、复核流程,有效降低主观偏差,体现了高信度特征。构念效度聚焦于测试工具是否真正测量了预设的目标,核心在于内容覆盖的全面性与代表性。具体而言,试题须系统覆盖考查目标,选材须贴近真实语言运用场景,并通过多元化题型设计评估学生的综合语言运用能力。例如,阅读理解部分选取“人工智能对英语课堂教学的影响”(人与社会)与“亲子沟通中的隔阂与理解”(人与自我)两篇文章,既确保语言知识的覆盖广度,又通过现实议题激活学生的批判性思维与语言运用能力,对接学科核心素养的培养要求,促进构念效度的实现。 真实性与交互性作为语言测试的两个重要质量属性,通过模拟真实语言使用场景与构建动态交际环境,共同强化试题的实践导向性。真实性的核心在于确保测试任务与实际语言运用的契合度。选材须反映典型交际情境(如邮件撰写、旅游胜地介绍等),通过语境化设计引导学生在具体场景中应用语言知识。同时,任务设计须兼顾语言技能的综合运用与问题解决能力的培养。例如,以校园垃圾分类项目实施效果调查报告为阅读理解材料,要求学生分析项目实施中的挑战,并撰写一份建议书。该设计不仅检测学生的语言能力(如建议书结构与撰写),还通过模拟学生参与校园治理的真实场景,引导其运用批判性思维评估项目合理性,提出改进建议。交互性则聚焦语言学习的交际属性。其技术实现包含两个层面:一是任务设计的互动性,通过合作型任务(如小组讨论、角色扮演)或跨文化交际任务(如模拟国际交流场景),促进师生、生生间的多维度互动;二是测试形式的多样性,如口试、合作型写作等,使测试过程本身成为语言实践场域。例如,应用文写作任务要求学生以学校音乐节为主题向国外笔友介绍活动,这种角色扮演式任务既强化语言交际功能,又通过跨文化交际深化语言应用能力。 可行性与后效分别从实施适配性与教育生态影响两个维度反映测试价值。可行性关注测试设计与现实条件的适配度,要求其在科学性与可操作性之间建立动态平衡。例如,试卷阅读量、测试时长等设计须与考试目标匹配,评分流程应避免过度复杂化以降低执行成本。后效评估需从命题引导与数据应用两方面体现价值。一方面,题目设计应通过真实情境任务(如社会热点分析、校园生活案例)引导教学关注课程目标,促进教师优化教学策略;另一方面,考试结果需通过数据反馈(如区域能力差异、考生的薄弱环节)为教学改进和教育决策提供依据,实现以评促教、以评促学[9]。 测试有用性框架所涵盖的六类测试质量属性之间相互关联、相互制约。例如,一个信度较高的口语测试可能因效度或真实性不足而影响其实际价值。命题者须在各类属性间寻求动态平衡,既要避免过度追求效度导致测试复杂度增加,也要在提升真实性的同时确保可行性。这种系统性考量最终指向以评促教、以评促学的价值旨归。 测试有用性框架在提出后的十余年间,逐渐成为指导语言测试效度验证的重要模式,为考试质量评估提供了理论支撑[10]。 二、高中英语合格性考试命题评估框架 根据课程标准,英语学科的教学与测评需以发展学生的学科核心素养为目标,落实立德树人根本任务。高中英语合格性考试的考查目标、考查内容及实施方式均须体现促进英语学习、优化教学实践、监控学业质量等多重功能[6]。基于此理念,教育部课程教材研究所的高中英语合格性考试研究课题组(以下简称课题组)在系统梳理测试有用性框架等相关理论的基础上,结合课程标准等政策文件,构建了高中英语合格性考试命题评估框架,帮助命题人员把握考查目标与价值取向,并通过系统审视试题质量、对照标准发现问题等方式优化设计,最终实现命题质量的整体提升。 课题组构建的高中英语合格性考试命题评估框架主要包含命题导向、命题规划、试卷设计、试题设计、参考答案与评分标准五个部分。 (一)命题导向 命题导向是试题设计的核心指导思想,它决定了考试的价值取向和考查目标。命题导向涵盖四个评估指标:坚持立德树人、落实依标命题、体现时代特征和引导教育教学。首先,命题应严格遵循立德树人的根本任务,将社会主义核心价值观及中华优秀传统文化融入试题,通过具体题目,增强考生的爱国主义情怀和民族自豪感,让考生通过作答展现理想信念与品德修养。其次,命题必须依据课程标准,确立素养导向的命题思路,合理规划考试目标、内容和形式,确保全面覆盖学生应掌握的知识和技能,并根据课程标准中的学业质量标准科学设定考试难度,在保障考试信效度的同时,体现教育公平原则。再次,命题应反映时代特征,体现习近平新时代中国特色社会主义思想及社会主义现代化建设成就,具有国际视野,关注气候变化等全球性热点问题,及时反映学科前沿动态和社会发展新成果,鼓励学生拓宽知识面和主动探索新兴领域。最后,命题应引导教育教学改革,促进区域高中教育均衡发展,落实五育并举。通过考试检验学生的学习效果,引导其形成健康文明的行为习惯和积极向上的生活态度,同时推动教师优化教学方法,培养学生解决问题的能力,提升学科素养水平。 (二)命题规划 命题规划是试题设计的基础,它确保了考试的科学性和规范性。命题规划包括命题方案和多维细目表的编制,旨在确保考试既能准确衡量高中学生毕业应达到的基本要求,又能促进学生的全面发展。 命题方案必须明确指导思想,结合国家形势、教育评价改革要求及地域教情学情,具体规定命题的方向、原则与重点,以此作为命题的总纲和依据。方案应突出学科素养立意,合理设置学科考试目标、试卷结构与难度,强调基础性,体现合格性水平考试的特点,确保考试的公平性和科学性。 多维细目表是命题规划的重要组成部分,其栏目设置应完整,基本要素需齐全。这包括考试目标、考试内容、考试要求(如分值与权重)、评分原则和难度预估等五个方面,所有内容表述均须准确规范,以便于实际操作。核心素养目标应在多维细目表中科学规划,确保覆盖课程核心内容。试题任务须明确,考查内容结构合理,题型与题量布局均衡,分值分配科学,依据学业质量标准设定试题难度,确保试卷设计既科学合理,又能有效评估学生知识掌握情况与综合能力发展水平。合理的命题规划不仅可检验学生的学习效果,更能推动教学实践重视核心素养的培养。 (三)试卷设计 试卷设计是试题质量的重要体现,直接关系到考试的可行性和有效性。试卷设计涵盖试卷结构和试卷规范两个方面,须全面落实命题方案和多维细目表的预设,涵盖素养、内容、分值和难度结构等要素。试题应从素材、情境、设问、题型等角度科学调控难度,确保区分度合理且科学。应减少机械记忆试题,优化题型搭配。建议试卷中的客观题约占比70%,主观题约占比30%。 在试卷规范方面,试卷篇幅要适中,确保大多数学生能够在规定时间内完成。版式设计清晰,字体、字号、标点等应用规范,信息栏、标题、说明完备无歧义。图表、数据等表达准确,图文材料来源可靠且无政治性或科学性错误,图片清晰美观,文字引用合理。试题内容避免重复,选择题选项逻辑关系合理无争议。答题卡填写要求明确,非答题区域标记明显,听力录音语速适中发音清晰。题目编制应遵循语言测试原则,描述清楚、要求明确,确保考试公平公正,真实反映考生能力,确保考试的有效性和科学性。 (四)试题设计 试题设计质量是评估的核心内容,它直接影响考试的效度和信度。试题设计质量评估主要从试题情境、试题任务及试题的综合性、应用性、开放性等方面展开。首先,试题情境应体现多样性,涵盖人与自我、人与社会、人与自然三大主题,并通过多模态语篇实现类型和呈现方式的多样化。情境材料应真实可信,反映现实生活中的典型现象和问题,同时要贴近学生的实际生活和认知水平,确保复杂度与难度相匹配。此外,情境设置须兼顾公平性,避免因学生生活经验差异(如城乡背景)导致测试偏差。试题应选择普适性更强的语境,或通过题干补充必要信息,确保所有学生基于公平起点作答。其次,试题任务类型应多样化,既要考查学生的基础知识和技能掌握情况,也要评估他们解决实际问题的能力。任务目标应从不同角度和层级考查学生的思维品质发展水平,建议学习理解层次题目(如理解文本简单细节的题目)占40%~50%,应用实践层次题目(如完形填空题中关于词组应用的题目)同样占比40%~50%,而迁移创新层次题目(如根据情境展开书面表达的题目)占5%~10%。任务难度应符合学生的知识范畴和能力水平。最后,在试题的综合性、应用性和开放性上,应设置读写、听写等综合技能试题,题目应能检验学生调动并综合运用各种知识和技能解决问题的能力,包括分析日常生活、学习活动及文化交流中的问题,以培养良好的沟通能力。同时,鼓励学生独立思考,大胆创新,灵活使用所学知识、技能和策略来表达个人认识、见解和看法。 (五)参考答案与评分标准 参考答案与评分标准的制定是命题流程的重要环节,其科学性直接保障考试的客观性与公正性。参考答案必须与试题卷和答题卷的编号完全一致,确保无缺漏,保证每道题都有对应的解答。答案应正确简明,避免任何政治性、科学性错误或学术争议,并且符合学生的知识范畴和能力水平。对于客观性试题,提供的参考答案应准确唯一;而对于主观性试题,参考答案应表述准确完整、清晰明确,字数合理,示例与设问关系紧密一致,体现试题的开放性特征,同时具有示范性和典型性,以及正确的价值导向。在评分标准方面,需要根据考查目标设置合理的赋分点及相应分值,采用等级赋分与要素分析赋分相结合的方法,以准确评价学生的语言表达能力。对于主观性试题的评分细则,应在充分试评的基础上制定,重点关注学生作答所展现出的核心素养水平。评分标准应体现科学性与公平性,既鼓励学生在考试中真实展示能力与个性思维,也为教师提供明确的教学改进依据。 综上所述,高中英语合格性考试评估框架是由五个部分构成的一个有机整体,其各要素的系统汇总如表1所示。

三、高中英语合格性考试命题评估框架的应用实践及发现的问题
课题组依托构建的评估框架,对2024年全国七份高中英语合格性考试试题质量进行系统评估,并以A省为典型案例开展深入分析,旨在验证该体系的适用性与有效性,揭示高中英语合格性考试的命题特征与存在的问题,为考试质量的持续改进提供实践参考。 (一)命题导向 课题组从坚持立德树人、落实依标命题、体现时代特征和引导教育教学四个维度对命题导向进行系统评价。A省英语试题具有正确的价值导向,试题在语言能力考查中有效融入了品德修养、文化认知等教育目标。例如,通过介绍首位女性诺贝尔奖得主、健康饮食及中国文学典籍的阅读语篇等传递奋斗精神、倡导良好生活习惯,以及强化文化自信。然而,试题仍存在两方面不足:一是德育渗透不够全面,多数语篇局限于日常话题与基础文化内容,在弘扬社会主义先进文化、培养审美意识和爱国情怀等方面存在欠缺;二是核心素养考查缺乏系统整合,语言能力与文化意识、思维品质、学习能力的关联性不足,对真实语境下跨文化交际能力的考查仍显薄弱。 在依标命题方面,试题基本符合课程标准的要求,依据课标理念和要求设计考试形式,通过贴近真实语言使用的听、读、写等任务考查学生的语言运用能力。试卷依托主题语境和语篇材料,侧重语言知识与技能的综合应用。然而,依标命题中仍存在三方面不足:一是学业质量标准水平一要求的口语能力、多模态资源运用及文化素养考查未得到体现;二是考试形式以分项测试为主,缺乏综合性任务设计;三是主题语境覆盖不完整,仅涉及“人与自我”和“人与社会”的主题,欠缺“人与自然”的相关内容。 此外,试题在时代性和引导教育教学方面存在明显不足。具体表现为:其中一篇阅读理解的话题“笔记本电脑”过于陈旧,建议替换为AI技术、智能手机或新能源汽车等具有时代特征的内容;听力材料中体育运动和天气讨论等传统话题重复出现,缺乏时尚类等反映当代社会发展的听力素材。试卷虽以主题引领和语篇依托为考查思路,但未能充分体现课程标准要求,内容深度与思维要求偏低,缺乏对创新性思维和问题解决能力的考查,难以有效引导教学方式改革和学生自主、合作、探究式学习的开展。 (二)命题规划 课题组通过深入分析多维细目表,对命题规划的科学性与规范性开展系统评估。A省的多维细目表尝试整合题型、分值、语境内容、知识点、语篇类型、语言知识、学业质量水平、核心素养、预估难度、题目出处等要素,融入了核心素养导向的设计理念,但仍存在以下三方面问题。首先,关键要素体系不完整,既缺少可操作的考试目标设定和评分标准说明,也未建立清晰的维度划分逻辑,导致各栏目功能定位模糊,难以形成有效的命题指导框架。其次,核心素养与学业质量标准的对应关系缺乏明确界定,语言技能、文化意识等具体素养要求未细化分解,造成考查目标覆盖不均衡,未能全面对接学业质量标准水平一的核心要求。最后,专业术语使用存在偏差,如题型分类未体现功能区分(如未区分理解类和推理类题目),“知识点”等概念内涵界定不清,削弱了细目表对命题实践的科学指导价值。 (三)试卷设计 课题组从试卷结构和试卷规范两个维度对试卷质量展开评价。值得肯定的方面包括:试卷满分为100分,由客观题与主观题构成,通过题型的科学分配系统覆盖听力、阅读与写作能力的考查需求;学习理解、应用实践与迁移创新三个层次的能力目标均有考查(题目占比分别为54.5%、25.5%和20%),且整体难度梯度较为均衡;试卷篇幅适中,80%的学生能在规定时间内完成;版式设计规范,语言表达严谨,未出现政治性、科学性或文字表述错误。 与此同时,试卷也存在三个方面的不足之处:其一,客观性试题占比偏高(80%),略超课题组建议的70%标准,主观性试题占比偏低,可能影响综合语言运用能力的充分考查;其二,试卷素材原创性不足,部分语篇直接引用往年高考题或模拟题(如短文填空题源自高考题);其三,个别选择题存在文字内容与试题素材直接关联的问题(如完形填空题中部分答案直接引用素材中的文字),若考生仅依赖素材中的显性信息作答,可能弱化对语言运用能力的考查,进而影响测试效度与公平性。 (四)试题设计 课题组从试题情境、试题任务及试题的综合性、应用性、开放性等方面进行试题质量评价。整体上,试题情境设计较为合理。情境材料贴近学生认知水平与生活实际,如英语学习技巧介绍、感谢信写作等;选材兼顾文化多样性,如涉及中国文学等普适性内容;体裁(说明文、记叙文、应用文)具有多样性。 然而,试题命制仍存在两方面不足:一是情境呈现方式单一,过度依赖文字材料,缺乏图表、思维导图等多模态资源,不利于学生综合思维能力的发展;二是情境设计的时代感与公平性有待提升,部分题目(如英语角写作)对经济落后地区考生存在背景知识壁垒,且较少结合现代科技、文化交流等贴近现实的场景。 在试题任务设计方面,存在类型单一与考查深度不足的问题。试题仅包含选择题、填空题、改错题和写作题四类,侧重基础知识与技能的考查,对语言综合运用能力及高阶思维能力的考查较弱。具体问题包括:一是部分题目设计不合理,如阅读理解题目中采用“Which is true?”的提问方式,实质接近判断题,不符合选择题设计规范。二是选项设置存在缺陷,部分干扰项逻辑牵强,过度使用绝对化表述(如“must”“all”),且出现褒贬对立的选项(如四个选项中包含三个贬义词和一个褒义词)。此类设计易使考生通过选项分布规律而非题干内容判断答案,削弱对语言运用能力考查的有效性。三是题目排列顺序需优化,如阅读理解题目的设置顺序与阅读素材内容的逻辑顺序不一致。综合来看,上述问题在一定程度上影响了测试效度。 在试题的综合性、应用性与开放性方面,存在一定局限:一是未曾尝试通过读写联动、听写协同等任务考查学生的综合语言运用能力;二是缺少引导学生通过分析推理解决复杂问题的题目设计;三是开放性表达任务较少,仅写作题为学生提供了一定开放性发挥空间。 (五)参考答案和评分标准 试卷参考答案与评分标准整体较为规范。客观题答案具有唯一性且能有效区分知识掌握水平,主观题作文评分标准从内容、语言、衔接等维度系统评估写作质量,参考范文的提供有助于统一评分尺度。然而,此部分存在两方面不足:一是改错题评分细则不够完善,未明确“识别错误但存在拼写问题”等特殊情况的处理方式;二是书面表达评分标准表述需进一步具象化,如第五档“具备较强语言运用能力”的描述缺乏可操作性,易导致评分主观性增强,影响评分一致性。 总体而言,基于对A省的试卷试题分析,课题组发现,当前高中英语合格性考试命题存在一些共性问题。尽管试卷在基础规范性上表现良好,如遵循课程标准、评分标准清晰、客观题区分度较好,且通过参考范文统一了主观题评分尺度,但整体设计仍显保守。语篇素材更新滞后,部分选题直接引用往届高考题或教辅材料,缺乏反映前沿科技领域的时代性内容;文化融入多停留于传统层面,未能有效拓展国际视野。题目设计对综合能力的考查明显不足,既缺少读写结合、听说结合等跨技能整合任务,应用性题目也多局限于信息提取,较少涉及批判性思维或创新表达。评分细则的可操作性较弱,改错题对特殊错误的处理缺乏明确说明,作文评分中“语言运用能力”等表述过于抽象,容易引发评分主观性偏高的问题。这些现象反映出当前高中英语合格性考试命题在综合性和创新性方面的提升空间依然较大。 四、结束语 考试命题质量评估是保障教育公平与育人实效的重要环节,其意义不仅在于科学衡量教学成果,更在于为课程改革与教学实践提供有效反馈。本研究参考语言测试有用性框架等理论,结合我国高中阶段教育的现实需求及核心素养导向,构建了契合课程标准的高中英语合格性考试命题质量评估框架。通过对A省2024年高中英语合格性考试的试卷试题分析,验证了该体系在诊断命题质量中的实践价值,也揭示了当前考试设计在素材创新性、能力综合性与评分科学性等方面存在的共性问题。研究表明,唯有建立扎根我国教情学情且符合语言测试理论的命题质量评估框架,才能系统识别命题实践中的问题,并为考试内容的优化提供科学依据。未来需通过建立常态化诊断评估体系,动态优化命题机制,推动考试评价体系实现从知识技能取向向核心素养取向的系统转变,从而构建以评价驱动教学改进、促进学生发展的教育实践路径。 参考文献略。