2025-10-09
原创 中国考试 中国考试 2025年09月24日 14:44 北京 引用格式:李峰, 郭嘉悦, 胡新雨, 等. 大语言模型辅助情境化命题模式探索: 以创造性思维测评为例[J]. 中国考试, 2025(9): 76-86. 作 者李 峰,北京师范大学人文和社会科学高等研究院、中国基础教育质量监测协同创新中心副教授。郭嘉悦,北京师范大学统计学院在读硕士生。胡新雨,北京师范大学统计学院在读硕士生。张佳慧,北京师范大学中国基础教育质量监测协同创新中心副教授(通信作者)。 摘 要:随着大语言模型在教育领域中的广泛应用,如何利用其提升命题质量和效率已成为重要课题。本研究基于PISA 2022创造性思维测评框架,聚焦科学问题解决,探索利用大语言模型辅助生成情境化任务的技术路径。研究以781篇科普文章为材料,采用篇章映射技术与提示词工程,调用大语言模型生成题目,并经人工筛选与修订后组织实施测验。对于1156份学生作答数据和17份出声思考记录的检验分析显示,题目具有良好的区分度、拟合度与内部效度。研究表明,大语言模型可有效提升情境化命题效率,但其生成的题目仍需依赖人工审校与优化。研究结果可为区域素养测评和过程性评价中的自动化命题提供技术参考。 关键词:创造性思维;大语言模型;情境化命题;简答题2020年5月,OpenAI发布了GPT-3,参数量达到1750亿,成为当时使用规模最大的语言模型,并在零样本学习任务上取得了突破。大语言模型(Large Language Models)从此进入快速发展和广泛应用阶段,并随着ChatGPT的推出进一步普及。大语言模型的快速进展为教育测评带来了新的可能性,已有不少研究验证了大语言模型在编程、线性代数、英语、医学、网络安全、阅读理解测验开发中的潜力。 作为驱动科技创新和社会发展的关键能力,创造性思维(creative thinking)已成为全球教育改革与质量评价的关注焦点。我国教育部印发的《义务教育课程方案和课程标准(2022年版)》及《普通高中课程方案和语文等学科课程标准(2017年版2020年修订)》均强调要提高学生的创新意识与创新精神[1-2]。国际教育评估领域近年来同样重视创造性思维的测量与比较,PISA 2022首次将15岁学生的创造性思维能力纳入评估范畴,提出结合真实或具体问题情境的“小创造力”(little-creativity)测量,关注学生在日常生活和学习中的创造性表现,评估其在真实或具体问题情境中的创造性反应[3]。 本研究聚焦PISA 2022创造性思维测评框架中的科学问题解决领域,以青少年科普杂志为材料来源,采用篇章映射(passage mapping)技术,使用大语言模型辅助生成创造性思维测评的情境化试题。在此基础上,通过分析真实的学生作答数据和出声思考资料,评估试题质量,从而探讨大语言模型辅助命题在创造性思维测评和情境化题目开发中的技术路径。 一、研究背景 (一)大语言模型辅助命题的进展 目前,大语言模型辅助命题已在多个学科领域取得积极进展。通用模型如GPT-3.5、GPT-4、ChatGPT与Bard(谷歌开发的对话式AI助手,现名为 Gemini)等在题目与测量目标的契合度、语言表达质量、认知层级覆盖、题目区分度等方面表现突出。不少研究认为其生成的题目与学习目标匹配度较高,但在相关性指标上略低于人工命题[4]。GPT-4与GPT-3.5在语言流畅性、逻辑通顺与语法正确性方面优于人工命题,尤其在计算机教育与阅读理解中表现明显[5-6]。虽然大语言模型命制的题目可涵盖理解、应用、创造等多个认知层级,但部分题目存在效度问题[7]。在医学教育、数学与阅读理解等多个领域,其生成的题目有较好的区分度[8-9],但涉及逻辑验证任务时,部分存在错误[10]。不同领域的研究者根据不同学科的知识特点与命题需求,探索了大语言模型辅助命题的路径和效果。其中,数学与科学教育、阅读理解以及医学教育是当前研究较为集中的三个领域。 在数学与科学教育领域,大语言模型能够较好地生成不同认知层级的题目,并在语言质量与干扰项设计方面优于人工命题,但在逻辑推理与程序执行类任务中仍存在不足。有研究基于教科书内容摘要,使用ChatGPT生成数学测试题,结果显示其测量学指标与教材原题基本相当,在中等难度题目的区分度方面甚至略优于原题[11]。在科学教育中,有研究发现GPT-3.5能够生成化学和生物学的高阶思维问题,其中涉及布鲁姆分类法中“评价”层级的题目表现尤为良好,题目复杂性与人工命题结果基本一致[12]。在计算机教育中,有研究依据Python课程模块与学习目标,使用GPT-4自动生成651多选题,与449道人工命题相比,在语言清晰度、正确答案唯一性和高质量干扰项编制方面均表现更佳,且题目内容与246个学习目标一致[5]。然而,在涉及程序执行逻辑验证的题目中约有三分之一题目存在逻辑性错误[10]。 阅读理解命题是大语言模型应用的另一个重要场景。多项研究表明,大语言模型能够生成覆盖多个认知层级的阅读理解题目,具备一定的区分度和信度;而通过模型微调(fine-tuning),可显著提升其在专业领域题目生成的质量与技能分布合理性。例如,有研究基于学院托福考试项目(TOEFL Institutional Testing Program)的三篇阅读理解文章,使用GPT-3.5生成了30道选择题,题目覆盖从分析到创造等多个认知层次,信度达到中等水平,但仅有三分之一的题目符合效度要求[7]。另一项针对1607名八年级学生作答数据的测量学分析显示,GPT-3.5生成的阅读理解题目具有良好的区分度,干扰项设计有效[9]。在探索从文本数据中生成问题的最佳方法时,有研究选取斯坦福问答数据集(Stanford Question Answering Dataset),分别对 distilBERT(Distilled Bidirectional Encoder Representations from Transformers)与LLaMA(Large Language Model MetaAI)模型进行微调,结果表明生成题目与基线题目的平均相似度超过60%,其中有30%的问题相似度达到70%[13]。在大学英语六级(CET-6)阅读理解题生成任务中,经过微调的模型在微技能分布、信度和拟合度方面接近人工命制的真题[14]。此外,在简答题生成方面,未经微调的BERT适用于通用型阅读理解题目,而微调后的BERT在生成专业性质题目时表现更好[15]。 在医学教育领域,大语言模型能够明显提升命题效率,生成的题目区分度普遍较高,但也存在个别选择题干扰项质量不高以及相关性指标有待提高的问题。例如,有研究基于高血压案例,利用ChatGPT生成了10道选择题,经专家评审后,其中两道题目被直接用于99名四年级医学生的考试,虽然个别干扰项质量有限,但仍表现出较高的区分度[8]。在循证医学领域,有研究使用ChatGPT生成15道题目,其中6道区分度达到可接受水平,研究者还利用OpenAI的GPT Builder平台,实现了基于学习目标的高度自动化命题,教师可快速生成基于临床案例的多选题[16]。还有研究基于本科医学教材,在医学研究生入学考试中利用ChatGPT在20分钟25秒内生成50道题,仅为人工用时的十分之一,除相关性略低外,其余指标表现良好[17]。 综上所述,从技术路径看,基于大语言模型的辅助命题主要包括两类。一类以提示词工程为核心,通常结合教材内容、学习目标或具体学科案例进行命题。为减少模型“幻觉”问题,此类方法多采用教材摘要、课程模块或阅读材料作为输入,通过大语言模型生成涵盖不同认知层级的选择题与简答题,在适切性、语言清晰度和区分度等方面表现良好。另一类是在完成预训练的大语言模型基础上,引入领域数据进行微调,以提升模型在专业知识掌握、术语理解和学科特异性逻辑推理等方面的能力。经过微调的模型在生成阅读理解简答题、专业性学科测试等任务中表现优于未微调模型,并与基准题目具有较高相似度。 (二)情境化命题 美国教育评价专家Wiggins最早提出真实性评估(authentic assessment)概念。他批评当时对标准化测试的使用方式过于片面且评价指标单一,认为尽管标准化测试具有效率优势,但真正的评估应当切实考查能力,这需要模拟真实情境中的挑战并完成典型任务,唯有如此才能促进学生的终身学习,并确保国家在教育方面取得进步[18-19]。 真实性评估包括场景化评估(scenario-based assessment,SBA)和情境化任务(contextualized tasks)两种常见形式。SBA强调真实情境中的复杂问题解决,典型应用包括医学领域的病人访谈与咨询模拟、商业领域的视觉海报制作、法律领域的客户会议准备及案件处理等[20],PISA的合作问题解决类测验较为接近SBA。情境化任务是在引入简化后的真实情境、相关材料及学科信息的同时,力求保留其核心特征的真实性。相较于SBA,情境化任务更侧重于在真实性和操作性之间取得平衡,PISA的阅读和创造性思维测验更接近情境化任务。真实性是情境化任务设计的关键。Cumming和Maxwell指出,若情境设计仅看似真实或刻板模拟,反而可能导致任务脱离实际应用情境,进而损害测评效度[19,21]。Constantinou通过分析英国应用数学(Functional Mathematics)考试中的527道情境化题目,提出强化真实性的四个原则:1)深度情境化,即将所有问题嵌入连贯的叙事背景中;2)情境平衡,即确保情境与课程目标一致;3)情境不可预测性,即避免模式化和可预测的情境设置;4)情境目的性,即确保情境对学生具有实际意义,而非仅表面关联[20]。 真实性是情境化任务设计的主要挑战之一。Tout和Spithill在总结PISA数学素养题目开发面临的挑战时指出,其核心难点在于寻找真实可信且能够被全球15岁学生理解并引发兴趣的数学情境。在命题实践中,情境化题目开发的一种常用方法是从现实生活情境入手,将其发展为完整的测试单元。然而,真实情境往往较为复杂,其中涉及的数学公式、数量信息及计算过程并不适合学生在考试环境中处理。此外,筛选和改编真实情境与任务需要投入大量的人力和时间成本[22]。另一种常用方法则是从特定数学概念或内容领域入手,尝试将其嵌入真实的任务背景中。然而,这种方法容易出现传统的课程式文字题,与现实世界的关联性与真实性不足。Tout和Spithill指出,尽管许多国家提交给PISA的题目倾向于采用后一种方法,但这类题目却很少在PISA的正式调查中被采用[23]。 从现实生活情境入手发展完整测试单元时,需要采取多种措施确保任务的情境化质量。PISA数学素养命题的实践经验表明,情境材料的审查应重点关注情境的真实性程度、阅读量的合理性、语言表述的清晰简洁、情境内容对目标群体的适切性与相关性、题干对材料核心信息的聚焦程度[23]。此外,PISA命题人员还广泛采用视觉辅助材料(如插图、图表与照片等),以降低阅读负担,增强任务的真实感受,提升学生对试题的参与度和兴趣[23]。 (三)创造性思维的概念与测评 创造力测评通常采用最佳表现测验,侧重考查个体的潜能上限。其代表性工具是托兰斯创造性思维测验(Torrance Tests of Creative Thinking),被广泛应用于测量发散思维的流畅性、灵活性、独创性和精细性[24]。我国已开发出多种本土化的测验工具,如《中学生创造性思维能力自评量表》和《中学生创造性思维量表》等[25-26]。这类测验题目相对固定,如发散思维测验可能要求“将四个图形组合成有意义的新图形”,而聚合思维测验则可能要求“找出每一题中与前面四个词或者三个词都有联系的一个词语”等[25]。 与此不同,PISA 2022将创造性思维设为独立评估领域,延续其素养导向的测评理念,强调在真实情境中生成并应用创意,将创造性思维定义为“能有效生成、评估和改进想法,以提出有创意和有实效的解决方案、知识产出或表达”的能力[3]。从创造过程的角度构建了产生多样化想法、形成创意、评估与改进想法三个维度,并基于此开发了书面表达、视觉表达、科学问题解决和社会问题解决四个领域的测试题目。 以PISA官方发布的样题“未来自行车”为例,该题目由三个任务构成,围绕15岁学生所熟悉的真实日常生活场景展开,通过多样化想法—形成创意—评估改进的任务序列,引导学生经历相对完整的创造性思维过程,考查学生改良自行车结构、优化防盗功能等日常生活中所需要的实用性创新能力;其评分主要关注学生能否提出具有新意且符合实际情境的解决方案[27]。 比较而言,传统创造力测验的题目固定、便于操作,但在任务真实性与外部效度方面存在局限;PISA创造性思维测评突出素养导向,在贴近学生生活和学习的情境中考查创意生成与应用能力,强调创造过程、实际意义与真实情境,但对命题人员要求较高,题目开发难度较大。 二、研究过程与方法 总体而言,现有研究已初步验证了大语言模型在多个学科领域辅助命题的可行性,并显示出其在提升命题效率、覆盖认知层级和生成语言质量方面的优势。然而,相关研究多集中于客观题或结构化任务,针对素养导向的简答题,尤其是创造性思维测评的命题研究仍相对匮乏。情境化命题虽强调任务真实性以及学生相关性,但情境材料的筛选仍高度依赖于人工判断,存在效率低、主观性强等问题,尚未形成可复制的高效流程。鉴于此,本研究尝试将篇章映射技术与大语言模型生成能力相结合,以创造性思维测评为应用场景,按照命题材料准备、试题生成与修订、施测与数据采集、结果分析的研究流程,从命题技术路径与测评质量检验两个方面开展探索。 (一) 题目命制 1.测评框架以PISA2022创造性思维测评框架为蓝本,结合八年级学生认知特点形成反映创造性思维过程的三维测评框架,见表1。 2.材料收集 科学问题解决涉及产生新见解、设计实验探索假设以及开发新方法。在本研究中,学生需针对一个开放性问题生成多个不同想法或解决方案,或提出一个原创性想法[3]。为确保情境材料的真实性与科学相关性,本研究选取知名青少年科普杂志《万物》(How It Works 中文版)作为素材来源。该杂志内容丰富、表达生动,覆盖环境生态、工程机械、太空探索、物理化学、生物医学等多个领域。研究采用该杂志2016年1月至2024年8月间出版的104期共781篇文章作为情境材料。 3.篇章映射 为评估情境材料是否适合考查创造性思维,本研究借鉴了阅读理解测验开发中的篇章映射技术。该技术通过结构化分析文本、识别关键信息及其逻辑关联,可评估篇章适配性、提取重要信息及其组织方式,并为题目开发提供建议[28-29]。在此基础上,研究通过Python3编程调用阿里云通义千问大模型Qwen2.5API(max_tokens=4096,temperature=0.2),以提示词对781篇材料进行遍历。具体而言,要求大模型针对每篇材料,依据其是否适合命制实验室发明创造、基于观察的假设生成、工程问题解决、数学与数据分析等方面的创造性思维题目[5],生成三个独特且新颖的小题命题内容;若材料不适合,则返回“无”。 4.材料审查 调用Qwen2.5API(max_tokens=4096,temperature=0.2)对情境材料进行审查,评估其内容完整性(是否提供每道题目命制所需的全部信息)和情境适切性(是否贴近我国八年级学生熟悉的生活、学习、社会、科学场景)。随后,将篇章映射的结果和情境审查的结果进行系统整理,最终筛选出17篇材料,均满足三道小题具备命题内容、信息完整且情境适切的要求,可用于后续命题开发。 5.题目生成 由于缺少可用于微调的创造性思维样题,本研究按照“目标—要求—返回格式—警告”的体例设计提示词进行命题。编程调用GPT-4o、Qwen2.5、DeepSeek-R1和Grok-3四种在文本生成、长链条推理方面表现良好的大语言模型(max_tokens=4096,temperature=0.6),要求其根据篇章映射标定的命题内容,针对每篇材料从产生多样化想法、形成创意、评估和改进想法三个维度命题。四种大语言模型共用时26分钟,生成68道各含三道小题的题目,每个题目含题干、小题、答案及解析、考查内容、考查能力等,字数在1000~1500字之间。 6. 题目筛选与修改 尽管命题所用材料均为科普类文章,且已通过大语言模型进行情境适切性筛选,但部分材料及相应题目仍存在知识结构超出八年级学生认知水平、情境远离学生日常生活或不适于进行创造性思维题目开发等问题。因此,需要对17篇材料及相应题目进行人工审题。具体来说,由课题组人员基于知识结构匹配度,排除9篇材料及相应题目,如涉及热感技术的喷墨打印机、涉及空气动力学的滑翔机飞行等;基于生活贴近度,排除3篇材料及相应题目,包括介绍土耳其加泰土丘早期人类聚落遗址、机械表内部结构和迪士尼特技机器人;基于创造性思维考查适配度,排除介绍插头基本结构的1篇材料及相应题目。 筛选后,共保留《钥匙怎么开门》《热气球》《鸵鸟的构造》《怎样测量硬度》4篇材料及相应题目,继续从情境设定是否贴近学生生活、是否考查与科学问题解决相关的创造性思维等角度进行综合分析。以《鸵鸟的构造》为例,各个大模型生成的题目侧重点不同。例如,GPT-4o命题将情境设定于北方动物园,可能会导致南方学生的参与感和熟悉感不足;Grok-3将任务置于科普展览中,要求学生布置鸵鸟展区并通过三种方式展示鸵鸟的结构与功能,强调创造性思维中的视觉表达而非科学问题解决;DeepSeek-R1聚焦观察鸵鸟的骨骼模型,要求学生对鸵鸟的高速奔跑提出三种解释性假设,并进行科学推理,体现了科学探究的特点,但更贴近科学素养而非创造性思维;Qwen2.5要求学生根据鸵鸟构造提出三种能够解决日常生活中运动、交通等问题的创造性设计,题目贴近生活,可有效考查创造性思维中的科学问题解决。综合比较,在情境贴近度、与测量目标的匹配度等方面,Qwen2.5生成的题目略胜一筹,被最终采纳。按照上述原则,本研究对四个大语言模型基于4篇材料生成的题目进行了系统分析和比较,各篇材料最终采纳的题目及所属大语言模型情况见表2。鉴于实际测试的时间限制,对4道题目(分别标注为Q1、Q2、Q3、Q4)下的小题进行了删减,每道题目仅保留2个小题。Q1和Q2的两个小题分别考查产生多样化想法和形成创意;Q3和Q4的两个小题分别考查产生多样化想法和评估与改进想法。同时,针对部分题目补充了必要的背景信息。例如,在Q1中补充了鸵鸟的生理结构信息,在Q2 中补充了莫氏硬度的知识。各题目简要说明见表2。 7.题目配图 为降低学生阅读负担、增强任务真实感,本研究参考PISA使用插图、图表与照片等视觉形式的经验[23],根据题干内容,加入配图帮助学生理解题目。为贴近教材或杂志的配图风格,在Gemini 2.0 Flash的对话窗口中输入图形信息和线稿风格图片的要求,生成配图后插入题目,形成正式试题。 (二) 题目测试与数据采集 为缩短测试时间并减少对学校教学秩序的影响,研究采用分组测试。学校一的学生完成测验一(Q1、Q2两个题目),学校二的学生完成测验二(Q3、Q4两个题目),单次测试时间控制在15分钟以内。测试在北京市某区两所教学质量中上等的学校八年级学生中进行,采用纸笔形式,以班级为单位施测。测试前,主试向参测学生详细说明测试目的、时间安排和作答要求,鼓励学生独立思考并尽可能多地完成题目,同时强调禁止在测试中进行任何形式的讨论交流。为了解学生的创造性思维过程,研究采用出声思维法补充收集数据,即在测试结束后,主试在每个班级随机选取2~3名学生进行结构化访谈,引导其回溯并阐述思考过程。所有访谈均在受访学生知情同意后进行录音。 (三) 数据分析 测试共回收有效试卷1156份,测验一为597份,测验二为559份。测验题目均为简答题,采用多级评分体系进行评分设计。分别从测验一和测验二中随机抽取约50份答卷进行预评分,以Q1A为例,该题要求学生基于鸵鸟的特征提出三项创意设计。依据创意的数量、可行性及其与鸵鸟特征之间的关联度,对22类学生答案进行归类整理,最终形成7个计分等级的评分方案。类似地,基于作答的完整性、合理性、数量及创新性,为其他题目分别制定了3~8点计分等级的评分方案。对全部1156份试卷正式赋分后,对频数极低或经验项目特征曲线(empirical item characteristic curve)几乎重合的计分等级进行合并与重编码,Q1A合并为3级计分,其余各题也被调整为3~5级不等的计分等级。 所有题目评分等级范围在0~4级之间,其中Q2A为0~4级计分,Q4A为0~3级计分,其余题目均为0~2级计分。0分对应未作答、答非所问或内容无效;1分表示作答内容初步相关但存在不完整或不合理之处;2分反映作答基本完整且具有一定合理性;3分要求内容较为丰富、合理且覆盖多项要素;4分表示作答内容非常完整、条目丰富,且具备明显的可行性和规范性。 将学生作答数据按计分结果整理为表格,采用经典测验理论(Classical Test Theory, CTT)与项目反应理论(Item Response Theory, IRT)对测验一与测验二分别进行题目难度、区分度、单维性、项目参数和拟合度分析。所有分析均以R4.4.3完成,主要使用psych、bruceR与mirt等R包进行。 对收集的17份出声思考访谈录音进行文字转录与内容整理,围绕命题是否有效测量创造性思维进行分析。首先,对原始语料进行清洗,删除口语化的填充词(如“啊”“嗯”等),剔除重复和无关语句,统一表达风格;其次,逐一提取学生思考内容中的语句片段;最后,根据题目所对应的测评维度,从产生多样化想法、形成创意、评估与改进想法三个方面对语句片段进行标注与分类。 三、研究结果 (一)基于CTT的数据统计 表3详细展示了所有题目的测量学指标。测验一题目难度在0.204~0.487之间,整体难度偏大。按总分将学生进行高低分组,分别计算两组在各题目上的平均得分,取得分差值并除以该题满分,得到区分度指数。测验一各题区分度均超过0.4,其中Q1B、Q2B区分度超过0.7。测验二题目难度在0.284~0.431之间,区分度均超过0.3,其中Q3A接近0.8。 (二)单维性检验 对测验一进行探索性因子分析,KMO值为0.588,接近可接受水平;Bartlett球形度检验显著(χ²= 353.32,p<0.001)。第一因子特征根为1.896,方差解释比为47.4%。测验二的KMO值为0.671,超过可接受水平;Bartlett检验显著(χ² =260.65,p<0.001),第一因子特征根为1.891,方差解释比为47.3%。尽管题目数量限制单维度检验中特征根比值法的使用,但根据两个测验中第一因子方差解释比接近50%判断,第一特征根均居主导作用,符合IRT单维性假设。 (三)基于IRT的分析 对测验一和测验二分别采用R的mirt包构建分步计分模型(partial credit model),进行参数估计。结果显示,大部分题目能够有效反映学生能力差异,Q3B、Q4A、Q4B的难度参数覆盖广泛能力区间,但也存在部分题目参数间隔较小、计分等级高而难度低的情况(如Q1B、Q2B)。以加权的残差均方(infit mean square)为拟合指标,测验一和测验二中各题目的项目拟合统计值infit值分别在0.746~0.847和0.717~0.872之间,均接近或符合infit取值应在[0.75,1.25]之内的拟合标准[30]。测验一和测验二的测验信息量峰值均在θ=0.8附近,学生能力分布的峰值均在0.2~0.3之间,基本对称,但测验一学生能力分布左侧出现了一个明显的次峰,整体呈轻度左偏趋势。 (四) 出声思考的分析 在产生多样化想法方面,参加测验一访谈的11位学生中,有4位能在Q1A中提出三种想法或设计,2位提出两种,3位提出一种,另有2位未能提出有效想法;所有学生均能够说明自己的想法如何受到鸵鸟特征的启发。对于题目Q2A,有3位学生能提出三种方案,2位提出两种方案,5位提出一种方案,1位未明确提出方案。参加测验二访谈的7位学生中,2位在Q3A中提出三种方案,4位提出一种方案,1位未作答。在题目Q4A中,有4位学生能提出三种方案,1位提出两种方案,1位提出一种方案,1位未作答。整体来看,大多数学生能够围绕题目情境提出两种及以上不同构想,表现出一定的发散性思维能力。 在产生创意方面,访谈数据显示,参加测验一的11位学生中,有9位能在Q1B中提出与日常生活经验紧密相关的创意展示方式,如演讲、体验式介绍等,2位未作答。Q2B中,有10位学生提出了创意展示方式,包括PPT、实验演示等,1位未作答。这表明大多数学生不仅能够提出创意,还能说明其展示方式的具体操作流程。 在评估与改进想法方面,测验二的7位学生中,有5位在Q3B中提出了与题目高度相关的改进方案,主要聚焦气囊泄漏问题进行分析,并结合物理知识说明改进步骤,2位未作答。Q4B中,7位学生中有6位提出了智能门锁的改进方案,涉及近场通信(Near Field Communication)、脱网唤醒等技术,1位未作答。整体而言,多数学生能够基于已有经验提出针对性强、具可操作性的优化建议。 四、结论与讨论 本研究在篇章映射技术筛选的科普材料基础上,进一步开展系统性审查,依托大语言模型生成测评题目,并通过多轮筛选与人工修订,持续优化题目质量。随后,采集学生的作答数据与出声思考记录,运用经典测验理论与项目反应理论对数据进行深入分析与检验。研究涵盖材料准备、题目生成与修订、测试实施及数据分析等关键环节,系统探讨了大语言模型在辅助创造性思维情境化命题中的应用潜力与现实挑战。具体研究发现主要包括以下四个方面。 第一,大语言模型辅助生成的题目展现出良好的区分度。测量学分析初步验证了大语言模型辅助命题的效果。从CTT角度看,多数题目区分度较高,和已有研究结果一致[9,11,16],但学生整体得分偏低,反映出题目难度较大,这可能与其不熟悉任务内容有关。在IRT分析中,所有题目的infit值均接近或处于可接受范围内,显示题目拟合良好。此外,测验信息曲线显示,测验对中等及以上能力水平的学生有较高的信息量,部分题目在高能力区域的信息贡献较为明显。 第二,高质量的情境材料仍是素养题目开发的关键。正如Tout和Spithill所指出,开发素养测试题目的关键在于选取真实可信且易于学生理解的情境[23]。本研究中,作为情境来源的781篇科普文章最终仅生成4个有效题目,材料利用率仅为5‰。未来,工作重点仍是高质量情境化任务的开发[20,23],应大力拓展材料来源,以丰富的真实材料涵盖学生熟悉的日常生活、社会现象与跨学科场景,从而提升任务的相关性与吸引力。同时,引入检索增强生成技术(retrieval-augmented generation)[31],对情境材料中超出学生知识结构的内容进行识别与筛选,以提升材料筛选效率和题目适配度。 第三,大语言模型生成的初始题目仍需依赖人工优化。本研究证明,大语言模型能够快速生成创造性思维题目的草稿,显著提升命题效率,但生成的题目仍需经过人工筛选与修订。与已有研究结论一致,并非所有模型都能准确生成符合测量目标的题目[7]。尽管目前仍存在局限,但出声思考访谈分析显示,学生在人工优化后的题目中普遍表现出良好的发散性与聚合性思维,表明测验具有较好的内部效度。 第四,综合使用大语言模型技术提升命题质量。未来,应进一步优化提示词工程,探索更系统的任务链设计;采用多智能体协作机制,在篇章映射、材料审查、题目生成与筛选修改等关键环节中实现分工协同,提升命题流程的自动化水平与生成题目的质量。同时,结合不断积累的学生作答数据,探索通过微调模型提升题目生成质量的可行性;引入多模态大语言模型,结合图像生成与情境理解能力,开发更加真实、丰富的情境化测验任务。 参考文献略。
2025-10-09
2025年09月26日 09:05 北京 引用格式:黄琰, 黄熙婷, 陶绮. 促进深度学习进阶的同伴互评模型的实证研究[J]. 中国考试, 2025(9): 87-98.作 者黄琰,贵州师范大学教育学院副教授。黄熙婷,贵州师范大学教育学院在读硕士生。 摘 要:同伴互评作为教育评价改革的一种创新性探索,对深度学习的促进效果常受限于学生被动参与、单向交互及形式化等因素。本研究依托ICAP认知参与理论构建同伴互评模型,主要包括同伴互评流程、深度学习进阶、多方协同支持三个核心环节;并以“微格教学训练”课程为例,采用认知网络分析法可视化分析应用前、中、后期三个阶段以及不同组别学习者的认知差异。研究发现,教学模式应用后学生的深度学习能力呈整体上升趋势,但不同阶段的认知差异显著,高分组转化速度更快且高阶学习特征更突出。研究据此提出促进深度学习进阶的策略建议,为推动高校教育评价改革提供实践参考。关键词:深度学习;同伴互评;学习进阶;ICAP理论;认知网络分析深度学习能力是个体有效应对复杂问题以达成高阶学习目标的综合能力。近年来,教育部先后发布《关于深化本科教育教学改革全面提高人才培养质量的意见》《关于一流本科课程建设的实施意见》《深化新时代教育评价改革总体方案》等多个文件,强调高校课程学习深度的重要性,将探索促进学生全面发展的多元化评价方法列为重要任务[1-3]。同伴互评作为一种强调深度参与、深层次交互的形成性评价方式,能激发学生高阶思维、提升学习投入度[4],促进深度学习的有效发生[5]。然而,在实际教学应用中,学生之间存在较大差异且学习进程迥异,同伴互评常以被动参与或单向交互为主[6],静态的理论无法诠释学习发展规律。学习进阶秉承螺旋式发展理念,面向学生最近发展区的进阶梯度,由浅入深的能力目标设定,能刻画出学习进阶起点到终点之间复杂的发展历程[7],为清晰呈现深度学习的进阶脉络、破解同伴互评现有困境提供新的思路。 基于此,本研究依托学习进阶理论分析深度学习行为层次,构建促进深度学习进阶的同伴互评模型,回答“高校课堂如何有效开展同伴互评”的问题,以期为高校课堂教学评价的改革与发展提供参考。 一、研究基础 深度学习作为教育高质量发展的核心驱动,与浅层学习相对应。不同于浅层学习阶段的观察、记忆、理解等低阶能力,深度学习要求学习者进一步运用分析、综合、评价、创造等高阶能力。从同伴互评、学习进阶两个维度探索与揭示学习过程中低阶能力到高阶能力的转变规律,可以为实施模型的构建提供多重依据。 (一) 同伴互评:促进能力转变的方式 同伴互评是一种对学习同伴作品或成果进行评分评语的形成性评价方法[8],要求学习者模拟专家思维深度参与互动[9],不仅要对同伴表现及其作品进行批判性分析与评价,还要提出创造性的修改建议,并在反思和自主思考中重构自身知识结构以实现迁移应用[10]。 同伴互评对深度学习具有明显的促进作用。在评价同伴过程中,学生会调节自己的学习行为,有助于进一步发展深度学习能力[11]。近年来,有关同伴互评的理论探讨、影响因素探究、技术应用及评价效果等多项研究均证实了同伴互评对教育教学效果的积极影响。例如,同伴互评可以促进学习者深度参与课堂活动[12];实现学生自主导向评价,帮助形成元认知策略及自主调节学习活动[5];通过交流反馈优化学习成果,推动学习者的知识从浅层理解向深层建构跃迁[13]。可以看出,同伴互评与深度学习在素养要求方面具有一致性,即都要求学生具备较强的专注力、反思策略、批判思维与创造能力等。在学习目标方面,强调高阶学习目标的达成,如对知识的深度理解和迁移、对内容的批判性理解及创新创造等;在学习过程方面,注重知识间的关联与整合,以构建具有迁移意义的知识图谱[5];在能力维度方面,深度学习能力涵盖个人认知、自我监管和人际协调等三大维度的六项能力[14]。此外,深度学习能力具备较强的可塑性、发展性、复杂性等特征,其纵向发展需要进一步的理论探索与完善。 为真正实现评中学,开展同伴互评需要考虑多方面因素。第一,精准理解评价标准是实现高质量同伴互评的关键前提。学习者要从学习材料中提炼新知识并与已有知识体系建立联结,从而促进新知识的深层建构[15],这个过程并非一蹴而就,而是需要多轮训练。第二,评价任务是对教学目标的转化[16]。设计互评策略、把控互评流程、构建互评环境等任务可以保障评价的顺利开展,并促进学习者高阶思维发展[17]。第三,技术的支持可以提升评价效率,如应用智能平台能够突破时间和物理空间限制,实现更灵活与即时的同伴互评[11]。第四,多方协同可营造高质量同伴互评环境,以保障深度学习进阶。教师评价作为自主评价与同伴互评的重要补充,能够在一定程度上帮助学生快速了解自身不足[18],因此,同伴互评仍需重视教师的引领作用,可将教师反馈融入同伴评价、自评反思等环节,确保完整性和公平性。第五,互评过程的分析与反馈可采用多种方法,如按照评语类型对互评语料进行编码[19],分析行为频率与模式[11],从而获得同伴互评的结果差异。张涛等通过编码互评数据,采用滞后序列分析和认知网络分析(epistemic network analysis, ENA)探索了不同阶段学习者批判性思维的发展特征[20]。周平红等研究发现,认知网络分析可以描绘互评过程中的学生认知网络结构,从而直观呈现不同阶段、各类学习者的差异以及过程性思维变化证据[21],为规避评价过程的抽象性与内隐性、实现动态演化轨迹的可视化提供有效途径。 (二) 学习进阶:显化学习的发展流程 学习进阶理论由美国国家研究委员会(United States National Research Council, NRC)于2007年正式提出,是对学习者在某一时间跨度能力或素养依次进阶、逐级深化的思维方式描述[22],包括进阶起点与终点、进阶维度、成就水平、表现期望以及测评工具五个要素[23]。该理论认为,随着学习的推进,学习者思维将纵向地从操作较少的低阶层次向操作复杂的高层次发展[24],知识建构表现出从简单信息储存、知识整合逐步提升至逻辑推断、协同推断的递进过程,学习成果也呈现梯度性提升,从基础的记忆保持到灵活应用,再到跨情境迁移,最终实现知识共创的深化轨迹。基于学习进阶,Chi等提出的 ICAP 理论(ICAP theory of cognitive engagement)将学习分为四个递进层次,即被动学习(passive)、主动学习(active)、建构学习(constructive)和交互学习(interactive)[25]。 ICAP理论从可操作性角度对学生内部认知参与外显活动行为进行界定,区分学习者在学习过程中的认知投入程度[26],为后续多项研究提供理论基础与参考。例如,王天华等基于ICAP理论构建了面向高阶思维能力培养的大学英语阅读教学模式[27];张敏霞等将ICAP理论应用于在职教师学习投入度评估,揭示了教师在线学习情境中的认知投入结构特征与前、后两阶段的演化规律[26];张思等将学习者的学习参与行为划分为被动、主动、建构和交互四种类型,进行了对个体知识建构和集体知识建构结果的分析[28]。对比相关研究发现,ICAP理论中的四个进阶层次可以对应同伴互评中潜在学习行为的变化过程,即从被动倾听开展无意义互评到主动思考完成互评,再到发现问题认真互评,最后实现与同伴协同设计并开展批判性互评。基于此,本研究以初始深度学习能力为进阶起点,最终深度学习能力为进阶终点,依据ICAP理论将学习者深度学习能力的进阶水平由低至高分为被动学习、主动学习、建构学习和交互学习四个层次,以显现同伴互评过程中学习者深度学习能力的发展过程。 二、构建同伴互评模型 基于同伴互评促进深度学习进阶的关键要素梳理,以同伴互评流程为抓手,多方协同支持为保障,深度学习进阶为核心导向,构建促进深度学习进阶的同伴互评模型(以下简称“同伴互评模型”),以保障同伴互评中学生深度学习能力逐层进阶和深入,具体见图1。 (一)同伴互评流程以“互评基础—初练优化—再练反思”的同伴互评流程为抓手,激发深度学习进阶,唤醒学习者在互评活动中的主体意识。在互评基础环节,学生要参与互评规则的培训和练习,具体包括解读并清楚评价量规、明确训练任务、掌握互评基础,并通过两轮训练活动提升互评能力。在初练优化环节,学生要在课堂中开展技能练习,包括与同伴协作互鉴、根据评价量规评定对方训练情况,并在课后结合教师反馈与建议迭代优化技能训练内容。在再练反思环节,学生要结合同伴设计优势与合理建议开展第二轮训练及组内互评,并在课后吸纳同伴互评与教师评价内容,利用反思框架开展自评反思,以深化学习层次。 (二)深度学习进阶 以“进阶起点—进阶过程—进阶终点”的深度学习进阶流程为牵引,显化深度学习发展。鉴于学生进阶起点各异,以初始深度学习能力为进阶起点,以深度学习阶段水平为基准,确立深度学习进阶过程,即根据ICAP理论中被动学习、主动学习、建构学习、交互学习由浅至深的四个深度学习进阶层次水平,对应深度学习能力中个人认知、自我监督、人际协调三个维度分别设置阶段水平,以最终深度学习能力为进阶终点,以此刻画学生深度学习能力的发展轨迹。 (三) 多方协同支持 以“多元主体—个性资源—适切平台”多方协同支持为保障,支持深度学习进阶。统筹以学生互评为主与智能评价为辅的人机协同评价、促进双方开展深度学习活动的同伴互评、启发训练效果内化的自评反思等方式,通过多元评价主体激发学生深度学习的自主性与积极性;整合能够引导学生明确评价任务且与训练内容高度匹配的互评案例、可规范学生互评过程并显化训练成果的评价量表、能深化学生元认知的反思框架等个性化资源,支持同伴互评的高质量开展;甄选确保客观智能反馈的评价平台、洞察学生深度学习情况的在线互评问卷、囊括优秀范例资源提供学习参考的学习平台,为学习者深度学习进阶提供支持与保障。 三、教学实践设计和结果分析 深度学习能力进阶发展可通过合理的同伴互评流程激发,需以多方协同支持为保障,其整个过程具有持续性、强交互性等特征。本研究选择“微格教学训练”课程开展实践应用,从实证分析视角探索同伴互评模型应用促进深度学习能力进阶发展的过程与初步成效。 (一)选择研究对象选取G大学2022级教育技术学本科生作为研究对象,共46人(男19人、女27人),所有参与者均无结构化促进深度学习进阶的同伴互评经验。以学生在上一学年的加权平均成绩作为依据,将前50%学生划为高分组,后50%学生划为低分组。加权平均成绩是将学生所有科目的原始成绩融入学分权重后计算得出,而原始成绩由各科教师综合学生课堂表现、平时作业、课程考核及考试情况评定。 (二)确定研究工具 1.深度学习能力测量研究采用沈霞娟等开发的《深度学习能力测评量表》[14]测量学生的初始深度学习能力及16周教学后的深度学习能力。该量表基于Zeiser等发布的深度学习能力测评量表[29],并结合国内多项深度学习能力研究成果进行了本土化调适,适配我国大学生深度学习能力测量。量表共包括30题,含三大维度六项能力,其中个人认知维度包含批判性思维能力与创造性思维能力,自我监督维度包含自主学习能力和学习毅力,人际协调维度包含协作能力和沟通表达能力。信度分析发现,量表总体Cronbach's α系数为0.951,六个因素的 Cronbach's α系数区间为0.795~0.917,说明信度良好;六个因素对应的因子载荷均大于0.4,属于可接受范围。验证性因子分析发现,模型拟合指数SRMR=0.039(<0.08),RMSEA=0.046(<0.08),TLI=0.923(>0.9),CFI=0.913(>0.9),说明模型拟合度较好,具有良好的结构效度。 2.同伴互评数据及编码原则在同伴互评过程中,学生随堂评语是学习结果最直接的体现[30],因此可以通过学生评语推断其学习参与行为,进而判断其深度学习层次。本研究将学生活动过程中产生的随堂评语数据与基于ICAP理论的深度学习层次进行匹配,设计包括12类认知元素的同伴评语中深度学习认知编码表,具体见表1。编码表主要包括与同伴互评文本相关的四个深度学习层次。一是被动学习,指学生按照评价量规的内容进行评价并反思自身不足,具体包括学生互评中的非评价内容、无关描述及被动记录。二是主动学习,指学生提供完整评价并找出同伴的现实问题,具体包括说明性描述、提出真实问题,以及结合互评任务的迭代性增加的联系同伴表现。三是建构学习,指学生梳理同伴问题并为其提供改进建议,同时结合个人问题进行反思,主要包括联系理论总结、分析同伴意图和提出改进方法。四是交互学习,指学生将自己与同伴视为共同体,思考并反思总结组内问题,主要包括视同伴为整体、解释可能原因、反思团队设计三类认知元素。教育技术学领域的专家与研究者共同审查后一致认为,该编码表能够有效分析学生的评语数据。 (四) 设计教学实践流程 1.设计教学流程基于同伴互评模型的教学流程包括设计教学互评基础、微格初练优化反思、微格再练互评反思、迁移反思深度学习四个主要阶段,分别对应ICAP理论中的被动学习、主动学习、建构学习与交互学习四个深度学习层次,具体见图2。具体而言,在设计教学互评基础阶段,教师讲解教学技能要点并开展互评培训,学生在学习教学技能的基础上使用案例练习互评要点与流程;在微格初练优化反思阶段,教师组织第一次教学训练,学生在AI微格静音仓中开展训练,在评价量表指引下完成三角色(听课者、授课者、评价者)和三任务(听课、授课、自评互评),借助在线问卷完成互评与自评,训练后结合自评、互评与教师反馈优化教学设计;在微格再练互评反思阶段,教师总结第一次训练情况并组织第二次教学技能训练,学生再次训练并开展互评和自评;在迁移反思深度学习阶段,教师总结两次训练情况,学生对标技能讲解内容,完成自评反思笔记,促进学习迁移反思。 2. 教学实践与编码 依据教学流程设计为期16周的教学实践,开展“理论学习+微格初练+微格再练”的迭代训练活动,轮次训练活动遵循教学流程中的四个主要环节。为结合时间维度分析学习者深度学习能力的动态发展过程,将模型应用划分为应用前期(1~5 周)、中期(6~10周)、后期(11~16周)三个阶段。在教学实践前、后都测量了学习者的深度学习能力,并采集了学习者在各阶段微格训练过程中的评语和反思记录,结课后进行结构化访谈。 认知网络分析数据包含两种类型。一种是参与者的同伴互评内容,通过在线问卷收集学生三个阶段训练后的互评文本,由于研究主要关注互评评语体现的深度学习能力要素整体认知网络,因此将句子作为最小分析单元,经过数据清洗得到1472条文本数据(42368个字);另一种是学生课后反思内容,提取其中能表征与他人协作、反思团队教学设计等与深度学习相关的句子,经过预处理后得到144条文本数据(4317个字),共1616条文本数据。对上述两种会话数据依据编码表进行统一编码。首先,由两名经过专业编码培训的课程助教对编码不一致的文本进行讨论并达成共识;其次,随机抽取20%的数据进行预编码,经检验确定两名助教的编码具有较高一致性(Cohen's α=0.862,p<0.001);最后,两名助教协商解决编码不一致的问题,并均分完成剩下的数据编码。编码结束后,对编码数据进行认知网络分析,将学生在同伴互评过程中深度学习要素的共现情况与网络结构特征进行可视化处理,从而观察学生深度学习的进阶过程。 数据分析与处理主要采用SPSS和ENA Web工具。 (四)结果分析 1.深度学习能力得到有效提升将深度学习能力测量数据进行配对样本t检验,结果见表2。由表2可知,学生的深度学习能力在教学实践前后具有显著(t=3.534,p=0.001)提升,同时在个人认知、自我监督、人际协调三个具体维度都有显著提高。2.深度学习的进阶差异显著第一,三个阶段的深度学习呈现进阶发展趋势。结合时间维度分析前、中、后三个阶段的认知网络结构,呈现学生深度学习能力的进阶发展过程,具体见图3。图中节点分别对应12个深度学习认知要素,节点大小反映元素频率高低,连线的粗细与饱和度代表元素间的关联程度。为分析不同阶段的认知网络特征,统计频率≥10%的节点与连线系数≥0.15的认知要素连线,见表3。具体而言,前期的同伴互评以被动学习与主动学习认知要素为主;中期时被动学习认知要素减少,主动学习与建构学习认知要素增加;后期呈现更多的交互学习认知要素。结合认知网络质心分布情况探究三阶段学生深度学习的差异,见图4。图中三个虚线方块分别表示三阶段的平均认知网络质心,虚线框代表质心位置在95%水平上的置信区间。由观察可知,三阶段学生深度学习能力投影到二维空间的认知要素散点分布存在较大差异,质心位置也相对较远。 对不同阶段的认知网络质心位置变化情况进行差异性t检验,见表4。由表4可知,认知网络的变化过程在X轴、Y轴均存在显著差异(p<0.01)。通过认知网络叠减进一步分析三个阶段的认知网络差异。相较于前期集中于被动学习与主动学习,中期更多体现建构学习要素(CA、CR),中期-前期的频次叠减值分别为7.45%、16.67%,AD与CR要素的连线明显增强,连接系数达 0.26;相较于中期,后期表现为更多的建构学习要素(CA、CR)与交互学习要素(IW、IE、IR),后期-中期的叠减值分别为2.48%、10.99%、10.28%、7.8%、5.32%。 第二,高分组学习者的高阶学习特征显著。结合配对样本t检验与认知网络分析可知,不同组别的学习者其深度学习情况不同,见表5。结果发现,在深度学习能力及三个维度上,高分组显著提升(p<0.05),低分组有提升但不显著(p >0.05)。由不同组别的质心位移可见,在相同时间内,高分组从低、中阶向高阶深度学习能力转化的速度更快。进一步分析不同组别学习者的认知网络叠减值发现,高分组学习者表现出更多高阶要素,如CR、IR的叠减值(高分组-低分组)分别为11.4%、6.9%,即具有更多高阶深度学习特征。低分组学习者的低阶要素较多,如PN、AD的叠减值(低分组-高分组)分别为12.3%、8.3%。随着课程进行,高分组在中期出现高阶要素之间更强的连接,如CR的叠减值(高分组-低分组)为13%;低分组在后期虽然出现CR、IE等高阶要素,但连接较弱,其连线系数为0.03。四、结果讨论与启示 本研究通过实验研究方式验证了同伴互评模型的有效性,可以得出以下三个方面的结论及启示。 (一) 同伴互评可以促进学生深度学习水平明显提升 同伴互评可以促进学生深度学习水平显著提升,这与已有相关研究的结论相似。通过前、中、后三个阶段的深度学习认知网络、质心位置计算与统计学差异分析发现,不同阶段学生深度学习的认知差异显著。结合认知网络叠减可知,学生深度学习能力整体呈低阶向高阶转化的趋势。其中,前期主要是被动学习、主动学习的低阶水平,学生的学习认知主要停留在初级阶段,未表现出深层认知;中期的学习水平从主动学习进阶为建构学习,学习者可以结合同伴真实表现情况分析教学设计意图,并提供改进建议,但高阶学习认知要素的节点较小,与其他要素联系较弱;后期有关建构学习、交互学习的高阶学习认知明显,学习者在联系课程理论知识、分析教学活动设计意图并提出改进方法的基础上,可以与同伴共同总结训练误区及其原因,反思团队教学设计并提出后续完善方向,进而形成学习共同体。此外,同伴互评三个阶段的认知网络在时间序列上的变化,呈现了学生在学习过程中的深度学习变化过程。深度学习能力认知网络结构由最初被动学习、主动学习为主的低阶学习逐渐转向以建构学习、交互学习为主的高阶学习,学习者深度学习能力呈现由低阶向高阶的进阶式发展规律。同伴互评让学习者的知识建构突破浅层建构层面,到达高阶认知获得的深层建构层面[31],由此说明同伴互评模型在教学应用中的效果明显。 (二) 高分组学习者更具深度学习能力的进阶优势 通过分析两类学习者深度学习认知网络差异发现,高、低分组学习者在三个学习阶段中的认知要素侧重点不同,这与许玮等的研究结论[32]一致。高分组更关注建构学习、交互学习的高阶认知要素,低分组表现出更多被动学习、主动学习等低阶要素。高分组在中期展现出建构学习、交互学习等高阶认知要素并保持稳定增长,低分组在后期才表现出高阶认知要素,但各要素间的连接不强。同伴互评对高分组深度学习能力发展和进阶的促进作用更显著。 结合访谈内容发现,高分组对学习任务规划更清晰,他们在完成初次训练后能及时、有效地通过同伴评语及自我反思进行学习效果审视,与同伴协商不足并达成改进的共识,并将其纳入再次训练的重点学习目标。低分组更多的是被动地完成课程任务,易受到同伴之间的关系、同伴参与评价的态度影响,前期对训练场景与技术的适应较慢,认为课程任务量超过自身接受程度而产生消极情绪,深层次的学习参与屈指可数。 (三) 研究局限与启示 本研究存在一些局限,主要表现为两个方面:一是研究对象的样本量较少,缺乏对照组,未能排除成熟、测试效应等干扰变量;二是教学实践过程中同伴关系、评价态度、任务烦琐等因素影响学生互评结果,导致部分学生未能完全表现出深层次的学习投入。未来可以从三个方面进行深化研究:一是进一步扩大样本量和实践周期,引入对照组或采取准实验设计,以更精准追踪深度学习进阶的持续性;二是探究不同分组形式(如异质、认知风格、动态分组等)及互评任务中认知负荷调控策略对深度学习的影响;三是充分发挥人工智能技术优势,探求更加客观和个性化的人机协同评价机制。 为促进学生向高阶深度学习的实质性转化,同伴互评模型可从以下三个方面进一步完善。 第一,在以学生为主体的同伴互评活动中,应充分利用教师或高水平学习同伴的引领作用。在设计阶段,可以采用匿名与随机分配等方式消除人际因素对评价的消极影响,还可以引入双向互动活动提升学生评价责任感[8],以进一步优化评价指标适配学生学习活动。在实施阶段,教师应实时跟进并提供及时、精准的动态反馈[11];同时还应加强对低分学习者在任务计划与实施过程中的监督,并及时提供技术支持以帮助他们完成深度学习进阶。在总结阶段,可以通过高低配对分组开展总结与反思活动,让低分学习者了解并借鉴高分学习者的学习方法与策略,加速其进阶过程。 第二,搭建内部驱动与外部规范共同发挥作用的评价体系。基于ICAP理论打造学生深度学习的“被动学习—主动学习—建构学习—交互学习”可视化路径,可通过同伴互评活动中的行为表征外化学生深度学习进阶情况,从而促进学生进行意义建构并实现真实性学习。具体而言,制订适宜的同伴互评量规、提升评价过程的外部规范、构建自评反思框架并形成自我审视的内部驱动等举措,都可以帮助学生在理解并实施评价指标的同时开展省思。 第三,践行多元协同的人机协同评价方式。在数字化环境中,教学实践中教师、学生、同伴协同的多元主体参与成为可能。随着人工智能技术的迅猛发展,结合人类智慧与人工智能精度算法开展人机协同的评价方式可以保障同伴互评的多元与公正[33]。通过批判地使用生成式人工智能工具,学生可以开展个性化学习效果评估及智能反馈[34]。 参考文献略。
2025-06-09
2025年高考英语全国卷试题深入贯彻党的二十届三中全会精神和全国教育大会精神,落实《教育强国建设规划纲要(2024—2035年)》要求,坚持立德树人,强化育人导向,注重五育并举,考查基础知识和基本技能,增强试题开放性,注重情境设计,加强创新能力考查。试题命制依据高校人才选拔要求和国家课程标准,结合各地高中英语教学的实际,通过精心选材、科学设题,考查学生综合语言运用能力,正向引导基础教育英语教学。一、落实立德树人,强化高考育人导向2025年高考英语试题通过情境化设计,将价值引领渗透于关键能力、学科素养和思维品质的考查中,深度融合社会主义核心价值观与中华优秀传统文化。试题选材既立足中国大地,展示文化自信,又放眼全球,强化人类命运共同体意识,引导学生养成家国情怀和全球视野,完善道德品格,实现德智体美劳全面发展。1.涵养家国情怀,坚定文化自信试题通过精心选材和情境设计,让学生在答题过程中感受中华文化的独特魅力与当代中国的发展智慧。全国一卷阅读D篇聚焦微塑料污染这一全球性环境问题,特别介绍中国科研人员提出的解决方案,展现中国科学家解决现实问题的务实精神,也传递了生态文明建设的中国方案。全国二卷语法填空语篇通过一名定居中国的美籍女士对其在浙江乡间晾衣后感受到“阳光的味道”的经历和充满感情的描述,展现中国人善用自然之力创造诗意栖居的生活智慧。全国一卷语法填空语篇介绍的围棋主题艺术展则巧妙融合传统文化、人工智能与当代艺术,是中国传统文化中的哲思与智慧与现代科技结合的全新呈现。这些语篇从不同视角构建起对中国智慧的立体诠释,在考查语言能力的同时,启发学生对中华文明的深入思考,引导学生增强国家认同和家国情怀,坚定文化自信。2.关注全球议题,拓展国际视野试题选取的语篇材料话题丰富,涉及气候变化、粮食危机、微塑料污染、交通领域碳排放等全球性问题,引导学生从人类命运共同体的视角深入思考问题。全国二卷阅读D篇通过将食材边角料加工成美味佳肴的案例,生动阐释了节约食物和物尽其用的可持续发展理念。全国一卷阅读A篇探讨交通运输领域的碳排放问题,通过数据对比和利弊分析指出未来能源改革的方向,强调加快绿色能源的发展。这些语篇材料通过“指出问题—分析问题—探索方案”的逻辑方法论,引导学生在阅读中培养全球视野,提升逻辑推理能力,强化对全球性问题的认知,培养人类命运共同体意识。3.培育道德品格,启迪生命成长试题选材围绕“人与自我”“人与社会”和“人与自然”三大主题,贴近学生的学习和生活实际,通过独特的视角,帮助学生了解多元化的个人、社区和学校生活,引导学生思考生命的意义与价值,树立积极向上的人生态度。全国二卷阅读B篇讲述开设在儿童医院中的学校如何帮助患者在住院期间心怀梦想、继续进行课业学习,体现对弱势群体的关怀和教育的温度。全国一卷读后续写语篇讲述作者在一次家庭聚会中与兄弟产生嫌隙,之后通过一番思想斗争决定主动登门道歉的故事,诠释了承担责任与宽容的可贵品质。全国二卷阅读第二节语篇介绍全家人一起参与志愿服务的好处,揭示家庭在道德教育中的示范作用以及奉献精神的多重价值。这些材料从不同角度启迪学生认识到个人行为对社会的积极影响,滋养仁爱之心与担当之志,为青少年扣好人生第一粒扣子注入精神力量。4.倡导五育并举,促进全面发展试题注重五育并举,选择有关运动健康、艺术审美、社会服务等主题,引导学生德智体美劳全面发展。全国二卷完形填空语篇中的老奶奶通过健身和在网上分享心得重燃生命热力,诠释银发族突破年龄桎梏的勇气,展现体育运动对身心健康的促进作用。全国二卷阅读A篇描述了四个历史悠久、风景各异的英格兰小镇,引导学生感受自然与人文景观的融合之美。全国一卷听力材料介绍用绘画提醒海滨城市居民关注气候变化的项目,彰显美育的实际意义和价值。全国一卷阅读第二节语篇讲述一位大学咖啡馆员工工作勤恳,为学生顾客竭诚服务的故事,体现劳动的价值,传递勤勉敬业的劳动教育真谛。这些材料通过介绍真实的人物与故事,构建全面发展观的具象化表达,启发学生理解五育并举的深层内涵,思考全面发展对个人成长及社会进步的作用。二、注重考查基础,促进思维品质发展2025年高考英语试题依据高校人才选拔要求和普通高中英语课程标准,聚焦学生核心素养的全面提升。通过科学设计,注重对基础语言知识和基本语言技能的考查,促进学生思维品质的培养和发展,为高校人才选拔提供全面立体的评价依据,助力外语教育高质量发展。1.依据课程标准,注重考查基础知识和基本技能普通高中英语课程标准强调学生要进一步学习和运用英语基础知识和基本技能。2025年高考英语试题强调对语音、词汇、语法、语篇、语用等语言知识的内化掌握和恰当运用,注重考查语言基本技能及综合运用能力。高考英语试卷结构与往年保持一致,包括听力、阅读、语言运用和写作四个部分。其中听力和阅读第一节考查在理解语篇的基础上,结合语境获取具体信息、理解主旨要义、进行逻辑推断、辨析观点态度等能力。阅读第二节考查理解文章基本结构、把握上下文逻辑关系的能力。语言运用部分主要考查在阅读基础上准确运用词汇和语法结构的能力。写作部分则通过设置不同情境,考查运用书面语言完成日常交际任务的能力以及在阅读理解基础上合理创造内容并进行准确、连贯表达的能力。以全国二卷阅读C篇为例,该短文从一个室内植物网店销售火爆说起,介绍绿植对人们情绪和思维影响的相关研究,倡导栽培室内植物的健康生活。短文结构清晰,语言难度适中,各小题考查正确理解数据含义、辨识研究结果内容、根据上下文信息推断作者意图和总结概括全文主旨要义的能力,完全符合课程标准对语言能力考查的要求。2.创新情境设计,引导学生思维品质培养与发展试题通过创新试题情境设计,引导学生培养和发展批判性、探究性和创新性等思维品质。通过精心选材引导学生从知识接受者转变为问题探索者和解决者,为选拔具备优秀思维品质的人才提供依据。在材料选择方面,所选语篇的题材、体裁、难易度各具特色,从不同角度考查学生批判性思维和创新性思维能力,引导学生思维能力的提升。全国一卷阅读第三个语篇以交通方式变迁为切入点,通过分析车轮上的生活对传统生活方式的冲击,启发学生运用批判性思维反思城市规划中的可持续发展理念。全国二卷阅读D篇通过回收使用食材边角料制作精美菜肴的案例,引导学生思考变废为宝的创新路径。在题目设置方面,试题运用多视角、多立场的语篇材料和开放性答题要求,考查学生的批判性思维和创新性思维。全国一卷写作第一节以班级英语报要增设栏目为情境,要求学生从给出的两个栏目做出选择并说明理由,对学生的批判性思维和逻辑思维、跨文化沟通和语言表达等能力进行综合考查。短文续写试题分别设置了通过主动道歉挽回兄弟情谊和向外国同学解释中文姓名含义的情境,语篇内容和段首句提供了较大的想象空间,学生可以充分调动发散思维和创新思维,对前文情节进行展开和叙述。这种开放性试题设计能够深入考查学生的批判性思维和创新性思维能力。
2025-06-08
2025年高考物理全国卷贯彻全国教育大会精神,落实《教育强国建设规划纲要(2024—2035年)》相关部署要求,依托中国高考评价体系,坚持守正创新,加强基础考查,引导学生夯实未来发展根基;注重综合性、应用性、探究性的考查,强化对学生关键能力、学科素养和思维品质的考查,激发学生崇尚科学、探索未知的兴趣,提升人才选拔质量。一、加强基础考查,引导学生筑牢发展根基“基础不牢,地动山摇”,只有掌握了本质的、基本的规律,才可能融会贯通、灵活运用。2025年高考物理全国卷严格依据高校人才选拔要求和高中课程标准,以定性和半定量的方式为主,进一步加强基础考查。试卷注重考查高中物理核心的、基础的内容,突出考查学生对基本概念、基本原理的理解和运用。在考查基础知识的同时,创新试题的设问方式,引导学生了解试题呈现形式是多样的,但其背后考查的物理原理是相同的,促进学生重视基本原理的学习,达到触类旁通、一通百通。第18题以电子在匀强磁场中运动设置情境,考查学生对洛伦兹力等基本物理概念的理解和灵活运用。本题的情境虽然简单,学生也较为熟悉,但设问角度比较巧妙,若学生不仔细读题,在刷题导致的惯性思维下可能将该题理解错误,这种创新设问有利于引导学生认真思考,具体问题具体分析,减少机械刷题,破除惯性思维。第19题以图像的形式呈现气体的三个状态,学生需要正确提取图像中的关键信息,并运用理想气体状态方程这一基础知识进行解答。第20题考查学生对简谐波基本性质的理解和掌握,情境贴近生活和教材,有利于引导教学回归课标、回归课堂。二、加强综合性考查,引导学生培养科学思维物理问题的解决通常需要多种物理知识和物理思想的协同。2025年高考物理全国卷更加注重考查学生综合运用物理知识解决问题的能力,通过丰富问题情境的设计,优化试题的设问角度,助力培养学生科学思维。第17题以匀强电场中电子的运动创设情境,问题具有半开放性,需要充分考虑在不同初始条件下电子的运动情况,考查学生推理论证的能力。第21题以导体在磁场中的运动为情境,考查的必备知识涉及电磁感应、圆周运动和交变电流等不同模块的内容,促进学生将不同模块的内容融会贯通,形成整体的知识结构。第25题选择学生熟悉的模型,着重考查了运动过程中能量动量的转化,并且在最后通过巧妙的设问,考查学生对物理过程的理解程度;最后一问可以通过运动学进行求解,但计算较为复杂,而从整个物理过程中的能量变化角度进行分析,题目就变得容易求解,有利于引导学生注重选择解决问题的角度,促进学生科学思维的发展。三、加强应用性考查,引导学生学以致用生产生活中随处可见物理原理的实际运用,大到国家重器,小到生活实际。2025年高考物理全国卷更加注重应用性考查,精心选取联系实际的情境,考查学生面对实际问题时的抽象建模和逻辑推理等关键能力,引导学生在面对生产生活中的复杂情境时,学会抓住主要因素进行分析,并合理运用相关知识和原理解决实际问题。运动学是高中物理学习过程中最先接触到的知识,而匀变速直线运动是学生在高中阶段学生最熟悉的运动模型之一,第14题以我国最新的CR450动车组列车的运动为情境,考查了运动学中匀变速运动。万有引力定律是航天工程的基础,第15题以我国通导技术试验卫星“天都一号”为对象,定性考查了万有引力定律和开普勒定律,引导学生理解物理学基本原理在科技前沿中的重要作用,同时展现了我国航天领域的伟大成就,增强科技自信心和民族自豪感,引导学生树立科技报国的远大志向。能量守恒是物理学中非常重要的思想,第16题以撑竿跳高运动为情境,考查学生对运动过程中能量转换的理解,体育元素的有机融入也有利于激发学生参与运动的兴趣,促进学生全面发展。撑竿跳高运动中的物理过程实际上是非常复杂的,本题忽略了许多次要因素,抓住主要因素进行设问,考查学生是否真正理解其中的物理过程,同时也引导学生学会从复杂的情景中,抓住主要矛盾,抽象出简单的物理模型解决实际问题。第24题以电容式键盘为情境,考查了平行板电容器中的基本知识,有利于引导学生运用物理概念、规律认识和理解生产生活中的现象。四、加强探究性考查,引导学生注重实验能力培养实验是科学发展的基础。实验教学是培养学生物理学科素养的重要途径和方式,有助于学生探究能力的培养和学科素养的形成。2025年高考物理全国卷注重设置探究性的实验情境,考查实验的基本方法和基本技能,引导学生经历实验过程,体会概念和规律的形成过程,促进学生物理观念的形成。第22题利用橡皮筋开展系列实验,将探究弹簧弹力与形变量的关系、探究两个互成角度的力的合成规律两个实验的方法相结合,考查了测量仪器的使用、实验数据获取和处理,要求学生灵活运用已有的实验方法解决新问题,引导学生重视基本实验的学习,促进学生动手做实验。第23题以教材中的非线性电阻元件为背景,通过实验展示非线性电阻元件的性质,在探究伏安特性曲线时,通过层层设问引导学生理解电流表内接和外接时对实验测量的影响,让学生知其然,更知其所以然,引导学生学习过程中关注科学探究的过程和方法,并学会对结果进行反思和总结。
2025-06-08
2025年高考历史全国卷试题以习近平新时代中国特色社会主义思想为指导,全面贯彻党的教育方针,落实《教育强国建设规划纲要(2024—2035年)》要求,坚持依标施考,发挥育人导向,在保持题型、题量稳定的基础上,强化试题的基础性、综合性、应用性、创新性,注重考查关键能力、学科素养和思维品质,助力高质量人才选拔。一、以史育人,培养有理想信念的时代新人(一)学史增信,弘扬中华优秀传统文化中华文化源远流长,拥有丰富的育人资源。2025年高考历史全国卷第24题通过展示新石器时代不同地域的文化遗存,要求学生利用对史前时期典型器物的观察,理解早期农耕文明突破地域限制形成文化共振的史实,揭示中华文明多元一体格局的形成逻辑,引导学生感悟中华文明的突出特性,树立对中华优秀传统文化的自信心、自豪感。(二)学史崇德,厚植家国情怀2025年是中国人民抗日战争暨世界反法西斯战争胜利80周年。80年前,中国共产党以卓越的政治领导力和正确的战略策略,挽救中华民族于危难之间。前事不忘,后事之师。2025年高考历史全国卷第44题以抗战胜利前夕至解放战争中国共产党的军事后勤工作部署设置情境,考查学生对中国共产党在此期间表现出的卓越领导力和战略智慧的深度认知,引导学生感悟中国共产党在抗日战争中的中流砥柱作用,启迪学生知史爱党、知史爱国。(三)学史力行,培养使命担当当今世界局势变化深刻复杂,新中国史的考查关注中国同世界的联系与互动,引导学生认识新中国如何在时代潮流中不断把握主动、赢得发展的历史逻辑,提升历史使命感和责任感。2025年高考历史全国卷第42题以20世纪五六十年代中国和美国对老挝的政策为问题情境,以中美对老挝政策的发展演变为主线,考查学生对比分析冷战背景下中美外交政策异同的思辨能力,对霸权主义、冷战思维对地区和平稳定的危害的批判反思能力,引导学生领悟构建人类命运共同体的历史逻辑,激发学生实现中华民族伟大复兴的使命感。二、以思启智,助力高质量人才选拔(一)落实课标理念,彰显素养立意历史学科核心素养是学生通过学科学习而逐步形成正确价值观、必备品格和关键能力的集中体现。2025年高考历史全国卷坚持素养立意,精心设计考查方式,将核心素养考查有机融入试题。例如,第25题要求学生通过分析、比较不同来源、不同观点的史料,在历史解释中形成基于证据的历史结论,突出考查史料实证、历史解释等核心素养,彰显“论从史出”的史学思维导向。时空观念、历史解释等核心素养的融合在第26题中亦有体现,学生需在特定时空下分析南方地理位置与社会经济发展的内在联系,凸显“历史理解需置于特定时空条件”的学科特质。(二)优化试题设计,提升思维品质增强试题的开放性,加强对发散思维、创新思维的考查是培育高阶思维的重要途径。2025年高考历史全国卷第43题是一道开放性试题,通过呈现唐代诗人分布图、唐代后期进士分布图两个问题情境,设置提出历史认识的探究性任务,引导学生提出问题、分析问题,并通过建立史料与教材相关知识的逻辑联系,最终解决问题。该题作答角度多样,思维过程考查完整,有助于提升思维品质。(三)创设真实情境,强化关键能力真实的问题情境是检验关键能力的重要载体。真实情境类试题能引导学生形成运用学科知识、历史思维解决复杂现实问题的综合能力和实践智慧。2025年高考历史全国卷第28题以明代中后期区域化产业分布情况创设试题情境,要求学生理解明中后期商业贸易网络形成、地域性商帮兴盛的经济状况与历史地理间的联系,引导学生利用生产、生活经验和已有历史认知加以分析作答,培养学生解决实际问题的能力。三、以考促教,引导教学回归课标、回归课堂(一)体现新课程理念,助力改革稳步推进为深化新课程改革成果,2025年高考历史全国卷在保持考查要求、考查形式稳定基础上,加强对新课标新增内容的考查。通过设置与新增知识点契合的试题情境,检验学生对新增内容的认知深度与迁移能力。例如,第34题以20世纪初拉丁美洲的民族民主革命和改革运动内容为知识背景,以奥夫雷贡土地改革为情境,考查学生对拉美民族民主革命和改革积极意义及局限性的深层理解,其本质是考查学生透过历史现象看本质的批判性思维能力。该题较好实现了统编教材内容与核心素养的融合,为新课程改革提供评价支撑。(二)夯实知识基础,突出基础性考查2025年,习近平总书记在谈及人工智能赋能教育的新机遇新挑战时,强调“教育不能把最基本的丢掉”。2025年高考历史全国卷注重加强对基本概念、基本史实等内容的基础性考查,引导中学教学回归课标、回归课堂。例如,第27题紧扣课标“了解两宋的政治和军事,认识这一时期在政治、经济、文化与社会等方面的新变化”的内容要求,以北宋前期在今河北中部一带修建军事工事为试题情境,考查学生对宋辽、宋金、宋与西夏关系等基本史实的系统了解。第31题紧扣课标“了解各文明古国发展的不同特点,并分析、认识这些特点形成的不同时空条件”的内容要求,考查学生对古代埃及文明特征的基本了解。这些试题致力于引导教学夯实学生知识基础,为学生高阶能力的养成筑牢学科根基。(三)丰富五育入题形式,引导学生全面发展《教育强国建设规划纲要(2024—2035年)》指出,深化高考综合改革,构建引导学生德智体美劳全面发展的考试或考核内容体系。2025年高考历史全国卷注重挖掘历史素材的五育融合价值,引导学生感受历史情境中的体美劳元素。例如,第30题以晚清时期“小放牛”儿童游戏画面为载体,创设体美劳融合的试题情境。场景中儿童对牵牛者、牛、骑牛者等角色的扮演,体现了古代人民的劳动认知;儿童对动物耕作的形态和协作的模仿,展现出古代民间的艺术创造能力;儿童扮演角色时协调的身体姿势,呈现其健康的身体状况和较强的协作能力。该题既考查学生对农业文明与民众日常生活关系的认识,也引导教学关注体美劳等隐性教育要素,促进学生德智体美劳全面发展。