2026-01-05
引用格式:教育部教育考试院. 强基固本 以文化人:2025年高考语文全国卷试题评析[J]. 中国考试, 2025(7): 83-88.摘 要:2025年高考语文全国卷命题以习近平新时代中国特色社会主义思想为指导,落实立德树人根本任务。试题弘扬社会主义核心价值观,紧扣时代脉搏,引导考生厚植家国情怀,增强文化认同,培养审美意识,促进全面发展。同时紧密衔接教材内容,深化基础性考查,注重引导考生强化语言积累,总结语言规律,提高语文素养。此外,试卷创新题型设计,通过开放性探究任务激发考生的问题意识,引导培养逻辑思维、辩证思维与创新思维,发挥高考的选才功能。关键词:高考;语文;内容改革;试题创新2025年教育部教育考试院共命制全国一卷、全国二卷两套高考语文试卷。命题以习近平新时代中国特色社会主义思想为指导,落实《教育强国建设规划纲要(2024—2035年)》的要求[1],坚持立德树人,强化思想引领,注重基础考查,着力思维赋能,彰显学科优势,促进学生成长,充分发挥高考的正向引导功能。一、坚持立德树人,加强价值引领2025年高考语文全国卷命题落实立德树人根本任务,弘扬社会主义核心价值观,传承弘扬革命文化,从中华优秀传统文化中寻找源头活水,同时紧扣时代主题和时代精神,广泛取材,巧妙设题,充分体现了以文化人的鲜明导向。(一)述往思来,厚植家国情怀爱国主义是中华民族的民族心、民族魂。在中华民族几千年绵延发展的历史长河中,爱国主义始终是激昂的主旋律,始终是激励我国各族人民自强不息的强大力量[2]。在中国人民抗日战争暨世界反法西斯战争胜利80周年之际,高考语文将深厚的家国情怀以贴近现实、贴近考生的方式,生动地呈现在试卷之中。全国一卷阅读Ⅱ的两个文本,引导考生不忘历史,从民族和国家浴火重生的历史中汲取经验和力量。文本一选自作家老舍所著长篇小说《鼓书艺人》。小说讲述了鼓书艺人方宝庆等人在抗战中流亡播迁的遭际,将他们的命运和前途与民族、国家的命运和前途紧密联系起来,寄寓了老舍对时代的深刻观察和对历史远景的展望。文本一为小说开头部分,描摹了难民们心力交瘁的逃难过程。文本二选自《我为什么离开武汉》,节选的是老舍自述以文报国志向的部分。两个文本能够让考生体验抗战中的艰难困苦,体会老一辈作家的爱国热情和家国情怀,从而增强在新时代担负历史重任的使命感。全国一卷的作文试题以组合性材料的形式出现:材料一即来自同卷阅读Ⅱ文本一《鼓书艺人》,展现个体在历史洪流中的坚韧与温情;材料二选自艾青名篇《我爱这土地》,以“嘶哑的喉咙”隐喻苦难中的呐喊与不屈;材料三是穆旦诗作《赞美》中的名句,通过“带血的手”与“起来”的姿态指向集体抗争与民族新生。三则材料各有侧重,同时又相互交织,共同建构起中华民族近现代历史从“国家蒙辱、人民蒙难、文明蒙尘”到奔走呐喊、救亡图存,再到振兴中华、民族自强的叙事背景与阅读语境,为考生提供多维度的立意空间,引导考生在理解材料内涵、获得情感共鸣的基础上,结合自身积累与感悟进行写作。考生可以从审美体验出发,思考三则材料的内在关联,回望历史、展望未来,对个体与集体、平凡与伟大、苦难与希望、历史与未来等关系进行深入思考,形成对民族魂丰富意蕴的深刻体认。(二)扎根本土,弘扬传统美德在5000多年文明发展中孕育的中华优秀传统文化,积淀着中华民族最深沉的精神追求,代表着中华民族独特的精神标识,是中华民族生生不息、发展壮大的丰厚滋养,是中国特色社会主义植根的文化沃土[3]。2025年高考语文全国卷试题从中华优秀传统文化资源中精心取材,挖掘其中蕴含着强大感召力的“文化密码”,在考查语文能力的同时,实现对考生的精神浸润。例如,全国一卷阅读Ⅳ选取北宋王安石的七律《元珍以诗送绿石砚所谓玉堂新样者》作为阅读材料。这是诗人在收到朋友赠送的石砚及赠诗之后写的一首唱和诗,诗歌从石砚的“坚”联想到友人的“心”,表达了对身处逆境的友人高尚品质的赞美。通过此诗,考生可以窥见古代士人的生活方式和彼此之间的交往,感受他们“穷且益坚,不坠青云之志”的高尚情操,加深对中华优秀传统文化的理解。试题在充分挖掘中华优秀传统文化资源的基础上,深入阐发了其中重要思想理念的时代价值。例如,全国二卷阅读Ⅲ的两则材料就涉及对古人“孝道”的思考和理解。从材料一中可看出,郗愔极为孝顺,又忠于王室,符合古人心目中理想君子人格的基本要求。而其子郗超尽管才干过人,且对自己的父亲极为孝顺,但他不忠于王室,追随桓温谋划废立之事。材料二中东坡先生比较父子二人的行事,提出“君子之孝”“小人之孝”之别。在古代社会,大孝即是忠君爱国。郗超只知孝顺父亲,而于大节有亏,他的“孝”属于“小人之孝”。习近平总书记指出:“在家尽孝、为国尽忠是中华民族的优良传统。”[4]对此,两则材料在今天仍然有积极的启示意义,可以引导考生正确看待、辩证认识、理性分析现实问题,在大是大非面前旗帜鲜明,恪守正道。(三)以美育人,促进全面发展中共中央办公厅、国务院办公厅印发的《关于全面加强和改进新时代学校美育工作的意见》,明确提出美育是丰富想象力和培养创新意识的教育,能提升审美素养、陶冶情操、温润心灵、激发创新创造活力[5]。2025年高考语文命题深化考试内容改革,弘扬中华美育精神,并将美育与其他教育相融合,引导考生全面发展。试题充分挖掘和运用体现中华美育精神与民族审美特质的美育资源,引导考生提高感受美、表现美、鉴赏美、创造美的能力。例如,两套试卷的名篇名句默写题推出了为图画配古诗文的新题型。全国一卷第3道默写题给出的是一幅以莲花为主题的图画,全国二卷给出的是一幅山、水、舟构成的图画,题目要求考生根据画面,写出与之相契合的古诗文名句。这种题目让考生在审美鉴赏中调动自己的知识积累,富有亲和力。全国一卷语言文字运用题是一段关于谐音双关修辞的材料,第21题给出两幅民间剪纸的图样,要求考生从中选取一幅说明寓意,并从图画构成和谐音两方面进行简单解释。选取剪纸这一群众喜闻乐见的传统民间艺术形式设题,既增强了趣味性,弘扬了中华优秀传统文化,也为考生提供了一种独特的审美体验。全国二卷阅读Ⅱ中市井奇人荆元擅长弹琴,琴声神韵天然,能够吸引鸟雀谛听,其中的“深微之处”又能使听者“不觉凄然泪下”,生动表现了音乐带给人的艺术感染力。2025年高考语文试题将价值观的引导渗透到考生的审美过程中,使考生在获得审美体验的同时提升人文素养,实现以美育人、以美化人、以美培元。例如,全国二卷阅读Ⅳ选取宋之问《咏省壁画鹤》和陈子昂《咏主人壁上画鹤寄乔主簿崔著作》两首唐诗,二诗皆以壁上所画仙鹤为吟咏对象,诗中的鹤都栩栩如生,但一则留恋帝王恩泽,一则超迈凡俗。第16题要求考生比较两首诗歌在主题、风格上的不同,这就需要考生具备一定的审美感受力和鉴赏力,能够感受两首诗中鹤的形象差异,领会诗人的思想观点和情感倾向,分辨他们不同的价值追求。二、夯实语文基础,彰显学科特色语文基础知识和阅读表达等基本能力是学生开展学习和今后从事各类工作的基础,对他们的终身成长至关重要。2025年高考语文全国卷试题重视基础知识和能力的考查,积极衔接国家统编语文教材相关内容,引导学生在真实的语言运用情境中把握祖国语言文字的特点和规律,增强他们学语文、用语文的自觉意识。(一)正本清源,倡导优良文风语文课程是一门学习祖国语言文字运用的综合性、实践性课程。2025年高考语文试题致力于正本清源,引导考生树立正确的语言表达观念,做到“修辞立其诚”;同时注意锤炼语言,力求表达准确、鲜明、生动。全国二卷阅读Ⅰ由两则材料组成,材料一摘自习近平总书记的《努力克服不良文风 积极倡导优良文风》[6],文章立场鲜明地批判了“长、空、假”的不良文风,大力提倡“短、实、新”的优良文风,观点明确,说理透彻。材料二摘编自陈望道的《修辞学发凡》讨论“消极修辞”的部分。《修辞学发凡》是中国现代修辞学的奠基之作,节选部分强调语言表达要准确、有条理,内容和形式要相得益彰,其中对“消极修辞”的阐释对于纠正不良文风有重要意义。两则材料,一则侧重倡导求真务实的价值观并提出改进文风的具体举措,一则侧重消极修辞问题的学术探讨,二者搭配,能够有效考查考生的信息转化能力和分析能力。第5题要求考生根据材料谈谈如何在写作中避免用语造作等不良文风,针对性强,直接指向当下学生写作的常见问题,引导考生结合个人的阅读体悟和写作实践回答问题,体现了学以致用的理念。(二)固本培元,深化基础考查2025年高考语文全国卷试题以考生在语文生活和学习探索中常见的问题情境为载体,对考生应掌握的基础知识、基本技能进行测量与评价,引导考生在语言实践中,通过主动积累、梳理和整合,把握语文运用的规律,提高语文能力。全国二卷语言文字运用部分材料选自朱德熙先生的语文教育论著,是对中学生作文的讲评,要言不烦,逻辑性强。第21题是对错别字的考查,要求考生在材料中找出错别字并加以改正。题目考查不偏不怪,材料设置的四个错别字均属常见错误,容易习焉不察。这一题型可以有效增强考生的文字规范意识,提高考生使用规范汉字的自觉性,以因应目前普遍采用拼音输入和文字识别造成的对错别字“熟视无睹”及书写时“提笔忘字”的情况。第22题是对成语的考查。前几年成语考查多采用填空题、选择题形式,今年在考查形式上进行了创新,要求考生结合阅读材料的内容,思考成语用法的演变。试题设计意在启发考生理解并运用材料中提及的语言演变规律,举一反三,思考成语的意义演变问题,进而关注语言在实际使用中发生的变化。(三)衔接教学,促进课堂提质《教育强国建设规划纲要(2024—2035年)》明确提出要进一步发挥学校教育主阵地作用,全面提升课堂教学水平[1]。2025年高考语文全国卷试题致力于引导一线教学用好统编教材,提高课堂质量;引导学生重视课堂学习,对课内教学内容融会贯通,学以致用,扭转机械刷题、以练代学的不良习惯。试卷多个部分的试题均注重与教材的关联,除了考查与教材内容相关的知识之外,还注重衔接学习任务,呼应延伸阅读。例如,全国一卷阅读Ⅰ的第5题引入柳宗元《种树郭橐驼传》与阅读材料相关内容进行对比,强化了教材与考试的关联,引导教师在课堂上开展深度教学。作文第二则材料选自艾青的名篇《我爱这土地》,该诗是统编教材九年级上册第一单元的篇目。全国二卷阅读Ⅱ的材料选自《儒林外史》第五十五回。统编教材九年级上册中的《范进中举》就选自该书,统编教材九年级下册“名著导读”板块还专门安排了对《儒林外史》的整本书阅读,并建议师生围绕这部书展开多种指向的“专题探究”。试题的命制关注教材中的学习任务,呼应了教学中的重点问题。三、聚焦思维品质考查,激活创新潜能2025年高考语文全国卷试题继续加强对思维能力的考查力度,从深刻性、敏捷性、灵活性、批判性和独创性等方面对思维品质进行测评,激活考生的创造潜能,服务拔尖创新人才的选拔和培养。(一)激发问题意识,培养逻辑思维随着人工智能在人们生活、学习、工作中发挥的作用越来越大,人机协同解决实际问题成为考生未来需要掌握的技能。要充分发挥人工智能的作用,就需要培养学生敏锐的问题意识,引导他们形成系统化、结构化的思维方式。2025年高考语文试题精心选材,巧妙设问,引导考生在作答过程中培养问题意识,发展逻辑思维。例如,全国一卷阅读Ⅰ的选文以种植入门技能为线索,采用问答体形式来结构全篇,其行文逻辑严密、结构清晰,问题逐步深入、层层推进。第4题要求考生根据上下文,推测材料中空缺部分的问题内容。试题聚焦问题的提出和解决,要求考生理解原文的结构脉络和线索,以此推测出作者的行文逻辑,同时鼓励考生突破固定的思维模式,提出有价值的问题。全国一卷语言文字运用第22题要求考生用问句概括出材料的主要内容作为写作提纲。回答这道题首先要理解原文每一部分主要解决了什么问题,据此给每一自然段写一个问句,并确保问句的答案能够涵盖这一段的主要内容。这也为考生今后写作提供了一种梳理思路的方法。考生在回答上述问题时,需要调动信息整合与逻辑推理的能力进行深入分析。(二)注重综合分析,发展辩证思维2025年高考语文全国卷试题重点考查辩证思维能力,要求考生从多个视角观察、思考问题,分析问题中的各个要素、各种联系,并灵活地、创造性地运用不同方法,从整体角度去思考如何解决问题。全国一卷阅读Ⅲ由四段材料组合而成,四段材料分别选自《左传•昭公二十四年》、刘向《列女传》、韩婴《韩诗外传》和崔述《考信录》。据《左传》记载,郑定公出访晋国时,郑国子大叔用了“嫠不恤其纬”这一形象的说法来表达自己对于局势的忧虑。崔述《考信录》将“嫠不恤纬”与《列女传》“鲁漆室女”、《韩诗外传》“鲁监门女”这两则故事联系起来,总结出“虚言竟成实事”的演绎过程,进而对“但见汉人之书有之,遂信之而不疑”的现象提出批评。第14题要求考生回答崔述运用三则材料说明了什么观点,并谈谈自己的认识。试题的第一问,需要考生在读懂文言材料的基础上综合材料,提取信息,归纳观点。第二问又引导考生学会全方位、多角度地思考问题,着意考查考生的思维品质。顺着崔述的逻辑,考生可以得出“对古书中的记载不宜盲目相信,而需加以辨析”的结论,即所谓“尽信书不如无书”,这是认识的第一点。同时考生也应注意到,“鲁漆室女”“鲁监门女”的故事均是在“借物喻意”,即通过讲述故事阐明某种道理。对于“借物喻意”的故事,应着重理解故事所阐述的道理,不必强求其真实性,这也是一种认识。这一题目引导考生将各种因素及其相互关系进行全面思考、分析、整合,导向鲜明。(三)鼓励开放探究,激发创造思维2025年高考语文全国卷增强试题开放性,创新试题形式,尊重个体表达的多样性,鼓励发挥探究的主动性,力求激发创造思维。例如,全国二卷阅读Ⅱ第9题,要求考生参照传统的点评批注方式,选择文本中的文字进行评点:从考查目标来说,该题重在考查对文学作品的鉴赏能力;从自主探究的角度来说,该题鼓励考生发挥个人鉴赏的主动性。题目选择王太下棋的部分作为评点对象,因为这个部分有场景、有人物、有动作、有言语,情节集中,画面感强,能充分激发阅读兴趣,可供评点的“点”也较多,试题的开放性强,考生可以抓住自己最有感触的语句,给出自己富有个性的点评。再如,全国二卷作文围绕“梦的赠予”设置写作情境,为考生的写作提供了充足的空间:试题鼓励新时代的青少年大胆拥有梦,主动分享梦,自觉传递梦,勇于实现梦。基于这一情境展开写作,既可以极大地激活青少年的想象力,让他们充分打开写作的议题空间,又可以充分调动他们在学习和生活中积累的经验,引导他们写出真情真意,避免泛泛而谈。总之,2025年高考语文全国卷试题落实立德树人根本任务,全面贯彻党的教育方针,坚持目标导向、问题导向、效果导向,在充分体现语文学科的工具性和人文性特点的基础上,强化思想引领,鼓励思维创新,切实履行为党育人、为国选才的职责使命。参考文献略。
2026-01-05
引用格式:赵越. 越南阮朝乡试对明清科举制度的移植与调适[J]. 中国考试, 2025(12): 91-100.作 者赵越,武汉大学文学院在读博士生。摘 要:作为东亚科举文化圈的典型案例,越南阮朝乡试制度在信息登记、考试命题、缮卷评卷等环节沿袭了明清科举的基本框架。在内外压力的双重作用下,阮朝对乡试制度也进行了适应性调整:一方面,面对法国殖民统治的冲击,阮朝采取增设法语和越南语翻译科目、开放天主教徒参加科考等措施予以回应;另一方面,基于完善官僚体系的内在诉求,主动推动人才选拔层级的重构。阮朝乡试的移植和调适展现了科举制度从中华文明核心区向周边地域的传播,并在遭遇殖民势力时呈现“文化再生产”机制的特征,这为研究科举制度的跨文化传播提供了历史范本。关键词:东亚科举;儒家文化圈;越南阮朝;乡试制度;历史文化引言作为越南历史上最后一个封建王朝,阮朝(1802—1945年)是科举文化传播浪潮的重要参与者,其乡试制度对我国明清科举有亦步亦趋的模仿痕迹,又在本土化道路上做了大胆调适,成为研究科举制度跨文化传播的一个典型个案。学界对越南科举制度的研究起步较早,在制度脉络梳理、科举与儒学教育关系探讨等方面成果丰硕,但针对阮朝乡试的研究仍存在明显局限。现有成果多措意于考试科目、开科次数等表层制度上,而对制度变革的深层动因、本土化调整的具体方式、调适后的影响与启示等关键问题,尚未形成系统深入的讨论。本文以阮朝乡试为研究对象,通过对比越南阮朝和我国明清时期在乡试制度上的异同,重点剖析阮朝在借鉴过程中的调适,力图揭示我国科举制度在越南传播中的因革与新变,并为中越文化互鉴提供历史镜鉴。一、阮朝乡试对明清科举程式的借鉴越南阮朝乡试在考试程式上全面学习我国明清科举,从乡试前的筹备,到乡试时的具体操作,再到乡试后的收尾环节,各个步骤均参照我国精心设计。在考试信息登记、科目命题规划以及评分标准制定等方面,与明清科举呈现出高度相似性。(一)信息登记与防舞弊措施有关科考前考生信息登记和填写,早在明朝洪武三年(1370年),朱元璋颁布《初设科举条格诏》作出规定:“各省自行乡试,其直隶府州赴京乡试。凡举,各具籍贯、年甲、三代本姓,乡里举保,州县申行省,印卷乡试。中者,行省咨解,中书省判送礼部,印卷会试。”[1]清朝考生在童生阶段进入府、州、县学就读时,就已建有考试履历档案,在经历了多项科考的预备性考试和不同级别的科举考试后,需要不断地增添本人的有关信息[2],包括姓名、生辰、籍贯、家族、导师等。对于考生信息的记录与管理,阮朝乡试考试所采用的方式,与我国明清时期的相关制度颇为相似。越南嘉隆六年(1807年)明确规定,乡试考前四个月“各社长备类应试士人姓名脚色,纳在县官”[3];明命六年(1825年)又要求“应试士人卷面题名各押点指,以防顶冒”[4];而后又要求考生“于卷面题名处下,右边注明省、府、县、总社;左边注明年庚,并受业何员名(或私淑,或受业别省学臣何员名);其余恭开三代”[4]。对考生籍贯、师承、三代履历的逐步细化,表明政府对考生背景的审查日益严格。这一做法旨在防止冒籍、冒名顶替现象,确保选拔的公正性,同时强化阮朝廷对考生身份的全面管控。为应对科举舞弊现象,阮朝采取官僚协作与责任分割的措施。明命十二年(1831年),“着嗣届乡试科,先期该镇官派委属镇妥干文员,并量拨吏役等名,会同该学政上司遵照纳卷开薄规式奉行。其名册数目及姓名年贯,要须较比详确。至如士人试□□志场署名与卷内纸数,务获整好,毋得少存形迹,仍各署名于册籍内,该镇官再加阅寔,钤用印篆,仍由该学政转递”[4]。地方官府和学政的两层监督,能通过权力制衡减少单一部门的舞弊空间,同时亦可削弱地方精英对人才选拔的干预。所有经办官员需在册籍署名、钤印,形成可追溯的责任链。此外,阮朝也加深对试卷本身的管理。明命十三年(1832年)规定:“卷面第一、第二、第三场等字,着由官给木刻字样,该考官各于卷面印志,毋须士人自行笔写。再有涂遗勾改等字,亦着该士人各于卷尾注明字数,以防弊窦。”[4]科举试卷字样统一印制,可避免考生手写场次时故意使用特殊字体、标记以与阅卷官私下勾结,从卷面标识环节切断舞弊的可能。嗣德十一年(1858年)规定:“各于卷面反张前页第一行,夹钉卷处,上格仍旧留空,俟场官临辰押用,第某场木刻字样……系场官印卷辰,仍押下‘文衡公器’小篆一颗在这等字上,以防别弊。再监臣学臣例有汇修试册二本(一本咨部备炤、一本递纳场官),这二本各听于应试人名下,其何人第一第三等场专治何经,各行脚注明白,以备查炤。”[5]小篆印章“文衡公器”既充当防伪标志,又象征官方权威。印章不在考前预先盖好,而是由考官现场加盖,从而避免试卷在考前被提前标注、篡改场次,或在流转中被调包等舞弊行为。两本试册构成了中央与地方的双重备案,防止考生冒名顶替或资格造假,确保考生考试信息可查可核。刘海峰等指出:“随着‘科举机器’的运转时间日久,嵌入社会的影响日增,在政策规划与律法执行的细节上,对于公平公正的维护也愈发周密,这尤其体现在不断深化、细化的各种防弊规制上。”[6]从考生身份核查、考场纪律约束到考卷评改管控,阮朝科举逐步形成一套涵盖考前、考中、考后全流程的体系。这些不断完善的防弊设计,实际上是科举制度为应对运行中出现的漏洞而进行的修正和调适,既反映出制度对公平取士原则的坚守,也体现其在长期实践中积累的治理经验与精细化管理水平。(二)命题科目与考试范围陈文在《越南科举制度研究》中指出,阮朝进士科乡试的考试内容“基本上沿袭后黎朝之制,并参考了中国清朝乡试之法,但也进行了改革”[7]。其著作已对阮朝乡试内容的演变历程展开详细梳理与系统考述,因此本文不再赘述。在其基础上,本文聚焦于阮朝乡试内容改革的具体路径,探究其在沿袭旧制与借鉴外来经验之时,考试范围发生的实质性变化及背后的内在逻辑。越南阮朝乡试在考试内容与文体规范上参照明清科举制度。越南阮朝明命十三年(1832年)“改定试法为三场:初场八股制义;二场诗赋,赋用明清体;三场策问,乡试覆表一道”[8],其中,特别强调试赋必须采用明清时期的赋体格式。明命皇帝也曾言:“定三场规式,而斟酌唐人、明清试法,所以正场屋之文。”[9]阮朝乡试在制度框架上模仿我国唐朝和明清,也在具体的考试文体规范上以中国科举为范式。又有规定:“其诗体,乡试用七言律一首……均如唐人明清应试诗赋体,或以政事,或典故,或经史正文,或古人成句,或山川景物,不得引用僻书私集文字。”[4]这一规定凸显出阮朝乡试科举重要特征:其一,在考试内容上涵盖政事、典故、经史(包括中越两国的经典著作)等多元题材;其二,在文体规范上严格遵循中国唐宋以来的应试传统;其三,在学术标准上强调正统性,明确禁止使用冷僻典籍和私人著述。《钦定大南会典事例续编》记载嗣德三十三年(1880年)对乡试题目所做的规定[5]:凡中外学臣,教淑其徒,当先行寔,至于学文,必于五经传史正书,讲求义理,考验得失,毋徒涉猎于百家纷杂之说。又请将我国《历代史编》《国朝会典》《六部律例》《大南一统》《历朝类志》诸书,刊刻颁赐,俾得公诸传授。试法命题,则先以经义辰务为重,诸艺次之。钦奉旨准。再奉旨内一款:其这各部书刊行之后,或于乡会试法诏表论、诗赋二场,间出本国历朝史编文策,参用史编类志诸书一二段,与经传北史并行,以补未备。钦此。是年又议准内一款:申饬中外学臣,加心陶淑,行必先于行寔,文必本于正经传史,与夫我国史编类志诸书,既奉准刊行之后,亦必以辰讲肄。至于古今书、外国书(如精巧技艺之类)向来民间罕见者,有应学习。请并与各部书由臣礼部史馆筹拟,及早刊刻,印给诸学堂,俾公传习,以期寔用。系届乡会试期,场官遵依节次议定命题,以观所学。中国的四书五经、史传正书是越南乡试的必考内容,同时《历代史编》《国朝会典》《六部律例》《大南一统》《历朝类志》等越南本土书籍,以及越南的各类史书文集,也纳入越南乡会考试范畴。阮朝乡试仍以四书五经和正史典籍为基准,同时通过增加本国典籍的权重,强化士人对阮朝历史、典章制度的认知。足见,越南阮朝一方面坚守五经传史的儒家正统地位,确保文人的思想与统治理念相契合,另一方面也正视“精巧技艺”等实用知识的价值,力求通过教育培养士子的务实能力。阮朝选拔人才既要求士子拥有儒家义理素养,又要通晓阮朝典章实务,体现其科举制度规范性强化与本土化适配的有机结合。(三)缮卷要求与评卷标准清代科举“考卷设有违式,如真草不全、誊真用行草、空行空格、越幅曳白、题目写错、污损涂抹、脱落添注涂改字样,及添注涂改不符与逾一百字者,首场各艺起讫虚字相同者,行文不避庙讳、御名、圣讳者,抬头错误或涂改者,文不顶格、诗策不低二格、诗多韵少韵、失押官韵、策不满三百字者,诸如此类,经受卷所至对读所迭次查出,即将违式之名贴出,谓之蓝榜。凡贴出者除名”[10]。越南阮朝官方针对考生答卷制定了严格且明确的硬性要求。嘉隆六年(1807年)议准:“士人行文,四期字体,真草随用。凡遇尊字处,无得涂遗勾改。其有行文处白字,而文体宜在中格,许初覆官公呈监考官,转申试院官,审看文理,酌量去取。”[4]相较于明清科举考试誊卷时对楷书的严格要求,越南阮朝实行真草并具政策更宽松。初覆官、监考官、试院官的三级审核流程,与明清乡试同考官、主考官、礼部类似,这种设计构建了文官系统内部的相互监督机制。明命十五年(1834年)规定:“其卷内纸头各留一款为逾格,继下分为三款:凡恭遇天、地、尊庙、慈宫诸尊字,抬写在逾格;凡恭遇圣天子尊字,抬写在第一款;国家、朝廷、宫殿等字,抬写在第二款;题目行文,均写在第三款(凡遇诸尊字及题目,并不得涂遗勾改)。”[4]阮朝对尊字书写格式严格要求,实际上将文字书写提升到“礼制实践”层面。“三款”书写的架构本质上是通过考试场域的微观实践,传播越南的天、君、国、士等级观念。清代的乡试阅卷“以优、平、次、劣四项量定登第”[11],越南阮朝乡试亦效仿采取这四项评分制度。明命六年(1825年)议准:“凡秤量文卷,分别举人、秀才之法,如四卷俱优为最;三优一平为上;三优一次或二优二平者,次之;二优一平一次,或二优二次、一优三平、三优一劣者,又次之;一优二平一次,或四卷并平、一优三次、三平一次、二平二次、一平三次者,又次之。就中,第四期之优、平、次,较重于第三期;第三期之优、平、次,较重于第一、第二等期。通适扣算,以定其等第,某宜预中举人,某宜预中秀才,务在平允。”[4]在越南阮朝,不同场次的乡试对考生成绩的权重有所区别。具体而言,第四场考试的评分标准相对第三场更为关键,而第三场又比第一、二场更为重要。这种设计旨在防止考生靠死记硬背早期经义题过关,而忽视策论等实用文体,实际反映出阮朝选拔人才时,更倾向于政治能力而非单纯的学术纯粹性。与我国和朝鲜半岛不同的是,越南阮朝的乡试在维新二年(1908年)改用分数评卷,乡试三场考试,前一场考试得10分及以上者方可进入下一场考试,三场总分须达40分才能进入覆核阶段。越南维新三年(1909年)批阅乡试诗卷又“点阅改批点数应照旧试卷式,批在优平次劣之处。其文理应次者量批自十点至十四点,应平者量批自十五点至十七点,应优者量自十八点至二十点(除覆核场七点以上为中式,已经片准录分)”[12]。考官必须将点数批注在试卷特定位置,这样能通过书写位置的规范化实现对考官行为的控制。越南按分数点阅批改,在阮朝会试和殿试中早已推行并经历多次修改,《大南实录》记载:“会试事宜,请照明命六年例定。惟文理向分为优、平、次、劣,今请改定分数。其文理优者是为十分或九分,优次者为八分、七分,平者为六分、五分,平次者为四分、三分,次者为二分、一分,劣者为不及一分。内帘并试院堂官各按期详志,俟四期合串成摺,试院堂官会同秤量,以分之多少第其高下,以分之有无定其去取。凡得四十分以下、十分以上,而四期均有分数者,列在中格。如三期文理通得十分以上,而一期不及一分;与四期通计不及十分,而文体兼备、通得四分以上至九分者,列为副榜。”[13]或因参与乡试的人员数量远多于会试和殿试,为了简化批改流程,阮朝的乡试采用分数批阅的方式比会试和殿试要晚。二、阮朝乡试的本土化调适在法国入侵越南前,阮朝科举大体脱胎于明清科举传统,其主要内容和形式是对中国科举制度的延伸,但同时也产生部分新发明。十九世纪中叶以后,因法国势力的介入,越南拓宽了对西方文化的接纳视野,阮朝乡试在整体上表现为对西方制度文化的选择性回应。(一)翻译科目与语言教育阮朝在嘉隆年间效法中国设立城镇通言通事及八、九品行人等职务,使其翻译外国语言。明命十六年(1835年),越南皇帝认为“除鸟语兽音之外,余皆知之,以成一代文明之国。如是,则外事不误,而国体自尊矣”[14],又“古有寄鞮象译,以通殊俗。本朝教声远暨,东鹣西鲽,多效梯航,须有暗习外国言语字画者,以备通译”[14]。这反映出明命帝面对外部世界时采取的实用主义外交策略。同时,明命帝认为“译馆讲习,盖欲通译国音,以备应答外国而已。至其所学,我国本从邹鲁之教,君臣父子,人道之常。若一切创为异说,新人听闻,正念童子知其言语文字,习与性成,反为所陷。宜以此意训戒之”[14]。越南皇帝明确将译馆功能限定为语言工具,而非知识体系引进,其目的仅在于满足外交事务的沟通需求。他持有文化防御的心态,深恐引入的异域学说和思想会动摇国本,故而对学习内容加以严格把控,以防民众思想被外国观念侵蚀。我国清代雍正和乾隆时期曾设有满文和蒙文的翻译科,目的在于加强民族交流和整顿边疆治理。而越南增设翻译科的直接原因则是法国殖民统治的不断加深。法国在殖民越南期间创建并管控法越学校,阮朝乡试也被迫增设翻译科目。以北圻地区为例,成泰十年(1898年)规定河南场除三场文体仍用旧式外,其乡试添定:“一是西字西话要得通晓,二是通达国语字,其增设题式如后。法字以下:一是法字写出一题;二是读写随场官随口诵出,便行写去;三是法字一题译出本国音。法话以下:一是法话问答,二是南字一题,随口译出法语。国语以下:一是读写国语字,二是儒字一题,译出国语字。”[3]阮朝乡试采用“写听译”三位一体的法语考核体系,体现了殖民压力下越南语言政策的被动转型。成泰十八年(1906年)《学法试法(附新议)》第五十四条规定:“乡试有四场。第一场,汉字文策五道(伦理、文学干道,南北史及地舆,或东洋政治、律例干道),其行文不拘一定格式,要以见识确当、词意简捷为佳。第二场南音文三题,文学议论一题(以观国音、练熟史记),并地舆一题、格致一题。第三场法文二题,一汉字译法字,一法字译南音。第四场,覆覈略备三场文体,汉文论体一题、南音论体一题、法文译汉字一题。”[3]第一场考试内容尽管聚焦于中越两国内容,但文策不拘格式的要求,透露出汉学体系的松动;第二场采用拉丁化的越南语言考核文学、史地、格致,实际上是在削弱汉语的主导地位;第三场考核中文和越南语的法语翻译,旨在培养为法国殖民服务的双语人才,从而加强法语的政治地位;第四场汉、越、法文的混杂,迫使越南精英在传统文化、本土文化与殖民文化之间产生分裂。此时的科举和教育并非中立的社会流动工具,而是法越权力博弈的场域,阮朝翻译科目的设立实质是文化资本评价标准的重构。此外,语言学习与翻译教育逐渐被纳入越南学子的常规课程体系。越南建立了包括幼学、小学、中学的新教育体系,这种架构颇具中越现代教育的雏形特点。成泰十八年(1906年)《学法试法(附新议)》记载幼学场“教规有二,一是汉字教规,一是南音教规。如该场童生之父母欲为子择斯二者,仅学其一亦听”;小学场“教法有二(汉字教规、南音教规)。又须随宜筹料,增设学大法字,其学习仍各随学生所愿,别无拘强”;中学场“教法有三,一汉字教规、一南音教规,一法字教规”[3],三科都须兼习。法国在阮朝幼学阶段制造汉字与国语字的二元分流,小学嵌入法语课程,再到中学设立中、越、法三语并习的考评体系,实现法语在越南的渐进式语言文化替代。(二)天主教民与乡试科考儒学作为越南社会的主导思想,自李朝以来长期占据统治地位,而伴随十九世纪中叶以来天主教在阮朝的传播与影响力不断扩大,二者在意识形态和社会组织层面的抵牾直接冲击了阮朝统治的根基。越南明命皇帝曾言“爷苏之教,原自西洋人流习,经久蔓延,愚昧小民,多为煽惑,迷而不悟。试思天堂之说,总属荒诞无稽;况不敬神明,不奉祖先,大违正道。甚至私立讲馆,聚集多人,诱汙妇女,诳取病人目睛。似此悖理伤风,不一而足”[15],可见明命帝对西方宗教传播保持警惕的态度。然而,随着法国和天主教的深度结合,越南阮朝统治阶层被迫直面儒家传统价值体系与天主教意识形态之间的结构性龃龉。阮朝廷虽然屡次颁布禁教诏令,却仍然无法遏制天主教的渗透。因宗教问题与殖民扩张的相互交织导致阮朝统治危机加重,统治阶层必须在维护传统与应对现实间寻求平衡。越南嗣德二十八年(1875年)颁布《教民应试及出仕例》:“廷臣将和约款内奏准:嗣后教民如有情愿应试,不拘文武,听由所在,各炤应试之例,饬里役开认确实,应准入试。与遇有填替兵丁,或投入书吏,均于名旁肩注‘教人’二字。何人试中而愿出仕者,凡居官、莅事,均遵本国体例(如朝贺、祭祀之类),勿可有违;或有玷官常、犯科条者,各炤律拟处,不得援以他系教民别生议论。”[16]阮朝廷允许天主教民参与科举考试,其考试内容与普通考生别无二致,只不过必须标注教民身份。实际上,阮朝廷允许天主教民参与科举的政策,表面上是为了缓解宗教冲突,实则是试图通过儒家文化同化教民。教民能参与科举考试满足了其参政诉求,“教人”的标记便于身份识别和朝廷监管。更进一步地说,教民考试内容按照传统科举,意味着他们依然需要学习儒家知识;教民出仕后按照传统律例行事,说明入仕后他们仍然需要遵循儒家礼制。阮朝廷希望通过这一措施,巩固儒家在阮朝社会文化的主导地位,引导教民遵循传统的社会秩序和价值体系。然而,此政策实际收效甚微,未能从根本上化解天主教和儒教之间的矛盾。天主教与法国殖民统治相互勾连,并与以儒家为指导的封建政权抗衡,对阮朝统治权威构成了严峻挑战。天主教势力借助法国殖民势力日益扩张,加剧了社会思想文化的内部分裂,从而逐渐削弱阮朝政权的稳定性。(三)乡试中举与授官任职越南阮朝“秀才”“举人”通过乡试同时产生,明命六年(1825年)批阅乡试的“举秀”之法“第其名次,某名应得举人,某名应得秀才,交吏房写榜”[4]。此前,阮朝乡试中,通过三场考试的考生被称为“生徒”,通过四场考试的则被称作“乡贡”。到了明命年间,生徒和乡贡分别被更改为秀才和举人。需要注意的是,越南的“秀才”仅借鉴中国的称谓,两国“秀才”并不能等同视之。下文着眼于阮朝乡试秀才进行研究。阮朝时期,秀才除了个别时期可以直接授职外,一般情况均需再核,合格者可补职,补职去向包括调导、教授、分派六部行走等,并按历科次数、年龄大小分别按补[7]。阮朝秀才职业发展主要呈现三种路径,分别是补教授或训导、补基层官吏和选贡生。为规范人才晋升,阮朝采用优项、平项、次项的递进式晋升考核体系,其中获优项者最高可擢升至正七品,平项者可晋升至正八品,而次项者则可跻身至正九品之列。针对三十五岁以上秀才的入仕与晋升机制,成泰十年(1898年)阮朝规定:“嗣凡秀才年三十五以上、情愿从政者,每至春首,由地官开呈。地方官察实平日无有干连案件,咨部档案。俟有诸部衙书吏承办、承派之缺,遴摘填补,仍均改为承办……每周三年,由该上司确察:何系谙晓勤干者,升补二秩(供奉);次者,升补一秩(待诏)。嗣后炤官人例办,仍限周应升。遇有九品之缺,推补正额,或摘补府县吏目;无缺,仍充承办。何系溺劣,勒回原籍,不再补用。由原诸部衙察系通勤,遇缺书、通参,错补用。至如士民投募书吏之款,嗣各停止。”[17]阮朝三年周期制考核,设“升一秩”“升二秩”的双轨晋升方式,以及降级调用和勒回原籍永不任用的惩戒退回机制,企图通过机制改良来提升行政效能。越南阮朝对秀才做官和晋升的年龄设定要求,明命二十一年(1840年)充皇幼子师保黄文演上奏:“例定充诸皇子讲习十五人,正字十人,充诸皇孙教习二人。今充诸皇子讲习,正字只有十六人,讲肄不敷。又诸皇孙年属稍长,教习亦未有人,请由部遴出诸科秀才年四十以上充补。许之。”[18]阮朝皇子皇孙教习人员不足时,从四十岁以上秀才中遴选,表明其任用秀才充此类教育官职有明确年龄要求,倾向选年长者。秀才亦可通过考核推荐进入国子监,嗣德元年(1848年)准议:“嗣后府贡学生,请以寅、巳、申、亥为限,届期各由所在地方官详加察访。辖下秀才或士人年至四十,何系文学优长、操行端正,为府内所推誉者,每府遴出一人充贡,由监臣覈寔,补入监肄业。”[19]阮朝举人或秀才的晋升方式多样化,待其年四十后可通过遴选向上发展。选拔官员时以秀才年龄和才学为并行标准,可见阮朝对官员综合能力和经验成熟度的审慎权衡。对于特别优秀或有特殊贡献的秀才,经考核可破格提拔,且不受年龄的限制。例如,越南著名官员潘辉“曾于1807年和1819年两度参加会试却未中试。1821年授翰林院编修一职,呈献其历时十年所著《历朝宪章类志》。1825年,作为副使出使清朝,归国后任承天府府丞,1829年改授广南镇”[21],其中承天府府丞为正四品。潘辉注未通过会试却能官至正四品,可见会试不是阮朝秀才和举人进入庙堂的唯一进身之阶。这展现了阮朝人才选拔与任用机制的灵活性,也凸显了对用人真才实学的重视。越南科举本土化特色并非仅上述几种,另有创设实行儒佛道三教考试、以大象把守试场防止作弊等措施[20]。这些举措既突破了中国科举由来已久的畛域,也高度契合越南的本土国情,展现出科举制度在越南的传承和新变。三、阮朝乡试的历史文化影响阮朝科举作为我国明清科举的域外镜像,展现了中华科举文化在东亚的影响力。阮朝乡试在推动人才选拔的同时,亦促进了越南儒学发展,为中国儒学海外传播和科举域外影响的研究提供了范例。经过历史的淬炼,阮朝乡试的影响并未消逝,而是贯通古今、持续至今。首先,阮朝乡试选拔人才兼顾对学识与能力的综合考量。这一标准不仅为个人拓展了晋升路径,还从整体上优化了官僚体系的结构。阮朝秀才、举人初次授官会受品级限制,但即便未能通过会试,他们依旧有机会晋至正一品的高位。据《越南汉喃作家辞典》记载,何维藩“清化省寿春县渤上社人,嘉隆十八年(1819年)己卯科举人。历任真禄知县、都察院都御史、户部尚书、协辨大学士、文明殿大学士等职”[22],此外还有高春育(曾担任东阁大学士)、黄高启(出任过武显殿大学士)等。这体现了阮朝对人才实际能力的重视,同时也体现出举人在阮朝仕途的“可能性”。仔细梳理此类举人的仕途路径会发现,这些举人均以基层岗位为起点,凭借多岗位经验沉淀和积累,最终实现跻身高位。阮朝秀才、举人借由不同领域轮岗积累综合能力,印证了建立常态化轮岗机制,能有效培育出复合型人才。同时,人才选拔需摒弃唯学历论、唯资历论的偏见,看重实际成果与综合能力。其次,殖民时期的法国将乡试异化为统治阮朝的工具,并借此分化越南传统知识阶层,继而造成文化认同危机、引起政治抗争。法国在教育和科举中实施“去中国”策略:一方面削弱了儒家文化的影响,另一方面通过乡试制度培养亲法的越南知识分子,以此加深对越南的控制。在此背景下,阮朝知识阶层不得不直面殖民文化的冲击,原本经过科举选拔出的精英群体也随之产生分化。一些精英成为法国政策的拥护者,如镇压勤王运动的阮仲合、《南风杂志》汉文版主编阮伯卓等;而另一些则成为民族独立运动的先行者,如掀起东游运动的潘佩珠等。亲法派转向了西方价值体系,与坚守儒学传统的士人形成对立,双方围绕文化认同与民族大义的立场各执一端。这种冲突导致文化认同的割裂,更加剧了社会的深层矛盾,使得文化赓续与政治诉求落入困境。这启示后人,教育和考试应平衡传统与现代,既要避免外来文化冲击,更要警惕文化趋同性的潜在风险。再次,阮朝乡试制度的推行促进了儒学文化在越南的传播和普及。由于阮朝制义科目的考试内容跳脱不出四书五经的藩篱,儒家经典成为举子必读书籍。从教育层面来看,阮朝独立时期以儒家经典和义理为教育主轴,学堂分奇日、偶日授课,“先讲经传以明义理,次讲正史以达事迹,尤当导其荣辱廉耻之端,申之以孝悌忠信之义”[4]。儒学思想势必会影响越南文人的思维方式和行为举止,引导他们遵循儒家的规范。在科举的影响下,越南社会从上至下孕育出深厚的儒学底蕴,儒学逐渐成为塑造越南社会文化的核心力量,并在阮朝独立时期成为社会的主流意识形态。贯穿乡试制度的儒家伦理观,虽然经历越南1919年科举废止的制度性中断,但仍然转生至现代越南。越南学者丁克顺认为:“儒学科举教育经过历代的发展,深刻影响了越南传统文化,形成了‘好学’的传统。”[23]由科举催生的文化传统,如终身向学、学而不倦、尊师重道等儒家伦理内核,均未因科举制度的终结而褪色。最后,阮朝通过建立与乡试制度紧密衔接的教育体系,为越南现代教育制度的形成提供了重要的历史经验。越南维新元年(1907年)十月二十六日颁布《学规新场开设》:“奉炤西去年十一月十六日之议,改定北圻学法试法……拟定场分内为三班,炤依中学、小学、幼学格式。”[24]结合上文对阮朝语言教育的分析,可知阮朝根据幼学、小学、中学的学段差异,设计了渐进式的语言教学要求。例如,幼学阶段以自主选择为原则,限定汉字与国语字为可选修习内容;小学阶段在延续汉字、国语字教学的基础上,将法语纳入选修范畴;中学阶段则确立强制要求学习者兼修汉字、国语字与法语。透过语言教学的分类设科、分级要求可发现,阮朝教育体系逐渐变得更具实用性。这一制度的转型,可视为东亚传统教育体系现代化演进的代表性案例。这也为当下提供了借鉴,即在推进教育现代化的同时,应充分挖掘本国优秀教育传统的价值,让教育真正服务于民族发展与文化传承。四、结束语越南于1919年废除科举,是儒家文化圈中最晚废除科举的国家。作为东亚科举制度发展历程中的重要一环,越南阮朝乡试在深度借鉴我国科举程式之余,主动融入了具有本土特质的内容。阮朝乡试借鉴明清科举考前登记、考试命题、考后阅卷等制度,清晰展现出科举文化跨区域传播的面貌。其基于自身需要进行本土化调适的同时,也彰显了制度移植过程中对本国情况的深度考量。从越南阮朝的角度审视,乡试在越南教育史上占据举足轻重的地位;而从东亚儒家文化圈的视角来看,越南乡试又融入了东亚科举和儒学的传播史和影响史。阮朝乡试不只是越南历史上人才选拔的代表性范例,更是全球化时代文化文明交流互鉴的历史参照。即便置于现代,科举的公平竞争内核仍可为现代社会选拔机制提供启示,其僵化性则警示后人需要在传统传承与时代发展间找到适配之道。参考文献略。
2025-11-17
引用格式:秦春华, 姜佳玥, 李庆港. 形成性评价的概念辨析与实践路径[J]. 中国考试, 2025(11): 22-33.作 者秦春华,北京大学考试研究院院长,研究员。姜佳玥,加拿大韦仕敦大学教育学院在读博士生。李庆港,加拿大麦吉尔大学政治学系在读博士生。 摘 要:在人工智能时代,形成性评价因其有助于培养学生自主学习、信息加工和科学创新能力,成为支持高质量教学的重要方法。然而,由于忽视因地制宜的关键作用、缺乏外部环境条件的有效支持以及教学实践本身的复杂性,形成性评价在我国教育实践中出现一些偏差,既造成概念上的混淆,也导致实践上的误用。为克服这些偏差,回归形成性评价的本源,应遵循因地制宜原则,对已有教学实践进行引导和系统改良,构建双师型教师专业发展模式,正确运用形成性评价推动教育教学改革。关键词:形成性评价;总结性评价;教育评价改革;高质量教学;因地制宜 2025年4月3日,经济合作与发展组织(OECD)在葡萄牙发布了《解锁高质量教学》(Unlocking High-QualityTeaching)研究报告。报告提出了支持高质量教学的五个关键目标,即确保认知参与、制作优质学科内容、提供社交情感支持、促进课堂互动以及使用形成性评价和反馈[1]。由此,形成性评价再度受到广泛关注。作为20世纪60年代发轫于美国的教育评价理论,形成性评价历经半个多世纪的发展和完善,对于重塑欧美国家教育体系、提升教育教学质量发挥了重要作用。在人工智能迅速发展的今天,由于在自主学习、信息加工和科学创新等能力培养方面所发挥的重要作用[2],形成性评价已成为教育教学中不可或缺的方法。尽管我国引入形成性评价这一概念已超过40年,但其作为一个舶来概念,对于很多研究者和实践者来说还相当陌生。如何更准确地理解和把握形成性评价的概念和内涵,尤其是如何在实践中正确运用形成性评价工具,推动我国的教育评价改革,是摆在教育界面前的一个现实问题。一、概念辨析对于形成性评价的概念,根据不同使用情境,不同的人有不同界定。相当多的人把形成性评价等同于过程性评价,但其所理解的“过程性评价”又与西方的定义有很大不同。《深化新时代教育评价改革总体方案》中提到“改进结果评价,强化过程评价,探索增值评价,健全综合评价”[3],并没有提及形成性评价,一个重要原因也许就是认为二者语义相同。在教育部的正式文件中,2023年12月发布的《教育部办公厅关于推荐首批全国中小学科学教育实验区、实验校的通知》中第一次使用形成性评价,提出“探索改革评价方法,重视过程性、形成性评价”,并首次将过程性评价和形成性评价进行了区分[4]。在实际应用中,仍然有很多人习惯于使用“过程性评价”而非“形成性评价”。就概念的语义本身而言,总结性评价和过程性评价比较容易理解——前者对应结果,后者对应过程,但对于形成性评价理解起来仍有一定难度。事实上,自Cronbach于1963年最早提出利用评价改善教育项目或课程开发的设想[5]以来,经过半个多世纪的探索,一代又一代学者围绕形成性评价衍生出一整套极为复杂的概念与实践体系,涉及教育理论、目的、功能、方法和环境等多个领域[6]。即使在欧美国家内部,对这些概念的理解运用也不尽相同,更遑论引入我国后所产生的理解上的困难。再加上中文翻译的问题,使得研究者与实践者经常将字面意思相近的概念混淆,不仅造成信息上的“鸡同鸭讲”,也造成学术交流上的割裂[3]。事实上,当人们使用一个舶来概念时,很容易忽视历史发展对概念本身的塑造,也容易忽略概念内在的情境条件之间的相互作用。追本溯源,有必要对形成性评价的产生和发展历程进行重新审视。(一)形成性评价的提出与发展在形成性评价概念发展史上,有如下四种代表性观点奠定了其理论形成的基础。第一,教育评价可以分为总结性评价与形成性评价。20世纪中叶,Cronbach最早提出利用评价改善教育项目或课程开发的设想[5]。在这一基础上,Scriven首次提出形成性评价(formative evaluation)概念。Scriven认为,教育评价在行动上是指收集数据并根据一系列目标性指标进行比较或者打分,但在目的上存在着总结性(summative)与形成性(formative)的区别[7]。总结性是对最终成果价值的评价,而形成性则是在教育过程中为改善效果提供信息和反馈支持。这一区分明确了形成性的定义,评价的目的开始由总结性地判断价值转向形成性地发现问题并加以改善;同时,其主要以课程开发为目的,服务于课程的制定者而非实践者[7]。此外,Scriven对教育评价方法的理解偏向在开发过程中对课程项目进行多次阶段性结果测评,评价的目的、主体和手段相对单一,与今天的定义有较大区别[7-8]。第二,评价可用于改进教学和学习。Scriven的“形成性”定义强调在教育过程中收集信息反馈并用于改进,其与学生和教师等过程行为主体具有天然的亲和性[7]。Bloom等率先提出形成性评价不仅可用于课程开发,还可用于改进教师教学和学生学习。他主张对教学内容进行单元内的细分,并根据学生的学习行为步骤,在学习行为与教学内容之间建立模块式联系(如从对概念的理解到知识的迁移应用),然后以测验手段检验学生对每个部分的掌握程度,教师和学生则可根据测验反馈的信息,“诊断”出有问题的部分并进行针对性的学习[9]。这一理念将形成性评价的应用场域拓展到课堂,将评价的主体从课程制定者、教育管理者拓展到最基础的教学者和学习者。Fuchs等的系列研究则进一步证明这种评价方法具有70%的效果,为后来形成性评价在课堂评价领域的发展奠定了基础[10]。总体来看,早期的形成性评价整体秉持“掌握学习”(mastery learning)的理念,希望通过特定的测试了解学生对规定知识的掌握情况,促进学生对知识的理解,并不强调对课堂教学实践的调整和对学生学习能力的关注。一些人经常误认为频繁的月考、小测验就是形成性评价,或将过程性评价等同于形成性评价,其实是对形成性评价的片面理解。第三,形成性评价需要有效反馈和学生的参与。在形成性评价概念提出后的30年中,欧美国家教育评价范式经历了从量化考试为主到课堂评价为主的转变过程,评价目的和方式都得到极大拓展,这一变化也体现在形成性评价概念的发展中。“evaluation”一词强调对整体价值做出总结性判断,此时逐渐被更强调过程反馈和改进的“assessment”所取代[11-14]。Sadler指出,虽然诊断是形成性评价中的一部分,但“测验诊断—发现问题”的评价模式较为随机和低效,改进学习的关键应该是提供和获得有效的反馈[14]。学生并不能从表现性的量化指标(如成绩)或抽象的反馈建议(如“做得好”或“要努力”)中获得有效的信息。有效反馈应该是综合课程学习目标与学生具体情况的质性建议(如在何处存在什么样的问题,应该如何改进等)。Sadler还强调,反馈绝不是教师的单向工作,学生应该在教师的帮助下,通过范例、自评与互评等方式,了解具体的学习标准和目标,发现自己与目标之间的差距,并采取相应措施有针对性地缩小差距,最终形成能够监控自己的学习状况以及调整自己学习策略的能力,同时也可以减轻教师的负担[14]。Sadler的定义强调反馈是形成性评价过程的关键,也强调学生在学习过程中的主体性作用。第四,形成性评价是师生之间的教学反馈循环。Black与William对课堂教学中的形成性评价重新定义,提出形成性评价(formative assessment)是指所有由教师和学生所采取的,能提供信息与反馈,并用于改进教学和学习活动的活动[15]。由于他们的研究证实了形成性评价可以在40%~70%的范围内提高学生表现(尽管这一结论今天仍有争议),因此这一定义被大量引用,成为当前学术界对形成性评价的基本认识。该定义主要涵盖四个方面的要素:一是目标与标准,强调教师和学生明确并理解课程学习目标与评价标准;二是收集信息与诊断,教师通过正式(如学习测验、表现测验、档案)与非正式(如师生对话、课堂观察、日常课业、采访)的多种方式,常态化收集课堂信息,用于了解学生学习情况,发现学生与学习目标之间的差距;三是评价反馈,教师根据教学和学习过程中发现的具体差距,依照评价标准及时有效地为学生提供非评判、质性的反馈,同时教师调整教学策略,为学生提供相应的改进机会;四是以学生为主体,通过自评和互评等方式推动学生对学习内容、评价体系的理解,鼓励学生分析反馈信息并调整学习策略,培养自主学习的能力[12-13,16-18]。这一定义明确了形成性评价的核心元素,即形成性评价的目的是通过评价改善学生的学习情况,提升学习能力。形成性评价的过程由明确目标、收集信息、提供反馈、改进策略四个循环性步骤构成,包括一系列正式与非正式方法;其行为主体是课堂中的教师和学生,尤其学生作为评价者积极参与到每一个步骤中,不是被动的接受者和被评价者。在教师的帮助下,学生可以通过这些评价方式了解自己的学习状况,形成对学习和评价体系的认识,最终成为学习的主导者。(二)促进学生学习的评测(assessment for learning)20世纪末,英国的评价改革小组提出对于学习的评价(assessment of learning)和促进学习的评价(assessment for learning),用以对应并取代总结性评价和形成性评价,逐渐成为一部分学者所使用的术语。有学者认为,总结性评价与形成性评价可以和对于学习的评价、促进学习的评价交替使用,两组概念之间不存在太多实际意义上的出入[19-20]。该术语的使用者则认为,形成性评价的早期定义使其容易被理解成经常性地测试以制定教学计划(类似于上文中Bloom的观点),具有一定的滞后性,也没有充分强调学生的作用。他们主张应该将评价整合进学习过程中,满足学生的信息需要,提高他们学习的自主性[16,21]。Earl则认为,除了对于学习的评价和促进学习的评价外,评价也可以作为一种学习过程中的学习方式。作为学习的评价(assessment as learning)是促进学习的评价的一个概念分支,旨在利用评价帮助学生建立和发展元认知(metacognition),让学生在评价与学习之间建立联系,在教师的帮助下形成对自身学习和评价的认知,自主地塑造学习模式[22]。从表述上来看,促进学习的评价包括三层意义:一是与早期的频繁测试做出了区分,二是进一步强调学生的作用,三是将评价整合进学习过程中而不再单独出现。事实上,Sadler之后的形成性评价研究者大多非常重视学生的作用,也强调形成性评价与课堂学习的全过程相结合。许多人依然在大量使用“formative assessment”一词,包括Stiggins本人[23]。这说明不同表述间的分界并不重要,关键是明确概念的本质含义。另外,Stiggins等人所反对的频繁性测验(high-frequency testing)虽然不能代表形成性评价的全部,但也有研究者指出,经过形成性设计的测验也可以起到促进学生学习的作用[24]。实际上,测验与课堂内的形成性评价之间虽然存在一定矛盾,但二者也有诸多交集,且在很多语境中必须同时存在[24-25]。一方面,形成性评价重视实践和效果的关系,对学习情况的阶段性测评是其重要的环节。即便这种测评是出于促进学习的目的,也并不妨碍其在提供有价值的评价信息的同时,兼具总结性的功能。另一方面,经过形成性设计的总结性考试也可以通过备考、强化记忆、提供形成性信息等起到促进学习的作用[26]。需要强调的是,并非所有的考试都可以发挥形成性作用,一味通过增加考试测评密度或提供各种分数并不能起到形成性作用,因为这些做法并没有找出学生或教学方法的具体薄弱之处,也没有提供相应的改进方向。事实上,为了比较、筛选学生的考试设计与为了提高教学质量的考试设计是完全不同的,后者需要精准的课程目标及相关说明、根据学生个性和课程目标制定的反馈报告,以及对教学效果的评价[27]。作为整体的教育系统内应避免“非此即彼”的做法,需要在实践中不断探索测试与形成性评价之间的关系。(三)全面而平衡的评价系统除了评价目的与测量工具之间的争论,另一个争议点是形成性评价和总结性评价如何在教育评价系统的不同层级中得以体现。由于Black和William对形成性评价的定义是从课堂评价的传统出发,并未强调中观(如学校、学区)与宏观层面(如州/省、国家)教育主体的作用,容易造成形成性评价仅仅局限于课堂评价的错觉,导致课堂的形成性评价与其他教育环节的脱节。实际上,即便是课堂范围内的形成性评价,也无法脱离教育评价体系而单独存在,其效果受到教育系统尤其是考试系统的限制[27]。Bennett和Gitomer指出,教育评价系统应该在内部和外部保持一致,内部一致性指形成性评价与总结性评价必须互相补充,外部一致性则是指形成性评价与总结性评价都要与学习理论和广为人们接受的学习价值相结合,支持和配合整个教育系统[28]。Stiggins等的研究更多地强调内部一致性,即形成性评价与总结性评价在课堂评价、基准测试/中期评估、年度考试中的结合,主要涉及学生、家长、教师、教研组和学校管理者等主体的分工[23]。例如,对于同一次期中考试结果,教研组和教师应该思考并找出学生需要哪些具体的帮助,以及如何提供帮助;而学校决策者则应该总结性地思考当前的教育项目是否有效,是否需要修改或者更换等。外部一致性在涉及更多行为主体的同时,也涉及更多的评价目的。Shepard等认为,在外部环境下各级行为主体对形成性评价实现学习理念的认同时,教育系统也应保持上下的一致性[29]。例如,地区级别的评价一般用来总结性地比较不同学校和教育项目,但地方教育行政部门也可以通过制定相关标准、提供指导材料、提供教师培训和职业发展机会等方式,推动当地形成性评价的发展。在国家层面,政府需要为推动课堂中的形成性评价提供足够支持,为教师提供与教学评价相关的培训,在国家课程标准中提供形成性评价的指导和实践案例,将形成性评价实施情况纳入学校监管体系,设立相应的评价研究项目等。在2019年的美国未来评价实践会议(National Panel on the Future of Assessment Practices)上,形成性评价领域的多位专家指出,教育评价应该在改进学生学习的形成性过程的同时,向利益相关群体报告学习情况的总结性成分;教育评价也不宜只由评价工具和评价过程组成,而应该在各层级收集所有能用来分析学习情况的信息,不只是收集最简单的考试成绩[23]。在这个评价系统中,课堂评价应该由教师和学生从多个角度日常性地收集和使用大量的、细节性的形成性信息用于促进学习,不一定需要记录并用于向上报告。评价信息使用者层级越高,信息收集周期就越长,信息的细节也越少。对于管理者而言,明确评价目的、评估评价效果及确保各层级对评价理念有基本认识,是推动区域化教育评价均衡发展的关键。二、形成性评价在我国的实践进入二十一世纪,形成性评价受到国内学者的广泛关注,早期研究多聚焦于其在英语教学中的应用[2]。随着教育评价改革的重要性日益凸显,国内对于形成性评价的研究和实践都进入高涨期。然而,形成性评价在引进到我国并转化为教育实践时,往往被随意压缩或断章取义,一方面造成概念上的混淆,另一方面也导致了实践做法上的混乱。尽管学术界对形成性评价的核心概念已达成一定程度的共识,但在实际操作中仅有共识还远远不够,认知、理解以及基于理解的执行都将极大地影响实施效果。已有的实证案例证明,形成性评价能够对教学产生积极作用[15],但受到不同社会环境、文化环境、教学条件等的影响,教师对形成性评价的理解与实施可能产生偏差,导致形成性评价在应用过程中遇到诸多困难,难以在教学一线真正发挥作用。(一)我国形成性评价实践中存在的问题在我国形成性评价实践中,主要存在以下三种偏差。一是将教师看作实施形成性评价的责任主体,忽视学校及政策环境的作用。目前,关于形成性评价实施的研究中,多数讨论聚焦于教师在课堂中的实践和创新,很少提及学校和政策环境在形成性评价中的角色和作用[30-31,33-37]。王晓红等关于形成性评价实施的中美比较案例研究列举了我国教师在实施形成性评价过程中遇到的种种困难,包括较低的师生比、教学内容多但课时少、教师问责考核制度与学生评价过度注重成绩与排名、教师职业培训及合作交流机会少等问题[35]。虽然教师是形成性评价实践的关键主体,但作为个体依然受制于学校管理和宏观教育政策的制约,在缺乏支持的情况下,很难独自成功完成形成性评价的实施。二是将形成性评价简化为具有统一标准的教学策略,简单套用到教学中,忽视学校、学生的实际情况以及学生学习的实际效果。在这种情况下,教师的评价往往流于形式,无法实现预期目标。例如,教师将偶尔运用学习档案袋、学生互评、自评等作为形成性评价的实施。在运用这些策略时,他们往往会忽视一个关键因素,即当学生尚未通过自评、互评、学习档案袋等有效反思学习方法的训练和指导,缺乏评价的明确标准和判断依据时,教师仅对学生提出自评、互评、整理档案袋的要求,学生往往按照自己的理解完成任务,表现和效果因人而异,很难在总体上实现认知和能力的提升。教师也会认为此类教学策略浪费时间,没有效果。实际上,这恰恰是由于教师对学生的真实情况认识不足,没有相应地设计合适的教学策略所导致的,且这种做法忽视了其他更适应学生实际情况的形成性评价设计。三是将形成性评价理解为单一、独立的教学策略或教学活动,割裂形成性评价与其他教学技能、教学内容与教学方法之间的关联。实际上,形成性评价不仅需要与整体教学计划、内容、方法相配合,还对教师已有的教学水平、教学能力等有较高的前置要求。例如,形成性评价中关键的一环是提供有效反馈信息,需要教师在教学过程中有效提出问题,引导学生思考,明确地与学生沟通学习目标,提出有针对性的改进意见,并能在有效收集学生反馈信息的过程中,随时根据学生的反应调整教学策略。然而,在很多形成性评价案例中,教师往往不具备相关教学技能,或难以将已有教学经验与形成性评价实践相结合。许多教师提供给学生的评语内容信息非常有限,如简单笼统的表扬“很好”,提醒“继续努力”,优、良、中、差的评级等,缺乏多层次、多维度的具体评价信息和改进意见,难以实现形成性评价改进学习的目标。(二)影响形成性评价有效实施的因素从国际视角来看,形成性评价在我国实践中出现的问题并非特殊现象,而是其作为一种从其他教学环境中产生、引进而来的教学方法必然面临的适应性问题。为此,形成性评价需要在充分调查我国社情、教情、学情的基础上,进行因地制宜的改进和创新。在我国基础教育阶段,形成性评价实施困境主要出于以下三个方面的原因。第一,忽视因地制宜原则的关键作用。因地制宜是教学实践的重要特点,当一种教学实践在某种教学环境中产生,并尝试迁移到新的环境中执行时,新环境的许多特点(如社会环境、文化环境、教师条件、家长期望、已有的教学实践等)将影响该环境中的个体对教学实践的理解、实施和最终效果[38-39]。形成性评价作为一种国外引进的评价方式,能否因地制宜地付诸实践决定了其实施效果。在公共政策理论中,已有研究证明“政策借鉴(policy-borrowing)”实施的效果会受到当地环境与条件的影响[40]。这一结论也适用于教育实践领域。一些学者将形成性评价在不同地区或学校的实施看作教育政策借用的案例[39-40]。例如,Bernstein在教学实践方法的研究中指出,教育政策从出台到应用于实际教学工作的过程中,存在教师在特定教学环境下对教学实践的重塑(recontextualize),这种重塑的形式和结果受到当地已有的文化环境与教育环境的影响[41]。经济合作与发展组织(OECD)将不同国家文化环境下的形成性评价看作一种教育创新,因为在新环境下,已有的教学实践需要根据当地情况做出相应的调整以适应当地教学实际,在此基础上形成全新的教学模式[42]。因此,形成性评价在任何国家、地区、学校和课堂中的实施并不具有统一模式,应根据不同教学环境进行设计,且在实践中不断调整。第二,缺乏外部条件的有效支持。形成性评价作为一种高度抽象的理念性、系统性教育实践,其成功实施对于教学环境有着较高的要求。Clark总结了文献中形成性评价成功实施的三个必要条件[43]:一是教师具备较强的教学能力,包括在课堂中与学生建立平等、双向、积极的高质量沟通氛围,围绕教学目标设计课程、组织有效活动和评价,能够在教学过程中持续关注学生的学习情况,做出相应的调整及随机应变等[44];二是教育政策制定者、学校管理者和教师对形成性评价理论与实践均有系统、全面、深入的理解,对教学目标、方法论、形成性评价等具有价值认同,能够提供支持形成性评价的系统环境[45];三是各层级教育实践者在已具备良好的教学理念、教学能力,对形成性评价具有深入理解以及掌握相应教学方法的基础上,愿意付出大量时间和精力设计适合于特定教学现场、教师培训等系统性的教学创新及辅助项目[46-47]。第三,教学实践本身的复杂性。首先是现行教育政策和学校管理制度对教学提出的要求和需求。教师对于形成性评价的理解和实践受到教学要求和需求的影响,不同学段的教学要求和需求的差异,会对形成性评价的理解和实施产生不同程度的偏差。例如,目前小学教师相当一部分的工作是维持纪律秩序,让学生保持注意力,更有可能将形成性评价误用在非学习认知领域[33-34];而高中教师往往面临更多来自课程内容进度、教学效率和学生成绩提升方面的压力,容易将形成性评价的误解误用体现在所谓的“过程评价”中,即重复考试测验(如月考、周测),对形成性评价的认识多局限于是否能够提高分数[32,37]。此外,教育评价政策对教师的要求也会影响教师对形成性评价的理解。例如,由于综合评价改革的需要,很多学校设置了“学生成长档案袋”,在教师对形成性评价概念仍然陌生的情况下,很容易将档案袋评价与形成性评价混淆,认为完善学生档案袋就做好了形成性评价[33,35,37]。其次是教师对形成性评价或评价概念的固有认识和实践。教师在缺乏科学的评价观引导的情况下,容易基于自己已有的教学经验对形成性评价产生理解与实践的偏差。例如,由于形成性评价包含“评价”一词,很多教师会联想到已有教学实践中的评价而导致误用。在他们看来,形成性和总结性是一对非此即彼的概念,总结性评价就是期末考试,只要剔除了期末考试或一切纸笔考试之外的评价就是形成性评价。课堂中对学生的表扬与批评、作业评级或简单评语,为维持课堂秩序或引起学生注意力的鼓励性话语、奖励小红花或记分等奖惩机制等都被归类为形成性评价[28,30-31]。最后是形成性评价与教学创新相关的学习、培训等资源。教师对形成性评价的了解往往来源于文献中的案例,较少经历过系统的培训和因地制宜的引导。而对于形成性评价所需要的课堂沟通技巧、课程设计方法、评价设计方法等,教师的掌握水平参差不齐,实践效果也有很大差异。例如,将学生自评用于形成性评价时,很少有教师能够科学地针对学生实际情况制定评价标准或样本,为学生提供清晰、多维度的评价标准和依据,并帮助学生理解和指导自我评价。有些教师会发放自评表让学生填写,但自评表如何合理设计、是否能够帮助学生充分理解表格内容并进行有效填写,则不在教师考虑范畴。还有的教师仅仅要求学生按照自己的理解进行自我评价[31-32]。有鉴于此,在缺乏相应教学技能培训和系统学习的前提下,形成性评价实践往往流于形式。(三)有效实施形成性评价的路径为了更有效地根据各地各学校教学环境特点实施形成性评价,许多学者基于已有的理论和实证研究,主要从三个方面提出了解决思路和方案。第一,利用形成性评价和总结性评价的共通性引导教师发掘总结性评价的形成性功能。Black等在形成性评价实践中发现,完全放弃总结性评价直接转向形成性评价往往很难被教师接受。在大多数教育环境中,形成性评价需要总结性评价的配合,总结性评价也可以对形成性评价产生积极作用[46]。基于这一观察,Black等提出总结性评价的形成性应用(formative use of summative assessment),主要包括引导学生在复习备考中主动反思学习、学会自测,考试结束后由教师帮助学生分析之前的学习成果和不足,指导学生在后续学习中取得进步。Carless也指出,在实践中强行区分形成性评价与总结性评价会极大增加教师的工作量,因此在多数环境下实施并不现实[48]。虽然总结性评价的形成性应用方案已有不少成功的实践案例支撑,但由于形成性评价与总结性评价概念边界的模糊性,同样也存在容易造成认识误区和实践偏差的风险。例如,一些教师在综合运用总结性评价与形成性评价的过程中,未能强调其辅助深度学习的作用,导致反复测验、碎片化甚至应试化的学习[49]。因此,在发挥总结性评价的形成性评价功能时,仍需强调形成性评价的目标、作用与实践方法,包括学生参与、主动学习和系统性反馈等。第二,对已有的具备形成性评价特征的教学实践进行系统性优化。除了总结性考试,成功的形成性评价也需要考虑教学环境相关的其他因素。例如,在我国香港特别行政区的形成性评价案例中,专家帮助教师利用教学中已有的形式,如帮助后进生补课、考试后讲评试卷、学生互相批改作业等,通过深入观察和科学系统的教学改进发挥形成性评价的作用[48]。在帮助后进生补课过程中,教师原本可能倾向于从自身出发,将自己认为课堂中没有讲到或未讲清楚的部分重新讲一遍;而采用形成性评价则帮助其从学生的角度进行思考,并鼓励学生积极参与到查缺补漏的环节中,通过充分沟通帮助教师理解学生在学习中遇到的困难,从而给予学生更有效的建议,引导学生形成自学、主动反思和解决问题的习惯。第三,利用有利于教学改革的教育政策,营造形成性评价实施的政策环境。除了教学现场,教育政策环境和教学管理措施也很重要。例如,在英国的教学系统中,由于高利害考试的存在,最初的形成性评价试点避开了升学压力最大的九年级和十一年级,学生和教师有相对充裕的时间、精力和心态面对形成性评价的教学改革,减少高利害考试带来的负面影响[50]。澳大利亚昆士兰州的研究人员则利用新一轮国家课程标准改革实施形成性评价[51]。因为在这段时期内,教师面临教学内容与方法的改革,相对更容易接受新的教学与评价模式,在研发新的教学体系的过程中,也较少产生额外的工作负担。从现有较为成功的案例中可以发现,好的形成性评价的实施需要对于所有可能影响教学的环境因素进行系统、深入的调查研究,充分利用环境中存在的优势,规避可能存在的阻碍。三、研究结论与建议综上所述,形成性评价的概念引进到国内的过程中,会产生多种变异,也因此会导致实践中的偏差。克服这些偏差,回归形成性评价的初衷,对于正确运用形成性评价和推动教育教学改革具有十分重要的意义。(一)形成性评价是一套教育生态系统前述分析表明,对于学校而言,构建一个全面而平衡的评价体系至关重要。全面意味着从时间维度上看,短期、中期和长期都要兼顾;同时还要覆盖从个体到学校再到学区的各个层级的评价系统。平衡意味着不能偏废,为保证评价系统的稳定运行,各利益主体的诉求都应得到有效回应。事实上,这正是Stake回应性评价(responsive evaluation)的核心思想[52]。正如学者指出的,尽管课堂是运用形成性评价的主要场域,但形成性评价并不仅仅局限于课堂,而是一整套涉及学生、教师、家长、学校、社区和各级教育管理者的教育生态系统。这一系统中的每个个体都应该为改善学生的学习做出贡献,就像自然界生态系统中的每一个物种都为自然的和谐共生做出贡献一样[23]。(二)形成性评价是改良而不是革命很多一线教师对于形成性评价有较多的畏惧乃至抵触情绪。除参加公开课、赛课等表演性教学或研究课题等任务外,教师很少在日常课堂中真正运用形成性评价。一个重要原因在于,他们往往把形成性评价视为一场教育评价革命。既然是革命,就要颠覆原有的内容另起炉灶,这意味着教师在以往教学中付出努力且行之有效的做法都可能变成“沉没成本”;而对于要学习一套新的来自国外的理论,很多教师都有畏难情绪。最重要的是,他们认为形成性评价对学生的成绩提升不会产生任何影响。既然成本巨大且困难重重,又不会带来明显效果,那么对于教师而言,不做或不按要求做才是最好的选择。实际上形成性评价并非革命,毋宁说是改良。教师在日常教学实践中已经积累了相当多的经验和做法,只是他们没有意识到这就是形成性评价。事实上,一切有助于改善学生学习的做法都可以被认为是形成性的,都可以发挥形成性评价功能。广大教师应该意识到他们在多年教学生涯中积累的经验是有价值的,但需要得到理论的凝练和提高。这些工作单靠教师自身努力是无法实现的,需要构建一种新型的双师型教师发展模式。(三)有必要构建双师型教师专业发展模式教师需要经过培训才能学会使用形成性评价。当前,承担培训的讲师大多是高校科研人员或各级教研员,鉴于形成性评价的特点,需要培训者对学科内容有相当程度的熟悉和掌握,这恰恰是高校科研人员和教研员所缺乏的;另外,形成性评价也需要受培训者具备一定的教育理论素养,这恰恰是基础教育阶段教师的薄弱环节。因此,在培训中受培训教师往往认为讲授内容不接地气,讲师则认为教师缺乏理论基础,培训效果并不理想。在长期实践中,北京大学研究团队围绕形成性评价构建了一套双师型教师专业发展模式。该模式由高校教育研究者与中小学教师组成团队,通过跨界学习、课例改造和行动研究的深度融合,围绕形成性评价中的学习目标、学习证据、教师反馈、同伴反馈和自我反馈五大要素,将形成性评价理论与实际教学场景中的操作相结合,并提供相应的可调整的模块化工具与真实案例,从而降低教师理解与采纳新理论的门槛,激发教师基于自身学科特性和学生实际的再设计,增强可操作性和可实施性,提升教师在改革过程中的自我效能感。(四)因地制宜地运用形成性评价因地制宜原则是运用形成性评价的灵魂,不同教育主体都应努力贯彻这一原则。首先,对于教育科研人员与教育部门管理人员而言,要注意把握有利的政策时机与条件,如教育评价改革、中小学“双减”等政策风口,采取各种有力措施,帮助教育实践者实施科学有效的形成性评价改革。其次,成功的教学实践离不开扎实的科学研究基础。对于那些立足于我国国情与具体教学环境,能够切实指导形成性评价教学实践的研究应予以足够重视,并鼓励科研人员与一线教师的交流与合作。最后,应重视教育系统乃至大众的教育科学普及工作,建立良好的学习环境与正确的评价观念,创造支持教师专业知识技能成长的职业发展政策条件等。对于广大一线教师而言,应当积极学习先进的教育理念,提升职业素养与专业能力,明确形成性评价的核心概念并进行灵活操作,尤其是重视通过有效信息反馈促进学生学习认知能力的提升及学会学习、主动学习。在努力提高教学能力的同时,教师应当更加关注学生的实际情况,勇于创新,设计真正帮助学生学习的形成性评价方案,在探索教育创新的过程中积极寻求外部支持,并与专业研究人员、学校管理人员、同行等保持充分的交流沟通,相互支持促进,共同为改善和提升学生的学习做出贡献。参考文献略。(免责声明:本文转载于《中国考试》公众号。转载旨在分享与交流,版权归属原作者,文中观点与本栏目无关。如涉侵权,联系立删!)
2025-10-23
引用格式:姚昊, 刘思成. 新高考改革对县中教师工作状态与学生素养提升的影响研究: 基于A省大规模教师问卷调查数据[J]. 中国考试, 2025(10): 13-22.作 者姚昊,同济大学高等教育研究所助理教授。刘思成,华东师范大学教育学部在读硕士生。摘 要:在新高考改革全面落地实施的背景下,基于A省高中教师的23436份问卷数据,本研究探讨了新高考改革对县中教师工作状态和学生素养提升的影响。研究发现,面对新高考改革,县中教师和学生在教学工作投入、科学和人文素养提升等方面表现出积极变化,相较于非县中具有更好的提升效果;进一步分析发现,县中开设的选科组合数目普遍低于非县中,省级示范性高中的选科组合数高于普通高中;而组合数量对学生素养提升起到正向调节作用,同时也会增加教师的教学负担,对其教学投入度与适应性产生一定的负向影响。研究建议相关部门重视县中发展,实行精准化、差异化支持策略,科学配置选科组合,完善教师激励与薪酬补偿机制。关键词:新高考改革;县域普通高中;县中教师;教师工作状态;学生素养 一、问题提出高考改革是一项事关千家万户的系统性工程,牵动着教育公平、人才选拔、社会流动等一系列核心议题。作为推进教育现代化、实现育人方式变革的重要抓手,新高考改革已成为自恢复高考以来最具深度与广度的一次综合性制度重构。2014年9月,上海、浙江作为首批新高考改革试点省份启动改革,至2025年7月,河南、陕西、山西、四川、云南、宁夏、青海、内蒙古等第五批8个省份的新高考正式实施,全国已有29个省份实施新高考改革,标志着这项改革进入全面落地与纵深推进的关键阶段。新高考改革以增强学生选择性、提升招生科学性和推动素养教育为导向,逐步构建以自主选科模式为核心的考试招生新机制,重塑高中阶段教育的组织方式与课程结构[1]。新高考改革的深入实施不仅对学生发展路径与学校课程体系产生重大影响,也对教师队伍的工作状态与职业适应提出了新的挑战与要求。在走班教学成为常态、科目组合日益多元、课程管理与教学方式深度重构的背景下,教师的教学组织能力、专业适配能力和对新高考改革的适应能力成为影响教育评价改革推进的关键变量。截至2024年,全国2846个县级行政区中,排除市辖区与县级市等行政单元后,共有1301个县[2],全国普通高中约1.58万所[3],其中县域普通高中(以下简称“县中”)占比过半,且在校生近六成在县中[4]。作为我国基础教育体系中数量庞大、覆盖面广的重要组成部分,县中在教育资源、师资结构、课程供给与管理能力等方面一直处于相对弱势地位。在新高考改革全面铺开、教学组织方式深度调整的背景下,县中面临的制度响应能力与资源承载水平之间的错位问题愈发明显。作为改革政策的基层执行主体,县中要在有限的资源条件下完成复杂的教学组织与课程管理任务;在选课走班推行的过程中,县中还面临师资结构与课程组合匹配度不足等问题,教师承担的教学任务更趋多样化与碎片化,专业适配与教学工作压力也随之增加。因此,围绕新高考改革情境下县中教师工作状态展开多层次调查分析,深入探讨提升其适应力的实践策略,不仅是破解县中改革瓶颈的关键切入点,也成为当前教育研究领域亟待解决的问题。尽管当前已有相关研究对新高考改革的理论向度、实践路径、教师角色、学生选科行为等展开分析,也有文献关注到县中在改革中的结构性困境,但对于县中教师这一特定群体在新高考改革中的工作状态以及县中学生在新高考改革中的素养表现,仍缺乏系统的调查研究。基于此,本文依托A省23436名高中教师的大规模调查数据,系统探讨新高考改革在县中的实施现状,深入分析改革对县中教师工作状态与学生素养的具体影响,并通过对县中与非县中实施差异的比较,剖析其背后的机制与成因,以期为县中教育改革的推进提供理论支持与实证依据,助力决策者与一线教育工作者更好地应对新高考改革带来的机遇与挑战。二、文献综述(一)新高考改革对县域高中教育资源供给提出严峻挑战新高考改革以增强学生选择权、推动个性化发展为核心目标,对我国高中阶段教育结构与运行方式进行了系统重塑。然而,在政策实际推进过程中,县域高中成为承压最显著的群体之一。相关研究发现,县中应对新高考改革存在诸多问题。例如,县域高中办学条件不足使其难以适应改革需要,随着改革推进加剧了经费短缺、教师数量不足、教学质量不高等问题,其现有模式难以应对学生健康成长、成才育人、选课走班等新要求;此外,县中教师对新高考认同性不足等问题也使县中在发展过程中形成了生态型困境[5-6]。从新高考改革对县中育人影响的角度看,改革后采用“3+3”高考模式降低了县域高中毕业生进入顶尖大学的可能性[7];另有研究发现,新高考改革对县中育人方式的积极影响有限,改革存在政策执行宽松、物质资源约束、管理过于集中等问题[8]。(二)新高考改革增加了教师数量需求及适应压力新高考改革对教师的影响主要聚焦于教师的数量与结构、情绪情感反应、工作量与适应性等方面。从教师数量与结构角度看,新高考改革中走班教学对高中教师的数量与能力有着更大的需求,并产生教师压力增大、教师学科结构难以满足要求以及教学工作考核评价机制不完善等问题[9]。针对新高考改革给教师带来适应性变化的相关研究发现,高中教师在工作和生活中对新高考产生消极情绪,同时也存在利益相关者互不理解等问题,形成改革阻碍[10]。基于浙江省新高考改革情境的质性研究发现,受访教师在改革推进中产生了担忧、焦虑与压力感等消极情绪,并通过集体沉默、回避与教研组宣泄等方式表达不满[11]。还有研究发现,在教育改革实践过程中,教师在学校管理、教学信念和实践、教师专业精神和培训计划等方面的认知参与、社会互动和情感体验等都发生急剧变化,并对教师的职业认同和工作适应性产生不利影响[12]。在教师的工作量与压力方面,新高考改革在综合素质评价、课程教材改革、选课走班、学生发展指导、考试方式、非教学事务等六个维度均增加了教师工作量[13];在此背景下,教师能否有效调适工作压力成为其改革适应能力发展的关键变量。从整体来看,教师职业压力水平偏高,教师压力管理亟须强有力的制度保障与组织干预[14]。(三)新高考改革在扩大学生科目选择自由度的同时催生新型应试策略新高考改革在育人目标上强调尊重学生个体差异与发展潜能,并试图通过提升科目选择自由度及引入综合素质评价机制等措施,推动学生培养方式由“统一性、应试导向”转向“多样性、素养导向”[15],具体影响表现在学生的科目选择、专业选择、知识技能、心理健康与综合素养等方面。在“选考—选学—选才”整体联动体系下,学生在学科选择、专业预期与职业规划三者之间的关系被前置到高中阶段。有研究发现,教育结构功能发生深刻转型,新高考基于学生成长和成才的需求形成了自主选考选课选学的育人新格局,从而引导学生实现学科兴趣和职业规划的统一、个人成长和立德树人的统一[16];还有研究指出,新高考改革有助于学生实现专业选择权,尤其对处境不利学生影响更为明显[17]。刘海峰等研究发现,高中生对高考选科制度与结果基本满意,并认为新高考改革的选科有利于大学专业的选择和职业发展,但也存在部分学生选科焦虑的问题[18];进一步研究发现,高中生对新高考改革的政策认同能够显著促进其素养发展,且该过程存在学校支持的中介效应[19]。李传宗对大学生调查研究发现,新高考生源大学生的专业兴趣显著高于传统高考生源学生,且高考改革产生的专业匹配中介作用可以显著提升学生的专业兴趣[20]。然而,也有研究提出不同观点,认为新高考改革虽然通过赋予学生更多科目组合选择促进了学生培养多样化、多元化,但是并没有改变高中应试教育的立场,并在教育实践中出现了功利化选科、套餐化教学等新形态弊病[21]。综上,目前关于新高考改革影响的研究虽已涉及教师工作状态与学生发展等核心议题,但仍存在三个方面的不足:一是现有研究较少区分县中与非县中学校、不同类型学校在改革实施过程中的具体差异,尤其缺乏基于大样本实证数据的系统比较分析,难以通过比较揭示县中群体的实际情况;二是已有研究多从单一主体(教师或学生)视角展开,未能有效整合教师工作状态与学生素养发展两大核心变量,难以全面把握新高考改革的整体影响效果;三是当前研究对新高考改革影响教师与学生发展的具体作用机制探讨较为有限。因此,本研究基于A省23436份高中教师调查问卷数据,通过组间差异分析、回归分析、调节效应检验等方法,从实证研究的角度就新高考改革对县中教师工作状态和学生素养的影响效应进行深入分析。本研究提出以下四个问题:1)新高考改革背景下县中教师和非县中教师的工作状态及学生素养表现如何,二者之间是否存在显著差异?2)学校对新高考改革的相关支持(如选科指导与教师培训)能否显著影响县中与非县中教师的工作状态及学生素养发展?3)县域内不同类型学校之间的支持效果是否存在差异性?4)学校对新高考改革的支持是否会通过某些调节机制作用于教师工作状态和学生素养培养?深入探究上述问题,对于新高考改革背景下优化县中教育环境、提升县中教师工作状态和学生素养培养具有重要的理论与现实意义。三、研究设计(一)数据来源以A省高中教师作为研究对象,在2023年进行全省高中教师问卷调查。首先,基于A省16个不同地(市)的高中学校数量和在校生规模分布进行分层随机抽样,并发放问卷,最终回收有效样本量为23436份。其次,基于A省调研发现,A省“县级市”相对于“县”而言已达到经济较为发达水平,其高中学校不具备典型的县中特征,因此排除“县级市”举办的高中,选取县级政府举办的普通高中作为县中研究样本,非县中包括地级市高中与县级市普通高中。最后,确定县中教师12578人(占比53.7%),非县中教师10858人(占比46.3%);其中男性教师12066人(占比51.5%),女性教师11370(占比48.5%);公办高中教师17988人(占比76.8%),民办高中样本5448人(占比23.2%)。(二)变量选择与设计1.被解释变量学生素养包括科学素养与人文素养,通过问卷调查方式获取数据,共两道题目,采用李克特四点计分,1代表明显下降,4代表明显上升。通过教师回顾性评价方式,依据教师对新高考改革实施前后学生素养水平的变化进行判断,得分越高表示教师感知到新高考改革后学生相关素养提升程度越明显。教师工作状态主要包括教师的教学投入度、适应性以及教师对工作量增加的感知程度共三个因素。其中,教学投入度通过单一题目测量,采用李克特五点计分,具体题目为“实施高考综合改革后,我认为我的教学投入度更高了”。教师适应性借鉴陶蕾等开发的教师适应性量表[22],从认知、知识、能力、压力等四个维度评价教师对新高考改革的适应性,采用李克特五点计分方法。本研究中,量表的内部一致性信度良好(Cronbach's α=0.892),验证性因子分析(CFA)指标为:RMSEA=0.072, CFI=0.994, TLI=0.981, SRMR=0.015,均达到常用参考标准,表明该量表信效度良好。教师工作量感知情况通过自评方式测量,题目为:“您感知高考综合改革对您日常工作量是否增加,如果增加了,具体增加量为 %”。2.解释变量核心自变量为学校针对新高考改革对教师与学生的支持度,用以反映学校在具体实践层面对教师与学生提供的资源支持。题目共有2道,主要采取是否作答,其中1代表学校开展了相应的针对性指导或培训,0代表学校未开展相关工作。题目分别为“学校有无关于高考综合改革进行学生针对性指导?”“学校有无针对高考综合改革进行教师的专项培训或专题性的研讨支持?”3.控制变量为减少遗漏变量带来的偏差,本研究基准回归中控制了多项可能影响教师工作状态和学生素养的变量,包括教师层面的性别、教龄、职称、学历、是否为班主任、是否有行政职务、是否有走班教学经验等因素,学校层面的学校类型(包括民办/公办、省级示范性高中/普通高中)、学生规模与班级数量等因素。同时,在异质性分析部分,本研究进一步将学校类型(省级示范性高中/普通高中)作为分组变量,以检验学校支持在不同类型学校中是否存在影响效应的异质性。(三)分析方法1.差异分析为了比较县中与非县中在新高考改革后教师工作状态和学生素养的差异,本文采用了差异分析方法。具体而言,通过独立样本t检验,对县中与非县中学校在教师工作投入、工作量感知、适应性、对新高考改革的支持度及学生素养和提供的选科组合数等方面进行差异检验,以确定不同类别学校在各指标上的差异显著性。2.基准回归模型为检验学校针对新高考改革是否进行指导,培训对教师工作投入度、教师工作量感知、教师适应性及学生素养(科学素养与人文素养)的影响,构建以下基准回归模型:Y=β0+β1Supporti+β2Xi+ε(1)公式(1)中,Y是因变量,包括教师工作投入度、教师工作量感知、教师适应性及学生素养,Support是解释变量,代表学校针对新高考改革的支持。β0是常数项,β1是在控制其他变量情况下,学校针对新高考改革的指导与培训对因变量的影响效应。控制变量Xi包括上文中所提及的教师层面与学校层面的控制变量;ε为随机误差项。3.调节效应模型已有研究发现,伴随新高考而来的选课走班制对教师工作量与学生素养均会产生一定的影响[13,19]。新高考改革中的选课走班制通过增加学生的科目自主选择权,直接引起学校选科组合数量的变化。选科组合数量不仅直观反映了学校课程结构和教学组织模式的多样性程度,也能够间接衡量学校资源配置水平与教师教学工作的复杂程度。为进一步探讨学校对新高考改革的支持是否通过这一因素产生调节效应,进而影响教师的工作状态和学生素养,本研究在基准模型的基础上引入了交互项,以构建调节效应模型,从而探究选科组合总数在学校支持与因变量之间的调节作用。具体调节效应模型设定如下:公式(2)为调节效应模型,其中增加调节变量Zi以表示学校开设的选科组合总数;通过引入交互项Supporti×Zi检验选科组合总数是否在学校支持与因变量之间产生调节作用,以进一步分析新高考改革政策影响的作用路径。四、实证分析结果(一)样本教师群体的总体情况本研究中,教师的教学投入度平均值为3.92,处于较高水平。教师对学生科学素养与人文素养的评价均值分别为3.08与3.06,说明教师普遍认为改革后学生素养有所提升。在新高考改革背景下,教师普遍感受到工作强度增加,平均工作量感知增幅为37.97%。在改革支持措施方面,90.16%的学校开展了教师培训,94.07%的学校对学生开展了选科指导。教师群体中,具有走班教学经验的人占比14.02%,担任班主任的占比33.74%,有行政职务的占比12.52%。从基本特征来看,男性占51.39%,平均教龄为16.67年,学历总体以本科及以上为主。(二)新高考改革下县中与非县中学生素养与教师工作状态的差异性分析分析新高考改革下县中教师工作状态与学生素养的表现差异。相关题项包括两大维度五个具体变量,其中学生素养包括科学素养和人文素养,教师工作状态包括教师工作投入、教师工作量、教师适应性,具体结果见表1。由表1可知,在学生素养方面,教师对县中学生综合素养评价反而较非县中提升更高。通过分析问卷数据发现,县中学生科学素养提升均值为3.113,人文素养提升均值为3.097;非县中学生科学素养提升均值为3.039,人文素养提升均值为3.014,两者之间存在显著差异(p<0.001)。这说明新高考改革后,县中和非县中的学生科学素养和人文素养均有所提升,但县中学生的提升幅度更大。教师工作状态方面,县中教师相对非县中教师对新高考适应性相对更高。在适应高考综合改革的能力方面,县中教师对高考综合改革的总体适应性得分均值为3.849,非县中教师的得分均值为3.818,两者差异显著(p<0.001)。此外,非县中教师的工作量相对县中教师工作量更大,但教学投入度方面县中教师更高。新高考改革后,县中和非县中教师普遍认为工作量有所增加。县中教师认为工作量平均提升了37.032%,非县中教师认为工作量平均提升了39.053%,两者差异显著(p<0.001)。进一步分析表明,这一现象在很大程度上与学校提供的选科组合数量有关,见图1。数据显示,县中省级示范性高中的选科组合数量为5.587,县中普通高中的选科组合数量为5.455;而非县中省级示范性高中的选科组合数量则达到7.235,非县中普通高中的选科组合数量为5.333。选科组合数量总体呈现省级示范性高中明显高于其他类型学校的特征,反映出不同类型学校在资源配置和课程设置上存在不均衡现象。选科组合数量较少在县中学校中成为一个重要特征,这在一定程度上降低了课程安排和管理的复杂性,教师的适应成本和教学压力相对较低,进而能够更有效地整合教学资源,减少教师走班教学带来的管理负担,从而维持教学质量的相对稳定。(三)学校新高考改革支持情况对教师工作状态与学生素养的回归分析对教师工作状态的回归分析可知,不管是县中还是非县中,学校支持可以显著提升教师的工作状态,但影响程度略有差异。在县中,学校支持对教师工作投入的影响系数为0.282(p<0.01),对工作量感知的影响为-4.616(p<0.01),对适应性的影响为0.305(p<0.01),均为显著正向影响。这说明学校提供的培训和指导能够显著提升县中教师的工作积极性和投入度,减少其工作负担感受,并提高其适应新高考改革的能力。在非县中,学校支持对教师工作投入的影响系数为0.249(p<0.01),对工作量感知的影响为-4.175(p<0.01),对适应性的影响为0.283(p<0.01),同样表现出积极影响,但影响程度整体略低于县中教师。总体来看,学校对新高考改革的支持在提升教师工作投入、适应性与减少教师工作量感知方面具有显著效果,特别是对县中教师的提升作用更为明显。对学生素养的回归分析可知,两类学校为学生提供关于新高考改革方面的指导能够显著促进学生的科学与人文素养发展,其中人文素养方面的提升效果尤为显著。学校支持对县中学生的科学素养影响系数为0.211(p<0.01),对人文素养影响为0.245(p<0.01),均为显著正向影响。非县中学生的科学素养和人文素养受学校支持的影响系数分别为0.180(p<0.01)和0.185(p<0.01),也表现出显著正向影响。(四)学校支持对教师工作状态与学生素养回归的异质性分析研究进一步从学校类型(省级示范性高中/普通高中)角度对回归结果进行异质性分析,各组回归均加入控制变量并使用chow检验对组间系数差异进行检验,结果见表2。在学校支持对教师工作投入的提升效果上,非县中省级示范性高中表现出较为明显的优势,回归系数为0.323,显著高于其他类别高中(通过chow检验,下文表同),说明非县中示范性学校在新高考改革的推动下,具备更强的资源整合能力,可以通过丰富的支持措施有效增强教师的工作积极性。在学校支持对教师适应性提升的影响方面,非县中省级示范性高中的适应性提升效果同样优于县中,说明非县中该类型学校的教师能够在学校的相应支持下,更快适应新的教育变革。而在普通高中,县中教师的适应性提升效果相对更为突出。从县中内部比较则发现,学校支持对普通高中教师适应性提升方面的影响更为明显。此外,省级示范性高中的学校支持对教师工作量减少的影响效果均显著,其中非县中的减负效果略优于县中。而在普通高中层面,县中学校通过优化资源配置和有效的工作负担管理,使得教师的工作负担减少幅度较非县中明显更大。在县中内部的比较结果则显示,学校支持对县域内普通高中教师的工作量减少的影响程度相对优于省级示范高中。在学生科学与人文素养的提升方面,县中学校整体表现优于非县中学校。这一结果表明,虽然县中学校教育资源较非县中而言相对匮乏,但通过新高考改革中的资源集中配置和学校针对性的支持,县中学校能够有效提升学生素养,尤其是在县域普通高中产生了更强的边际效应。在县中内部进行比较可以发现,普通高中的支持对学生科学与人文素养提升效果方面均优于省级示范性高中,这一结果可能与普通高中学生的基础相对薄弱有关。在学校的支持下,普通高中学生可能因此呈现更为显著的进步。同时,普通高中可能倾向于将相对有限的资源进行更为集中的配置,因此教师和学生的专注度可能相对更高。同时,相较于省级示范性学校,普通高中在选科组合的开设上更为有限,从而为学生提供了更有针对性的课程选择,进而能够在特定科目组合下显著提升其学生素养。针对这一现象,下文将通过进一步的实证分析对其进行解释。(五)学校选科组合数量的调节效应为进一步探究选科组合数量在学校支持对教师工作状态和学生素养影响中的调节效应,研究在前述回归模型的基础上加入“选科组合数和学校支持”的交互项,结果见表3。结果发现,在控制其他变量后,学校支持对教师工作投入、适应性及学生科学素养和人文素养均表现出显著的正向影响,而交互项在不同维度中的作用存在显著差异。首先,在教师工作投入度和适应性回归结果中,交互项的系数为负。这表明,选科组合数量在学校支持与教师工作投入及适应性之间存在显著的负向调节效应,即选科组合的增多削弱了学校支持对教师工作投入度和适应性的正向影响。可能的原因是,较多的选科组合意味着教师需承担更加多样且复杂的教学任务,并需要进行频繁的跨科目协作与资源调配,这直接增加教师的备课、授课及管理任务负担,也降低了教师对学校改革支持措施的积极响应。相较之下,交互项在学生科学素养和人文素养回归中的系数为正,且在1%的显著性水平下显著(系数均为0.012,p<0.01),表明选科组合数量能够显著提升学校支持对学生素养所产生的正向影响。这表明随着选科组合的增加,学校的支持更能有效提升学生的科学素养和人文素养,其原因在于选科组合数量的增加为学生提供了更多个性化的选择路径,增强了课程设置的多样性,更能充分发挥学校所提供的支持措施的作用,学生能够充分利用多样化的选科机会,提升个体学习的积极性,进而有效促进其科学素养与人文素养的提升。五、结论与建议第一,新高考改革在县中与非县中均产生了积极影响,教师工作状态和学生素养提升的多个维度上存在明显的差异性。县中学生在科学素养和人文素养方面的提升幅度明显高于非县中学生,县中教师对新高考改革的支持度和适应性也均高于非县中教师,即县中教师对新高考改革带来的变化和挑战持更为积极的态度。这一结果可能与县中选科组合数量较少、教学安排更为集中有关。课程集中化降低了排课和管理复杂度,使教师能更专注于教学,减少了因改革带来的压力。相较之下,非县中学校选科结构复杂度高,教师工作强度更大,教学效能易受干扰。第二,学校层面的改革支持对教师和学生具有显著的正向作用,尤其在县中体现得更为明显。无论是针对教师的培训,还是面向学生的指导,均显著提升了教师的教学投入度和对改革的适应能力。大部分受访教师所在学校开展了系统的改革培训和选科指导,改革支持力度总体较强。在不同类型学校中,普通高中教师对学校支持的依赖程度更高,支持措施的边际效应更大,改革推动力更为显著。第三,选科组合数量对教师工作状态与学生素养提升均产生调节作用。选科组合越多,学生个性化发展空间越大,素养提升幅度越显著,但同时增加了教师的教学组织负担,削弱了其工作状态的提升效果。县中学校普遍采用选科组合集中策略,有利于教学资源配置与课程管理优化,短期内对提升教学效率具有积极作用。然而,组合数量过少可能压缩学生的选科自由度,限制其职业兴趣与学术潜能的发展空间,存在一定的长期隐忧。根据本研究结果,对县中教育教学提出以下三点建议。第一,相关管理部门应重视县中发展,实施差异化精准支持。县中在教师适应性和学生素养提升方面虽有成效,但整体仍面临资源短缺与支持能力不足等现实困境。因此,建议根据县域经济发展水平与学校办学层次,进行精准分类,实施分层次、分阶段的支持措施,在省级政府统筹下,由地方政府因地制宜推进,形成“基础保障”与“专项扶持”的政策组合,推动区域集团化办学和城乡结对帮扶,促进优质学校与薄弱县中的资源流动与互补。第二,优化选科结构,兼顾效率与多元。县中在选科组合方面采取精简策略,将有限的教育资源集中在核心学科领域,短期内确实有效提升了教学质量。然而,从长远来看,则可能限制学生的多元发展。因此,建议优化县中选科组合结构,在资源条件允许的前提下,依托区域教育资源共享机制与数字化教学资源,逐步丰富学科选择。第三,完善教师激励与薪酬补偿机制,提升教师适应能力。新高考改革通过选课走班模式重塑了教学管理体系,这在提升教育质量的同时,也显著增加了教师的工作复杂性与压力,若缺乏合理补偿,教师工作投入度将受到削弱。为此,建议地方政府和学校探索薪酬补偿与工作负担挂钩的动态补偿机制,根据教师承担的选课走班课程数量、跨班级教学频次与个性化辅导时间,设立相应的补贴措施,合理量化教师的实际工作负担,确保教师获得与付出相匹配的薪酬回报。
2025-10-09
原创 中国考试 中国考试 2025年09月24日 14:44 北京 引用格式:李峰, 郭嘉悦, 胡新雨, 等. 大语言模型辅助情境化命题模式探索: 以创造性思维测评为例[J]. 中国考试, 2025(9): 76-86. 作 者李 峰,北京师范大学人文和社会科学高等研究院、中国基础教育质量监测协同创新中心副教授。郭嘉悦,北京师范大学统计学院在读硕士生。胡新雨,北京师范大学统计学院在读硕士生。张佳慧,北京师范大学中国基础教育质量监测协同创新中心副教授(通信作者)。 摘 要:随着大语言模型在教育领域中的广泛应用,如何利用其提升命题质量和效率已成为重要课题。本研究基于PISA 2022创造性思维测评框架,聚焦科学问题解决,探索利用大语言模型辅助生成情境化任务的技术路径。研究以781篇科普文章为材料,采用篇章映射技术与提示词工程,调用大语言模型生成题目,并经人工筛选与修订后组织实施测验。对于1156份学生作答数据和17份出声思考记录的检验分析显示,题目具有良好的区分度、拟合度与内部效度。研究表明,大语言模型可有效提升情境化命题效率,但其生成的题目仍需依赖人工审校与优化。研究结果可为区域素养测评和过程性评价中的自动化命题提供技术参考。 关键词:创造性思维;大语言模型;情境化命题;简答题2020年5月,OpenAI发布了GPT-3,参数量达到1750亿,成为当时使用规模最大的语言模型,并在零样本学习任务上取得了突破。大语言模型(Large Language Models)从此进入快速发展和广泛应用阶段,并随着ChatGPT的推出进一步普及。大语言模型的快速进展为教育测评带来了新的可能性,已有不少研究验证了大语言模型在编程、线性代数、英语、医学、网络安全、阅读理解测验开发中的潜力。 作为驱动科技创新和社会发展的关键能力,创造性思维(creative thinking)已成为全球教育改革与质量评价的关注焦点。我国教育部印发的《义务教育课程方案和课程标准(2022年版)》及《普通高中课程方案和语文等学科课程标准(2017年版2020年修订)》均强调要提高学生的创新意识与创新精神[1-2]。国际教育评估领域近年来同样重视创造性思维的测量与比较,PISA 2022首次将15岁学生的创造性思维能力纳入评估范畴,提出结合真实或具体问题情境的“小创造力”(little-creativity)测量,关注学生在日常生活和学习中的创造性表现,评估其在真实或具体问题情境中的创造性反应[3]。 本研究聚焦PISA 2022创造性思维测评框架中的科学问题解决领域,以青少年科普杂志为材料来源,采用篇章映射(passage mapping)技术,使用大语言模型辅助生成创造性思维测评的情境化试题。在此基础上,通过分析真实的学生作答数据和出声思考资料,评估试题质量,从而探讨大语言模型辅助命题在创造性思维测评和情境化题目开发中的技术路径。 一、研究背景 (一)大语言模型辅助命题的进展 目前,大语言模型辅助命题已在多个学科领域取得积极进展。通用模型如GPT-3.5、GPT-4、ChatGPT与Bard(谷歌开发的对话式AI助手,现名为 Gemini)等在题目与测量目标的契合度、语言表达质量、认知层级覆盖、题目区分度等方面表现突出。不少研究认为其生成的题目与学习目标匹配度较高,但在相关性指标上略低于人工命题[4]。GPT-4与GPT-3.5在语言流畅性、逻辑通顺与语法正确性方面优于人工命题,尤其在计算机教育与阅读理解中表现明显[5-6]。虽然大语言模型命制的题目可涵盖理解、应用、创造等多个认知层级,但部分题目存在效度问题[7]。在医学教育、数学与阅读理解等多个领域,其生成的题目有较好的区分度[8-9],但涉及逻辑验证任务时,部分存在错误[10]。不同领域的研究者根据不同学科的知识特点与命题需求,探索了大语言模型辅助命题的路径和效果。其中,数学与科学教育、阅读理解以及医学教育是当前研究较为集中的三个领域。 在数学与科学教育领域,大语言模型能够较好地生成不同认知层级的题目,并在语言质量与干扰项设计方面优于人工命题,但在逻辑推理与程序执行类任务中仍存在不足。有研究基于教科书内容摘要,使用ChatGPT生成数学测试题,结果显示其测量学指标与教材原题基本相当,在中等难度题目的区分度方面甚至略优于原题[11]。在科学教育中,有研究发现GPT-3.5能够生成化学和生物学的高阶思维问题,其中涉及布鲁姆分类法中“评价”层级的题目表现尤为良好,题目复杂性与人工命题结果基本一致[12]。在计算机教育中,有研究依据Python课程模块与学习目标,使用GPT-4自动生成651多选题,与449道人工命题相比,在语言清晰度、正确答案唯一性和高质量干扰项编制方面均表现更佳,且题目内容与246个学习目标一致[5]。然而,在涉及程序执行逻辑验证的题目中约有三分之一题目存在逻辑性错误[10]。 阅读理解命题是大语言模型应用的另一个重要场景。多项研究表明,大语言模型能够生成覆盖多个认知层级的阅读理解题目,具备一定的区分度和信度;而通过模型微调(fine-tuning),可显著提升其在专业领域题目生成的质量与技能分布合理性。例如,有研究基于学院托福考试项目(TOEFL Institutional Testing Program)的三篇阅读理解文章,使用GPT-3.5生成了30道选择题,题目覆盖从分析到创造等多个认知层次,信度达到中等水平,但仅有三分之一的题目符合效度要求[7]。另一项针对1607名八年级学生作答数据的测量学分析显示,GPT-3.5生成的阅读理解题目具有良好的区分度,干扰项设计有效[9]。在探索从文本数据中生成问题的最佳方法时,有研究选取斯坦福问答数据集(Stanford Question Answering Dataset),分别对 distilBERT(Distilled Bidirectional Encoder Representations from Transformers)与LLaMA(Large Language Model MetaAI)模型进行微调,结果表明生成题目与基线题目的平均相似度超过60%,其中有30%的问题相似度达到70%[13]。在大学英语六级(CET-6)阅读理解题生成任务中,经过微调的模型在微技能分布、信度和拟合度方面接近人工命制的真题[14]。此外,在简答题生成方面,未经微调的BERT适用于通用型阅读理解题目,而微调后的BERT在生成专业性质题目时表现更好[15]。 在医学教育领域,大语言模型能够明显提升命题效率,生成的题目区分度普遍较高,但也存在个别选择题干扰项质量不高以及相关性指标有待提高的问题。例如,有研究基于高血压案例,利用ChatGPT生成了10道选择题,经专家评审后,其中两道题目被直接用于99名四年级医学生的考试,虽然个别干扰项质量有限,但仍表现出较高的区分度[8]。在循证医学领域,有研究使用ChatGPT生成15道题目,其中6道区分度达到可接受水平,研究者还利用OpenAI的GPT Builder平台,实现了基于学习目标的高度自动化命题,教师可快速生成基于临床案例的多选题[16]。还有研究基于本科医学教材,在医学研究生入学考试中利用ChatGPT在20分钟25秒内生成50道题,仅为人工用时的十分之一,除相关性略低外,其余指标表现良好[17]。 综上所述,从技术路径看,基于大语言模型的辅助命题主要包括两类。一类以提示词工程为核心,通常结合教材内容、学习目标或具体学科案例进行命题。为减少模型“幻觉”问题,此类方法多采用教材摘要、课程模块或阅读材料作为输入,通过大语言模型生成涵盖不同认知层级的选择题与简答题,在适切性、语言清晰度和区分度等方面表现良好。另一类是在完成预训练的大语言模型基础上,引入领域数据进行微调,以提升模型在专业知识掌握、术语理解和学科特异性逻辑推理等方面的能力。经过微调的模型在生成阅读理解简答题、专业性学科测试等任务中表现优于未微调模型,并与基准题目具有较高相似度。 (二)情境化命题 美国教育评价专家Wiggins最早提出真实性评估(authentic assessment)概念。他批评当时对标准化测试的使用方式过于片面且评价指标单一,认为尽管标准化测试具有效率优势,但真正的评估应当切实考查能力,这需要模拟真实情境中的挑战并完成典型任务,唯有如此才能促进学生的终身学习,并确保国家在教育方面取得进步[18-19]。 真实性评估包括场景化评估(scenario-based assessment,SBA)和情境化任务(contextualized tasks)两种常见形式。SBA强调真实情境中的复杂问题解决,典型应用包括医学领域的病人访谈与咨询模拟、商业领域的视觉海报制作、法律领域的客户会议准备及案件处理等[20],PISA的合作问题解决类测验较为接近SBA。情境化任务是在引入简化后的真实情境、相关材料及学科信息的同时,力求保留其核心特征的真实性。相较于SBA,情境化任务更侧重于在真实性和操作性之间取得平衡,PISA的阅读和创造性思维测验更接近情境化任务。真实性是情境化任务设计的关键。Cumming和Maxwell指出,若情境设计仅看似真实或刻板模拟,反而可能导致任务脱离实际应用情境,进而损害测评效度[19,21]。Constantinou通过分析英国应用数学(Functional Mathematics)考试中的527道情境化题目,提出强化真实性的四个原则:1)深度情境化,即将所有问题嵌入连贯的叙事背景中;2)情境平衡,即确保情境与课程目标一致;3)情境不可预测性,即避免模式化和可预测的情境设置;4)情境目的性,即确保情境对学生具有实际意义,而非仅表面关联[20]。 真实性是情境化任务设计的主要挑战之一。Tout和Spithill在总结PISA数学素养题目开发面临的挑战时指出,其核心难点在于寻找真实可信且能够被全球15岁学生理解并引发兴趣的数学情境。在命题实践中,情境化题目开发的一种常用方法是从现实生活情境入手,将其发展为完整的测试单元。然而,真实情境往往较为复杂,其中涉及的数学公式、数量信息及计算过程并不适合学生在考试环境中处理。此外,筛选和改编真实情境与任务需要投入大量的人力和时间成本[22]。另一种常用方法则是从特定数学概念或内容领域入手,尝试将其嵌入真实的任务背景中。然而,这种方法容易出现传统的课程式文字题,与现实世界的关联性与真实性不足。Tout和Spithill指出,尽管许多国家提交给PISA的题目倾向于采用后一种方法,但这类题目却很少在PISA的正式调查中被采用[23]。 从现实生活情境入手发展完整测试单元时,需要采取多种措施确保任务的情境化质量。PISA数学素养命题的实践经验表明,情境材料的审查应重点关注情境的真实性程度、阅读量的合理性、语言表述的清晰简洁、情境内容对目标群体的适切性与相关性、题干对材料核心信息的聚焦程度[23]。此外,PISA命题人员还广泛采用视觉辅助材料(如插图、图表与照片等),以降低阅读负担,增强任务的真实感受,提升学生对试题的参与度和兴趣[23]。 (三)创造性思维的概念与测评 创造力测评通常采用最佳表现测验,侧重考查个体的潜能上限。其代表性工具是托兰斯创造性思维测验(Torrance Tests of Creative Thinking),被广泛应用于测量发散思维的流畅性、灵活性、独创性和精细性[24]。我国已开发出多种本土化的测验工具,如《中学生创造性思维能力自评量表》和《中学生创造性思维量表》等[25-26]。这类测验题目相对固定,如发散思维测验可能要求“将四个图形组合成有意义的新图形”,而聚合思维测验则可能要求“找出每一题中与前面四个词或者三个词都有联系的一个词语”等[25]。 与此不同,PISA 2022将创造性思维设为独立评估领域,延续其素养导向的测评理念,强调在真实情境中生成并应用创意,将创造性思维定义为“能有效生成、评估和改进想法,以提出有创意和有实效的解决方案、知识产出或表达”的能力[3]。从创造过程的角度构建了产生多样化想法、形成创意、评估与改进想法三个维度,并基于此开发了书面表达、视觉表达、科学问题解决和社会问题解决四个领域的测试题目。 以PISA官方发布的样题“未来自行车”为例,该题目由三个任务构成,围绕15岁学生所熟悉的真实日常生活场景展开,通过多样化想法—形成创意—评估改进的任务序列,引导学生经历相对完整的创造性思维过程,考查学生改良自行车结构、优化防盗功能等日常生活中所需要的实用性创新能力;其评分主要关注学生能否提出具有新意且符合实际情境的解决方案[27]。 比较而言,传统创造力测验的题目固定、便于操作,但在任务真实性与外部效度方面存在局限;PISA创造性思维测评突出素养导向,在贴近学生生活和学习的情境中考查创意生成与应用能力,强调创造过程、实际意义与真实情境,但对命题人员要求较高,题目开发难度较大。 二、研究过程与方法 总体而言,现有研究已初步验证了大语言模型在多个学科领域辅助命题的可行性,并显示出其在提升命题效率、覆盖认知层级和生成语言质量方面的优势。然而,相关研究多集中于客观题或结构化任务,针对素养导向的简答题,尤其是创造性思维测评的命题研究仍相对匮乏。情境化命题虽强调任务真实性以及学生相关性,但情境材料的筛选仍高度依赖于人工判断,存在效率低、主观性强等问题,尚未形成可复制的高效流程。鉴于此,本研究尝试将篇章映射技术与大语言模型生成能力相结合,以创造性思维测评为应用场景,按照命题材料准备、试题生成与修订、施测与数据采集、结果分析的研究流程,从命题技术路径与测评质量检验两个方面开展探索。 (一) 题目命制 1.测评框架以PISA2022创造性思维测评框架为蓝本,结合八年级学生认知特点形成反映创造性思维过程的三维测评框架,见表1。 2.材料收集 科学问题解决涉及产生新见解、设计实验探索假设以及开发新方法。在本研究中,学生需针对一个开放性问题生成多个不同想法或解决方案,或提出一个原创性想法[3]。为确保情境材料的真实性与科学相关性,本研究选取知名青少年科普杂志《万物》(How It Works 中文版)作为素材来源。该杂志内容丰富、表达生动,覆盖环境生态、工程机械、太空探索、物理化学、生物医学等多个领域。研究采用该杂志2016年1月至2024年8月间出版的104期共781篇文章作为情境材料。 3.篇章映射 为评估情境材料是否适合考查创造性思维,本研究借鉴了阅读理解测验开发中的篇章映射技术。该技术通过结构化分析文本、识别关键信息及其逻辑关联,可评估篇章适配性、提取重要信息及其组织方式,并为题目开发提供建议[28-29]。在此基础上,研究通过Python3编程调用阿里云通义千问大模型Qwen2.5API(max_tokens=4096,temperature=0.2),以提示词对781篇材料进行遍历。具体而言,要求大模型针对每篇材料,依据其是否适合命制实验室发明创造、基于观察的假设生成、工程问题解决、数学与数据分析等方面的创造性思维题目[5],生成三个独特且新颖的小题命题内容;若材料不适合,则返回“无”。 4.材料审查 调用Qwen2.5API(max_tokens=4096,temperature=0.2)对情境材料进行审查,评估其内容完整性(是否提供每道题目命制所需的全部信息)和情境适切性(是否贴近我国八年级学生熟悉的生活、学习、社会、科学场景)。随后,将篇章映射的结果和情境审查的结果进行系统整理,最终筛选出17篇材料,均满足三道小题具备命题内容、信息完整且情境适切的要求,可用于后续命题开发。 5.题目生成 由于缺少可用于微调的创造性思维样题,本研究按照“目标—要求—返回格式—警告”的体例设计提示词进行命题。编程调用GPT-4o、Qwen2.5、DeepSeek-R1和Grok-3四种在文本生成、长链条推理方面表现良好的大语言模型(max_tokens=4096,temperature=0.6),要求其根据篇章映射标定的命题内容,针对每篇材料从产生多样化想法、形成创意、评估和改进想法三个维度命题。四种大语言模型共用时26分钟,生成68道各含三道小题的题目,每个题目含题干、小题、答案及解析、考查内容、考查能力等,字数在1000~1500字之间。 6. 题目筛选与修改 尽管命题所用材料均为科普类文章,且已通过大语言模型进行情境适切性筛选,但部分材料及相应题目仍存在知识结构超出八年级学生认知水平、情境远离学生日常生活或不适于进行创造性思维题目开发等问题。因此,需要对17篇材料及相应题目进行人工审题。具体来说,由课题组人员基于知识结构匹配度,排除9篇材料及相应题目,如涉及热感技术的喷墨打印机、涉及空气动力学的滑翔机飞行等;基于生活贴近度,排除3篇材料及相应题目,包括介绍土耳其加泰土丘早期人类聚落遗址、机械表内部结构和迪士尼特技机器人;基于创造性思维考查适配度,排除介绍插头基本结构的1篇材料及相应题目。 筛选后,共保留《钥匙怎么开门》《热气球》《鸵鸟的构造》《怎样测量硬度》4篇材料及相应题目,继续从情境设定是否贴近学生生活、是否考查与科学问题解决相关的创造性思维等角度进行综合分析。以《鸵鸟的构造》为例,各个大模型生成的题目侧重点不同。例如,GPT-4o命题将情境设定于北方动物园,可能会导致南方学生的参与感和熟悉感不足;Grok-3将任务置于科普展览中,要求学生布置鸵鸟展区并通过三种方式展示鸵鸟的结构与功能,强调创造性思维中的视觉表达而非科学问题解决;DeepSeek-R1聚焦观察鸵鸟的骨骼模型,要求学生对鸵鸟的高速奔跑提出三种解释性假设,并进行科学推理,体现了科学探究的特点,但更贴近科学素养而非创造性思维;Qwen2.5要求学生根据鸵鸟构造提出三种能够解决日常生活中运动、交通等问题的创造性设计,题目贴近生活,可有效考查创造性思维中的科学问题解决。综合比较,在情境贴近度、与测量目标的匹配度等方面,Qwen2.5生成的题目略胜一筹,被最终采纳。按照上述原则,本研究对四个大语言模型基于4篇材料生成的题目进行了系统分析和比较,各篇材料最终采纳的题目及所属大语言模型情况见表2。鉴于实际测试的时间限制,对4道题目(分别标注为Q1、Q2、Q3、Q4)下的小题进行了删减,每道题目仅保留2个小题。Q1和Q2的两个小题分别考查产生多样化想法和形成创意;Q3和Q4的两个小题分别考查产生多样化想法和评估与改进想法。同时,针对部分题目补充了必要的背景信息。例如,在Q1中补充了鸵鸟的生理结构信息,在Q2 中补充了莫氏硬度的知识。各题目简要说明见表2。 7.题目配图 为降低学生阅读负担、增强任务真实感,本研究参考PISA使用插图、图表与照片等视觉形式的经验[23],根据题干内容,加入配图帮助学生理解题目。为贴近教材或杂志的配图风格,在Gemini 2.0 Flash的对话窗口中输入图形信息和线稿风格图片的要求,生成配图后插入题目,形成正式试题。 (二) 题目测试与数据采集 为缩短测试时间并减少对学校教学秩序的影响,研究采用分组测试。学校一的学生完成测验一(Q1、Q2两个题目),学校二的学生完成测验二(Q3、Q4两个题目),单次测试时间控制在15分钟以内。测试在北京市某区两所教学质量中上等的学校八年级学生中进行,采用纸笔形式,以班级为单位施测。测试前,主试向参测学生详细说明测试目的、时间安排和作答要求,鼓励学生独立思考并尽可能多地完成题目,同时强调禁止在测试中进行任何形式的讨论交流。为了解学生的创造性思维过程,研究采用出声思维法补充收集数据,即在测试结束后,主试在每个班级随机选取2~3名学生进行结构化访谈,引导其回溯并阐述思考过程。所有访谈均在受访学生知情同意后进行录音。 (三) 数据分析 测试共回收有效试卷1156份,测验一为597份,测验二为559份。测验题目均为简答题,采用多级评分体系进行评分设计。分别从测验一和测验二中随机抽取约50份答卷进行预评分,以Q1A为例,该题要求学生基于鸵鸟的特征提出三项创意设计。依据创意的数量、可行性及其与鸵鸟特征之间的关联度,对22类学生答案进行归类整理,最终形成7个计分等级的评分方案。类似地,基于作答的完整性、合理性、数量及创新性,为其他题目分别制定了3~8点计分等级的评分方案。对全部1156份试卷正式赋分后,对频数极低或经验项目特征曲线(empirical item characteristic curve)几乎重合的计分等级进行合并与重编码,Q1A合并为3级计分,其余各题也被调整为3~5级不等的计分等级。 所有题目评分等级范围在0~4级之间,其中Q2A为0~4级计分,Q4A为0~3级计分,其余题目均为0~2级计分。0分对应未作答、答非所问或内容无效;1分表示作答内容初步相关但存在不完整或不合理之处;2分反映作答基本完整且具有一定合理性;3分要求内容较为丰富、合理且覆盖多项要素;4分表示作答内容非常完整、条目丰富,且具备明显的可行性和规范性。 将学生作答数据按计分结果整理为表格,采用经典测验理论(Classical Test Theory, CTT)与项目反应理论(Item Response Theory, IRT)对测验一与测验二分别进行题目难度、区分度、单维性、项目参数和拟合度分析。所有分析均以R4.4.3完成,主要使用psych、bruceR与mirt等R包进行。 对收集的17份出声思考访谈录音进行文字转录与内容整理,围绕命题是否有效测量创造性思维进行分析。首先,对原始语料进行清洗,删除口语化的填充词(如“啊”“嗯”等),剔除重复和无关语句,统一表达风格;其次,逐一提取学生思考内容中的语句片段;最后,根据题目所对应的测评维度,从产生多样化想法、形成创意、评估与改进想法三个方面对语句片段进行标注与分类。 三、研究结果 (一)基于CTT的数据统计 表3详细展示了所有题目的测量学指标。测验一题目难度在0.204~0.487之间,整体难度偏大。按总分将学生进行高低分组,分别计算两组在各题目上的平均得分,取得分差值并除以该题满分,得到区分度指数。测验一各题区分度均超过0.4,其中Q1B、Q2B区分度超过0.7。测验二题目难度在0.284~0.431之间,区分度均超过0.3,其中Q3A接近0.8。 (二)单维性检验 对测验一进行探索性因子分析,KMO值为0.588,接近可接受水平;Bartlett球形度检验显著(χ²= 353.32,p<0.001)。第一因子特征根为1.896,方差解释比为47.4%。测验二的KMO值为0.671,超过可接受水平;Bartlett检验显著(χ² =260.65,p<0.001),第一因子特征根为1.891,方差解释比为47.3%。尽管题目数量限制单维度检验中特征根比值法的使用,但根据两个测验中第一因子方差解释比接近50%判断,第一特征根均居主导作用,符合IRT单维性假设。 (三)基于IRT的分析 对测验一和测验二分别采用R的mirt包构建分步计分模型(partial credit model),进行参数估计。结果显示,大部分题目能够有效反映学生能力差异,Q3B、Q4A、Q4B的难度参数覆盖广泛能力区间,但也存在部分题目参数间隔较小、计分等级高而难度低的情况(如Q1B、Q2B)。以加权的残差均方(infit mean square)为拟合指标,测验一和测验二中各题目的项目拟合统计值infit值分别在0.746~0.847和0.717~0.872之间,均接近或符合infit取值应在[0.75,1.25]之内的拟合标准[30]。测验一和测验二的测验信息量峰值均在θ=0.8附近,学生能力分布的峰值均在0.2~0.3之间,基本对称,但测验一学生能力分布左侧出现了一个明显的次峰,整体呈轻度左偏趋势。 (四) 出声思考的分析 在产生多样化想法方面,参加测验一访谈的11位学生中,有4位能在Q1A中提出三种想法或设计,2位提出两种,3位提出一种,另有2位未能提出有效想法;所有学生均能够说明自己的想法如何受到鸵鸟特征的启发。对于题目Q2A,有3位学生能提出三种方案,2位提出两种方案,5位提出一种方案,1位未明确提出方案。参加测验二访谈的7位学生中,2位在Q3A中提出三种方案,4位提出一种方案,1位未作答。在题目Q4A中,有4位学生能提出三种方案,1位提出两种方案,1位提出一种方案,1位未作答。整体来看,大多数学生能够围绕题目情境提出两种及以上不同构想,表现出一定的发散性思维能力。 在产生创意方面,访谈数据显示,参加测验一的11位学生中,有9位能在Q1B中提出与日常生活经验紧密相关的创意展示方式,如演讲、体验式介绍等,2位未作答。Q2B中,有10位学生提出了创意展示方式,包括PPT、实验演示等,1位未作答。这表明大多数学生不仅能够提出创意,还能说明其展示方式的具体操作流程。 在评估与改进想法方面,测验二的7位学生中,有5位在Q3B中提出了与题目高度相关的改进方案,主要聚焦气囊泄漏问题进行分析,并结合物理知识说明改进步骤,2位未作答。Q4B中,7位学生中有6位提出了智能门锁的改进方案,涉及近场通信(Near Field Communication)、脱网唤醒等技术,1位未作答。整体而言,多数学生能够基于已有经验提出针对性强、具可操作性的优化建议。 四、结论与讨论 本研究在篇章映射技术筛选的科普材料基础上,进一步开展系统性审查,依托大语言模型生成测评题目,并通过多轮筛选与人工修订,持续优化题目质量。随后,采集学生的作答数据与出声思考记录,运用经典测验理论与项目反应理论对数据进行深入分析与检验。研究涵盖材料准备、题目生成与修订、测试实施及数据分析等关键环节,系统探讨了大语言模型在辅助创造性思维情境化命题中的应用潜力与现实挑战。具体研究发现主要包括以下四个方面。 第一,大语言模型辅助生成的题目展现出良好的区分度。测量学分析初步验证了大语言模型辅助命题的效果。从CTT角度看,多数题目区分度较高,和已有研究结果一致[9,11,16],但学生整体得分偏低,反映出题目难度较大,这可能与其不熟悉任务内容有关。在IRT分析中,所有题目的infit值均接近或处于可接受范围内,显示题目拟合良好。此外,测验信息曲线显示,测验对中等及以上能力水平的学生有较高的信息量,部分题目在高能力区域的信息贡献较为明显。 第二,高质量的情境材料仍是素养题目开发的关键。正如Tout和Spithill所指出,开发素养测试题目的关键在于选取真实可信且易于学生理解的情境[23]。本研究中,作为情境来源的781篇科普文章最终仅生成4个有效题目,材料利用率仅为5‰。未来,工作重点仍是高质量情境化任务的开发[20,23],应大力拓展材料来源,以丰富的真实材料涵盖学生熟悉的日常生活、社会现象与跨学科场景,从而提升任务的相关性与吸引力。同时,引入检索增强生成技术(retrieval-augmented generation)[31],对情境材料中超出学生知识结构的内容进行识别与筛选,以提升材料筛选效率和题目适配度。 第三,大语言模型生成的初始题目仍需依赖人工优化。本研究证明,大语言模型能够快速生成创造性思维题目的草稿,显著提升命题效率,但生成的题目仍需经过人工筛选与修订。与已有研究结论一致,并非所有模型都能准确生成符合测量目标的题目[7]。尽管目前仍存在局限,但出声思考访谈分析显示,学生在人工优化后的题目中普遍表现出良好的发散性与聚合性思维,表明测验具有较好的内部效度。 第四,综合使用大语言模型技术提升命题质量。未来,应进一步优化提示词工程,探索更系统的任务链设计;采用多智能体协作机制,在篇章映射、材料审查、题目生成与筛选修改等关键环节中实现分工协同,提升命题流程的自动化水平与生成题目的质量。同时,结合不断积累的学生作答数据,探索通过微调模型提升题目生成质量的可行性;引入多模态大语言模型,结合图像生成与情境理解能力,开发更加真实、丰富的情境化测验任务。 参考文献略。