首页    >    教育资讯
王新凤:高考综合改革政策实施效果评估:基于大型问卷调查数据

2024-09-10

原创 中国考试 中国考试 2024年09月06日 16:45 北京引用格式:王新凤:高考综合改革政策实施效果评估:基于大型问卷调查数据[J]. 中国考试, 2024(9): 1-11.作 者王新凤,北京师范大学教育学部副教授。摘 要:高考综合改革注重顶层设计、问题导向、试点先行、多元参与,逐步进入全面实施的新阶段,而政策评估贯穿于政策执行的全过程。基于对改革省份的长周期、大规模跟踪评估调查发现,新高考基本实现了既定改革目标,并产生了一定的政策溢出效应。随着高考政策的逐步优化,人民群众对高考的满意度和获得感稳步提升,而高考制度的统一性与多样性并存问题则成为当下教育治理的难题。未来高考改革需进一步增强系统性、整体性和协同性,加强国家和地方层面的资源投入与政策统筹协调。关键词:高考综合改革;政策执行;政策评估;实施效果2014年9月3日,国务院印发《关于深化考试招生制度改革的实施意见》(下文简称《实施意见》),启动新一轮考试招生制度改革。改革的目标是建立中国特色现代教育考试招生制度,形成分类考试、综合评价、多元录取的考试招生模式[1]。改革围绕改进招生计划分配方式、考试形式和内容、招生录取机制、监督管理机制等任务实施了一系列措施,并开展试点。此次考试招生制度改革对于我国基础教育、高等教育、职业教育、考试评价、教育治理等多方面产生影响,可以说对教育领域进行系统性、格局性重构,被称为自恢复高考以来最全面、最系统、最深刻的一次考试招生制度改革[2]。新高考十年的实施过程和效果究竟如何,取得了哪些方面的成效,还面临哪些问题和挑战,未来高考改革向何处去,是总结回顾高考综合改革十年进展必须回答的问题。一、高考综合改革推进过程与评估方案(一)高考改革实施过程回顾2014年,按照《实施意见》要求,上海、浙江率先启动高考综合改革试点。在选择性考试科目设置方面,分别实施“6选3”和“7选3”的科目设置方式;在考试次数方面,上海在外语科目中实施一年两考,浙江在外语和选考科目中都实施一年两考;在志愿填报方面,上海实施“院校专业组”的填报方式,浙江实施“专业(类)+志愿”的填报方式;在综合评价招生方面上海和浙江均有探索,浙江除省外高水平大学外,还在省内数十所高校实施“三位一体”综合评价招生,实施范围较广。上海、浙江作为首轮试点省份为后续改革省份实施新高考提供了经验借鉴和参考。2017年,北京、山东、天津、海南第二批试点省市启动高考综合改革,在考试科目设置方面采取“6选3”的模式;在考试次数方面只在外语科目或者外语听力中提供两次考试机会;在考试时间方面,将选考科目与统考科目放在同一时间段进行;除山东部分高校实施综合评价招生外,其他省份尚未按照“两依据一参考”设计进行综合评价招生;在选考科目等级赋分制方面,第二批试点省市进一步优化,形成了等级内固定分值赋分和等级内线性转换赋分两种方式。各省赋分的等级划分方法不同,这些做法为第三批改革省份提供了路径参考。2018年,河北、辽宁、江苏、福建、湖北、湖南、广东、重庆等八省市作为第三批省份启动高考综合改革,高考综合改革从东部发达地区向中西部地区扩展,进入全面实施阶段。为缓解前期试点省份物理选科人数大规模下降带来的社会焦虑,也为适应中西部地区基础教育资源的薄弱现状,第三批改革省份均实施“3+1+2”的考试科目设置,以减少改革阻力。在考试时间、考试次数等方面与第二批改革省份一致,在志愿填报方面包括“院校专业组”“专业(类)+学校”等不同方式,其中江苏、广东部分高校采用综合评价招生模式。2021年,黑龙江、甘肃、吉林、安徽、江西、贵州、广西等七省份启动高考综合改革;2022年,山西、河南、陕西、内蒙古、四川、云南、宁夏、青海等八省份启动高考综合改革,此十五个省份延续“3+1+2”的考试科目设置方式,志愿填报倾向于选择“院校专业组”方式,尚未实施综合评价招生。(二)高考政策评估方案开展高考改革政策评估是科学决策的需要,是试点试验、引导理性社会舆论的需要,也是基于中国经验构建自主知识体系进行理论创新的实践探索和尝试。高考改革政策评估运用科学的研究方法对政策执行过程进行跟踪评价,了解政策执行过程中出现的问题,及时加强相应的保障措施和进行政策调整。按照评估主体划分,高考改革政策评估可以分为官方评估、自我评估和第三方评估三种类型;按照政策执行的过程划分,可以分为预评估、执行评估、效果评估等。高考综合改革启动之前,教育部组织相关司局、国家教育考试指导委员会委员及相关专家团队对改革实施的基础条件进行预评估,改革政策执行过程中及改革落地之后,也会组织相关专家对改革实施情况进行综合评价。同时,有条件的省份进行自我评估或者委托第三方评估。例如,浙江省基于目标导向、问题导向同步实施改革试点跟踪调研和评估工作[3],先后多次进行自我评估,并分别于2018年、2019年、2024年委托北京师范大学研究团队进行第三方评估。政策评估活动贯穿于高考综合改革政策实施的全过程,见图1。改革试点和全面实施之前的预评估可以客观评价改革的基础条件是否具备,为政策执行提供基本条件保障;改革过程中的执行评估有助于改革平稳推进;而新高考落地之后的实施效果评估则可以为优化试点方案及后续省份制定方案提供借鉴。政策评估使高考改革方案制定、政策执行、政策落地之间形成了内外部循环系统,内部循环有助于本轮改革省份方案完善和切实执行,外部循环可以为后续改革省份提供参考。北京师范大学研究团队自2014年以来对已经启动高考综合改革的省份保持了不同程度的跟踪评价,既作为专家团队参与教育部组织的官方评估,也受教育部及地方教育行政部门委托进行多次第三方评估。在第三方评估过程中,构建了包含三阶段、四要素、五主体的高考改革政策评估框架[4],即在高中教学阶段、考试招生录取结束后、高校教学阶段等改革过程中的不同时间节点,从高中教师、高中学生、高中家长、高校教师、高校学生五类利益相关群体视角出发,评价高考改革的目标、改革措施、实施效果及保障条件四个要素。团队运用问卷调查和焦点组访谈等方法,先后获得有效调查问卷87万余份(部分问卷数据见表1),访谈人数逾千人次,为系统全面评估高考改革过程提供了数据和意见支撑。本研究主要基于历次问卷调查结果,从五类利益相关者视角评价高考综合改革的目标达成度、措施认可度、效果满意度及保障程度。二、高考综合改革的实施效果评估(一)改革目标达成度高考综合改革具有明确的问题导向,主要针对社会反映较为强烈的问题,如“唯分数”影响学生全面发展,“一考定终身”使学生学习负担过重,区域、城乡入学机会存在差距,中小学择校现象较为突出,加分造假、违规招生现象时有发生[1]等。为解决这些问题,新高考方案在招生计划分配、考试内容与形式、招生录取机制、监督管理机制方面采取了系列改革措施。例如,针对“一考定终身”的问题,探索选择性考试科目、多次考试机会、平行志愿填报模式、综合评价招生等,在考试科目、考试次数、志愿填报、录取模式等方面给予学生多次选择机会,克服传统模式弊端。改革的基本原则或价值目标是促进学生健康发展、促进高校科学选拔各类人才、维护社会公平,制度目标是建立中国特色现代教育考试招生制度,形成分类考试、综合评价、多元录取的考试招生模式。从制度建设目标来看,新一轮考试招生制度改革的目标基本达成。截至目前,全国已经有29个省份分五个批次实施了高考综合改革,分类考试、综合评价、多元录取的制度框架已然建立,健全了促进公平、科学选才、监督有力的体制机制,中国特色现代教育考试招生制度基本形成[5]。首先,分类考试是指高等职业教育考试招生逐步与普通高校本科考试分离,探索“文化素质+职业技能”的考试评价办法,建立符合职业教育特点的考试招生制度。各省颁布了高职分类考试招生办法,在统一高考录取之外形成了中高职对口单招、高职单独招生、中高职贯通招生、免试入学或注册入学等多种录取渠道,高等职业教育分类考试招生录取人数达到60%以上,部分省份录取人数超过70%,分类考试成为高职院校招生的主渠道。其次,综合评价旨在克服“唯分数”“一考定终身”等弊端,全面考查学生的知识能力素养,将德智体美劳纳入评价体系,引导基础教育关注学生全面而有个性的发展。新高考完善高中学业水平考试和高中学生综合素质评价方式,探索“两依据一参考”综合评价招生等系列措施,转变简单以考试成绩作为唯一标准的招生模式。最后,多元录取改变过去主要基于统一高考录取的单一模式,探索综合评价招生、强基计划、高职提前招生、高职单独考试招生、专项计划等多元选拔录取模式,为学生开辟多条升学路径[6]。如果说分类考试适应了普及化阶段不同类型的高等学校人才选拔需求,那么多元录取模式则满足了经济社会发展对各级各类人才升学和成长的需求。从价值导向目标来看,改革促进学生健康发展、促进高校科学选拔各类人才、维护社会公平的目标基本达成。近年对各省份的问卷调查结果显示,调查对象对“三个有利于”的改革目标达成度评价均超过75%,见图2。概括而言,促进高校科学选拔各类人才的目标达成度最高,其次是维护社会公平和促进学生健康发展。高考的首要目标是为各级各类高校选拔合适的人才,因此其首要功能就是科学选才。如上所述,新高考实施分类考试、综合评价、多元录取招生模式,在选拔方式、选拔标准、选拔渠道等多方面体现科学选才的特点。以综合评价招生为例,高考综合改革启动后浙江、上海、山东、广东、江苏等部分省份和高校开始进一步探索综合评价招生,即依据考生统一高考成绩和高中学业水平考试成绩,参考其综合素质评价档案进行录取。其中,浙江省46所高校实施“三位一体”综合评价招生模式,包括浙江大学等6所省内外高水平大学。跟踪评估发现,与统一高考录取的学生相比,通过综合评价录取的学生表现出较好的学习潜力,综合素质和专业认同较高[7],学习适应性高[8]。高校访谈案例研究也证实这一结果,高校教师和学生对综合评价招生的认同度高。(二)改革措施认可度省份根据《实施意见》规定的改进招生计划分配方式、改革考试内容和形式、招生录取机制、监督管理机制等四个方面的主要任务以及提高中西部地区和人口大省高考录取率、增加农村学生上重点高校人数、完善中小学招生办法破解择校难题、完善高中学业水平考试、规范高中学生综合素质评价、加快推进高职院校分类考试、深化高考考试内容改革、减少和规范考试加分、完善和规范自主招生、完善高校招生选拔机制、改进录取方式、拓宽社会成员终身学习通道、加强信息公开、加强制度保障、加大违规查处力度等15项具体改革措施逐步落实,推进本省的考试招生制度改革。跟踪评估汇总了四个方面的反馈结果。第一,招生录取机制方面的改革措施认可度最高,减少和规范考试加分、完善和规范自主招生、改进录取方式等改革阻力较小。2023年对八省市五类群体问卷调查显示,对“按照物理、历史科目组合分开投档录取”“按照‘院校专业组’平行志愿投档”“减少和规范考试加分”三项改革措施的认可度最高,分别为92.7%、88.8%、88.3%。第二,后续改革省份各利益相关群体对调整优化后的改革措施认可度高。从2020年对北京高中教师、高三毕业生、高三毕业生家长的问卷调查来看,调查对象对“外语听力一年两次考试”“等级性考试时间定在6月份”两项改革措施认可度最高。第三,利益相关群体对政策认知影响改革措施的认可度。例如,综合评价招生模式实施范围广,各利益相关群体的认可度也比较高;但面向北京的问卷调查中,调查对象对“综合素质评价作为高等学校招生录取的参考”“综合评价录取依据统一高考成绩、学业水平考试成绩、面试成绩、普通高中综合素质评价进行录取”两项改革措施的认可度最低。同时,分别有13.3%、15.9%的调查对象对这两项措施表示“不了解”,在各项改革措施中也排名最高。第四,利益相关群体的立场影响对改革措施的认可度。不同群体对同一改革措施的认可度有可能完全不同。例如,浙江、上海、天津、海南等省市探索外语考试科目一年两考,试点省份高中教师和学生群体对外语两次考试机会的评价差异很大。其中,学生群体认为两次考试可以降低考试成绩偶然性,大多支持两次考试;高中教师群体则认为一年两次考试给高中教学秩序带来干扰,对师生带来较大备考压力和负担,因此反对一年两考。特别值得一提的是,在首轮试点省份扩大学生科目选择权利之后,出现了趋易避难的功利化选科倾向,选择物理的人数大规模下降,引起社会广泛关注,也成为教育行政部门政策调整的重点。教育部及地方层面先后出台本科专业选考指引,各省份陆续出台物理、化学选考科目保障机制,从第三批改革省份开始实施“3+1+2”考试科目设置等等。这些改革措施引导学生合理选科,从2023年八省市大二、大一、高三、高二、高一的五届学生的选考情况来看,选考物理和物化生传统理科科目组合的学生逐年增加,物理选考人数从2021年的64.2%上升到2025年的74.3%,物化生组合选考人数从2021年的23.0%上升至2025年的 39.0%(见图3)。从高中学生选科动机来看,选择物理和化学的学生多数是因为“志愿选择面广”“考虑就业和发展”,而选择其他科目多数是因为“喜欢这门学科”或者“是自己的优势学科”。高校本科专业选考科目指引等政策引导效果显现,初步实现了个人兴趣、学校专业发展与国家利益三者的统一,见表2。(三)改革效果满意度利益相关者的满意度评价是高考改革政策评估的重要视角。本研究将高中教师、高中学生、高中家长、高校教师、高校学生五大群体作为主要利益相关者,将其对高考改革的认知与评价作为评估改革成效的重要依据,有三个方面的发现。首先,第一、二批试点省市高校学生群体对高考改革的满意度最高。浙江省实施“3+3”“7选3”考试科目设置,最多有35种科目组合方式,而且外语和选考科目提供多次考试机会,实施“专业(类)+学校”志愿拟填报方式,学生群体满意度高。对浙江省、海南省的问卷调查发现,高校学生群体满意度最高。但值得一提的是,高考改革对高中教学内容、教学组织形式、教学管理等带来冲击,高中教师承受较大的压力,浙江省高中教师群体满意度较低。从2017年对浙江、上海的实地访谈结果来看,高中教师压力主要来源于学生选科偏好带来的教师结构性缺编,加重了在岗教师的工作负担;同时,改革初期因为对改革政策、考试难度等目标不明确,教师压力较大,教师绩效考核等也面临挑战[9]。其次,第三批改革省份学生群体满意度下降,高中教师满意度提升。第三批改革省份实施“3+1+2”考试科目设置,只有12种考试科目组合方式,加上部分省份或者学校实施套餐制选科走班,更多学校倾向于“少走班”或者“不走班”,学生群体随着选择变少而满意度降低。2023年对八省市的问卷调查发现,高校教师满意度略高于高校学生,高中学生群体满意度最低;51.9%的高中教师反映,自己任教的学校所有科目均固定组合、不走班,县域高中比例接近60%。有限选择权在一定程度上降低了学生群体的满意度,但因降低了高中教学组织难度,高中教师群体满意度有所提升。高素质师资队伍是高考改革稳妥实施的关键,近年来对多地的实地调研发现,随着新高考、新课程、新教材的全面实施,考试命题的学科素养导向和应用性导向加强,这对高中教师教学同样带来巨大挑战。最后,随着高考综合改革政策确定性增强,学生群体的满意度稳步提升,选考科目与专业的匹配度影响了新高考生源大学生的满意度。对2020年首轮试点省份高校新高考生源问卷调查发现,增加选考科目与专业匹配程度、大学提供专业强化基础辅导对大学新生的高考改革效果满意度具有显著的促进作用。新高考在增加学生选择性的同时产生的重要影响是选考科目与高校专业的匹配度问题,这在前期试点省份表现得尤为突出。在学生趋易避难和高校放松限选科目要求的背景下,会出现学生选考科目与报考专业不匹配的问题。学生在高校就读期间就很难适应基本教学要求,甚至出现学习困难、不得不转专业的情况。同时,部分高校为了应对学生科目选择带来的知识基础偏差,会提供专业强化基础辅导课程,通过专门辅导弥补学生因高中选科组合导致的知识结构性缺陷,能够提高新高考生源大学生的学习适应性[10],一定程度上也提高了学生对高考综合改革效果的满意度。2023年针对八省市的问卷调查中,进一步将高校学生对高考改革的满意度细分为“改革效果满意度”“录取学校满意度”“录取专业满意度”三个维度,研究结果也进一步验证了这一结论。调查结果发现,新高考生源对高考改革满意度较高,并且在学校录取满意度和专业录取满意度方面显著高于传统高考生源。学生对录取专业和录取学校的满意度、高考改革成效的满意度会影响学生的总体学习适应性,满意度越高学生的学习适应性越好[11]。同时,生源所在地、性别、年级、家庭背景、学校类型不同的学生其高考满意度也存在显著差异,传统理科(物化生)选考科目和理工科专业就读的学生改革满意度和录取满意度更高,学生群体间的选科偏好差异影响着其对高考改革的满意度。(四)改革保障支持度高考改革政策评估主要从利益相关者的视角评价高考综合改革的保障支持度,评估结果可以为教育行政部门、考试机构、高校和高中学校加强投入和完善相应的配套措施提供参考[4]。综合浙江、北京、海南及第三批改革八省市等十一个省份的问卷调查数据来看,高中教室、课程、师资等方面的教学资源保障基本到位。但相较而言,生涯规划教育较为滞后。从2023年八省市高中教师、高中学生、高中家长、高校学生4类群体的总体视角来看,分别有80.9%、80.8%、80.2%的调查对象认为课程、教室、师资能够满足学生选课的需求,认为生涯规划教育课程和师资能满足学生发展需求的调查对象分别占77.9%、77.5%,后者较前者低两到三个百分点。从八省市高中学生视角来看,认为学校已开设生涯规划相关课程、开发了相关校本教材、具有专职生涯规划教师的学生占比分别只有52.7%、28.9%、19.3%,见表3。总体上,另外31.5%的高中学生认为自己所在高中缺乏生涯规划指导,33.6%的高中教师认为自己任教的高中缺乏生涯规划指导。从学校类型来看,县域普通高中在生涯规划教育方面更加薄弱,42.4%的高中学生反映学校缺乏生涯规划指导。高考改革实施过程中,各省加强高考改革政策解读和宣传,学生和家长了解改革政策的渠道比较多元,既有官方的高中教师、学校专题宣讲会和教育厅、考试院等官方网站政策解读,也有非官方的同辈交流、家长群交流以及网络检索等方式。但如前所述,仍有相当比例的调查对象对改革措施不了解。例如,八省市的问卷调查显示,24.3%的高中家长对本省高考综合改革方案并不了解。这反映还需不断加强对改革政策和举措的宣传、解读,降低群众对政策进行理解和实践的门槛,尽可能保障政策实施过程中的公平性和开放性。高考综合改革在一定程度上倒逼高校对招生模式进行变革,从浙江、海南和面向八省市的问卷调查数据来看,80%左右的高校师生都认为高校招生和人才培养能够满足新高考的需求。以八省市为例,84%以上的高校师生认为高校招生、师资队伍、人才培养等能够满足新高考背景下的学生发展需求,但对高校转专业制度、学生发展指导、教学管理制度以及教学资源设备等方面的认可度要低两个百分点。与新高考相适应的高校教学管理制度、学生发展指导、转专业制度以及教育教学资源设备等都有待进一步加强。三、结论与讨论高考综合改革推行十年,基本实现了既定目标。随着高考政策的逐步优化和制度完善,人民群众的满意度和获得感在稳步提升,正确处理高考制度统一性与多样性之间的关系成为主要治理难题。未来高考改革需要进一步增强系统性、整体性和协同性,加强国家和地方层面的资源投入与政策统筹协调。(一)改革目标基本实现,政策溢出效应明显全面客观地评价一项政策实施效果并非易事,但至少可以明确,新高考聚焦当时社会反映强烈的“唯分数”“一考定终身”、加分造假等问题,在招生计划分配、考试内容与形式、招生录取机制、监督管理机制等方面采取一系列改革措施,基本实现改革目标,并产生了一定的溢出效应。首先,高考综合改革是在科教兴国、创新驱动战略背景下,我国教育体制改革、基础教育课程改革、高考改革理念与行动的协同推进。早在1999年发布的《教育部关于进一步深化普通高等学校招生考试制度改革的意见》中就提出“3+X”考试科目设置、考试命题能力立意、积极探索一年两次考试等方案[12],与新高考的理念一脉相承。而学术界对统一高考制度的争论[13]、域外经验借鉴[14]以及改革方案的设想[15]等推动高考综合改革的内容进一步聚焦,新高考政策或多或少体现了这些内容。其次,从利益相关者视角来看,改革促进科学选才、维护社会公平、促进学生健康发展的目标基本达成,尤其是促进高校科学选才的目标达成度较高,招生录取方式改革措施认可度高,分类考试、综合评价、多元录取的考试招生模式基本形成。各利益相关群体对改革效果的满意度较高。有关研究也验证了这一结果[16],高考综合改革在回应社会关切,提升人民群众满意度、获得感方面取得一定成效。最后,新高考对整个教育体系带来了系统性、格局性变化,促进了高中教育教学内容、组织形式、育人方式的变革,倒逼高校招生和人才培养方式变革、专业结构调整和优化,促进招生评价体系转变[16],促进教育治理体系和治理能力的现代化。21世纪以来的基础教育课程改革也呼唤建立适应素质教育要求的考试评价制度和招生选拔制度,研究者也在持续关注课程改革与高考改革的关系[17]。随着高考命题指挥棒的改变,基础教育领域育人理念、育人方式的变革更加水到渠成,高考改革在实现既定目标的同时,也取得一些政策目标之外的效果,产生明显的政策溢出效应,推进了系统协同的良性变革。当然,对任何领域的改革来说,政策目标都是有限的,不能将高考综合改革过程中教育系统的所有进步都归功于此项改革,也不能将高考综合改革目标之外的所有问题都归咎于高考,对改革引起的非预期结果应予以及时关注并客观评价。(二)改革政策逐步优化,政策影响趋于稳定政策执行过程也是执行者不断加强政策学习的过程,再缜密的政策设计都需要在执行过程中予以验证。针对高考综合改革过程中出现的新情况、新问题,国家和地方层面进行了诸多创新性探索,逐步推进改革政策的优化、制度的完善,随着改革政策趋于稳定,人民群众的满意度和获得感稳步提升。高考综合改革政策的调整从宏观到微观都有所涉及。例如,第二批改革省市北京、山东等开始借鉴首轮试点经验,在考试科目设置、考试时间、等级赋分制度等方面均进行相应调整;针对学生功利化选科等现象,教育部和地方教育行政部门先后出台普通高校本科招生专业选考科目要求指引,部分省份启动选考科目保障机制,引导高校合理限制选考科目和学生合理选科;第三、四、五批改革省市实施“3+1+2”考试科目设置,适应中西部地区高考综合改革基础条件现状,因地制宜、因校制宜,减少选课走班的难度;省域内高考综合改革方案也在逐步优化,如浙江省、上海市在学业水平考试安排等方面也都进行了相应的调整。从评估结果来看,无论是后续改革批次的省份还是某个省域内,利益相关群体对做出调整之后的改革政策认可度较高。从首轮试点省市改革实施十年效果评估来看,随着改革的稳定性增强,各利益相关群体的满意度正逐步提升;从第二批改革省份利益相关群体视角来看,借鉴首轮试点经验在考试时间、等级赋分等制度方面的政策调整认可度高;随着选考指引、选考科目保障机制以及考试科目设置方式的调整,从第三批改革省市开始物理选科人数下降的问题得到根本性扭转,逐步实现个人兴趣、高校发展和国家需求三者利益的统一。需要注意的是,随着高考综合改革逐步推进,对改革效果的评估也应该是一个动态发展的过程。例如,第一、二批改革省市在科目选择等方面给予学生更多自主权,学生群体满意度较高,但因为改革对高中教学安排的影响较大,高中教师群体满意度低。随着改革政策调整,学生科目选择的自主权有所降低,学生群体对改革的满意度降低但高中教师群体满意度有所提高。不同地区、不同主体对新高考的评价存在明显差异[16]。因此,不能简单地将前期改革存在的问题推演到后续改革省份,也不能因为后续改革问题而否定前期改革的努力。(三)统一性与多样性并存是主要治理难题跟踪高考综合改革过程可发现,各省区面临一些共性问题,如因教育资源配置的区域、城乡、校际差异,高中教师结构性缺编、套餐制选课走班施行困难、生涯规划教育不足、学业水平考试命题质量低等问题不同程度上存在;选考(再选)科目等级赋分制度依然有待完善,对优秀考生群体的区分度有待提升;高中综合素质评价流于形式,综合素质评价档案在招生录取中尚未充分得到利用等等。然而,当前最值得关注的仍是如何妥善处理高考制度统一性与多样性之间关系的问题。新高考在克服统一考试弊端、破解“一考定终身”方面做出了诸多努力;与此同时,高考制度的多样性特征日益突出,即各省改革方案和进度不尽一致;“3+3”“3+1+2”“3+文综或理综”等考试科目设置方式并存;“专业(类)+学校”“院校专业组”等平行志愿填报方式并存;部分省份探索外语等考试科目多次考试机会,但多数省份只有一次考试机会;形成统一高考、综合评价招生、强基计划、高职分类考试招生等多元录取机制,职教高考也存在高职对口单招、高职单独招生、中高职贯通招生、免试入学或者注册入学等多种录取渠道,即便同样是中高职对口单招,也存在单考单招、高职对口单独考试招生、高职统一考试招生、对口升学考试招生、全省统一技能高考等不同名称。由于改革方案和改革进度存在差异,完全不同的问题如重文轻理或重理轻文的倾向在各地同时存在,高考改革和改革政策评估的复杂性增强。新高考启动之前,社会舆论和学术争论的焦点是“统独之争”,即统一考试与高校单独考试之争,认为兼顾统一性与多样性是高考改革的发展方向[13]。而今高考统一性与多样性之间的矛盾成为现实的治理难题。例如,如何在保障发达地区改革先进性的同时引导中西部省份改革同步跟进,如何在统一高考制度之外进一步拓展拔尖创新人才上升通道,职教高考制度如何在地方多样化探索的基础上建立相对统一的国家制度框架,等等。如何既能维护统一高考制度的稳定性、公平性不动摇,同时又能够给予地方政府、高校更多科学选拔各类人才的自主权,是进一步完善中国特色现代教育考试招生制度的重点。(四)增强改革的系统性、整体性、协同性面向未来,高考改革的系统性增强,在保持改革稳定性的同时,保持改革韧劲,增强改革的系统性、整体性、协同性是未来高考改革的基本方向[18]。国家和地方层面均应进一步加强资源投入和政策的统筹协调,尤其是需要加强应对高考改革统一性与多样性矛盾的能力。第一,建立高考制度统一性与多样性并存的动态调整机制,在保持高考总体制度框架统一性与公平性的基础上,允许地方政府和高校在考试科目设置、招生录取方式方面进行制度创新,并及时吸收各地改革经验,促进高考制度的整体优化。第二,针对高考综合改革实施进度,建立差异化改革支持政策。对于率先启动改革的发达地区,在保持公平性的前提下给予其更大改革自主权,鼓励探索更深层次的制度创新;对于改革基础相对薄弱的中西部地区,给予更多政策倾斜,加大教育资源投入,提升教师队伍水平,提升命题质量,促进改革措施全面、稳妥落地。第三,完善职教高考制度框架以及普通高等教育与职业教育分类考试制度。在尊重地方办学自主权的基础上,应建立相对统一的国家制度框架,提供政策引导和规范,确保不同地区职教高考改革举措在标准化、衔接顺畅等方面达到基本一致,为学生公平选择职业教育机会创造条件。第四,拓展拔尖创新人才选拔通道。在统一高考制度框架之外,进一步完善拔尖创新人才选拔机制,扩大高校招生自主权,建立省级层面综合评价招生系统,为不同发展潜力的学生提供多元化录取通道。总体而言,统一性与多样性并重是中国特色现代教育考试招生制度的重要特征,在保持高考制度整体框架稳定的同时,还应充分激发地方和高校的改革活力,为学生个性化发展、高校特色化办学、经济社会发展对各级各类人才的多样化需求提供更多选择。参考文献略。

顾之川:高考语文考试内容改革的回顾及展望

2024-09-10

原创 中国考试 中国考试 2024年09月09日 15:37 北京引用格式:顾之川. 高考语文考试内容改革的回顾及展望[J]. 中国考试, 2024(9): 12-19.作 者顾之川,男,人民教育出版社编审。摘 要:伴随着国家教育考试现代化的步伐,高考语文在过去十年间大力推动考试内容改革。在指导思想上,坚持立德树人、为国选才育人;在考查内容上,注重基础知识,突出关键能力;在试题命制上,创新题型设计,降低机械刷题收益;在引导教学上,优化情境设计,加强教考衔接。同时,高考语文也面临一些新的问题和挑战。对此,应进一步加强理论研究,把握好“变”与“不变”的关系,重视高考对教学的反拨作用,打造一支高素质专业化创新型命题教师队伍。关键词:新高考;考试内容改革;语文关键能力;教考衔接以国务院2014年颁布的《关于深化考试招生制度改革的实施意见》(以下简称《实施意见》)为标志,新时代高考考试内容改革启动实施。十年来,伴随着我国教育考试现代化的步伐,高考语文牢记为党选才、为国育人的初心使命,坚持立德树人、培根铸魂根本任务,与时俱进,守正创新,积极探索语文学科考试内容改革的路径与方法,充分发挥高考“指挥棒”作用,引领中学素质教育,积累了成功经验,但也面临一些新的问题与挑战。回顾十年来高考语文在考试理念、考查内容、试题命制、引导教学等方面进行的探索,以及这些探索给中学语文教学带来的变化及新的挑战,不仅关涉语文教育考试评价领域的核心问题,也是回应广大一线教师、学生和家长对高考语文改革关注的现实要求。一、新时代高考语文考试内容改革的背景2013年11月,党的十八届三中全会通过《中共中央关于全面深化改革若干重大问题的决定》,明确提出“推进考试招生制度改革”“逐步推行普通高校基于统一高考和高中学业水平考试成绩的综合评价多元录取机制”[1]。为落实党中央这一决策部署,《实施意见》提出考试内容改革要“依据高校人才选拔要求和国家课程标准,科学设计命题内容,增强基础性、综合性,着重考查学生独立思考和运用所学知识分析问题、解决问题的能力”[2]。2017年9月,中共中央、国务院《关于深化教育体制机制改革的意见》进一步指出,要强化学生关键能力培养,引导学生具备独立思考、逻辑推理、信息加工、学会学习、语言表达和文字写作的素养,养成终身学习的意识和能力[3]。2019年6月,国务院办公厅印发《关于新时代推进普通高中育人方式改革的指导意见》,要求“优化考试内容,突出立德树人导向,重点考查学生运用所学知识分析问题和解决问题的能力。创新试题形式,加强情境设计,注重联系社会生活实际,增加综合性、开放性、应用性、探究性试题”[4]。2020年10月,中共中央、国务院印发《深化新时代教育评价改革总体方案》,提出“构建引导学生德智体美劳全面发展的考试内容体系,改变相对固化的试题形式,增强试题开放性,减少死记硬背和‘机械刷题’现象”[5]。教育部考试中心发布的《中国高考评价体系》,作为新时代高考考试内容改革的理论基础和实践指南,明确了为什么考、考什么、怎么考等关键问题。这些政策文件既为我国教育考试现代化指明了方向,也为高考语文考试内容改革提供了基本遵循和方法路径。近年来,高考语文逐步实现了从“考知识”向“考能力素养”、从“解题”向“解决问题”转变,主要表现在三个方面:一是强化立德树人根本任务,将习近平新时代中国特色社会主义思想考查融入试题,构建德智体美劳全面考查的内容体系;二是突出语文关键能力和核心素养考查,在增强试题的应用性、探究性、开放性上下功夫,引导学生独立思考,在运用所学语文知识分析问题、解决问题的过程中建构知识体系、培养能力、提升素养;三是加强考教衔接,依据高中课程标准命题,降低机械刷题收益,引导中学教学回归课标教材、回归课堂教学[6]。高考制度一头连着基础教育,一头连着高等教育。对前者来说,高考是基础教育教学的“指挥棒”,既是“风向标”“瞭望塔”,又是“牵引机”“助推器”。对后者来说,高考则决定着高校能否科学公正合理地选拔合适的人才,也决定着国家自主培养拔尖创新人才的质量。新时代考试内容改革,既要充分发挥选拔区分功能,又要彰显育人目标,有助于检验立德树人成效,促进学生德智体美劳全面发展。这就要求高考命题从主要考查学生对知识的记忆理解转向考查运用所学知识分析问题和解决问题的能力,改变单纯重视分数的量化考核方式,增加描述性、应用性、情境化的综合素养评价,将终结性评价与形成性评价相结合,外在评价与自我评价相结合,发挥考试评价正确引导、有效提升教育质量的功能[7]。二、高考语文考试内容改革的主要经验高考综合改革十年来,语文科考试内容改革坚持以习近平新时代中国特色社会主义思想为指导,注重考查关键能力、学科素养和思维品质,体现基础性、综合性、应用性和创新性,在指导思想、考查内容、试题命制、引导教学等方面探索和积累了不少成功经验和做法。(一)指导思想上,坚持立德树人新时代教育的根本任务是立德树人,高考的核心功能是立德树人,服务选才,引导教学。因而,高考语文始终坚持立德树人与人才选拔的有机统一。1. 发挥学科优势,彰显育人功能语文学科与德育、智育、美育具有密切关系,其德育方式多为间接德育[8],与社会现实联系也最为密切。高考语文具有政策性强、关注度高、社会影响大等特点,因而能够在考试内容方面充分发挥以文化人、以文育人的学科优势,围绕时代主题,不断改革创新。既立足于高考,又不局限于高考,统筹设计,精心选材,传递正能量,弘扬主旋律,追求真善美,聚焦时代主题,突出价值引领,春风化雨,润物无声。以作文题目为例,“中国关键词”“中华名句”(2017)、“世纪宝宝中国梦”“改革开放三步曲”(2018)、“热爱劳动从我做起”(2019)、“体育之研究”(2021)、“跨越再跨越”(2022)、“一花独放不是春”“故事的力量”(2023)等,或将中华优秀传统文化、革命文化、社会主义先进文化融入试题,或生动诠释习近平总书记关于德智体美劳全面发展、构建人类命运共同体、讲好中国故事等讲话精神,充分发挥高考语文命题的育人功能,产生了良好的社会效应和宣传效果[9]。2. 致敬英雄人物,厚植家国情怀今天的中学生是明天的筑梦者、圆梦者,也是中国式现代化的奋斗者、建设者,是中华民族伟大复兴的中坚力量。高考语文试题注重弘扬革命文化和社会主义先进文化,引导学生树立大格局、大视野,从“小我”走向“大我”,将个人理想融入国家民族未来发展之中。以阅读材料为例,有的选取英雄人物或民族精英的事迹,如民族英雄戴安澜(2015)、数学家吴文俊和一代通儒顾炎武(2016)、爱国实业家卢作孚(2017)、抗日英雄赵一曼(2018)、抗疫国医钟南山(2020)等;有的反映我国最新科技成就,如“墨子号”量子卫星(2018)、港珠澳大桥(2019)、神舟十号天宫课堂(2022)、“探月”工程(2024)等,致敬民族英雄,厚植家国情怀,激发学生的民族自豪感和科技报国热情,从而增强爱国意识,汲取精神力量,培养爱国情感,坚定文化自信。3. 运用创新理论,坚持培根铸魂为了充分发挥习近平新时代中国特色社会主义思想对当代青年的指导作用,近年来高考语文着眼全局,高擎思想旗帜,注重将党的创新理论巧妙融入试题,在语文能力考查中培根铸魂。例如,2022年的语文试题《加快构建中国特色哲学社会科学》和2023年的《谈谈调查研究》《携手同行现代化之路》《文明因交流而多彩文明因互鉴而丰富》等均反映了这一趋势。习近平总书记曾多次以毛泽东的《论持久战》为例,提出要善于进行战略思维,善于从战略上看问题、想问题。2024年的信息类文本阅读要求学生谈谈《论持久战》对“看问题、想问题”的启示,理解并运用文中体现的思维方法,引导学生在分析问题和解决问题时从全局、长远和大势着眼,反映了命题者的创新智慧和设题匠心[10]。(二)考查内容上,注重基础知识,突出关键能力在考查内容上,高考语文始终围绕着阅读和写作,坚守语文立场,体现学科特点,注重基础知识,突出关键能力,追求语文教育教学的本然,从而给中学语文教学以正确引导和价值导向。1. 注重基础知识,强调语言运用语文是学习国家通用语言文字运用的综合性、实践性课程,语文课是基础课、工具课,也是综合素养课。培养语言文字运用能力是语文教学职责所系,也是高考语文始终不渝的价值追求。比如,标点符号是语言文字运用中最重要的基础知识,曾一度退出高考语文试卷。从2019年开始,标点符号又重新回归高考试卷,如2019年全国Ⅱ卷考引号,2020年全国Ⅰ卷和新高考Ⅰ卷考破折号,2023年全国甲卷和新高考Ⅰ卷都考了标点符号,但考查的内容、载体和设题方式极具创意。例如,2023年新高考Ⅰ卷中的题目:“对文学作品来说,标点标示的停顿,有时很有表现力。文中有两处画横线部分,请任选一处,分析其中的逗号是怎样增强表现力的。”两处画横线部分指的是老舍小说《骆驼祥子》中的“可是他低着头,咬着牙,向前钻”和“闭住口,半天,打出一个嗝”。由以往考查标点符号的具体使用,转向考查标点符号在文学作品中的特殊修辞功能,显然更有助于引导教学注重语文基础知识和语言文字运用[11]。2. 聚焦核心素养,考查关键能力《普通高中语文课程标准(2017年版2020年修订)》(以下简称“高中语文课标”),将语文课程的正确价值观、必备品格和关键能力凝练为四大核心素养,即语言建构与运用、思维发展与提升、审美鉴赏与创造、文化传承与理解[12]。高考语文考试内容改革以选才育人的核心价值为引领,以语文核心素养为导向,以阅读与写作能力为关键,以语言、文学、文化等必备知识为基础[13]。具体落实到试卷上,则通过现代文阅读、古诗文阅读、语言文字运用和写作考查学生的六大关键能力,即阅读理解能力、信息处理能力、应用写作能力、语言表达能力、独立思考能力和综合运用能力[14]。例如,2023年全国卷的一道语言文字运用题,阅读材料是张志公《说工具》中三位语文教师对成语“破釜沉舟”的不同讲法,题目创设给小学生讲成语的情境,要求从“卧薪尝胆”“庖丁解牛”“一鼓作气”中任选一个,借鉴文中第三位教师的讲解方法,拟出讲解要点。这显然不再是考查记忆理解能力,而是考查阅读理解、语言表达、独立思考和综合运用等关键能力,着眼于考查学生的思维过程、探究过程和解决问题的能力水平,以引导语文教学激发思考、引导探究、指导做事。这类题目不能靠死记硬背,也不能单凭机械刷题、题海战术,更不能指望猜题押题,而是需要平时多读书、勤思考、多练笔、多实践,增强学语文、用语文的自觉意识,积极主动地开展阅读鉴赏、表达交流、梳理探究等语文实践,培养分析问题、解决问题的能力。3. 注重探究能力,激发创新思维近些年的语文试题注重以好奇心、想象力、探究欲为中心,增强启发性、探究性和开放性,尤其是批判性思维和辩证思维,引导学生培育科学精神,提高逻辑思辨能力、形象思维和创新思维能力,这是对语文关键能力的综合运用,也是拔尖创新人才的必备品格。以作文为例,全国卷“幸存者偏差”(2018)、“疫情中的距离与联系”“如何为自己画好像”(2020)、“人·技术·时间”(2023)、“答案与问题”(2024),上海卷“坚硬、柔软与和谐”(2015)、“探索陌生世界与好奇心”(2023)等题目,没有指向性观点,思辨性强,开放空间大,价值导向多元,学生可以从多个角度思考,从不同层面进行阐发,写出自己的联想、认识和思考。试题鼓励有创意地构思和个性化表达,可写性强,也有利于规避模仿、宿构和套作。作文材料贴近时代生活,贴近社会现实,贴近考生实际,不在内容理解上设置阅读障碍。通过材料的阅读、理解、构思与提炼,激发学生的创造性思维,考查其发现问题、分析问题、解决问题的能力。(三)试题命制上,创新题型设计,规避机械刷题在试题命制上,高考语文注重贯彻落实课标精神,创新题型设计,规避机械刷题,这成为高考语文一贯的价值追求。1. 紧贴课程标准,引入复合文本《义务教育语文课程标准(2011年版)》首次提出“阅读由多种材料组合、较为复杂的非连续性文本”[15]。全国卷从2013年开始就以“相关链接”的形式,将非连续性文本阅读引入高考语文试题。实用类文本阅读“垃圾分类”(2017),直接以三则含有文字和图表的非连续性文本形式呈现。语言文字运用题中,“瑶族村三日行”(2014)考图文转换,“保护地球水环境”邮票(2015)考信息提炼加工,既创新了文本形式,也体现了大数据、多媒体和自媒体时代信息类文本阅读的特征。文言文阅读材料,则变以往的单一文本为复合文本。2023年全国新课标Ⅰ卷的文言文阅读材料分别选自《韩非子·难一》和《孔丛子·答问》,内容上紧密关联,聚焦于赏罚问题,展现了法家和儒家主张的差异以及两家立论驳论的交锋。内容常见而文本出新,反映了命题者主动适应中学语文教学实际,增强试题时代性、科学性和创新性的追求。2. 创新题型设计,降低机械刷题收益高考语文加强创新题型设计的力度,降低机械刷题收益。例如,2023年的古诗文名篇名句默写有一道题是:“小刚在他创作的历史小说《正气歌》中写道:文天祥月下独步于江边,眼前壮阔的景象使他不禁吟诵起前人的写景名句______”。这是一道应用型默写题,填入的诗句可以是课本上学过的,也可以是课外积累的,只要符合设定情境即可。答案是开放的,考查重点由固定篇目的记忆理解转变为中华优秀传统文化素养的积淀。该题符合课程标准要求,也给喜爱古诗词的考生更多的作答空间,引导考生平时多积累,多参与语文实践活动,培养自觉的审美意识和高尚的审美情趣,并在真实的语言情境中加以运用,有助于规避死记硬背和机械刷题现象[16]。(四)引导教学上,优化情境设计,加强教考衔接高考语文注重优化情境设计,加强教考衔接,使考试内容改革与新课改、新教材改革同向同行,引导中学生拓展阅读的宽度、表达的厚度和思维的深度广度,促进高中育人方式改革落地落实。1. 加强情境设计,突出语文实践高中语文课标在“学业水平考试与高考命题建议”中指出,考试、测评题目应以具体的情境为载体来设计典型任务[12]。试题以典型任务为考查内容,增强了开放性和应用性,也体现了语文课程的实践性特点。2024年全国甲卷的语言文字运用题,设置了一个生活中常见的“患者—医生”交际情境,考查特定语境下识别和提取必要信息,并根据语境和对象进行表达交流的能力,答题时需注意自述者的身份、交流的对象和目的等,是对所学知识的综合运用,体现了语言表达运用实践的本质特征[17]。这种设计传达的理念是无应用即无学习,无应用情境则无能力考查,有助于引导一线教学扭转功利化倾向,将功夫下在提高课堂质量、夯实知识基础、培养能力素养上,从而发挥高考命题对中学语文教学的正确引导作用。2. 贴近教材教学,强化教考衔接高考语文注重贴近教材教学,回归课堂,回归教学,强化教考衔接,与语文教育教学改革同向同行。曾几何时,高考语文命题为了适应语文教材“一纲多本”,曾有意规避教材,客观上造成了学过的不考、考的又没学,导致一线教师“重考试轻教学”“重复习资料轻教材”“教学跟着高考转”等现象。教师只能戴着“镣铐”跳舞,因为如果不这样教,学生、校长和家长都不会答应。近年来,高考语文有意识扭转这种现象,主动贴近教材教学,勾连教材内容,呼应教学实际,体现教-学-考的有机衔接。例如,鲁迅和海明威的作品在中学语文教材中多次出现,早已为学生所熟知。2019年和2020年的语文阅读试题分别采用了鲁迅的《理水》和海明威的《越野滑雪》,题目“中国的脊梁”勾连初中所学鲁迅的《中国人失掉自信力了吗》;“露出水面的八分之一”“大量留白”呼应高中所学海明威《老人与海》的“冰山理论”,所设题目只是对中学语文教学相关内容的引申与拓展。2023年语文全国新课标Ⅰ卷有一道题目要求就陈村《给儿子》一文写文学短评,直接改编自统编高中语文教材必修上第三单元的学习任务“学写文学短评”。该任务说明为初学者提供了切实可行的指导,如抓住感触最深的地方展开评论,善于聚焦、抓住小切口等。题干中给出的甲、乙两组不同的关键词,也正契合了这样的指导方向。中学语文教材选入了毛泽东的《纪念白求恩》《反对党八股》《中国人民站起来了》《改造我们的学习》等,2024年新课标Ⅰ卷信息类阅读题以《论持久战》与教材内容相呼应,落实高中语文课标中的“把握作者的观点、态度和语言特点,理解作者阐述观点的方法和逻辑”,以及“学习表达和阐发自己的观点,力求立论正确,语言准确,论据恰当,讲究逻辑。学习多角度思考问题。学习反驳,能够做到有理有据,以理服人”等要求[12]。这些试题,贴近教学实际,关注学生语文生活,无疑体现了衔接勾连教材的命题立意,反映了高考语文回归教材、回归课堂教学的匠意,以教定考、以学定考,必然发挥以考促教、以考促学的“指挥棒”作用。不仅在考查内容层面与课标、教材紧密衔接,更在能力、素养层面深度契合,引导一线教师依标教学,用好教材,夯实学生知识基础,提高学生能力素养。三、对高考语文考试内容改革的未来展望与建议该书通过以上回顾与梳理,不难看出,十年来的高考语文命题蹄疾步稳,始终坚持守正创新,求新求进。每一点变化,都对中小学语文教育教学改革产生深远影响,发挥了正向的“指挥棒”作用。但是,毋庸讳言,高考语文改革还存在一些问题,如理论研究不够、有的题型连年变化给一线教师教学带来困惑、对教考衔接的辩证认识不足、语文命题专业化水平有待提高等。特别是在中国式现代化建设的宏观背景下,高考语文如何适应国家拔尖创新人才自主培养的新形势新要求,更加精准地履行立德树人、服务选才、引导教学的责任使命,回应社会各界对高考考试内容改革的关切,如何在考查学生的好奇心、想象力、思辨力和探究欲上进一步提高试题质量,真正实现从“考知识”向“考能力素养”、从“解题”向“解决问题”转变,是高考语文内容改革面临的新挑战,考验着相关专家的命题智慧和设计技巧,未来高考语文考试内容改革要在四个方面下功夫。(一)加强高考语文命题的理论研究目前,高考语文命题理论研究不足,与高考在整个教育系统中的重要地位不相匹配。一方面,由于高考命题工作具有特殊性,实际参与者不能发表有关高考命题的论文或著作,限制了他们的研究兴趣。另一方面,高考牵涉万千莘莘学子的前途命运,高考复习备考形成一个巨大的产业,充满商机和诱惑,吸引着各路“高考专家”蜂拥而至,于是各种复习备考资料铺天盖地,有的甚至言之凿凿地预测来年的命题方向,真正有价值的学术研究却不多。其实,像高考语文这样关系国计民生的重大课题,完全应该像对待教材那样,作为国家事权予以重视,组织一支高水平的国家级队伍,开展全面深入系统的研究与实验。例如,高考语文如何更好地履行为国选才育人使命,站稳立德树人、培根铸魂、启智增慧的核心立场,发挥好“指挥棒”效应;如何更科学地掌控效度、信度,合理控制难度,提高区分度,服务高校选拔拔尖创新人才和国家人才战略;如何更好地引导教学,通过科学化、差别化、人性化的试题设计,降低题海战术、机械刷题收益,扭转语文教学的功利化倾向,让那些真正热爱读书、勤于思考、乐于表达的学生得高分,更高水平地实现教-学考的有机衔接统一;全国统一高考如何与高中学业水平考试以及中考和谐共生、相辅相成;如何从语文教育大家和语文名师的理论实践中汲取经验启示;如何进一步突出语文学科的综合性和实践性;如何使作文阅卷更好地控制评分误差,引导学生端正文风;如何兼顾各地区经济社会发展和教育教学水平差异优化命题,使不同地区所使用的试卷更具有针对性;等等。所有这些问题都需要开展深入细致的研究与调查,并及时将相关研究成果吸收到高考语文命题实践中。(二)把握高考语文的“变”与“不变”高考语文有“变”的一面,也有“不变”的一面。高考的指导思想、考试理念、考查形式、试题材料、试题命制,必须体现国家教育考试现代化的精神,贴近拔尖创新人才选拔实际,落实课程教材改革要求,与新课标、新教材同向同行,与时俱进,应该变,也必须变,否则将落后于时代和社会。同时,高考语文也有不变的一面。不管考试理念、考查形式如何变化,高考语文总还是语文学科的一种考试,必须立足在中国大地上,着眼于“语文”二字,即考查考生语文学科的必备知识、关键能力、学科素养和核心价值。1978年高考作文是阅读《速度问题是一个政治问题》一文,然后缩写,引起一片哗然,有的人甚至误以为高考不考作文了。时任语文命题组组长的朱德熙教授在《光明日报》撰文表示:“中学语文教学也好,高考语文试题也好,都得服从中学语文教学的根本目的,这就是培养学生的阅读能力和写作能力。如果说高考试题是指挥棒,那么语文教学的目的就是更大的指挥棒。看清了这一点,中学语文老师就没有必要从每年的高考题去探测风向了。风向已经定了,是不会变的,会变的只是具体的考试方法。只要我们致力于从根本上提高学生的阅读能力和写作能力,就可以‘以不变应万变’,不管高考出什么样的题目,我们的学生都能应付自如。”[18]对此,叶圣陶给予极高评价:“入学考试要考语文,目的是什么呢?目的是测验考生的阅读能力和写作能力,也就是理解语文的能力和运用语文的能力,看他们够得上够不上大学所要求的水平。这一回的作文题兼顾这两方面,因此我认为值得称赞。”[19]近十年来的高考语文命题实践,尽管在文本选择、题型设计上发生了许多变化,但仍基本上坚持把阅读能力和写作能力作为主要考查目标。根据时代发展和社会实际,题型设计固然要求新求变,但有的题型连年变化,难免会给一线教师教学带来诸多困惑。因此,应尽量避免此种现象,坚持考查语文学科素养和关键能力。这应该成为高考语文的优良传统,也是守正创新的坚实基础。(三)重视高考对教学的反拨作用在基础教育课程、教材、教学、教师、考试评价诸要素中,高考处于教育教学链条的末端,但却是打通“最后一公里”的重要一端。高考语文固然要主动靠近新课标、新教材,与新课改同向同行,同频共振,同时又必须看到高考对教学所具有的反拨功能,发挥高考对教学的导向、诊断和矫正作用,用高考语文考试内容改革“倒逼”教学改革。比如,前述要求拟出成语讲解要点的语言文字运用题,无疑将会“倒逼”中学语文教学转向激发思考、引导探究、指导实践上来。高考语文应在题目的综合性、实践性、开放性、探究性上下功夫,重点考查运用所学知识分析问题、解决问题的能力,激发学生的好奇心、想象力、探求欲,在阅读、思考、表达等语文实践中积累知识、增长见识。(四)打造一支高素质、专业化、创新型的命题教师队伍从某种意义上说,高考具有社会分层的功能,因而成为党中央关心、社会关注、群众关切的民生话题。语文学科又是统考科目之一,特别是作文题目,在所有高考试题中赋分最高,更是备受关注,万众瞩目。一篇选文、一道题目,甚至一篇作文的评分,稍有不慎,就会登上热搜,成为焦点,甚至酿成舆情事件。命题教师责任重大,使命光荣,与此相应的是压力大,难度也大。不仅需要具有高度的政治责任感、精湛的业务水平、高超的命题技巧,还要有较强的创新能力和保密意识。既要吃透国家相关政策精神,熟悉课标教材教学,又要甘当无名英雄。提高高考语文命题的专业化水平,关键在于打造一支高素质专业化创新型命题教师队伍。命题教师的选拔、培养、造就,需要国家政策的支持,更需要社会各界共同努力。当前,推进教育现代化、建设教育强国,已成为我国教育改革的主旋律。在这一背景下,高考语文应认真思考如何实现现代化,不忘本来,吸收外来,面向未来;如何既甄别选拔又激励成长,让学生有获得感,教师有成就感,家长有满意感。这些问题是时代之问,也是未来之问。唯其如此,方能守正创新,接续前行,行稳致远。参考文献略。

温红博 等:K-means聚类方法在中考标准设定中的信度分析

2024-09-04

原创 中国考试 中国考试 2024年09月02日引用格式:温红博, 刘先伟, 姜有祥. K-means聚类方法在中考标准设定中的信度分析评[J]. 中国考试, 2024(8): 69-78.作 者温红博,北京师范大学中国基础教育质量监测协同创新中心副主任,副教授。姜有祥,北京师范大学中国基础教育质量监测协同创新中心在读博士生。摘 要:中考的标准设定是划分考生分数等级的统计技术,其质量高低关系到分数报告的可靠性和公平性。从我国东、中、西部地区各随机抽取3000名考生的中考数据,探讨K-means聚类方法在中考标准设定中的信度问题,从经典测量理论、概化理论和项目反应理论三个角度开展分析。结果显示,K-means方法在分数等级为四或五级时分类信度符合测量学标准,而对低分段的考生分类信度高于高分段的考生。总体来看,K-means方法适用于较低分数等级的标准设定中,可为中考标准设定提供分界分数的参考。关键词:中考;标准设定;K-means方法;聚类分析一、问题提出与研究背景初中学业水平考试(以下简称“中考”)是义务教育阶段结束时的重要考试,其成绩是学生毕业和升学的重要依据。2016年,教育部发布的《教育部关于进一步推进高中阶段学校考试招生制度改革的指导意见》明确指出,已经实行初中毕业、高中招生两考合一的地区要统一规范为初中学业水平考试,把《义务教育课程设置实验方案》所设定的全部科目纳入初中学业水平考试的范围[1]。近年来,各地积极推进两考合一改革,中考的标准参照性测验属性更为明显,考试成绩以等级形式呈现[2-3]。衡量学生是否达到某一水平,必然涉及心理与教育测量中的标准设定(standard setting)问题。鉴于中考等级分数与学生业、升学息息相关,如何在招生考试中实现准确、可靠、公平的标准设定,成为考试研究者和工作者关注的重要问题。(一)标准设定的方法标准设定是指在测验分数分布中,划出一系列分界分数(cut-off score),将考生分为两类或更多的有序类别[4-5]。有效的标准设定有利于在等级分数中体现学生真实水平,进而帮助修正考试误差导致的不公平[6]。在国内当前的中考实践中,普遍采用操作简单的固定比例法或固定分数法的标准设定方法[7-9]。固定比例法指规定分数排名处于某一百分比区间的考生划分为同一等级,固定分数法指规定分数在某一分数区间的考生划分为同一等级。目前,80%以上的地区采用固定比例法[3],以深圳市为例,该市2024年中考标准设定为固定比例法:A+(5%)、A(20%)、B+(25%)、B(25%)、C+(20%)、C(5%)[10]。理论上,标准设定需要学科专家依据课程框架将考生需要达到的知识水平(内容标准)转换为量化的测验分数(表现标准)[11],如采用常见的Angoff法、Bookmark法和Nedelsky法进行标准设定[12-13]。Angoff法于1971年开发,其首先要求专家估计临界水平考生在每个题目上的正确作答概率(介于0~1),然后对单个专家在每个题目上的正确作答概率求和,再对所有专家的概率和求平均,得到专家组的表现标准的量化水平[12]。Bookmark法是一种基于项目反应理论(item response theory, IRT)的方法,其首先按照题目难度从低到高生成有序项目册,然后要求专家将标签(内容标准)放在题目册中的两个题目之间,或者放置在临界水平考生可能会答对的最后一个题目上,再利用标签位置的题目难度估算出对应的测验分数,最后对所有专家的分数求平均作为标准设定的划界分数[4]。虽然Angoff法和Bookmark法都需要依赖于专家的主观判断,也因此受到一些研究者的批评[14-15],但仍然被广泛应用于各种大规模测评任务[13]。此外,Nedelsky法与Angoff法类似,不同之处在于Nedelsky法针对多项选择题开发,要求专家判断临界水平的考生认为哪些错误选项不是正确答案,并据此估计临界水平考生的正确作答概率[16]。(二)标准设定的信度从现代测量理论的角度出发,无论是哪种标准设定方法,其分类结果必须经过实践的检验,测试机构有责任提供有关标准设定质量的证据[17-19]。基于不同的测量框架,现代测量理论为标准设定的质量检验提出不同的信度指标。根据经典测量理论(classical test theory, CTT),研究者提出了标准参照测验的信度指标,即决策一致性(decision consistency)和决策准确性(decision accuracy)[20-21]。决策一致性指考生在两次平行测验中被归为一类的程度,决策准确性指根据考生在考试中得到的观察分数所作的分类决定与根据真分数所做决定的一致性,二者均使用与分类一致性有关的p值和kappa系数进行评价[22-23]。根据概化理论(generalizability theory, GT),针对不同的等级分数线,提出了相应的等级线决策信度Φ(λ)估计方法,以此估计各个能力水平点的测量信度[24-25],评价各个分界分数对被试进行分类的可靠性和稳定性。根据IRT,一般使用信息量来描述测验对考试能力水平估计的信度,对于标准设定质量可以使用分界分数点上的信息量指标进行评价[26-27]。国内研究者对中考普遍使用的固定比例法和固定分数法的信度进行研究,发现两种方法的信度均一般,而对于这种高利害性考试而言需要进一步提升其信度水平[2-3]。从理论出发,测验分数分布受到测验、考生、地域等多种因素的影响,固定分数或固定比例的做法主观性强、缺乏科学论证,并不能充分体现考生水平差异,反而可能将相近能力的考生划分为两种等级,损害测验的公平性。虽然研究者提出一些依据专家判断的标准设定方法,如Angoff法、Bookmark法和Nedel⁃sky法等,但由于程序要求严格且专业人员匮乏而无法大面积推广。此外,这类方法也受到主观因素的影响。基于此,有必要积极探索在中考标准设定中,能够最大限度降低主观性的影响,同时兼具易用性、可靠性、有效性的标准设定方法。(三)聚类分析方法统计学中常用的聚类分析方法包括快速聚类法(K-means)、层次聚类法、基于密度的聚类算法、基于网格的聚类法等[28]。聚类分析方法能够根据数据分布特征将最相似的考生划分为一类,同时使不同类别考生之间差异最大化。利用聚类算法将参加考试的考生作为聚类对象,将考生在测验上的作答表现作为用于聚类的变量,就可以获得组间异质、组内同质的分类结果,实现教育实践中标准设定的基本目标[29]。以K-means方法为例,假设在一次中考中需要将考生划分为k个分数等级,考生作答数据会经历初始化、分配、更新和重复四个阶段。初始化阶段随机选择k个数据点作为簇(cluster)的中心,分配阶段将每个数据点分配到离它最近的中心,更新阶段计算每个簇的均值,并以此作为新的中心,最后重复分配和更新两个步骤,直到簇中心不再变化或达到最大迭代次数。这个分析过程获得的簇,就可以作为标准设定中划分的依据。在以往研究中,聚类分析法用于标准设定包括确定聚类变量、选择聚类算法、设定分界分数和评价聚类结果几个步骤和过程[29]。首先,一般选择与被试测验作答表现相关的特征作为聚类变量,包括分测验的分数、主要因子分或特定试题分数[30]。其次,常用于标准设定的聚类算法包括K-means法和层次聚类算法。其中,K-means法计算简单,运算较快,适合于规模较大的数据。再次,设定分界分数的方法包括边界组法(borderline group method)和对照组法(contrasting groups method)。边界组法指聚类结果中每一类视为边界组,取该组的均值或者中值作为分界分数;对照组法中,如果聚类结果中的某两个类是相互邻近的对照组,则取这两组测验得分重叠区域的中值或平均值作为分界分数[30-31]。最后,需要借助多种心理测量分析方法确定分界分数的可靠性。有研究者将聚类分析与传统的标准设定方法进行比较,发现其与外在效标的一致性程度明显优于传统的标准设定方法[32]。同样,Hess等的研究发现,聚类分析方法与Angoff法的结果具有高度一致性,但其在跨样本的稳定性上略显不足[33]。此外,也有研究发现聚类分析方法与依靠主观评定的方法在结果上有较大差异[34]。这些研究结果表明,聚类分析的适用情境和可推广性还有待进一步研究。将聚类分析融入中考标准设定的实践中,不仅能够为中考提供有效的统计学参考,还能进一步拓宽聚类分析的应用领域。基于此,本研究将探索采用聚类分析方法进行中考标准设定的方式,并利用现代测量理论中的CTT、GT和IRT理论检验聚类分析所产生分界分数的决策一致性、等级线决策信度和分界分数的信息量,以期为提升中考科学性和公平性提供参考。二、研究方法(一)研究对象本研究对某年的中考数据进行分层随机抽样,考虑到地区差异性,从我国东部、中部、西部地区的各选一个地市,然后从所选择的每个地市中各随机抽取3000份试卷作为分析对象。所抽取三个地区的试卷分别记作A试卷、B试卷、C试卷,三套卷的试卷结构如表1所示。其中,部分解答题中包含两个或两个以上的小题,表中总题量按照卷面的小题题目数量进行统计。(二)分析方法当前中考中,大部分地区使用的等级数为四、五或六级。基于此,本研究使用聚类方法将考生分别分为四、五和六个等级并实现标准设定,然后检验标准设定的决策一致性信度、等级线决策信度和分界分数的信息量。考虑到K-means方法具有计算简单,运算较快,适合大规模数据的特点,本研究使用K-means方法进行考生聚类,选取各试卷的所有题目作为聚类变量,并且为消除各题目的权重差异对数据做标准化处理[29-30]。由于缺乏边界组分类依据,研究使用对照组分类法确定各分界分数。具体而言,依据分类结果的标签将相邻类别的两个组视为对照组,取得分重叠区域的中值为分界分数。最后,综合运用CTT、GT和IRT对聚类分析法产生的分界分数的信度进行分析。在分析工具方面,使用SPSS提供的K-means法进行聚类分析,对于初始聚类中心的选择采用随机化方法。另外,使用BB-CLASS软件,计算分类一致性和分类准确性;使用Brennan等为GT开发的专用软件GENOVA计算等级线决策信度;使用Conquest2.0和ANOTE进行IRT分析。三、研究结果聚类分析中,以各题目为聚类变量将考生分别分为六、五和四个类别。依据分类结果标签,采用对照组法取相邻等级分数重叠部分的中位数为分界分数,所得三个测验的各分界点分数如表2所示。在此基础上,对聚类结果的信度进行检验,分析聚类结果的分类一致性、各等级线决策信度和分界分数的信息量。(一)CCT分析结果采用Livingston和Lewis提出的LL方法分别估计测验决策一致性和决策准确性的p值和kappa系数[22]。在本研究中,各测验采用六级、五级、四级进行聚类分析时,分类一致性和分类准确性如表3所示。有研究者建议对大规模测验的分类一致性的p值需高于0.7,kappa系数需高于0.6[22]。由表3可知,采用六级分类时,测验的决策一致性和决策准确性的p值均低于0.7,kappa系数低于0.6,未能达到大规模测验的要求;采用五级分类时,三个测验的决策一致性和决策准确性的p值高于0.7,kappa系数高于0.6,达到了大规模测验的基本要求;采用四级分类时,三个测验的决策一致性和决策准确性系数均较高,具有较理想的决策信度,对考生的分类信度较高。总体而言,采用五级和四级分类时,聚类分析结果具有较好的分类一致性,而采用六级分类时分类一致性较差。(二)GT分析结果GT的分析包括G研究和D研究,G研究依据研究设计分析各误差来源,D研究在此基础上讨论不同测量条件下测验的信度变化。有研究者建议基于GT的信度指标需要达到0.80[35],对于高利害性的大规模考试而言,概化信度指标达到0.85才能满足需求;理想情况下,决策信度达到0.90则说明决策信度质量非常好[36-38]。1. G研究结果本研究中变异的来源有考生(j),题目(i),考生和题目的交互作用(j×i)及残差。首先,通过G研究得到三个测验侧面随机交叉设计的变异分量估计值如表4~6所示。2. D研究结果在G研究的基础上,使用聚类分析法获得的分界线进行D研究,计算各分界点的等级线决策信度,结果如表7所示。据此可知,三个测验各分界分数的决策线信度均在0.70以上,并且大部分决策线信度大于0.85,总体而言测验的各分界分数具有较高的决策信度。此外,在进行聚类分析时,采用不同的等级数量进行分类,各测验在低分段的等级线决策信度均大于0.90,表明测验对低水平考生作出的等级判定信度较高;与之相对,部分试卷对高水平考生进行等级判定时的信度未达到可接受水平。进一步探讨等级线决策信度与题目数量的关系,发现随着测试题目数量的增加,各分界分数的等级线决策信度均持续提高。若确保测验的等级线决策信度达到0.80,题目数量至少需达到45道;若使测验各等级线的决策信度达到0.85,题目数量需要再增加一倍。(三)IRT分析结果在IRT的分析中,首先使用探索性因素分析进行单维性检验,按照特征根值大于1的标准来抽取因子。结果显示,试卷A共抽取3个因子,第一特征值与第二特征值的比值为6.57;试卷B共抽取4个因子,第一特征值与第二特征值的比值为6.27;试卷C共抽取3个因子,第一特征值与第二特征值的比值为4.87。三个试卷的特征根比值均大于3,可以认为测验符合项目反应理论的单维性假设。然后,使用IRT模型中的拓广分布评分模型拟合分析测验数据。对于标准参照测验的测验信息量,其分界分数θ0所处的位置应该使得测验有最大信息量,即测验精度最高[39]。有研究者提出,分界分数θ0与测验掌握比例π0之间存在转换关系:π0=在本研究中,将聚类分析获得的划界分数转换为掌握比例π0,然后利用IRT估计考生潜在特质水平,由掌握比例确定IRT中的分界分数θ0,最后计算分界分数处的信息量。分界分数处的信息量越大,信度越高。测验质量理想的信息量为25,质量一般情况下测验信息量需达到16,低于16则表示测验信息量较差[41]。研究结果发现,三个测验的测验信息量峰值分别为17.82、15.83、17.23,各分界分数对应的信息量如表8所示。结果显示,少量分界分数点的信息量达到了测验信息量为16的合格标准,大部分分界点信息量略低。此外,高分段的分界分数所对应的信息量远低于合格标准。结合IRT中信息量与难度水平的关系,即信息量在能力水平等于难度水平时达到最大值,高分段的测验信息量低,说明试卷难度较低,适合较低水平的考生作答。总体而言,大部分分界点的信息量远低于16,测验对大部分能力分界点考生的测量准确性较差,尤其是对于能力水平较高的考生,测验的信息量需要进一步提升。四、讨论与结论当前,国内初中学业水平考试统一采用等级分呈现考生水平,标准设定成为中考分数报告中不可忽视的环节。易用的、可靠的标准设定方法,对于我国中考考试质量的提升意义重大。本研究积极探索数据驱动的K-means聚类方法在中考标准设定中的可靠性,以期为实践者和研究者提供标准设定方法上的参考,为改进当前中考实践应用中主观性较强、可靠性不足的标准设定方法作出必要支撑。首先,从CCT角度来看,不同的等级数目下各测验的决策信度均存在较大的差异。采用六级分类时,测验的决策信度未能达到大规模考试的信度要求;而采用五级和四级分类时,测验达到了大规模测验的信度要求,决策一致性p值大于0.7,决策准确性kappa系数大于0.6。随着等级数目的降低,各测验的决策一致性和决策准确性均增加。考虑到各地区中考等级划分的类别数不一致,对于高利害性的大规模考试来说,中考的决策一致性有必要进一步提升。同时,根据已有研究结果,适当减少分类的等级数量和增加测验的题目数量有利于提高测验的分类一致性[20]。因此,各地区可采用四至五级的分界分数点以确保分界分数的分类一致性。其次,从GT分析结果来看,聚类分析的各等级线决策信度均大于0.7,大部分等级线的决策信度达到概化理论信度的可接受值0.8[35]。各测验在不同等级数目的情况下,最低分界分数所对应决策信度Φ1均大于0.9,具有非常理想的决策信度。其值远高于同一类别数下其他分界分数的决策信度,可以说明目前中考采用聚类分析法进行标准设定时,对低分段的考生进行等级划分具有较高的准确性,原因可能在于中考的题目主要集中于容易题目,更适合低水平考生的能力测量。有研究者建议基于概化理论的信度指标需要达到0.80[35],对于高利害性的大规模考试的概化理论信度指标达到0.85则能满足需求[36,38]。以此标准来看,采用聚类分析进行标准设定,56%的分界点的决策信度大于0.85,比例高于前人研究中的固定分数线法(47%)和固定比例法(53%)[2-3]。在聚类分析结果中,75%的分界点决策信度大于0.80,同样高于采用相似研究设计的固定分数线和固定比例的64%[2-3]。以GT的等级线决策信度看,聚类分析法进行标准设定的信度更高。此外,D研究结果表明,为使测验的各等级线决策信度达到高利害考试的最低要求0.80,最低题目数量约为45题;为了使测验的等级线决策信度达到大规模考试的理想要求0.85,现有中考题目数量几乎需要增加一倍,题目数量约为70题。然而,考虑到标准化考试的作答时间有限,且随着题目数增加信度可能出现边际效应,教育管理或命题人员可以从提升现有试卷结构内的试题质量入手,提高决策信度。最后,从IRT分析结果来看,聚类分析产生的部分分界分数点的信息量达到了测验信息量为16的合格标准,大部分分界分数点信息量略低,同样对于高分段的分界分数所对应的信息量远低于合格标准。值得注意的是,采用聚类分析进行标准设定,约有20%的分界分数对应的信息量达到了合格标准,而采用相似设计的前人研究中固定分数线法和固定比例法达到合格的比例约为8%和14%[2-3]。因此,在IRT信息量分析中,聚类分析相比当前中考实践中的固定分数和固定比例法依然具备一定优势。如果命题人员和考试机构能够适当增加IRT分界分数点附近的题目数量(如扩大难度分布范围),进一步提高试题试卷质量,对于提高该分界分数点的信息量将有较大改善。综合三种测量理论的分析结果来看,使用聚类分析法进行标准设定具有较高的质量,并且聚类分析具有较强的可操作性和简便性。尤其是在目前我国各地区教育资源不均等、无法满足专家判断法(如Angoff法和Bookmark法等)对专业技术人员和标准化程序严格要求的情况下,基于聚类分析确定分界分数值的方法应该被纳入中考标准设定的选项清单。同时,有研究指出聚类分析法与专家主观判断所设定的合格标准较为一致[33,42-43],因此聚类分析结果也可以作为各地区考试部门进行标准设定决策的必要参考信息。综合CTT、GT和IRT对于我国中考试题的分析结果,本研究得出以下结论:1)当分类数较少(四或五级)时,标准设定的信度达到可接受水平,当分类数较多(六级)时,分类信度降低;2)对于高水平考生的分类信度低于低水平考生,主要由于试卷整体难度较低,对高水平考生的测量信度不高。因此,本研究建议在中考试题的命制中,提高试题质量,适当增加难度较高试题的数量,以提高对高水平考生的分类信度。另外,在使用聚类分析方法进行中考标准设定时,建议分类数控制在五级及以下。当然,聚类分析法虽然回避了对专家主观判断的完全依赖,但同样存在其局限性和不足。首先,聚类分析具有样本依赖性,需要样本具有充分代表性、测验编制良好等[44]。其次,聚类分析对数据量具有一定的要求,当被试样本数太少时,其聚类结果的稳健性较差[43]。再次,聚类分析的结果具有一定的强制性,即无论数据分布如何,它总能够将聚类对象分为指定的若干类。由于聚类分析具有的强制性和常模参照性,在对聚类分析结果进行解释时,教育实践者必须持谨慎态度,需要进一步借助内容专家进行判断和验证,最好能够获得外部效标以便全面评价聚类结果[29,32]。最后,聚类分析属于纯粹的数据驱动方法,未对测验的内容标准进行考量,在实际使用中还需要结合专家判断方法灵活使用,如将聚类分析得到的划界分数作为参考信息,让学科专家基于此信息对划界分数进行人工调整。参考文献略。

高帆 赵志群:大规模职业能力测评背景问卷的研制与检验

2024-09-04

原创 中国考试 中国考试 2024年 08月28日 16:03 北京引用格式:高帆, 赵志群. 大规模职业能力测评背景问卷的研制与检验[J]. 中国考试, 2024(8): 60-68.作 者高帆,女,浙江科技大学德语国家研究中心助理研究员。赵志群,男,北京师范大学教育学部教授,博士生导师。摘 要:大规模测评为循证导向的教育研究、实践和决策提供了数据基础。能力测评与问卷调查是大规模测评采集数据的主要方法。参考背景问卷研发的国际经验,本研究构建了我国职业院校学生职业能力发展影响因素的理论模型,整合了环境、活动、个人三个层次和学校、校企、企业三种类型的因素,提出由学生背景、活动特征、组织环境三部分构成的问卷框架。在此基础上设计了包括职业动机、实习实训支持等十二个量表的综合问卷。预测试和大规模测评的数据分析显示,问卷信度和效度良好。调查问卷可用于诊断技术技能人才培养过程中存在的问题和整体把握职业教育体系的状况与特征。关键词:大规模测评;背景问卷;学习背景;职业动机;职业能力大数据时代,教育评价范式发生了很大变化,国际大规模测评(international large-scaleassessment,ILSA)数据对循证导向的教育研究、实践和决策发挥愈加重要的作用。ILSA通常采用能力测评和问卷调查两种方法搜集数据,籍此全面、深入地分析现状、诊断问题并提出对策。与普通调查问卷不同,能力测评背景问卷功能复杂、内容多样、主题广泛[1]。为了提高测评质量,ILSA一般都有相对成熟的测评工具和背景问卷开发流程,积累了丰富的项目实践经验,并建立了庞大的数据库,为教育效能研究创造了条件。然而,国际上开展大规模职业能力测评的研究较少,相应的背景问卷调查相对滞后。在我国职业教育改革创新发展进程中,科学评价职业教育体系的效能,探究职业教育质量的影响因素,需要大规模测评提供数据基础,为研究、教学、管理提供科学依据。围绕职业能力开展的测评和调查不仅要符合职业教育规律,也要适合我国职业教育的实际需要。本研究借鉴国际学生评价项目(PISA)、国际数学与科学学习趋势项目(TIMSS)、国际阅读素养进展项目(PIRLS)的经验,结合大规模职业能力测评项目(competence measurement,COMET),研制适用于我国国情的职业能力测评背景问卷。COMET是世界上首个在多个国家得到实际应用的大规模职业能力测评工具[2]。本研究通过检验大规模测评背景问卷的质量,分析职业院校学生学习背景的基本特点,为拓展大规模职业能力测评的监测和诊断功能,开展职业教育效能研究提供支持。一、能力测评背景问卷的理论框架(一)能力测评背景问卷的基本框架社会建构主义学习观是ILSA设置背景问卷的理论基础,强调学习发生在人与环境相互作用的文化活动参与过程中,了解人与环境的作用机制有助于提升教育效能,因此背景问卷本质上是调查学生的学习背景[3]。以PISA为代表的大规模学生能力测评项目在设立之初就设置有背景调查问卷。随着评价技术的发展,特别是第三代评价理论提倡对评价结果进行判断和反馈,背景调查问卷不再满足于解释测评结果,也用于揭示教育体系要素的复杂关系。例如,教师教学国际调查(teaching and learning international survey,TALIS)就是一个完全由教与学相关背景因素构成,没有学业成就变量的项目,旨在了解参与国家或地区初中教师的背景情况。问卷内容取决于能力测评的目的、研究问题和测评框架。多元的测评目的、复杂的研究问题和拓展的测评框架使ILSA背景问卷包含的要素越来越广泛。问卷框架用于梳理各要素的关系,多采用以下三种结构[4]:一是根据不同问卷技术适应的问题类型,把测量内容分为事实类、态度类和行为类问题;二是当测评超越学科范畴的认知能力(非认知能力或者跨学科认知能力)时,学习背景作为学校教育和校外学习的交集,分为校内、校外和校内外三个部分;三是以国际比较和跨文化研究为目的的大规模测评借助更为复杂的框架进行不同层次的比较,如基于教育系统的多层次结构划分成个人、家庭和同辈、学校和班级、社区或地区要素,或者从学习过程角度出发把背景问题分成原因、过程和结果。ILSA常见的问卷内容要素包括学校和学生背景、教与学的过程、学校政策和教育管理、教育成果[3]。学校和学生背景包括学校的类型、规模、区域和资源,班级的规模、教师资质,学生的人口统计学特征和学情特征等,在问卷中主要采用封闭式问题。教与学的过程是背景问卷的核心要素,具体包括学校氛围、教师支持、出勤率、学习时间和课外学习等,涉及学生、教师、校长和家长等不同问卷,潜变量类采用量表,显变量采用封闭/半封闭式问题[5]。学校政策和教育管理包括教育体系特征、父母参与、教师职业发展等学校和地区层次的变量,常见于校长问卷。教育成果包含学校层面的升学/就业率、辍学率,学生层面的认知/非认知能力和素养。教育效能研究的背景-投入-过程-产出模型(context-input-process-output,CIPO)由美国国际教育成就评价协会(International Association forthe Evaluation of Educational Achievement,IEA)于20世纪60年代为研制大规模能力测评项目提出。其优点是涵盖学业成就及其广泛的背景因素[3]。无论测评认知或非认知能力、学科或跨学科能力,该模型都提供了概念框架。CIPO模型的缺点是不能直接作为影响机制探究的理论模型[3],此模型忽略了背景要素之间的相互联系,很难从纵向角度分析发展趋势。即便如此,CIPO模型仍是目前国际能力测评背景问卷普遍采用的概念框架,对PISA、TIMSS、PIRLS背景问卷的框架结构都产生了重要影响。PISA2009首次明确背景问卷应遵循教育体系的多层次结构[6],PISA2012引入CIPO模型,将投入、过程和产出作为横向维度纳入多层次结构(学生、班级、学校、国家/系统)形成矩阵式框架[7],PISA2015和PISA2018以学科相关和学科一般两类取代原来的多层次结构,结合学生背景、过程和非认知成果形成新的矩阵式框架[8]。鉴于CIPO模型简单分类带来争议,PISA2022在沿用纵向分类的同时,在横向维度上将指标分为学生背景、学生特征、教学与学习、学校环境与背景、系统环境与背景五类主题,共计21个模块[9]。TIMSS和PIRLS项目侧重监测教育趋势,背景问卷历年变化幅度不大。TIMSS1995基于CIPO模型提出学生被期望学习什么、谁来实施教学、如何组织教与学三个基本问题,结合学生、班级、学校、教育系统四个层次建立概念框架[10]。经不断完善,TIMSS2023明确了包含学生、班级、学校、家庭、社区及国家背景的五层次框架,并开发学生、家长、教师、校长和课程专家问卷搜集背景因素[11]。PIRLS项目以家庭、学校(班级)和社区及国家背景的交互模型形成概念框架[12-13]。2011年,PIRLS和TIMSS的问卷均开发了学生、家长、教师、校长和课程专家问卷搜集数据[14-15],同时PIRLS问卷增加了家庭背景主题。总的来说,PISA问卷比TIMSS和PIRLS问卷的结构更复杂,TIMSS和PIRLS问卷包含的学习背景要素比PISA问卷更精细[3],三个项目均遵循教育系统内部的多层次结构。(二)建构我国职业能力测评背景问卷框架职业能力测评背景问卷的基本任务是搜集解释职业能力差异的学习背景因素。职业能力是一种跨学科、与工作世界紧密相关的领域特殊性能力。ILSA经典项目多以学科能力或者核心素养为测评内容,很少有针对职业能力进行大规模测评的项目。大规模职业能力测评需要攻克跨职业的标准化、测量结果的职业效度、测评成本控制等难题[16]。COMET测评以诊断职业能力发展状况为目标,使用背景问卷搜集与职业能力发展相关的因素。COMET测评最先在德国实施,初始背景问卷基于德国双元制教育体系制定,以教与学的质量、人员支持、环境氛围、校企合作四个主题共八个维度形成双元制质量模型[17]。双元制质量模型鲜明的跨组织性,体现了双元制职业教育体系的特点。职业学校是我国职业教育体系的最重要组成部分,也是职前阶段职业教育的主要形式。探讨影响学生职业能力发展的背景因素不仅要遵循职业能力发展的规律,也要处理好学校学习与企业实习的关系。从社会建构主义和情境学习理论出发,职业学习是学生通过参与工作世界中的社会实践实现职业知识的社会化建构过程。CIPO模型的背景、投入、过程和产出分别对应主体条件、客体条件、教与学的活动和学生能力。德国的双元制质量框架侧重考查教与学的活动和环境条件,涵盖学校、企业、校企合作三种情况。两个模型都反映了过程因素,即教与学的活动是ILSA背景问卷的核心内容。我国职业学校学习和企业实习的场所、内容、组织、环境和条件,既相对独立又相互影响。职业能力测评背景问卷应考虑学校和企业的跨组织交互。本研究以情境学习理论为指导,以双元制质量框架为参考,结合教育体系的多层次结构,构建我国职校生职业能力发展影响因素的理论模型,见图1。本模型把影响因素分为环境/组织-活动-个人三个层次和学校-校企-企业三种类型,强调学校和企业协同育人的重要性。学生、教师、企业人员、校企合作构成的四角区域框定教与学的活动空间。学校和企业活动的媒介分别为课程和任务,学生在活动中的身份分别为学生和实习生。在学校,学生学习专业课程;在企业,实习生完成企业的工作任务。学生是ILSA测评问卷最重要的调查对象。鉴于职业教育体系的复杂性,以及平衡影响因素的广泛性和问卷调查的有限性,本研究专门开发学生问卷。根据理论模型,确定学生问卷框架由学生背景、活动特征、组织环境三个部分构成,见表1。二、职业能力测评背景问卷的开发(一)问卷设计问卷框架首先应明确相关变量,接着将变量逐一操作化处理[18]。显变量使用封闭式选择题,态度、看法、观点类潜变量则采用李克特五点量表,从“完全不认同”到“完全认同”依次记为1~5分。职业能力发展需要跨组织的学习环境,学生背景不仅包含学生个人、家庭、学校及班级背景,还增加了反映实习背景的变量,包括实习单位类型、实习时长和实习机会来源。活动特征包括主观条件(动机)和客观条件(教与学的特征)。内源性动机不仅是教与学活动的目标,也是条件。促使学生对职业形成稳定的意向和情感,是高质量职业教育的独特价值,因此,应重视职业情境促进人格发展的因素[17]。学生以“准从业者”身份学习或工作的动机,不仅源自绩效驱动和兴趣激发,也涵盖了对职业和企业的认同感与承诺。按照职业教育学研究的认同感、承诺和工作道德的扩展理论模型[17],以及工业组织心理学开发的“承诺”[19]和“动机”[20]量表,职业动机量表不仅包含与具体专业无关的、普遍性的工作兴趣和绩效导向,也涵盖基于“准从业者”身份的认同感与承诺。有组织的教与学是学生能力发展的重要基础。职校生不仅接受学校的专业教育,同时也在虚拟或真实的工作环境中通过工作实践学习[21]。相关变量包括理论与实践学习的人员支持与互动、教学组织和教学方式。理论学习变量参考PISA问卷和课堂环境调查问卷WIHIC[22],包括教师支持、教学创新、差异化教学、课堂互动;实践学习变量参考COMET测评德国背景问卷,包括实习实训支持、任务特征、工作过程导向。组织环境关注校企整体环境对职业能力发展潜移默化的影响,特别是学校对实践的鼓励和企业对学习的重视,这些跨界复合要求对创造力培养至关重要[23]。组织环境的变量有学校实践氛围、企业学习氛围和校企合作,量表设计主要参考组织创新氛围的成熟量表[24]和COMET测评德国背景问卷[25]。(二)预测试问卷质量控制包括信度和效度两个方面[18]。针对内容效度,邀请三位专门进行职业能力测评研究的教授、三位高职院校教师、五位职业技术教育学专业研究生共11人审阅问卷的相关性、全面性、科学性和合理性,并根据反馈意见进行修订。为进一步完善问题选项、检验量表信效度并避免表述歧义[5],采用方便性抽样,对广西等五个省份八所高职院校学生进行预测试,通过网络发放并回收问卷1323份,有效问卷861份(占65.1%),选取其中具备实习经历的441份(占47.7%)对所有量表进行项目分析,再对多维量表进行因子分析。把选取数据随机平均分成两份(220和221),对任务特征量表和校企合作量表分别进行探索性因素分析和验证性因素分析。任务特征量表的结果与基于工作特征理论的理想结构基本一致。为了提高“综合性”的聚合度,删除因子负荷较低的题项。虽然校企合作量表的探索性因素分析结果符合理论模型,但是验证性因素分析结果显示两个维度的区分效度不佳,因此取消了维度划分。其他单维度量表根据项目分析结果,删除表现不佳的题项,见表2。三、基于大规模测评的背景问卷调查工业和信息化部委托服务型制造研究院和北京师范大学对服务型制造业急需的五类专业32所职业院校1541名学生进行大规模职业能力测评,经预测试修订的问卷成为此次大规模测评背景调查的工具。调查采用网络问卷形式。鉴于毕业生具备更全面的实习实训经历,对影响职业能力发展的企业环境有更深入的了解,可以提供完整的背景问卷信息,本研究选择其中961名应届毕业生数据检验问卷质量,并分析学习背景特点。(一)信度检验经统计分析,职业动机和任务特征各维度内部一致性α系数分别在0.85和0.89以上。工作道德量表的信度为0.87,除此以外其他单维度量表的信度高于0.90。多维度量表的合成信度以及同质性系数可以反映分维度能否代表总概念[26]。职业动机各分量表的合成信度高于0.80,总量表合成信度为0.97,量表总体同质性系数为0.65;任务特征各分量表的合成信度高于0.90。总量表合成信度0.97,量表总体同质性系数为0.93,各项数据说明量表信度良好。(二)效度检验职业动机量表基于斜交因子模型得到的CFA结果最佳,RMSEA=0.081,CFI=0.93,TLI=0.92,SRMR=0.046。任务特征量表基于双因子模型得到的CFA结果最佳,RMSEA=0.080,CFI=0.97,TLI=0.96,SRMR=0.030。任务特征的全局因子影响大,故职业动机量表采用分量表报告法,任务特征采用总量表报告法。表3和表4说明以上量表的区分效度和聚合效度良好。所有单维度量表的CFA的结果为RMSEA=0.051,CFI=0.96,TLI=0.95,SRMR=0.025,整体结构效度良好。效标效度方面,以COMET测评总分为标准,分析了各变量与测评总分的相关性。不同个人、学校和实习背景学生的职业能力存在显著差异,校企合作与测评总分相关系数r为0.13,p<0.01,其他变量与测评总分相关系数r在0.27~0.46,p<0.01。工作道德、差异化教学、课堂互动、学校实践氛围与测评总分的相关不显著。除工作道德以外的其他四个反映学校环境的变量与职业能力不相关,这与理论设想不符。无论职业能力水平高低,学生对这些变量的评价普遍较低,说明当前职校环境非常缺乏这些要素,调查数据无法反映其影响。(三)特点分析职业动机对职业能力的发展至关重要。职业认同与承诺、企业认同与承诺、工作兴趣、绩效导向表示四种不同来源的动机,和工作道德一起,共同反映职校生在内外因素共同作用下的职业意向。图2是职业动机与工作道德构成的雷达图示例。其中每类专业的数据采用标准化Z分数,正值意味着该类专业拥有高于总体平均值的数值,反之则意味着该类专业数值低于总体平均值,这样处理可以让不同专业具有可比性。由图2可知,各专业学生对相关职业的意向呈现鲜明的差异:自动化类为绩效导向的动机特征,伴有低水平的工作道德;机械类为兴趣导向的动机特征,伴有高水平的工作道德;汽车类的职业动机和工作道德均属于样本总体的平均水平;计算机类为认同与承诺导向的动机特征,伴有低水平的工作道德。类似的差异也被COMET国际比较研究证实[17]。COMET测评将能力水平由低到高分为名义性能力、功能性能力、过程性能力和整体设计能力,能力水平越高,能力发展越全面,创造性地完成综合任务的能力越强。图3是不同能力水平学生对相关背景因素的评价情况。学生对差异化教学、学校实践氛围、课堂互动和校企合作的评价普遍偏低,反映了目前职校在这些方面投入较少。一线教师面对既定的教学安排,如果没有配套支持很难进行差异化教学和深度互动;学校缺乏建设工作导向的学习氛围的意识。学生缺少问题相关背景也会影响其调查效果,比如无实习背景的学生缺乏校企合作的直接经验,降低了相关题项的回答的信度。不同水平学生对教学活动过程的评价差异明显,高水平者对实习实训的活动特征、人员支持、工作导向的评价明显高于较低水平者。这次调查对象包含现代学徒制试点单位和职业教育创新项目院校,部分学生参与到有效的职业教育创新实践,其中高水平学生对专业课老师的支持和创新也给予较高评价。不过,在更复杂的多水平线性模型中,以行为频次为测量依据的“教学创新”对职业能力有负面影响[27],这提示人们只有当教学改革切实提升了学生学习质量时,才能发挥积极作用。在本次调查样本中,中低水平学生认为企业学习氛围较差,多数学生对学校实践氛围和校企合作的评价都较低,体现了学生对校企环境氛围的“隐性”合作感知较低,反映其对优质实习实训机会的渴望。四、研究展望COMET测评证明了背景问卷调查不仅能诊断技术技能人才培养过程中学生、教师、学校和企业等不同方面存在的问题,还有助于整体把握跨职业院校和职业教育体系的状况与特征。目前,大规模职业能力测评背景问卷的研究依然面临调查对象的群体多样性和利益相关方多种诉求的现实问题。职业能力测评面向高度异质性的学生群体,不同教育背景、培养模式都会导致学生对问卷调查相关信息的理解程度有巨大差异。比如,当前企业实习集中安排在高年级,低年级学生基本没有任何实习经历,无法完成问卷中有关实习的题项。而研究发现,实习经验对职业能力发展具有重要影响[27]。职业能力测评的背景问卷有必要提高精细化水平,即根据学生的总体分布特征划分子群,在确定背景问卷基本结构及内容前提下,增设适应特定子群体的专门题项,以提高问卷的针对性和灵活性。职业能力测评及背景问卷的调查结果不仅受到教育管理部门和职业院校的关注,也深受企业的关注。同为职业教育的利益相关者,他们对职业能力测评及背景调查的诉求有所不同。教育管理部门希望通过能力测评的纵向追踪功能掌握职业院校人才培养质量的变化趋势,而职业院校希望利用能力测评提供的横向诊断数据制定下一步改进计划,企业则希望借助能力测评横向诊断和纵向追踪的多方信息了解职业院校的人才培养质量及发展潜力。背景问卷为配合职业能力测评,应兼顾横向诊断和纵向追踪的双重功能,如大型国际教育质量监测项目一样,建立系统化和结构化的问卷框架,明确问卷调查的主要内容和关键维度,形成稳定的基础变量,在此基础上建立可持续观测的重点变量,为准确的统计分析提供数据基础。参考文献略。

陈睿智 等:科学教育测评中人机交互试题的发展、特征与启示

2024-09-04

原创 中国考试 中国考试 2024年08月30日 14:51 北京引用格式:陈睿智, 谢晓雨, 罗莹. 科学教育测评中人机交互试题的发展、特征与启示[J]. 中国考试, 2024(7): 79-88.作 者陈睿智,北京师范大学物理学系在读硕士生。谢晓雨,北京师范大学物理学系讲师。罗莹,北京师范大学物理学系教授(通信作者)。摘 要:面对科学教育测评中素养和能力考查的新要求,传统测评工具的短板愈发明显。在信息技术快速发展的背景下,人机交互试题在科学教育测评领域得到广泛应用,成为备受关注的新型测评工具。相较于传统的书面试题,人机交互试题已具有明显的动态特征,表现在设问呈现方式、试题模拟环境和考查过程三个方面。将人机交互试题引入我国科学教育大型考试,不仅能够弥补传统测评工具的短板,更有助于科学教育智慧考试的开发与应用。关键词:人机交互试题;科学教育测评;教育评价改革测评是科学教育中不可或缺的重要环节。作为科学教育测评中广泛使用的测评工具,试题在基础教育阶段的科学教学中具有导向作用。目前,我国科学教育测评采用的试题以书面形式呈现的传统试题(以下称之为“书面试题”)为主,试题以文本、图表等形式展示给学生,要求其书写作答。然而,书面试题仅能够在静态环境中进行考查,已不能满足高质量评价中学生科学素养和能力发展状况的新需求。近年来,我国先后发布了一系列文件,力求推进教育测评工具的创新,提出利用人工智能、大数据等现代信息技术创新评价工具,充分运用人工智能等前沿技术方法开展人机交互测试等[1-2]。采用何种新型测评工具助力科学教育的高质量发展,已成为我国科学教育测评改革必须面对的重要问题。分析、借鉴国际经验并从中获得有益启示是破解该问题的有效途径之一。在信息技术高速发展的浪潮中,国际科学教育测评领域也孕育了新的变革。作为变革的标志性成果之一,人机交互试题不仅为动态考查学生在真实问题情境中的能力素养表现提供了新手段,还可以收集学生作答过程的丰富信息,大幅提高测评的信效度。人机交互试题是一种具有开拓性、能满足科学教育测评新要求的新型测评工具,更是科学教育测评实现数字化、智能化不可缺少的工具。本文对科学教育测评领域中人机交互试题的起源与发展进行梳理,通过分析、总结国际科学教育测评中人机交互试题的特征,以期为我国科学教育测评的改革与发展提供参考。一、人机交互试题的起源与发展将计算机技术引入教育测评领域的设想最早可追溯至20世纪60年代,如Green曾提出计算机具有作为学习和测评工具的潜力[3]。此后三十年间,研究者们的探索主要集中在开发、研究课堂环境下的计算机化测试系统,使用计算机考查学生的陈述性知识,此过程中计算机将提供适当的反馈,如作答正误判断与解析、在线学习材料、针对性的问题集[4-6]等。这些计算机化测试系统各具特色,但受技术和理念所限,没有充分发挥计算机的优势,试题主要限于选择题和填空题,学生与计算机间的交互限于简单的点击。自20世纪90年代起,随着计算机技术的迅猛发展,通过人与计算机交互开展测评的思想逐步走入科学教育领域。最初,研究者力图用计算机模拟真实世界中的任务,考查书面试题未深入考查或不易考查的能力或技能,如以计算机模拟电路“黑箱”问题的任务考查学生的科学思维、以计算机模拟显微镜的任务考查学生的显微镜操作技能[7-8]等。随着计算机逐步普及和相关研究成果的积累,美国教育考试服务中心(ETS)的Mislevy等于21世纪初提出用“证据中心的设计”(ECD)理论指导大规模测评中的计算机模拟任务开发的开创性方法[9]。自此,人机交互试题开始走入大规模科学教育测评项目。2006年,国际学生评估项目(PISA)率先尝试应用人机交互试题开展基于计算机的科学素养测评,当时只有丹麦、冰岛和韩国3个国家以附加测试的形式完成[10]。美国教育进展评价(NAEP)紧随其后,于2009年的科学成就测评中尝试引入人机交互试题[11]。人机交互试题在这两个大规模科学教育测评项目中的成功实践,标志着人机交互试题进入快速发展阶段。21世纪以来,科学教育研究人员对人机交互试题的研究逐步深入。以美国西教(WestEd)的Quellmalz团队、美国伍斯特理工学院的Gobert团队、我国台湾师范大学的吴心楷团队等为代表的科学教育研究团队,针对人机交互试题的效度验证、应用潜力、设计原则与方法等展开了多方面深入探讨。例如,Quellmalz等提出基于计算机模拟的新一代科学教育测评设计原则,基于该原则开发了72道涉及中学生物课程的人机交互试题,通过1836名学生参与的实证研究发现,相较于呈现静态图像或动画的试题,人机交互试题更能有效考查学生的科学探究能力[12];吴心楷等在基于多媒体的科学探究能力测评中开发了分别涉及中学物理、化学、生物、地理内容的共114道人机交互试题,并基于1066名学生参与的实测对这些人机交互试题进行了效度验证[13]。随着研究成果的不断丰富,人机交互试题逐步发展成为大规模科学教育测评工具的重要组成部分。PISA于2015年首次正式采用人机交互试题开展科学素养的大规模测评[14],并在PISA2018、PISA2022继续沿用该测评工具[15-16]。澳大利亚国家科学素养测评项目(NAP-SL)于2015年开始采用人机交互试题进行科学探究技能的测评[17],并于2018年对这些试题进行多方面的更新迭代,以满足测评的更高要求[18]。NAEP于2019年于全面引入基于情境(scenario-based)的人机交互试题[19]。国际数学与科学趋势研究(TIMSS)也于2019年向基于计算机的测评过渡,并探索人机交互试题的使用[20]。随着人机交互试题在大规模科学教育测评项目中的普及,这种试题的潜力和优势逐渐得到各领域研究者的认可与发掘。在新一代信息技术的加持下,人机交互试题正朝场景真实化、评判智能化、考查个性化的方向发展。有研究者已尝试设计三维界面、游戏化的人机交互试题,学生可在三维虚拟世界中自主探索与表达,其在完成任务过程中采取的行动、策略将作为评分的重点依据。例如,美国哥伦比亚大学的Baker等开发的“村庄出现了变异青蛙”试题要求学生在不同场景中自主开展科学调查,学生作答各问题的结果及操作过程可作为推断其科学探究能力水平的依据[21]。也有研究者尝试将自动评分技术引入人机交互试题,对开放性问题进行自动评分,如美国佐治亚大学的Zhai等开发了具有自动评分功能的科学建模人机交互试题[22]。还有研究者设计的人机交互试题能基于学生的反应提供自适应信息,学生每作答一问后,计算机即时对作答结果进行评分,并基于评分结果有针对性地提供额外提示信息或下一问[23]。从上述发展历程可见,人机交互试题已在国际科学教育测评领域的实践中获得认可,并有逐渐推广与普及的趋势。相较之下,我国对人机交互试题的研究与应用起步稍晚,除台湾师范大学吴心楷的研究团队外,目前只有少数研究者在本土化人机交互试题的设计、开发与应用上进行了初步尝试[23-24],且较为分散、未成体系。如何从国际上有关人机交互试题的研究与实践中汲取经验,设计、开发服务于我国科学教育测评的人机交互试题,亟须得到更多重视与投入。二、人机交互试题的动态特征在相关研究与大规模教育测评中,人机交互试题拥有多个名称,如交互式单元(interactiveunit)、问题解决与探究任务(problem solving andinquiry task)、交互式计算机任务(interactive computer task)和基于模拟的任务(simulation-basedtask)等。这也是科学研究在一个领域发展初期出现的必然现象。尽管名称不同,但其拥有共同的区别于书面试题的核心特征,即学生与试题间借助人机交互技术实现信息的动态交互。本文将这一核心特征称为人机交互试题的动态特征。动态特征充分体现了人机交互试题的优势,赋予其弥补书面试题短板的潜力。梳理国际科学教育测评项目中出现的种类丰富的人机交互试题,以及相关的人机交互试题研究,分析其中人与计算机动态交互的方式方法,可以将人机交互试题的动态特征归纳为逐步呈现设问、探索模拟环境、计算机模拟考查三个方面。(一)逐步呈现指向真实问题解决的设问书面试题的所有设问均印刷在同一张试卷上,学生可以随意调整阅读各设问的顺序。人机交互试题在设问呈现方式上具有动态特征,表现在围绕一个源于生产生活或科学技术工程的真实问题的解决过程设计多个设问,这些设问不同时呈现,具有逻辑和时间顺序[25-26]。在逻辑上,这些设问是循序渐进、密切关联的,共同指向问题的解决。在时间上,每个设问通常放置于一个页面中,学生在回答该页面的设问后,才能点击进入下一页面的设问,且通常不能返回查看或修改先前已提交的内容。回答这些设问的过程,犹如在按照指定顺序经历科学活动,并逐步解决真实问题。以TIMSS2019的“农场调查”(Farm Investiga tion)试题[20]为例,该试题要求学生按页面次序经历探究过程,帮助农场主人乔治调查哪种动物偷吃了花园里的植物,图1为试题的情境介绍界面。试题要求学生首先提出两条乔治应寻找的线索(如留下的毛发、留下的脚印、植物上的咬痕),之后按照试题提供的指定顺序逐个排查线索,最后确定是奶牛吃了花园里的植物。解题过程中,学生需要依次回答调查过程中涉及的问题。再如,NAEP2019的“自行车的材料”(Bicycle Materials)试题[19]也提供了明确的问题解决路径:要求学生依次探索不同金属的密度、硬度等属性,并根据探索的数据进行决策,选定应使用哪种金属作为自行车车架的材料。在设问呈现方式上,人机交互试题逐步呈现问题解决过程,且不允许随意返回修改作答。这使人机交互试题得以避免后续设问对前序设问的提示作用,从而能够考查学生面对真实情境问题解决的第一反应。(二)要求学生在对模拟环境的探索中获取解题信息如今的人机交互试题已嵌入具有强交互功能的计算机程序,不仅做到了提供仿真的模拟环境,更实现了让学生在模拟环境中进行探索。这使得人机交互试题具有另一个动态特征:试题要求学生对试题模拟环境进行探索,从而获取解决问题所需要的全部信息[27]。这样的信息提供方式与书面试题大为不同,学生需要依据题目的引导,从试题模拟环境的动画、视频或交互式控件中获取回答问题所需的全部信息。人机交互试题在模拟环境方面的动态特征有两种实现方式。一是要求学生自主展开探究与收集证据,且学生收集的信息是依据其反应而定的,可能获得有助问题解决的信息,也可能获得偏离问题解决的信息。例如,PISA2015的“在炎热天气下跑步”(Running in Hot Weather)试题[28]的第二问,要求学生判断饮水对跑步者发生脱水和热休克风险的影响,图2为该问题的界面及作答示例。学生需要依据题意在右侧交互式控件中选定气温、空气湿度以及是否饮水,点击“运行”按钮后,交互式控件将给出选定条件下跑步者的出汗量、失水量与体温的数据。经历上述探索过程后,学生才能获得答题所需的全部信息,由此判断得到饮水会降低脱水的风险而不会降低热休克的风险,从而完整回答该问题。二是要求学生操控模拟环境中的按键、控件等后,依据试题给出的反馈信息再进行作答。例如“在炎热天气下跑步”试题的第二问,在学生获取答题所需的全部信息后,不仅要在界面左侧的问题中选出正确选项,还需要从界面右侧的数据表反馈的数据中选出能支撑答案的数据。相较面对书面试题时学生仅需进行阅读、计算和书写等认知操作的局限,人机交互试题在模拟环境方面的动态特征极大丰富了学生的认知操作种类。学生需要在模拟环境中自主探索以获取信息、辨别信息的有效性,并依据获得的信息回答问题。认知操作种类的丰富让人机交互试题更贴近真实的问题解决过程,直面学生的真实能力与素养。(三)借助计算机模拟实验考查科学探究的动态过程为适应科学教育测评考查素养和能力的更高要求,人机交互试题特别在考查过程方面具有明显的动态特征:在试题的模拟环境中,借助计算机模拟实验考查学生在科学探究过程中的行为表现,重点关注其在实验设计、实验证据获得、实验数据分析等科学探究的关键步骤中的所有反应[29-30]。这些反应既包括学生在科学探究过程中的正确行为表现,还有学生的尝试性行为表现。试题对科学探究过程的考查类型可分为两类。一类是试题设计了一个或多个具体情境中的多变量系统模型,要求学生操作交互式控件,通过采取设置变量参数、运行模拟实验、观察实验结果等步骤探查系统中不同变量间的关系,从而深入考查其设计探究实验、获取实验证据、解释实验数据等的能力。图3为吴心楷团队开发的“照相机”试题[13]的第一问界面。该试题设计了一个由光圈范围、快门速度、拍摄照片亮度三个变量组成的系统模型,要求学生操作模拟照相机,探究光圈范围、快门速度对拍摄照片亮度的影响。再如,Quellmalz团队在“模拟科学家”项目中开发的一道试题[12]设计了一个由水藻、虾和鳟鱼的数量组成的系统模型,要求学生通过模拟实验探究湖泊生态系统中这些生物体的数量之间的相互关系。对科学探究过程的另一考查类型是借助交互式控件模拟科学仪器的使用,要求学生使用该模拟仪器完成探究过程的某些环节,以考查学生使用实验仪器、进行实验操作并得出实验数据的能力。例如,NAEP2019的“清澈的水体”(Clear Water)试题[19]模拟了一种用于测量水样的透明度的仪器“塞氏盘”的使用,图4为该试题其中一问的界面,学生可以在模拟量筒中添加或移出水样,并观察量筒读数和塞氏盘的变化情况。当量筒读数为“8cm”时,从水样上方恰好看不到塞氏盘上的黑白界限(如图4所示),因此需要在数据记录表中将该水样的透明度记录为“8cm”。再如,TIMSS2019的“农场调查”试题[20]分别模拟了刻度尺和显微镜的使用,前者要求学生使用屏幕上的刻度尺工具测量动物脚印的长度,后者要求学生调整显微镜的焦距以观察动物的毛发。这类计算机模拟实验极大拓展了实验情境,让数据采集和分析不局限于学校的实验室,而是通过计算机软件直接呈现结果和趋势,不仅为呈现实验室无法实际达成或直接观察的现象(如忽略阻力的现象、需要慢速或加速播放的现象、微观现象)提供了可能,而且为实操考查实验中读取数据、操作仪器等过程性能力提供了便捷途径。应用计算机模拟实验作为背景设计的人机交互试题能够跳出学生记忆中的实验空间,并结合过程性数据的采集真实反映其科学探究能力。三、借鉴与启示21世纪以来,在国际科学教育测评领域中人机交互试题快速发展的同时,我国也对计算机测评进行了诸多思考与尝试[31]。人机交互试题的起源与发展及其具有的动态特征,作为他山之石,对我国基础科学教育测评的改革与发展具有两个方面的启示。(一)人机交互试题有效弥补传统测评工具短板当前,书面试题仍是我国国家教育质量监测(NAEQ)[32]等基础科学教育大型测评项目使用的主要工具。然而,书面试题大多偏重于考查学生在知识层面的掌握情况,难以着眼于学生的高阶思维能力考查。原因在于学生在作答书面试题时拥有的自主探索空间非常有限,难以展现其在真实问题情境中的表现;且大多数学生在作答书面试题时只会在卷面上留下最终结果,只有少数会留下作答过程的推理痕迹[33],这些推理痕迹往往又较为模糊、潦草,对其进行分析具有一定难度,从书面试题采集的最终结果中难以探查学生在解决问题的过程中采取的策略和方法。人机交互试题的动态特征则为弥补书面试题的短板提供了潜在解决方案,可以作为书面试题的替代工具。针对书面试题限制学生自主探索空间的问题,人机交互试题的设问呈现方式与模拟环境向学生呈现了一个近乎真实的问题情境,为其提供了自主探索的机会。人机交互试题围绕同一问题的解决过程展开多个设问,学生在任务驱动下以目标为导向逐步完成试题,仿佛在经历一个解决真实问题的过程;同时,人机交互试题能基于学生的操作指令提供相应的反馈信息,其并非在一开始便向学生披露提供所需的全部信息,而是要求其自主探索收集信息,尤其对于试题中呈现的计算机模拟实验,学生不仅能在计算机屏幕前自主观察模拟自然世界或实验室环境下的科学现象,还可以重复进行实验与试错,经历完整且近乎真实的科学探究过程。人机交互试题在提供一个贴合真实的动态交互式场景的同时,也能以一种标准化、结构化的方式深入考查学生在真实问题情境中的表现。针对书面试题通常只能采集到最终结果的问题,学生作答人机交互试题的过程中,计算机可以自动采集学生所进行的操作与行为信息,并将这些数据全保留地记录在日志文件中[33]。过程性数据蕴含了丰富、多源的评价证据信息,以一种易获取、低成本的方式重现学生的思考与推理过程,具有打开问题解决过程“黑箱”的潜力,为深入评估学生的高阶思维能力提供了可能。目前,PISA、TIMSS、NAEP等大规模教育测评项目尚未将过程性数据纳入科学测试的评分证据中,但已有研究尝试使用过程性数据进行高阶思维能力的评估并证实了其可行性[29,34-37]。过程性数据也具备识别猜测获得答案的样本的潜力,如将作答时长低于平均作答时长10%的样本[38],或是未探索模拟环境便得出答案的样本判定为猜测获得答案的样本。对于错误作答或无作答的样本,过程性数据则可以帮助考查学生是否经历了尝试过程,如是否进行了相关的交互行为或是在问题界面用尽了所有时间[20]。此外,过程性数据还可以揭露学生回答问题过程中的错误环节,帮助分析、诊断学生的易错点。(二)智能化测评工具助力智慧考试发展当前,我国基础科学教育中实施考试的方式仍以组织学生集中作答书面试题为主。在信息科技革命席卷全球的背景下,推进与发展智慧考试是我国基础科学教育迫在眉睫的任务之一[39]。数字化、智能化的测评工具为智慧考试的推进与发展提供了重要途径,是智慧考试的重要组成部分,主要具有三个方面的优势与潜力。第一,在命制试题环节,智能化测评工具可以通过丰富的交互方式和多媒体资源降低命题主题的限制,拓宽范围角度,激发命题人员更多的灵感,引导其突破传统书面试题的限制进行试题命制。第二,在组织与实施考试环节,考试机构人员仅需将试题上传至指定网络平台,在指定时间开放作答,学校在相应时间组织学生用计算机登录平台进行作答,学生作答后,计算机自动进行评分。这种线上传输试题、计算机自动评分的方式可以省去印制和分发试卷、组织教师阅卷等流程,不仅能降低长周期、大规模开展考试的成本,提高考试的施行效率,还可以有效规避教师评分标准不一致、评分者漂移等问题,最大限度降低评分误差。第三,在评价学生环节,智能化测评工具不仅可以自动收集丰富的多模态过程性作答信息,为多维度、全方位、立体化分析、评价学生能力提供重要的数据支撑,同时也为自适应考试的引入和个性化评估的实现奠定基础,计算机根据学生作答情况自动匹配适合的下一设问或试题,并在学生完成考试后自动生成个性化结果报告与学习建议,使考试结果最大化地服务于学生学习的改进与提升。人机交互试题已成为当前国际科学教育测评领域迅速发展的研究热点,我国应借鉴国际科学教育测评领域的先进经验,结合我国实际情况设计、开发、应用人机交互试题。同时,全面开发数字化、智能化的测评工具,助力我国智慧考试的发展,实现对智慧教育的全方位服务。将人机交互试题引入我国本土,全面引进我国大型科学教育考试,可能还需要充分考虑与应对多方面的挑战。例如,在试题开发方面,人机交互试题的开发通常需要试题设计者和计算机编程者两个角色共同完成,开发过程不仅要求试题设计者在把握考查内容的基础上提出合理的交互需求,而且要求计算机编程者能够充分理解试题设计者的设想,双方往往需要多轮次的沟通才能得以确定,首次开发人机交互试题的时间周期可能较长、成本可能较高。在试题的稳定性方面,学生作答人机交互试题的表现可能受其计算机素养水平等因素的影响,如何尽可能减小这些无关因素的参差对测评结果的影响,提高考试公平性,还亟待更深入的研究。在测评工具的有效性方面,人机交互试题与传统书面试题的考查方式差异较大,如何确保人机交互试题与传统书面试题测量相同的心理特质,保障新型测评工具的效度,也是一项核心的技术问题。在数据分析与处理方面,学生作答过程产生的过程性数据体量庞大、形式新颖、结构复杂[40],如何充分合理地利用过程性数据,从中提取有效信息,从而实现对学生高阶思维能力的准确评估,是未来应长期关注的问题。在硬件支持方面,我国已初步完成各层次学校的计算机配备,但为保障开发的测试系统与计算机设备能良好适配,在网络带宽、电子设备更新等方面还需要加大支持与投入力度。参考文献略。