首页    >    教育资讯
王正青 杜丽玮:国际基础教育质量监测的数字化转型:实践路径、支持保障与经验借鉴

2024-08-14

原创 中国考试 中国考试 2024年08月14日 15:01 北京引用格式:王正青, 杜丽玮. 国际基础教育质量监测的数字化转型:实践路径、支持保障与经验借鉴[J]. 中国考试, 2024(8): 89-110.作 者王正青,男,西南大学教育学部教授。杜丽玮,女,西南大学教育学部在读博士生。摘 要:当前世界各国基础教育质量监测主动适应数字发展潮流,纷纷走上数字化转型之路。部分发达国家以数字化测试为手段创新监测形式,以数字素养为对象拓宽监测内容,以数字化诊断为载体建立早期预警系统,并以数字化系统为工具进行常态化监测,全链条推进数字化转型。在推进转型的过程中,各国从战略规划、教师数字素养、技术支持、组织建设等多方面建立起支撑保障体系。立足我国基础教育质量监测实际,在推进数字化转型过程中应健全多元监测主体,优化监测流程,开发与利用新型数字监测工具,并有效规避智能技术潜在风险。关键词:基础教育;质量监测;数字化转型;智能化监测;国际趋势基础教育是国民教育体系的基石,开展质量监测是世界各国提升基础教育质量的通行做法。根据联合国教科文组织的调查数据显示,全世界已有148个国家和地区开展了基础教育质量监测[1]。其中,美国国家教育进展评估(National Assessment of Educational Progress, NAEP)构建了全国评估和州评估相结合的基础教育质量监测体系,加拿大各省(地区)形成学校-省级-国家国际四级基础教育质量监测体系[2],欧盟各国则从学校外部评估、内部评估和学生学业成就评估三个层面构建了基础教育质量监测体系[3]。随着大数据、云计算、人工智能、区块链等新技术在教育领域的广泛应用,各国基础教育质量监测积极顺应时代潮流,主动走上数字化转型之路。我国教育部印发的《国家义务教育质量监测方案(2021年修订版)》指出,要充分运用人工智能与大数据、脑科学等领域前沿技术方法,开展计算机网络测试、人机交互测试等,引领义务教育质量监测的方法创新[4]。基于此,本文重点梳理世界各国推进基础教育质量监测数字化转型的行动路径、支持保障及主要经验,以期为推动我国基础教育质量监测改革与迭代升级提供借鉴参考。一、国际基础教育质量监测数字化转型的实践路径当前,各国主要通过引入数字化测试、培养数字素养、加强数字化诊断、构建数字化系统等方式,全面创新监测形式、拓宽监测内容、建立早期预警、搭建监测基座,进而实现全链条推进教育质量监测的数字化转型。(一)以数字化测试为手段创新监测形式数字化测试是基础教育质量监测实现数字化转型的重要形式,其具备快速、灵活、准确等特点,能够为有效把握教育质量提供及时监测与反馈。目前欧洲一些国家正将数字技术融入国家考试,其中捷克、丹麦、爱沙尼亚、法国、瑞士、挪威等10个欧洲国家已在初等教育阶段的国家考试中使用了数字技术;保加利亚、法国、意大利、立陶宛、波兰、瑞典、芬兰等20个欧洲国家在高中教育阶段的国家考试中使用数字技术[5]。在采用新技术支持教学实践的数字化转型背景下,数字化测试为基础教育质量监测提供了新路径,具体包括以下三种类型。一是建立数字化考试系统。以芬兰为例,该国面向即将进入大学的高中毕业生举办全国性入学考试,并从2016年秋季开始逐渐转向数字化考试,科目涉及地理、哲学和德语,并于2019年春季实现科目全覆盖。为帮助学生适应数字化考试,芬兰入学考试委员会(Matriculation Examination Board)开发数字化课程考试系统Abitti,提供包括设计考试、编写测试题目、施考、评估等四项主要内容的完整考试流程[6]。丹麦建立Testogprøver和Netprøver两大考试系统,用于中小学生数字化考试[7]。二是扩大数字化测试范围。数字化测试不仅适用于以升学为目的的终结性评价,也适用于阶段性评估其他能力或课程。例如,立陶宛运用数字技术开展数学和科学素养的过程性测评;泛加拿大评估项目(The Pan-Canadian Assessment Program)借助数字工具对加拿大八年级学生的阅读素养、数学素养和科学素养进行阶段性评估。三是推动测试转向自适应形式。澳大利亚全国读写与计算能力评价项目(National Assessment Program-Literacy and Numeracy)是针对三、五、七、九年级学生开展的全国性年度评估计划。该项目于2022年转为数字化测试,采用自适应测试方式,具有自动评分、反馈垂直等值、个性化报告等功能[8]。法国通过自适应测试在线平台,评估六年级学生的读写能力和计算能力,以及六年级和九年级课程中明确规定的全部核心能力。(二)以数字素养为对象拓宽监测内容数字素养是使用数字技能、数字媒体时所需的相关认知、技能、态度、行为的能力,被欧盟委员会列为终身学习的八项关键能力之一。《欧洲公民数字素养框架》(European Digital Competence Framework for Citizens)将快速发展的数字社会中公民所需的知识、技能和态度分为五个素养领域,即信息和数据素养、沟通与协作、数字内容创建、安全防范、解决问题[9]。在数字技术赋能基础教育质量监测的转型过程中,数字技术不仅是提升监测质量的手段,也成为数字化环境中监测学生知识技能运用及情感发展的重要内容[10]。一是在学校课程中融入数字素养内容。各国中小学课程普遍增加了提升学生数字素养与技能的内容,并开设计算机科学、信息通信技术和数字素养等课程。这类课程通常单独开设,或是融入其他学科以实现跨学科整合。其中,保加利亚、捷克、希腊、波兰、葡萄牙、冰岛等11个国家在初等教育阶段单独开设了提升学生数字素养的必修科目;捷克、爱尔兰、西班牙、法国、意大利、瑞典、立陶宛等10个国家将数字素养整合进其他必修科目中[5]。二是在大型教育质量监测项目中增加数字素养内容。国际阅读素养进展研究项目(Progressin International Reading Literacy Study, PIRLS)自2016年开始转向数字化评估,并启动基于计算机的在线阅读评估(ePIRLS),其多模态文本为读者提供丰富生动的交互体验,注重评估读者文本整合能力、获取和使用数字信息的能力[11]。经济合作与发展组织(OECD)在其主导实施的PISA2021测评项目中,将计算思维增加到数学素养测评中,PISA2025“在数字世界中的学习”(learning in the digital world)测评更加关注学生使用计算工具进行知识建构和问题解决的能力。此外,国际计算机和信息素养研究(International Computer and Information Literacy Study, ICILS)、国际数学与科学趋势研究项目(Trends in International Mathematics and Science Study, TIMSS)均将数字技能评估作为关键指标。(三)以数字化诊断为载体建立早期预警系统早期预警干预和监测系统(early warning intervention and monitoring system)是一个循证的、数据驱动的决策机制,其核心是根据学生学业表现和行为指标帮助教育工作者系统识别有辍学风险的学生,实现早期预警与诊断干预。目前,美国、波兰、立陶宛、德国、印度、澳大利亚等国家均根据自身教育制度和风险状况建立了早期预警系统。以美国为例,其早期预警干预和监测系统的工作流程包括七个步骤(图1),分别是组建早期预警团队并明晰职责、使用预警数据工具、识别风险学生、分析预警风险原因、匹配和提供干预措施、动态监测风险学生与调整干预措施、评估与完善早期预警系统流程[12]。该系统运行过程中由第三至六步组成一个循环周期,在预警数据工具的支持下,通过不断循环“识别-分析-干预-调整”四个步骤,可以保障整个预警干预和监测的动态性、灵活性、有效性。以数字化诊断为载体建立早期预警系统需要考虑以下两个问题。一是确定早期预警指标(early warning indicators)。预警指标是早期预警干预和监测系统的核心,用于识别有学业风险或面临其他潜在风险的学生。例如,挪威以学生的平均学分绩点、出勤率、学业表现作为早期预警指标;立陶宛将学生的出勤率、学业表现作为早期预警的重要指标;美国构建ABC基础教育早期预警指标,包括出勤率(attendance)、行为事件(behaviour)和课程表现(course performance)[13]。二是将数据分析(data analytics)、机器学习(machine learning)、生成式人工智能(artificial intelligence generated content, AIGC)等新技术应用于基础教育早期预警干预和监测系统。以机器学习的两种算法为例,包括基于树形结构进行分类和回归的决策树算法,和基于构建多个决策树进行分类或回归的随机森林算法。这两种方法的预测有效性均较高。有学者调查来自墨西哥的670名中学生的数据发现,在70多个预测因素中,回归树在预测最终的辍学率方面具有较高的准确性[14];另一项以韩国165715名高中生为样本的大数据分析发现,将出勤率、行为事件和课程表现作为辍学预测的关键指标时,随机森林算法也具有较高的预测精度[15]。(四)以数字化系统为工具进行常态化监测各国普遍建立教育管理信息系统、学生信息管理系统、州级纵向教育数据系统(state longitudinal data system)等,通过收集学生学业跟踪数据、掌握教育动态信息、利用数据可视化和数据分析报告等方法进行教育数据分析。教育管理信息系统分为宏观和微观系统,共同推进教育高质量发展。一是创建宏观层面的教育管理信息系统。大多数国家在教育数字化转型过程中优先完善数字资源。例如,美国率先在州层面开发纵向教育数据系统,旨在集中管理与深度分析全州的学生、教师和学校等数据,从而促进教育改革与学生发展,同时构建了学生学习投入监测体系[16]。其他国家陆续建立教育管理信息系统,如爱沙尼亚的教育信息系统(education information system)和考试信息系统(examination information system)、韩国的国家教育信息系统(national education information system)、意大利的教育信息系统(sistema informativo dell’istruzione)等。截至2023年,OECD大多数成员国/组织已经建立了教育管理信息系统[7]。二是建立微观层面的学生信息管理系统,管理、记录、跟踪、报告学生的个人信息、课程信息、教师信息、成绩单、出勤状态等,同时访问数字学习内容。例如,拉脱维亚的不少学校通过私营公司建立学习管理系统e-klase,为学生和家长提供成绩报告单、教师评价单、课程学习动态,搭建家长与教师的沟通平台[17];智利的大多数学校通过学生信息管理系统记录学生的入学率、出勤率、学业表现等数据[17]。二、国际基础教育质量监测数字化转型的支持保障世界各国在推进基础教育质量监测的数字化转型过程中,形成了以战略规划、教师素养、技术支持、组织建设等为主体的保障体系,旨在引领发展方向、确保同步优化、保障稳步推进、实现有效运行。(一)制定战略规划,引领数字化转型方向OECD和欧盟基于全球教育数字化转型的现实背景制定了数字教育发展战略。2017年,OECD推出走向数字化项目(going digital project),以两年为一阶段,制定数字化转型政策并持续推进数字化转型。2021年6月,OECD发布《2021年数字教育展望:推动人工智能、区块链和机器人的前沿》(Digital Education Outlook 2021: Pushingthe Frontiers with Artificial Intelligence, Blockchain and Robots),将准确性(accurate)、可获取性(accessible)、可操作性(actionable)和可问责性(accountable)的早期预警4A框架作为重要政策内容,以发挥数字技术在构建早期预警系统和早期预警指标上的优势[14]。2023年12月,OECD发布《2023年数字教育展望:迈向高效数字教育生态系统》(Digital Education Outlook 2023: Towards an Effective Digital Education Ecosystem),对各成员国/组织如何塑造或可能塑造其数字生态系统进行比较和主题分析,阐述在建立数字教育质量监测与评估方面的挑战及未来方向,具有指导意义。欧盟委员会发布了《数字教育行动计划(2021—2027)》[Digital Education Action Plan(2021—2027)],其主要目标包括提高数字能力和技能、运用数字技术进行教与学、利用教育数据分析教育质量,为基础教育质量监测的数字化转型提供政策指引[18]。面对数字技术促发的教育质量监测升级新契机,一些国家结合本国实际制定数字教育评估与发展规划,强化数字教育顶层设计。据统计,德国、法国、比利时、爱尔兰、奥地利等16个欧盟成员国出台数字化能力战略,将数字教育列入国家教育质量保障与评价体系中[19]。以爱尔兰为例,该国教育与技能部于2022年4月发布《2027年学校数字战略》(Digital Strategy for Schools to 2027),将“支持数字技术丰富教学、学习和评估”作为三大关键目标之一,强调以数字技术和在线平台支持小学及中学阶段的持续性评价和形成性评价,突出教育技术对基础教育质量监测的推动作用[20]。(二)提升教师数字素养,夯实转型基础教师数字素养是基础教育质量监测数字化转型的基础。有研究指出,通用数字能力(generic digital competence)、数字化教学能力(digital teaching competence)和专业数字能力(professional digital competence)是教师数字技能和素养的重要构成元素[21]。因此,各国通过构建教师数字能力框架、促进教师数字素养发展、开展教师数字素养评价等方式,保障基础教育质量监测数字化转型的有效落实。一是构建教师数字能力框架。2017年《欧盟教育工作者数字胜任力框架》(European Frame⁃work for the Digital Competence of Educators)提出,教育工作者应在评价领域具备三种基本能力:1)评价策略,即使用数字技术对学生开展形成性评价和总结性评价,以提高评价形式和评价方法的多样性和适用性;2)分析证据,指生成、筛选、批判性分析学生的活动、表现和进步的数字证据;3)反馈与规划,指使用数字技术为学生提供及时反馈,并根据反馈信息调整教学策略,提供有针对性的帮扶,从而确保数字化教育质量监测的实施成效[22]。在教师数字能力框架指导下,爱沙尼亚、克罗地亚、立陶宛和塞尔维亚等国的教育工作者已使用数字技术开展学生评价。二是促进教师数字素养发展。各国都高度重视对教育工作者信息素养和数据素养的培训,以期推动基础教育质量监测数字化的顺利实施,保障数字化监测的可持续发展。例如,韩国的知识泉(knowledge spring)平台、奥地利的digi.folio平台、法国的Réseau CANOPÉ平台、意大利的Scuola Futura平台等,都为教师数字素养提升搭建了高效的学习平台。同时,组织教师参与培训也是促进教师数字素养发展的重要方式。以波兰开展的数字素养发展培训活动为例,该活动由数字波兰项目中心(Centrum Projektów Polska Cyfrowa)与教育部(Ministry of National Education)联合举办,旨在支持教师数字化教学能力发展与评价学生学业进步表现,活动期间至少有7.5万名教师接受培训[5]。三是开展教师数字素养评价。例如,捷克、爱沙尼亚、西班牙、葡萄牙等国提供针对教师数字素养评价的TET-SAT在线自我评价工具。爱沙尼亚的数字镜像(DigiPeegel)、奥地利的数字检查(Digi.checkP)、芬兰的Opeka等在线评价工具都可以用于教师的数字素养自我评价,从而帮助他们指导学生使用数字技术进行自我评价或同伴评价。(三)提供技术支持,确保改革稳步推进各国从加强实践应用指导、搭建数字化技术平台、开发数字化应用工具等方面,为基础教育质量监测数字化转型提供技术支持。一是重视数字技术的实践指导。例如,芬兰数字化考试系统Abitti提供有关数字化考试管理的说明和指导,旨在确保学校通过开放源代码的Linux操作系统实施高中阶段的数字化考试;美国出台学生学业进步测评技术指南,系统阐释实施学业进步评估的具体操作步骤。此外,随着生成式人工智能的广泛应用,英国、美国、日本等国家相继发布关于在教育中使用生成式人工智能的指南,其中日本于2023年发布《初等中等教育阶段生成式AI使用暂行指南》,引导学校在教学与评估中谨慎使用生成人工智能,以适应不断变化的教育需求[23]。二是搭建教育质量监测数字化技术平台。以芬兰为例,该国教育评估中心(Finnish Education Evaluation Centre)自2014年开始逐渐转型,到2017年全面实现数字化评估,并通过专有数字评估平台Koda对三年级和九年级学生进行评估。2022至2024年间,芬兰开发新型学习成果数字化评估平台DigiOTA,主要用于评估学生的基础教育阶段学习成果[24]。此外,意大利的下一代教室(next generation classrooms)和下一代实验室(next generation labs)等项目在实施过程中,不仅为基础教育质量监测搭建了数字化技术平台,而且提供了数字技术工具支持。三是开发教育质量监测数字化应用工具。例如,法国已有Cedre、LSE、Socle CE1、SocleSixième等多种用于评估中小学生数学和读写能力的数字评估工具。为了支持抽样学校选择合适的工具对学生的数学和法语技能进行评估,法国国民教育和青年部还专门开发ASP数字工具[7]。新西兰开发了在线教学与学习评估工具(e-asTTle),旨在评估中小学生在阅读、数学、写作等方面的学业表现,并通过一系列可视化评估结果为教师、家长、学校管理人员提供及时的个性化反馈。(四)完善组织机构,协同多方力量投入各国通过成立专门质量监测机构、设立数字协调员岗位、促进多主体协同合作等方式,为基础教育质量监测数字化转型提供组织保障。一是成立基础教育质量监测机构。以美国为例,联邦教育部鼓励州教育机构申请获得创新评估示范机构(Innovative Assessment Demonstration Authority, IADA)授权,发挥数字化评估优势并改进全州评估。自2016年以来,路易斯安那州、马萨诸塞州和北卡罗来纳州等先后加入IADA,并获得在公立学校建立和运营创新评估系统的资格[25]。此外,美国部分私立、公立中学共同组成非营利性组织——素养成绩单联盟(Mastery Transcript Consortium, MTC),旨在通过素养成绩单的数据可视化处理方式评估高中生的学业成绩及活动表现等综合能力[26]。此外,意大利的国家教育和培训系统评估研究所、芬兰的教育评估中心等也都成为本国基础教育质量监测数字化评估的管理机构。二是设立数字协调员岗位。数字协调员负责为教育工作者提供使用数字化教学资源及教学工具、维护数字化管理平台、协助教育质量数字化监测等多方面的指导与支持。以爱尔兰为例,大多数规模较大的中学都会配备一名数字协调员,通常由ICT教师或专门从事数字教育的教师担任,旨在为教育工作者利用数字技术进行学业质量监测提供技术指导,并将此作为助力学校教育数字化发展的重要方式,推动教育质量监测常态化。三是发挥多元主体协同作用。组织协调多部门共同参与、互相配合,能够提高教育质量监测效率,提升教育质量监测成效。以澳大利亚为例,新南威尔士州的学校数字战略强调政府、学校、教师和家长等多元主体共同参与数字教育的重要性,通过明确多元主体角色定位,完善学生学业发展数据记录,实现多元主体共同推进基础教育质量提升[27]。三、国际基础教育质量监测数字化转型的经验借鉴当前,我国智能化测评已在学生能力和知识水平评估、人格与心理健康评估、教学过程评估等方面取得初步进展,基础教育质量监测逐渐实现与数字技术的融合发展[28]。然而,智能化监测工作还存在不少薄弱之处,如各级监测主体的职能定位模糊、数字化专业能力建设不足[29-30],教育监测环节的数据分析技术较为单一[31],数字监测工具的开发与应用投入不足,监测结果的智能化使用不充分等[32]。基于此,本文借鉴各国基础教育质量监测数字化转型经验,从基础教育质量监测主体、监测环节、监测工具、监测结果四个方面提出改进建议。(一)健全多元监测主体参与机制,加强专业能力建设基础教育质量监测是一项全方位、全过程工作。在数字技术赋能教育质量监测背景下,首先应完善多元主体协同机制,加强监测主体的专业化建设,确保监测科学、有序、有效实施。一是优化教育质量监测组织管理。建立与完善监测工作网络,履行监测机构职责,建立督政、督学、评估一体化机制,形成强有力的组织支撑体系,强化各级监测网络在数字时代的内涵建设。同时,深入推进管办评分离,发挥第三方监测机构和社会公众作用。二是完善多元主体协同监测机制。政府、学校、家庭、社会等多元主体在数字化转型中扮演不同角色,共同推进教育质量监测常态化、机制化。首先,应明确各级政府机构、家庭、学校、社会等不同主体在基础教育质量监测数字化发展进程中的职责定位;其次,应综合分析数字化进程中影响学生发展的各种因素,根据影响因素的多样、综合、交互等特点[33],建立全方位、完整的基础教育质量监测体系,构建协同育人格局。三是加强和提升监测主体的专业能力。提升监测主体的数字能力是推进基础教育质量监测的有效保障。可通过开设数字能力专题培训、丰富数字能力学习资源、构建数字能力测评框架、搭建数字能力交流平台、开展数字能力研修活动等,助力监测主体的专业发展,提升其数字沟通、数据获取、数据分析、数据挖掘等能力。教育质量监测主体要探索人机协同的教育评价机制,有效利用人工智能算法对教育全过程进行数据分析,从而使监测结果更加科学、可信[31]。(二)优化基础教育质量监测环节,发挥数据分析功用2020年9月,中共中央、国务院印发《深化新时代教育评价改革总体方案》,提出改进结果评价、强化过程评价、探索增值评价、健全综合评价等教育改革要求[34]。为更好落实教育评价改革总体要求,基础教育质量监测既要转变监测理念,也要合理利用数字技术完善各监测环节。一方面,可利用虚拟现实、增强现实、混合现实、在线学习、智慧学习、区块链等技术创新评价方式,使以终结性评价为主导的横向静态评价逐步转变为以过程性为主的动态评价[32]。另一方面,应合理应用大数据、云计算、人工智能等技术完善增值评价体系,构建全方位增值评价模型。同时,还应利用数字技术健全学业质量监测、体质健康监测、美育监测、劳动教育监测、德育监测等数字化监测体系,形成德智体美劳综合素质评价模式。教育数据挖掘、数据分析等新兴数据分析技术在课堂教学评价、学生学业表现、情感发展等方面发挥监测、预测、诊断、改进等作用。通过预测、聚类、回归分析等技术,借助复杂算法进行数据挖掘,可以发挥精准诊断功用,提高监测结果的可信度[30]。建立和完善我国基础教育早期智能诊断机制,首先,建立多层级的评价资源数据库,包括学生数据系统、教师数据系统、学校数据系统等。其次,充分利用数据库,从多维度、多层次、多模态跟踪获取学生课程表现、学习行为、个人发展及相关因素的数据,促使教师以此为依据展开过程性评价。最后,教师根据过程性评价结果,识别和标记风险状况,继而分析影响学生学业表现与个人发展等方面的因素,对教学内容与方法进行动态调整与改进,以提高教与学的质量。(三)利用新型数字监测工具,推进智能化测评应用在基础教育质量监测过程中,大数据分析和人工智能技术等工具可以提高监测的精确度和有效性,更好地追踪学习者的认知状态,为教育教学质量改进与提升提供决策依据。一是发挥数字化测评优势,扩大数字化测评范围。当前,我国义务教育质量监测具备一定的数字化基础,实现了新型数字工具辅助演唱测试、体育测试、作文自动化评分等功能,尤其是能够运用数字技术处理体育与艺术等学科领域中表现性测评产生的非结构化数据,从而呈现可视化教育质量监测结果。步入数智时代,我国应继续发挥数字化测评优势,总结体育与艺术等学科领域的信息化测评经验,在此基础上探索与挖掘德育、劳动等领域的信息化测评方式,尝试开发相应的测评系统,实现学生综合素质的科学评价。二是开发新型数字监测工具。21世纪必备的通用性能力包括批判性思维及问题解决能力、沟通及协作能力、创造力及创新能力,这些能力是批判性思维、逻辑思维、元认知和创造性思维等高阶思维能力的重要体现[35]。有研究通过情境判断测验(situational judgement tests)、内隐联想测验(implicit association tests)、条件推理测验(conditional reasoning tests)等对学生非认知能力进行评估,发现非认知能力是预测学生早期学业成绩和调整学习行为的重要因素[36]。鉴于我国已研发了基于多任务情境的创造力测评、复杂问题解决能力测评、人机交互的科学探究能力测评、审辩思维能力测评等工具[32],在数字化转型背景下,要继续开发适用于基础教育质量监测的新型数字监测工具,重视高阶思维能力和非认知能力等关键能力的测评。这一过程可通过建立多层级研发团队、提高数据分析优势、构建数字测评模型等方式来实现。(四)加强数字监测结果运用,规避智能技术潜在风险基础教育质量监测结果在驱动教育决策与评估、诊断教育问题、改进学校教育教学、引领教育质量提升、促进个体个性化发展等方面发挥着重要作用。数字技术为基础教育质量监测赋能的同时,也要注意规避数字技术发展带来的潜在风险。一是强化基础教育质量监测结果运用。国家层面的义务教育质量监测结果在数据开放、共享与安全机制建设方面尚处于起步阶段,数据资源与分析结果尚未实现互通互联和资源共享[32]。加强数字技术赋能基础教育质量监测结果运用可以从三个方面开展工作。首先,连通监测数据结果呈现平台。将省级、市级和区县教育质量监测平台中可开放获取的数据汇总呈现于国家质量监测平台,增强监测数据的可用性、共享性、公开性和透明度。其次,组织专家团队系统且持续地培养各层级数据分析人员,提升相关人员的数据分析能力与数据可视化能力,深入挖掘监测结果的多种应用价值。最后,推进基础教育质量监测结果在不同层级的运用。将义务教育质量监测结果运用真正落实至学校与学生个体,同时以数字技术为基础,以可视化、可读性为监测结果呈现形式,掌握学生动态发展数据,优化教育教学过程,最终实现教育教学质量的全面提升。二是规避智能技术潜在风险。数字技术驱动基础教育质量监测的同时,也会带来监测结果数据的隐私和安全风险、算法风险等问题。基于此,首先,应构建层级分明的监管体系,优化基础教育质量监测数据风险的协同监管,建立数据隐私和安全保障机制,完善教育数据规范,规避基础教育质量监测在数据采集、存储、传输、分析、使用等环节的隐私安全泄露风险。其次,应建立算法风险评估和管理机制,抵御算法歧视和滥用,摒弃教育质量监测数据计算“暗箱操作”,推动算法公开透明,促进公平公正。参考文献略。

刘益东:AI教育革命加快拔尖创新人才培养与评价

2024-08-07

原创 刘益东 中国考试 2024年07月31日 北京引用格式:刘益东. AI教育革命加快拔尖创新人才培养与评价[J]. 中国考试, 2024(8): 1-11.作 者刘益东,中国科学院自然科学史研究所研究员。摘 要:AI大爆发对社会各个方面产生巨大冲击,并在教育领域引发AI教育革命,在人类历史上可能首次实现精英教育普惠化,这为我国加快拔尖创新人才培养、早日实现教育强国目标提供了新的机遇。本文围绕如何通过AI教育革命加快拔尖创新人才培养与评价展开探讨:一是明确学习者向一流教师学习,从以教师为中心向以学习者为中心转变;二是建立客观化的AI测评系统,推动学历教育向能力教育转变;三是建立组织保障体系,从集中式学校形态转变为分布式“主题名师+AI助教”网络形态与集中式学校形态并存,让学习者有更多选择,让一流教师充分发挥作用。甄选主题名师,研发AI助教,让一流学者主导拔尖创新人才自主培养,有助于早日建成教育强国。关键词:AI教育革命;精英教育普惠化;主题名师;一流人才;教育强国2019年中共中央、国务院印发的《中国教育现代化2035》提出,到2035年,我国要迈入教育强国行列[1]。如何高标准、严要求地建成教育强国,是科教界面临的重大挑战。近两年AI大爆发对社会各个方面产生巨大冲击,在教育领域引发AI教育革命,可谓百年未有之教育大变局,将在人类历史上首次实现精英教育普惠化,为在短时间内建成教育强国提供了新机遇。在此形势和背景下,如何加强拔尖创新人才的培养与评价,是摆在我们面前的重要议题。笔者认为,AI教育革命的核心是实现精英教育普惠化,推动我国从人口大国向人才强国跃升,实现人口红利向人才红利转变。关于AI教育革命,当前人们讨论最多的是AI在传授知识方面发挥的重要作用,如GPT-4o所展现的教授数学的能力令人印象深刻,AI助教将越来越多地参与教学活动。实际上,AI对教育的影响主要体现在两个方面:一是AI助力教学,可以做到一对一、因材施教、私人定制,大幅提升知识传授的效率与品质;二是AI评价学习者的能力,由于AI掌握所有学科知识,可以系统准确地测试出学习者的有关能力,给予定级,真正实现从学历教育向能力教育的转变。AI教育革命将从教学及教学效果评价等方面全面推动精英教育普惠化的实现,其变革范围之广、程度之深、进度之快,前所未有,从根本上改变培养、评价拔尖创新人才的方式方法,让我国的世界一流学者主导一流人才自主培养,集中力量办大事,切实加快教育强国建设。为此,本文探讨如何通过AI教育革命加快拔尖创新人才培养与评价:一是在观念诉求上,学习者向一流教师学习,这是从以教师为中心转变为以学习者为中心的根本所在,AI教育让学习者不再受制于所在学校的师资限制。二是AI测评系统化、客观化,推动学历教育向能力教育转变。AI能力测评客观准确,直接反映学习者的能力水平;提高学习者能力成为核心目标,学生为先、实效为王,一流大学、一流学科将重新洗牌。三是在组织保障上,从目前单一的集中式学校形态转变为分布式“主题名师+AI助教”网络形态与集中式学校形态并存,让学习者拥有更多选择,让一流教师充分发挥作用。本文所述一流教师(学者、人才)、一流成果、一流学科、一流大学均指世界一流。一、向一流教师学习:从以教师为中心转变为以学习者为中心的根本所在(一)“钱学森之问”与“二流教育陷阱”为什么我们的学校总是培养不出杰出人才?这是著名的“钱学森之问”。对此,已有大量解释,如我们的教育过于注重知识积累、过窄的专业教育、过强的功利主义、过弱的文化底蕴、缺乏创新教育、缺乏好奇心与想象力的培养等,这些分析都有道理,但是忽视了一个更为重要的原因——一流教师的匮乏。实际上,即使是发达国家的学校,相比毕业生数量而言,培养出的杰出人才也很少。可见,“钱学森之问”不仅针对国内教育,在发达国家乃至世界范围内同样适用,此为广义“钱学森之问”,即为什么众多学校培养出的杰出人才却如此之少?笔者认为,除天赋异禀的学生为数不多之外,最重要的原因是大部分学生都没有机会向一流教师学习;向二、三流教师学习的结果是在学习知识的同时,形成了二、三流的知识结构、思维方式、学习习惯和价值观,再也没有机会成为一流人才了,也可以说是学“夹生”了。特别是研究生教育,如果硕士生导师、博士生导师是二三流学者,研究生基本就无法成为一流人才,这也是武汉大学原校长刘道玉强调“真正的人才都是自学成才的”[2]的原因。笔者将这一现象称为“二流教育陷阱”和“夹生学习陷阱”[3]。需要强调的是,就培养杰出人才而言,二流教育也许已成为最大阻碍,因为它看上去无害,迷惑性较强。一方面,二流大学的教授也有不少在国际顶级刊物发表论文,有一定知名度,使得学生误以为这就是顶级教育;另一方面,二流大学的量化指标往往很好,如自然指数(Nature Index)世界大学50强排名中二流教育名列前茅,鱼龙混杂。与此同时,教育内卷化又强化了二流教育。在吉尔茨(Clifford Geertz)看来,内卷化是指一种社会或文化模式在某一发展阶段达到一种确定的形式后,便停滞不前或无法转化为另一种高级模式[4]。国内长期“五唯”盛行,以发表SCI论文、国际顶刊论文为目标,据此胜出者占据学界高位。这些中材大用者的最大短板是做不出原始创新,做不出世界一流工作,甚至出现劣币驱逐良币的情况,严重阻碍教育强国建设[5]。教育内卷化凸显“二流教育陷阱”“夹生学习陷阱”的巨大危害。2021年3月,由斯坦福大学、莫斯科国立高等经济学院、美国教育考试服务中心(ETS)以及北京大学、清华大学和印度的合作大学共同发起的Supertest测试报告发布,结果显示在经过大学阶段学习后,中国学生的批判性思维能力和学术技能水平均出现下降,在中美俄印大学生中垫底[6]。显然这与多年来以效仿西方学术为荣、擅长迎合式国际合作、安于在科学上做西方的“外包工”、缺乏批判精神有一定关系。二流人才的特点是擅长精致的跟踪跟进。汪品先院士指出:“从外国文献里找到题目,买来外国仪器进行分析,然后将取得的结果用外文在国外发表,这当然是我国科学的进步,但也可以说这是一种科学上的外包工。”[7]破解“钱学森之问”的根本解决方案,是以学习者为中心,让学习者向一流教师、一流学者学习。博士级智能AI(GPT-5等)即将问世,此举尤为必要。(二)何谓一流教师、一流学者好的教育包括好的知识传授与好的研究引导:前者依靠擅长讲课与启发的教师,如创办可汗学院(Khan Academy)的萨尔曼·可汗(Salman Khan);后者依靠擅长研究和激励的学者,如培养出79位院士的叶企孙。通过口碑、精品课、公开课等,可以比较容易地确定哪些教师是擅长讲课的一流教师;但是,在长期“五唯”和官本位的环境下,在国内很难用“帽子”、头衔、名气去衡量一位学者的真实学术水平。甄别出擅长研究的一流学者,需要一套新的标准与方法。首先,术业有专攻。专家、学者(统称学者)是某一主题的专门研究者。笔者提出,用“主题学者”来界定在某一主题研究领域居于国际前沿、在国内名列前茅的学者。研究主题分为一级主题、二级主题、三级主题。例如,“创新”是一级主题,“技术创新”是二级主题,“人工智能创新”“纳米技术创新”是三级主题。通常,只有开山鼻祖覆盖一级主题,如约瑟夫·熊比特(Joseph Schumpeter)开辟了“创新”研究领域。一流学者、资深学者覆盖二级主题,如成为“技术创新”的专家、权威,他们往往也同时聚焦于一两个三级主题。主题学者之所以研究水平高,一是由于自己术业有专攻、长期积累钻研,二是经常参加相关学术活动、学术会议,有主题共同体、学术共同体的支持,凝聚个人智慧与集体智慧。其次,主题学者在某一主题探究中(通常是二级主题)做到在国际上与众不同,在国内名列前茅。高端主题学者则被称为“主题名师”,是在国际上与众不同、在国内达到首屈一指或最好之一、广受认可或应该广受认可的杰出学者。主题名师在国际上该主题领域居于前沿或引领发展,包括三类学者:一是作出原始创新成果者,如诺贝尔奖、图灵奖、国家自然科学奖一等奖、陈嘉庚科学奖的得主等;二是系统精深者,如“三农”问题专家温铁军;三是奇艺绝学者,如古文字通才李学勤。系统精深者、奇艺绝学者须经横向比较,出类拔萃。主题名师处于国际学术前沿,掌握最新进展,参与前沿推进乃至引领发展,在拔尖创新人才的培养中发挥关键作用,可谓集中主题名师的力量办培养拔尖创新人才之大事。最后,转变教育观念至关重要。从以教师为中心转变为以学习者为中心,核心是强调向一流教师与一流学者(统称主题名师)学习,强调通过AI、互联网等信息技术赋能主题名师,让更多的学习者得到主题名师的引导,实现精英教育普惠化。长期以来,教育从教师的角度出发——教师要有课讲、有研究生带,即使教师并不那么优秀;学习者则希望向一流教师学习,向主题名师学习。以学习者为中心与精英教育普惠化是相互支持、高度一致的。精英教育普惠化的实质是实现教育面前人人平等、优质教育资源人人有份,这是继法律面前人人平等之后人类社会的又一次巨大进步。表1列出以教师为中心与以学习者为中心两种教育模式的区别。可以看到,两者在多个方面存在明显差别。二、AI测评客观化:推动学历教育向能力教育转变迄今为止,讨论AI对教育的影响时,人们大多考虑AI如何提升知识传授、课堂教学、实验实习等方面的效率与品质,考虑如何因材施教、一对一私人定制等。AI的这些影响还是比较温和的,只是量变;而AI对学习者的能力测评能做到系统全面、客观准确,才是对教育(特别是高等教育)的颠覆性冲击,将从根本上改变现行教育体系和学校形态。AI测评主要包括教学成效测评和毕业生能力测评。前者已有所实践,如通过自动评分、抄袭检测、预测分析、评估分析和项目分析等应用对教育评估产生影响。自动评分节省了教师时间,并确保了评估的一致性和客观性[8]。毕业生能力测评是对教学总效果的测评,出具学习者能力测评证书,是对学习者能力的直接反映。而学历学位证书从某种程度上只是借助毕业院校的声望和校友群体的成就,间接反映毕业生的能力。一旦AI能力测试能够做到全面系统和客观准确,在用人单位那里,AI能力测评证书必然替代学历证书和学位证书。当然,这需要AI进一步有序发展,需要AI能力测评系统不断完善,还需要避免AI风险,方能彻底实现。从目前AI爆发式发展的趋势来看,上述设想几年之内就可能变成现实。以往,在某些技能领域,能力证书(如外语水平证书、职业资格证书等)的含金量胜过学历证书和学位证书。在一些领域,能力测评是用人单位招聘员工的主要依据。例如,美国的力扣(LeetCode)平台为全球程序员提供专业的IT技术职业化提升途径,使用该平台的应聘者已经遍布各大公司和众多优秀创业团队。该平台题目资源充足,能够帮助企业寻找、培养技术人才。力扣在线面试工具为企业提供技术面试、能力评估、招聘等全方位专业化服务。随着AI等信息技术的发展,智能化技术在教育评价领域的研究与应用已初步展开,AI和教育测量研究的结合催生了智能化测评这一新兴领域。智能化测评将AI应用于能力评估、人格评估、课程风险评估、学习过程评估等评价任务中,提高了评估的效率和准确性。智能化测评整合多维度信息,对学生个体进行全面评估,有力地推进了我国智能化教育发展。智能化测评结果的准确性与可解释性是最重要的评价指标——准确性要求尽可能降低测评的误差,可解释性是测评结果可以被理解的程度,要能够清楚解释测评分数是如何得到的[9]。随着人工智能快速发展,智能化测评的水平与质量将大幅度提高。目前,AI已通过图灵测试,智能水平节节攀升。斯坦福大学以人为本人工智能研究院(Institute for Human-Centered AI)发布的《人工智能指数报告2024》(Artificial Intelligence Index Report 2024)指出,AI在图像分类、基础阅读理解、视觉推理和自然语言推理等基准测试上超越了人类的表现,但仍然难以应对高级数学问题等复杂的认知任务[10]。这表明,人工智能将不断发展,继续缩小与人类的差距。可以预见,再过两年左右,GPT-5、GPT-6等问世,AI将实现对学习者能力(包括基础知识、专业知识、实验技能、学习能力、批判能力、研究能力、跨学科研究能力、创新能力、交往能力、合作能力、领导能力等)全面准确、可解释的测评。AI不仅可以测评学习者的技能水平,还可以测评其知识素养、研究能力、领导能力等;相较于学历学位证书,AI能力测评所反映的能力要全面准确得多。教育测评与教学关系密切,两者相辅相成。迄今为止,教育测评领域已发生三次范式变革。第一次是20世纪五六十年代大规模推进的“测评学习”(assessment of learning),即测评是对学习和教学外在的、刚性的评价;第二次发生于21世纪,在课堂、区域、国家等层面,许多国家积极倡导“以评促学”(assessment for learning),即测评要有助于教学改进,能够促进教育质量的提升;第三次则发生于三年疫情防控期间,大规模线上和线下教学与学习的混合式教育环境快速形成,“学评融合”(assessment as learning)迅速兴起,成为个性化学习的有机组成部分,能够进行实时的学习反馈和调整,适应以学习者为中心的教育生态转型[11-12]。三次教育测评范式变革,都是为了促进教学、提升教育质量,引发教育供给侧改革。AI测评对教育更大的冲击发生在需求侧,即AI测评的系统化、客观化导致用人单位招聘标准与方式的深刻变化,可谓需求侧改革,即用人单位不再看重学历学位证书,而更看重能力证书。因此,学习者求学的目的就是提升能力,提升学习、创新、发现问题、解决问题等各种能力。如此,求教于名师就成为头等大事,就如同运动员的目标是提高体能与成绩,拜师金牌教练就是头等大事。从以教师为中心到以学习者为中心的转变绝非易事,因为以学习者为中心的核心是让学习者向一流教师学习。这一转变受限于一流教师稀缺,优质教育资源集中在少数顶尖大学;由于与高校庞大的行政体系和教师体系的利益相冲突,即使借助AI、互联网、虚拟技术等信息技术和开放教育资源及教学方式创新,所谓以学习者为中心也只能是表面的、非实质性的,学习者的核心诉求(向一流教师学习、优质教育资源人人有份)仍然无法实现。只有AI测评实现对学习者能力系统化、客观化的评定,选人用人主要依据AI能力测评结果而非毕业院校等级及学历学位证书,教育改革才能冲破重重阻力,实现需求侧改革,真正实现以学习者为中心,让更多的学习者向一流教师学习,实现精英教育普惠化。可以说,AI教育革命带来的教学方式变革和教育质量提升仅为量变,只是诱致性变革,对现有教育体系的影响较为有限;唯有AI测评的成功与推广才为质变,才是强制性变革,才会对教育体系与教育评价产生颠覆性影响,才能极大加快我国教育强国建设的进程。高校教学包括两部分。一是本科教育,其课程、实验、实习等可以通过公开课、精品课、慕课等开放教育资源与AI助教加以完成。借助AI助教(如可汗学院的Khanmigo),可以实现个性化学习、虚拟实验与实践探索等。有了优质教育资源和合理的教学辅导及一流教师的点拨,本科生可以在一定程度上不受本校师资的限制,可获得较多向一流教师学习的机会。二是研究生教育,其教学涉及前沿研究,公开课与AI助教只能满足部分学习需求,指导硕士生、博士生的工作仍然主要由主题学者、主题名师提供承担,一流教师需求量较大,是真正阻碍实现精英教育普惠化的瓶颈,也是构建“主题名师+AI助教”网络所要解决的首要难题。三、组织保障:构建“主题名师+AI助教”网络,实现精英教育普惠化“主题名师+AI助教”网络构建涉及四个要素:一是主题名师的甄选与认定,二是辅助主题名师工作的AI助教的研制,三是以AI测评作为学习者能力的评价工具,四是优质的开放教育资源的支持。(一)主题名师的甄选与认定主题名师是一流人才。以成果论英雄,一流人才就是做出一流成果的杰出人才。一流成果包括三类:一是原始创新成果,二是系统精深、蔚为大观的硕果,三是冷门绝学的奇艺秘技。三类成果均可谓标志性代表作。系统精深、奇艺绝学者往往易于判定,较难认定的是原始创新成果。有关原始创新的论述已有很多,但对原始创新的定义往往比较模糊。按百度百科给出的定义,原始创新是“前所未有的重大科学发现、技术发明、原理性主导技术等创新成果”[13]。据此定义,许多新成果都可被认为或自认为是从0到1的原始创新。实际上,原始创新是取得突破性进展,进而开辟新领域、引领新方向的重大创新,是源头活水,是从0到1,但这个“1”须为新领域、新方向。我国“973”计划基础研究共性重大问题战略研究组认为,原始创新是指开拓新领域、引领新方向和孕育新学科的重大创新[14]。对原始创新的这种理解是国际学术界的共识[15]。原始创新主要有三个特点。其一,完成原始创新包括三个环节,即做出—发表—承认。在得到承认之前,它不是原始创新,只是普通成果,甚至有可能是一个“错误”。其二,依据权威大奖认定原始创新固然有效,但仍有三点不足,即获奖时间滞后、大奖覆盖面窄(不少交叉学科、新兴学科等并未设置大奖)、我国学者在国际上缺少公平获奖机会(尤其在人文社科与交叉学科领域)。其三,做出原始创新者与擅长发表国际顶刊论文者(除少数重叠外),不是一回事,是“两条道上跑的车”。原始创新是拥有卓越创造力的一流人才的作品,曲高和寡。一流人才在“五唯”环境中可能属于弱势群体,他们十年磨一剑,追求重大突破、重大发现,不会把在国际顶级期刊上发表论文作为首要工作,有时会因不屑于或不擅于凑论文、拼关系、争帽子而被边缘化,正如徐匡迪院士指出:“中国颠覆性技术被投票‘投’没了。”[16]为克服通过权威大奖认定原始创新的不足,笔者提出依据“原创成果四要点”来认定原始创新,以避免一次性同行评议存在的主观性、同行相轻等弊端。原创成果四要点包括:1)突破点四要素,包括突破什么、怎么突破、突破开辟的新领域、新方向以及能用一句话概括核心贡献;2)发表同题系列论文论著或专利清单;3)获奖、转载、引用、受邀报告等学界好评;4)国际国内同类工作的盘点比较及优势。这相当于经历了长期的同行评议,公平公正、高效合理。真正的原创成果,特征鲜明,高下立判。认定与盘点原创成果包括三点:1)注明原始创新是开辟新领域、引领新方向的重大创新,杜绝包装假冒;2)填报原创成果四要点,使原始创新成果表述规范,有据可查;3)原创成果包括A+和A两类:A+类已获得权威大奖,如国家自然科学奖一等奖、陈嘉庚科学奖及国际权威大奖,用获奖理由和成果简介展示即可;A类已得到学界好评,能够展示原创成果四要点,优势一目了然[15]。基于对原始创新的定义和认定,笔者提出认定主题名师的“1+N”甄别法——以“1”为主,以“N”为辅,让主题名师一目了然。其中,“1”是一件标志性代表作,包括原始创新成果或系统精深、蔚为大观的硕果或冷门绝学的奇艺秘技,特征鲜明,辨识度高;“N”能够反映名师在该研究主题领域获得的成就、荣誉等,如获奖、获得项目资助、在专业学术团体中任职、获得荣誉头衔等,这些均与研究主题直接相关,能够辅助说明主题名师的学术贡献、影响与地位。(二)研制AI助教,加快实现精英教育普惠化AI助教是AI赋能教育领域的热点。2018年,网龙率先推出AI助教;此后,学霸君的智能教育机器人Aidam、爱乐奇的AI助教、百度的小度安全AI助教等相继推出[17]。在国际上,可汗学院较早致力于利用AI探索个性化教育。自2022年8月,可汗学院与GPT-4合作,利用GPT-4能力为教学者提供教学资源辅助,整合GPT-4推出AI助手Khanmigo。Khanmigo帮助学生掌握各种学科和技能——可以充当虚拟导师,可以解释概念,还可以提供提示并检查答案[18]。2024年5月,微软和可汗学院宣布建立多元合作伙伴关系,微软将协助可汗学院为美国所有K12教育者免费提供Khanmigo for Teachers。这款AI助教节约了教师备课时间,让老师们专注于最重要的事情——与学生互动并提供支持[18]。显然,可汗学院开发的AI助教集成了一流教育资源,使用AI助教,学习者实现了向一流教师学习的愿望。然而,在师生互动环节还不能实现与一流教师互动,因为一流教师毕竟是稀缺的。目前“AI助教+教师”中的教师多是普通教师。也就是说,并没有考虑如何使研制的AI助教与一流教师相互配合。尽管在AI助教层面实现了精英教育普惠化,但作为一个整体,“AI助教+教师”仍不能实现学习者向一流教师学习。因此,今后需要研发与一流教师(主题名师)相互配合的AI助教。要与一流教师(主题名师)互动、问答,需要解决五个问题,以克服一流教师稀缺的问题。一是建立互动数据库。AI助教应收集学习者与一流教师真实互动及对话集锦,形成内部数据库并实时更新。就像积累围棋名局棋谱一样,高质量的内容(包括常见问题)积累越多,其效能越强。学习者提问与数据库内容重合或接近时,通过AI助教可实现相当于与一流教师的互动。二是实时联网,利用AI的强大功能,让学习者与一流教师实现对话或虚拟对话。学习者提出的问题,要么从互动数据库或网上得到答案,要么在网上等待回答。AI的作用是搜索、匹配问答,包括拆解问题、组合问题、整合答案。三是师生匹配。利用聚类分析等方法,将知识结构、专业诉求、研究方向、思维方式、职业规划等方面较为类似的学习者组织起来,与一流教师进行匹配。在AI、互联网、虚拟技术等信息技术的助力下,一位一流教师可以指导许多学习者。四是改进模型。关于信息技术在教育教学领域中的应用已经有多种模型,如SAMR模型、TIM模型、TPACK模型等,均是解决技术支持下改进教学方法的工具。为实现精英教育普惠化,需要在此基础上,考虑AI等技术支持下向一流教师学习所需要的教学方法,提出相应的模型。五是训练AI替身。让一流教师拥有自己的AI替身,是解决精英教育普惠化的根本方案,目前已有初步探索。例如,美国塔夫茨大学教授、哲学家丹尼尔·丹尼特(Daniel Dennett)使用自己关于各种哲学主题的数以百万字的材料训练、建立了自己的AI替身。该AI替身的一些问答表现已与丹尼特本人无异[19]。随着AI技术不断发展,AI替身与学者本人的思维已越来越接近。由于可以得到本人及时核验、校对、改进,教师、学者的AI替身的质量日益提高,优于AI创制的虚拟教师、虚拟学者。(三)“主题名师+AI助教”网络将成为AI教育的主流组织方式实现精英教育普惠化,除了需要解决主题名师甄选、AI助教研发、优质开放教育资源的支持、AI测评客观化等问题,还需要教育组织方式的变革。目前,在互联网、人工智能、数字技术、虚拟技术等的应用推动下,高等教育组织方式出现新趋势。早在1997年,管理大师彼得·德鲁克(Peter Drucker)宣称,30年内庞大的校园即将作古,大学将无法生存,其原因包括传统大学运作成本过高、教育模式缺乏灵活性、不能满足终身学习的需求、在线教育和远程学习变得更加普及和便捷以及市场需求的变化和全球化的影响[20]。慕课引发人们对大学未来形态的思考。例如,戴维·斯特利(David Staley)提出平台大学、微学院、人文智库、游学大学、博雅学院、接口大学、人体大学、高级游戏研究院、博识大学和未来大学十种“明日大学”的模型[21]。朱永新教授强调,今天的学校会被未来的学习中心取代[22]。余胜泉教授提出,未来将出现一些从根本上重新设计的学校,教育通过网络实现不受地理位置和主体限制的教育功能,形成需求个性化、资源协同化、角色多样化的自组织形态的学习社区[23]。劳伦斯·布罗克利斯(Laurence Brocliss)在《牛津大学史》一书中指出,在新技术的影响下,牛津大学迟早会变得多余,网络教育取代高校只是时间问题[24]。湖南师范大学校长刘仲华院士认为,师生关系将逐渐由传统的权威服从转变为独立平等,以师生为主的二元主体关系将被“教师—学生—AI”的新型多元主体的交互结构取而代之;技术革命正在重新定义学校,只要具备课程、测量、评估三个要素,有对学习者和学习成果的统一标准评价,任何地方都可以称为学校[25]。精英教育普惠化需要线下线上结合,这需要克服新的挑战。早在疫情防控期间,线上教学就已暴露出一些问题。例如,在纯粹的在线环境中,学生缺乏自我组织能力,难以保持注意力,容易产生无聊、孤独感;教师的困难则主要是缺乏在线环境的特定沟通能力,不能正确使用计算机等各种教学工具等。因此,需要为在线教学创建合适的物理环境,重新设计课程的具体内容,也可以引入小组活动来激励和吸引学生,鼓励协作学习[26]。“主题名师+AI助教”是以人为本的系统,AI助教只起辅助作用。人工智能解决方案具有结构性地改变大学行政管理和教学的潜力,高等教育教学需要重新考虑教师的角色。人工智能解决方案为全民教育提供了新的机会,同时促进了终身学习。教育应以人为中心,而不是以技术为中心;尽管人工智能取得了飞速发展,完全依赖技术却是危险和错误的[27]。因此,“主题名师+AI助教”网络以主题名师为主,以AI助教为辅;AI助教的功能是充分利用AI、互联网、虚拟技术与开放教育资源等,让更多学习者得到求教主题名师的机会。博士级智能AI即将问世,越来越多的工作岗位被AI替代,精英教育普惠化迫在眉睫。需要指出的是,精英教育普惠化的形式多种多样,本文提出的“主题名师+AI助教”只是其中一种。其优势在于利用新标准、新方法及时甄选出主题名师,其意义表现在四个方面:一是破“五唯”、立新标,确立一流人才的新标准,甄选出主题名师;二是让主题名师担任培养拔尖创新人才的主持人,让精英培育精英,精英教育普惠化;三是让主题名师担任一流学科的学术带头人,加快一流学科建设;四是让主题名师提供一流的知识服务,大幅提高智库水平。智库咨询应该对接术业有专攻的杰出专家,而非对接机构;让主题名师提供相关主题领域的咨询与建议,可以显著提升知识服务水平。四、主要结论与政策建议本文探讨AI大爆发与AI教育革命有可能在人类历史上首次实现精英教育普惠化,加快拔尖创新人才培养与评价,为早日实现教育强国目标提供了新机遇。围绕如何通过AI教育革命实现精英教育普惠化,得出四项主要观点或结论。第一,让广大学习者向一流教师学习是从以教师为中心转变为以学习者为中心的根本所在,AI教育革命可实现精英教育普惠化,使学习者愿望成真,同时成为拔尖创新人才培养的新方式。第二,AI测评系统化客观化,推动从学历教育向能力教育转变,提高学习者能力成为核心目标。AI能力测评结果将替代学历学位证书,成为选人用人的主要依据,这将对高等教育体系与大学形态产生颠覆性影响,一流大学、一流学科或将重新洗牌。第三,目前单一的集中式学校形态将转变为分布式“主题名师+AI助教”网络形态与集中式学校形态并存,让学习者拥有更多选择,让一流教师充分发挥作用。第四,目前先进的AI助教实现了AI助教层面的精英教育普惠化,但仅有“AI助教+教师”还不够,只有“主题名师+AI助教”网络才能攻克这一难关。运用“1+N”甄选法可以及时甄选、认定主题名师;通过建立互动数据库、实时联网、采用聚类分析等方法与一流教师进行匹配,改进模型,训练一流教师的AI替身等,研发与一流教师(主题名师)配合的AI助教,以克服一流教师稀缺的问题。在政策实施层面,笔者建议抓好四个方面的工作:第一,利用新标准、新方法及时甄选出主题名师,实现破“五唯”、立新标;第二,让主题名师担任培养拔尖创新人才的主持人,让我国的世界一流学者主导一流人才自主培养,集中主题名师的力量办大事,提升人才培养质量,实现精英教育普惠化;第三,让主题名师担任一流学科的学术带头人,加快一流学科建设;第四,让主题名师提供一流的知识服务,大幅提高智库实力与水平。总之,AI教育革命与精英教育普惠化将从根本上改变拔尖创新人才培养、评价的方式方法,切实加快教育强国建设进程,助力我国早日实现从人口大国到人才强国的跃升。参考文献略。

周文 等:新文科建设背景下经济学拔尖创新人才选拔路径探索——以中国人民大学“中国特色经济学”实验班为例

2024-07-25

原创 周文 等 中国考试 2024年07月24日 14:47 北京引用格式:周文, 臧雪伊, 向冠春. 新文科建设背景下经济学拔尖创新人才选拔路径探索: 以中国人民大学“中国特色经济学”实验班为例[J]. 中国考试, 2024(7): 44-52.作 者周文,中国人民大学经济学院教授,中国人民大学全国中国特色社会主义政治经济学研究中心研究员,博士生导师。臧雪伊,中国人民大学在读博士生。向冠春,教育部教育考试院副研究员(通信作者)。摘 要:新文科建设中的经济学拔尖创新人才选拔与培养具有重要的现实意义,经济学拔尖创新人才选拔以价值引领和目标导向为原则,从人文素养、思维能力和技术适应力等方面设置选拔标准。通过设立全国首个以“中国特色经济学”命名的实验班,中国人民大学经济学院就拔尖创新人才选拔进行创新性探索并取得初步成效,主要经验包括高度重视选拔工作、坚持将理想信念作为第一要求、注重考查学生人文素养、让人才培养回归经济学教育本质、在选拔过程中实现交叉融合等。关键词:新文科建设;中国特色经济学;拔尖创新;人才选拔为落实科教兴国和人才强国战略,回应“钱学森之问”,2009年教育部联合中组部、财政部共同启动基础学科拔尖学生培养试验计划,也称“珠峰计划”。该计划以数学、物理学、化学、生物科学、计算机科学为试点,着力培养高素质创新型卓越人才[1]。计划实施近十年后,教育部等六部门于2018年联合发布《关于实施基础学科拔尖学生培养计划2.0的意见》(以下简称《意见2.0》),新增哲学、经济学、中国语言文学、历史学等十余个基础学科[2],与同时发布的其他六项卓越计划合称为“六卓越一拔尖”计划2.0。《意见2.0》明确将拔尖人才选拔、培养模式更加完善作为基础学科拔尖学生培养计划2.0的主要目标要求之一,提出科学选才鉴才要求,为基础学科拔尖创新人才选拔提供基本指导。“六卓越一拔尖”计划2.0于2019年4月正式启动,标志着新工科、新医科、新农科、新文科建设的全面推进,也开启了新时代我国高等教育“质量革命”和内涵式发展的崭新阶段。在全面开展一流专业和一流课程建设“双万计划”的同时,“六卓越一拔尖”计划2.0开始建设包括经济学等17个学科在内的基础学科拔尖学生培养一流基地。2020年9月,首批基地名单发布,中国人民大学经济学拔尖基地成功入选。2020年11月,教育部发布《新文科建设宣言》,全面部署新文科建设任务,提出积极发展文科类新兴专业,推动原有文科专业改造升级等要求[3]。为进一步优化新文科专业结构,建设新专业或新方向成为新文科建设的重点任务[4]。在这一背景下,经学校批准同意,中国人民大学经济学院增设经济学专业(中国特色经济学方向),并开设“中国特色经济学”实验班(以下简称“实验班”)试点探索。本文以高等教育新文科建设为研究背景,聚焦经济学拔尖创新人才选拔路径,在探讨经济学拔尖创新人才选拔意义、原则和标准的基础上,运用案例研究方法,以中国人民大学“中国特色经济学”实验班为例,结合具体的选拔方案、特征及成效等内容,总结梳理中国人民大学经济学院在经济学拔尖创新人才选拔方面的经验与做法。同时,提出并探讨选拔过程中存在的主要问题,以期推动经济学拔尖创新人才选拔更好适应新文科建设的要求,并为今后新文科建设过程中其他专业领域的拔尖创新人才选拔提供借鉴参考。一、新文科建设中经济学拔尖创新人才选拔的背景与标准在新文科建设背景下,经济学作为人文社会科学的一个典型门类,其拔尖创新人才选拔具有深刻的现实意义、明确的指导原则和具体的选拔标准。(一)新文科建设的时代背景目前,我国高等教育领域中文科的学科门类、专业种类及在校学生人数均占大多数[5],亟须加强文科建设。新文科建设为传统文科注入新内涵,强调学科建设与人才培养对新时代、新形势的适应与对接[6],其范围、指向、模式都具有鲜明特色。根据“六卓越一拔尖”计划2.0对新文科建设的定位和部署,新文科是发展社会主义先进文化的重要载体,因此要把握新时代哲学社会科学发展的新要求,推动哲学社会科学与新科技革命交叉融合,培养新时代的哲学社会科学家,提升国家文化软实力和中华文化影响力[7]。此外,面对新科技革命、产业革命,以及日益综合化、复杂化的社会问题,跨学科、跨专业的交叉融合发展是教育发展的主流趋势,新文科建设亟须适应这一要求。首先,构建以育人、育才为中心的哲学社会科学发展新格局是新文科建设的总体目标之一。经济学作为新文科建设中的重点学科,该领域的拔尖创新人才选拔必须坚持和遵循为党育人、为国育才,为解决中国问题选才鉴才,为建构中国经济学自主知识体系培养、储备人才。其次,《新文科建设宣言》明确指出,新文科建设应立足国情,坚持走中国特色的文科教育发展之路[3]。经济学拔尖创新人才培养应适应新时代我国经济社会发展的现实需要,选拔和培养大批立足中国实际、研究中国问题的本土经济学优秀人才。最后,推进新文科建设,归根结底是建构我国自主的知识体系[8],该体系的建构依赖于知识创新、理论创新和方法创新,依赖于具有拔尖创新能力的高层次人才,根本上依赖于基础学科教育和基础研究。因此,经济学拔尖创新人才培养应坚持走基础研究领域的人才自主培养之路[9]。与新工科、新医科、新农科建设一样,新文科建设是适应新一轮科技革命和产业变革新趋势、布局未来必争领域的一项人才培养战略。然而,与新工科、新医科、新农科建设不同的是,新文科建设更加强调服务国家软实力建设和文化繁荣发展,突出文科教育的价值导向,致力于文科教育的创新发展,推动形成哲学社会科学的中国学派。因此,新文科建设中经济学拔尖创新人才选拔和培养应将价值引领和目标导向作为基本原则,培养出一大批怀有崇高的理想信念和远大的志向抱负,愿意把个人价值的实现与国家发展紧密联系,不断推进知识创新、理论创新、方法创新,致力于为国家民族富强而奋斗的优秀人才。(二)选拔标准选拔是人才培养的入口和首道程序,如何从学生群体中甄选拔尖创新人才,关键取决于人才标准的界定。目前,学界普遍关注基于拔尖创新学生自身禀赋特征的选拔标准,主要包括四个方面:1)作为创造力基础的智力与知识标准,如智商高、求知欲和学习主动性强、知识深加工能力强等;2)与创造力高度相关的人格特征[10],如独立性、冒险性、目标性、自信心、包容度、意志力、想象力、幽默感、直觉、渴望认可等;3)内在动机,如内在激情、好奇、兴趣等,人们受到内在动机激励时,会表现出较强的创造力[11];4)批判性思维,具有批判性思维的人更加敢于质疑和创新,对于文科基础学科来说,批判性思维尤为重要[12]。同时,国际上的资优学领域近年来逐渐将拔尖创新人才选拔标准从天赋智商转向成功智能[13],学科兴趣、学术理想、学术潜力、创新能力开始成为教师和教育管理者认同度较高的选拔标准[14]。值得注意的是,拔尖创新人才的选拔标准还会受到国家、地区乃至历史阶段差异性的影响,如有一些标准具有普适性,可以适用于不同国家和地区的不同阶段;而另一些标准则具有特殊性,仅适用于某些特定国家和地区的特定阶段。目前,我国正在施行的《意见2.0》,是在原有政策要求基础上增加哲学、经济学、中国语言文学、历史学等人文学科,由此突显新文科建设的重要现实意义;同时将科学选才鉴才作为重点举措,明确提出选才与鉴才结合,真正发现和遴选志向远大、学术潜力大、综合能力强、心理素质好的优秀学生[2]。依据文件要求,结合学界已有研究及经济学学科特点,新文科建设背景下我国经济学拔尖创新人才选拔应包括三个方面的标准。第一,人文素养标准。无论是传统文科还是新文科,都以人和人的社会活动及意识活动作为主要研究对象,都以对真善美的追求作为学科的核心特征,因此,人文素养是经济学拔尖创新人才选拔的首要标准。人文素养通常体现为人本精神、对人和社会有研究兴趣、有积极向善的人文关怀等。新时代背景下,人文素养被具象化为家国情怀,以人民为中心的治学理念,传承中华优秀传统文化,有政策眼光和大局意识,有破解人类发展难题的远大志向等。面对全球化发展趋势,人文素养还体现为宽阔的国际视野和世界胸怀,能够在国际舞台上讲好中国故事。落实到实践层面,人文素养表现为社会实践、沟通表达、团队合作能力等。第二,思维能力标准。由于文科人才培养一直存在周期长、见效慢、难以量化评价等特征,且新文科建设起步较晚、涉及面较广,因此,在新文科拔尖创新人才选拔过程中,尤其要注重文科教育特点和人才成长规律。经济学属于人文社会科学,较难通过可量化的指标体系就其核心思想和价值判断进行评价和归因。正因如此,强调对学生思维的训练进而促进人文思想的形成,就成为包括经济学在内的人文社会科学教育的本质要求。从学科特点出发,经济学拔尖创新人才选拔也应回归经济学教育本质,将学生的思维能力作为重要的选拔依据。经济学的思维能力主要包括分析性思维、比较性思维和创新性思维,具备这三种思维能力的学生在遇到问题时会主动积极地思考和探索,快速形成怎么想、怎么做、做什么的科学逻辑,进而展现较强的分析问题、解决问题的能力,以及创新批判、敢为天下先的勇气。第三,技术适应标准。已有研究发现,人文社会科学的发展首先经历从文史哲传统文科向社会学、心理学、经济学等社会科学大文科的转向,继而发生与数学、计算机科学相关的人文社会科学的统计学转向,目前正处于与信息技术爆炸式发展相适应的新阶段[15]。本质上,人文社会科学的每一次转向,都是适应生产力发展和科技进步、求新求变的过程。生产力和科学技术的重大变革,同时引发经济学革命,具体表现为不断拓宽经济学研究视野、带来经济学新的研究方向和研究内容,向经济学提出新问题、新挑战,推动经济学向前发展,使经济学研究手段和分析工具日益丰富,等等。因此,对新技术的接受和适应能力,以及运用新技术并将其转化为创造力和创新意识的能力,成为经济学拔尖创新人才选拔的又一项重要标准。二、“中国特色经济学”实验班的选拔程序、特征与成效中国人民大学利用入选首批“经济学拔尖学生培养计划2.0”基地的契机,于2020年9月正式设立中国特色经济学实验班,这是全国第一个也是唯一一个以“中国特色经济学”命名的实验班。实验班严格遵循基础学科拔尖学生培养目标要求,做好系统设计,突出培养特色,汇聚优质资源,全面改革创新,致力于构建“人大特色、经院风格”的中国特色经济学拔尖创新人才培养体系和培养模式。截至目前,实验班已招收四届学生,每届选拔录取20人,并在2024年6月迎来首批毕业生。实验班在创办宗旨、选拔模式、课程体系、学程衔接、培养措施等方面进行了积极探索,以下对实验班的选拔试点情况进行梳理和总结。(一)实验班选拔程序为科学准确地将志向远大、学术潜力大、对中国特色经济学具有浓厚兴趣的优秀学生选拔出来,实验班项目积极创新选拔模式,大胆尝试新理念新做法,将拔尖创新人才选拔作为一项系统性、长期性工作来抓,同时制订详细的选拔方案,涵盖选拔项目及宣传、选拔对象、选拔名额、选拔流程、选拔方式等内容。以2023级实验班学生选拔为例,整个选拔过程分为四个阶段[16]。第一阶段:宣传,包括确定选拔范围及前期宣传。实验班项目为落实首批国家经济学拔尖学生培养计划2.0而设立,旨在培养掌握中国特色经济学理论和发展前沿,具有经济思想史和经济史深厚素养和广阔视野,质性与量化分析方法并重,扎根中国大地,参与中国经济改革与发展实践,分析思维、历史视野和问题意识交叉融合,服务于建设社会主义现代化强国亟须的一流高端理论人才和建设人才。2023年实验班选拔对象主要面向全校范围内的2023级本科新生,不限文理,并特别提示在高考录取时明确有专业调整限制的新生在申请时要符合高考录取相关要求。项目宣传主要是针对选拔项目开展宣讲活动,请学院领导、项目负责人、往届学生等介绍项目相关情况,并将确定的选拔对象、选拔规模等信息,通过公众号、项目咨询群、宣讲会等方式进行宣传。第二阶段:报名与审核,主要包括学生自主报名和报名审核两个步骤。首先,学生要在规定时间内通过“微人大教务链接”和“问卷星报名链接”两个系统完成自主报名,并按照系统要求填写高中阶段获奖及其他情况。其次,学院对申请人提交材料及其报名资格进行审核和综合评定,确定参加选拔考试的学生名单,并在项目咨询群中发布。第三阶段:选拔性考试,主要分为笔试和面试两个环节。笔试注重考查学生的分析能力、批判性思维能力、文字表达能力,不涉及专业知识;面试注重考查学生的逻辑思维、语言表达、学习潜力、自我认知、应变能力等。进入选拔考试名单的学生要在规定时间前往指定地点参加笔试和面试,未参加考试的视为自动放弃。第四阶段,选拔结果公示与录取。学院根据学生的笔试和面试成绩并参考高考成绩依序录取。同时,学院将录取结果在经济学院网站公示,并在“人大经济学拔尖学生培养基地”公众号和项目咨询群中同时发布录取结果信息。通过公平公正选拔和多方研究讨论,2023年实验班最终录取20人。(二)实验班选拔特征实验班学生的选拔过程具有六个明显特征:其一,依据新文科培养理念选拔人才,注重考查学生的价值信念和济世品格,并将其作为首要要求。其二,考查学生的综合素质而不仅仅是智力水平,采取包括笔试和面试的非智力测验,实现选拔方式多样化。其三,面试环节注重把握学生特质,尤其是学术志趣和创新潜质,关注学生与项目要求的契合度。其四,在全校范围内开放报名,具有报名资格的学生均可参加考试,面向当年入学新生择优录取,实现了生源群体的多元化。其五,发挥高考在人才选拔方面的积极作用,将高考招录与入校选拔有机结合。其六,选拔程序规范化、制度化,通过宣传宣讲、建群答疑等方式确保参选学生知晓项目,由相关专业的教师组成选拔团队,采用相对统一的选拔标准并严格执行选拔程序。以2020年首批实验班学生的选拔为例,经济学院在开学前提前组建选拔小组,包括政治经济学、经济史、经济思想史三个教研室共六位教师。选拔小组充分发挥教师专业优势,协同合作,高质量高效率地完成宣讲、咨询、命题、笔试、阅卷、面试、录取、公示、组班等一系列工作。据统计,2020年全校共有134名学生报名,参加笔试、面试并获得成绩的学生有85人,按照笔试、面试成绩加权并参考高考成绩依序排列后最终录取20人。本次选拔的每个环节都是一次新的尝试和探索。例如,在宣讲环节,考虑到学生当时尚未入校,先针对非经济学类学生线上宣传,邀请学院院长和主管副院长宣讲,吸引了大批学生踊跃报名;学生报到进校后,又专门面向经济类学生开展线下宣讲,两次宣讲的内容各有侧重。再如在笔试环节,先由四位教师分别单独命制一道材料题,试题选材内容各异,不涉及专业知识,目的是考查学生对问题的理解和分析能力,考试时由学生在四道题中自主选择一题进行作答,为学生充分发挥自身能力提供空间。又如在面试环节,由六位教师分成两个小组展开多对一面试,通过随机提问的方式考查学生的综合素质及与项目要求的契合程度。(三)实验班选拔与培养成效中国人民大学创办“中国特色经济学”实验班,对于落实国家重大战略要求、培养中国特色经济学教学与研究高级人才、推动新时代中国经济学发展具有重要意义,也为新文科建设探索了改革经验。人才培养是一项长期事业,因此对拔尖创新人才选拔成效进行检验和评价尚需假以时日。短期来看,学生在校期间的学业水平、科研表现,以及毕业去向能够在一定程度上体现选拔与培养成效。根据公开数据,自开班以来,实验班学生在国家大学生创新性实验计划项目、全国大学生数学竞赛、美国大学生数学建模竞赛等多个项目或竞赛中都取得优异成绩[17-19],具体见表1。这些成绩在一定程度上说明实验班学生具备较强的学科功底、学术水平、创新能力,以及运用数学工具解决实际问题的能力。以2020级实验班的一位同学A为例,该同学在校四年间分别荣获吴玉章奖学金、国家奖学金、中国人民大学学习学术类一等奖学金、胡乃武学术青苗奖学金、2021年第十三届全国大学生数学竞赛北京赛区非数学类一等奖等多个奖项,同时以本科生身份参加第十届中国博弈论年会、第五届微观经济理论论坛等高级别学术会议,还在组织经济学领域的顶刊上发表合作论文。从毕业去向看,截至2024年5月,首届中国特色经济学实验班学生中有17人被国内外顶尖知名大学研究生项目录取,其中有12人选择在中国人民大学继续攻读研究生学位。三、“中国特色经济学”实验班人才选拔的经验与启示“中国特色经济学”实验班就经济学拔尖创新人才选拔模式进行探索和尝试并取得初步成效,有必要对其招生选拔过程中的经验进行总结,并提出需要进一步思考和探讨的问题与方向。其主要经验包括以下五个方面。第一,将选拔工作作为项目重要环节予以高度重视。实验班项目以“扎根中国大地”为宗旨,以本硕博贯通式培养为特色,建立和实施“一论二史、史论结合”的课程体系,培养以马克思主义理论为指导,能够对中国特色社会主义重大理论和现实问题进行分析和回应,有理想、有担当、懂理论、懂历史、会方法的新型经济学人才。人大经济学院高度重视这一具有时代意义的人才培养项目,不仅要求参与选拔的专业教师具有高度的思想政治觉悟和道德品质修养,而且从项目推介宣传到学生录取公示的每个选拔环节都予以大力支持,要求相关教研室的教师和行政人员积极配合选拔工作,最终高质量完成选拔过程中的各项工作。第二,坚持将理想信念作为人才选拔的第一要求。实验班项目在选拔学生时,始终坚持将学生个人的理想信念作为选拔的第一要求,要求学生有坚定的马克思主义理想信念,有理想、有道德、有文化、守纪律,有良好的品质和文明教养,有实事求是的踏实学风。实验班项目还重点关注学生对我国重大现实问题的分析和回应能力,以及学生对扎根中国大地、深入基层开展社会实践活动的接受程度。为了落实这一要求,参与选拔的教师需要在笔试环节的题目设置及面试环节的问答设计方面巧妙考查,目的是在不刻意为之的情境下对学生的理想信念和思想品德作出准确判断。第三,注重考查学生的人文素养。作为人文社会科学的重要学科门类,经济学不仅研究财富问题,也研究人的行为问题。因此,无论从学科类别还是研究对象上看,经济学拔尖创新人才的选拔必须重视学生的人文素养。人文素养的内涵和外延都极为广泛,如何通过有限的考试设计评估学生的人文素养需要重点谋划。实验班项目在选拔学生的过程中,将对学生人文素养的考查具体化为以下五项内容:一是对马克思主义经济学和现代经济学基础理论和发展前沿的关注,二是对经济思想史和经济史视野及历史分析方法的认同,三是对国情民情和社会发展趋势的了解,四是对根植于中国大地的重大现实问题的研究兴趣,五是对社会调查实践的偏好。实践发现,通过在面试环节就上述方面对学生进行提问或展开对话,可以较好地评估学生的人文素养水平。第四,让选拔与培养回归经济学教育本质。实验班学生的教学培养是回归经济学教育本质的一项探索。为此,项目组进行了以下几项尝试:一是通过极富中国特色和时代特征的课程体系,培养和发展学生在经济学领域的分析思维、比较思维和创新思维,教学生“怎么想”;二是通过开展现代数量分析方法和质性分析方法等经济分析工具的教学训练,教学生“如何做”;三是以我国实践问题为导向帮助学生树立问题意识,引导学生开展学术研究,教学生“做什么”;四是以培养学生的思维能力为目标,将试题选择权教给学生,使其思考和创造能力得到充分释放。最终,通过学习回归经济学教育本质的课程,学生的分析性、比较性、创新性思维得到进一步提高和巩固,勇于面对问题、善于解决问题的能力也得到进一步提升。第五,在选拔过程中实现交叉融合。这主要体现在两个方面:其一,不拘泥于学生的专业限制,面向全校各专业学生开展选拔工作,并注重考查学生史论结合、跨学科专业整合知识、解决复杂问题等能力。这种做法不仅契合了新文科建设所要求的学科交叉融合、专业深度融通的趋势,而且有助于选拔出善于总结规律、可以将实践经验上升为系统化经济学说的创新人才。其二,面对新的科技革命,经济学拔尖创新人才必须紧跟技术变革,关注变革产生的广泛影响,同时有能力使用新工具、新手段开展学习,并将技术变革的新发明、新成果运用于经济学研究。鉴于此,在选拔过程中注重考查学生对计算机编程、统计分析、人工智能等新技术的适应和接受程度,可以为实现新技术变革与经济学的有机整合做好人才准备。实验班项目在选拔和培养学生的过程中也发现一些问题,这些问题与已有研究结论具有一致性,值得研究者持续关注和进一步探讨。首先,学生经济学领域的能力素养与其价值信念不成正相关。这说明理想信念作为经济学拔尖创新人才选拔第一要求的必要性、科学性和合理性,也印证了已有研究提出的拔尖计划应进一步关注对学生兼济家国品格的培养、应引导学生确立更加成熟的价值信念[20]等观点,同时反映出学生思想政治教育工作任重道远,加强对学生价值观、人生观、世界观、使命观、责任观的教育和引导是培养五育并举的拔尖创新人才的当务之急。其次,学生的学术志趣随年级增长而发生一定的蜕变[21],因此要高度重视选拔工作,不断优化和完善选拔过程的各个环节,探索更加多元的选拔方式。例如,可以尝试增加评价频次、通过日常测试对学生进行二次筛选,建立科学的分流退出机制等。最后,随着拔尖基地规模的不断扩大,拔尖创新人才不断增加,为了让有限的资源充分发挥作用,应对人才的长期兴趣及专业忠诚度提出明确要求,同时在选拔时应遵循宁缺毋滥原则。四、结束语拔尖创新人才培养是我国高等教育“质量革命”的重要议题,国家选取多所大学共同实施基础学科拔尖学生培养计划,旨在鼓励高校立足自身实际,依托自身特色和优势学科,积极探索个性化的拔尖创新人才培养之路。这不仅给拔尖创新人才选拔标准的制定预留了政策空间,也在公正、合理、科学等基本要求之外强调了标准的多样性,为丰富和积累本土化实践经验、进一步完善和有效执行拔尖创新人才教育提供了多种机会[22]。每所大学都有其特有的资源条件和组织文化,拔尖创新人才培养模式也相对稳定[23],但身处不同学科的拔尖创新人才具有不同的特质;因此,为所有高校和学科设立统一的选拔标准和模式并不符合实际,但确定选拔原则和方向不可或缺。新文科建设从理想志向、学术潜力、综合能力、心理素质等方面,为基础学科拔尖创新人才选拔标准的设立指明方向。中国人民大学在新时代新文科建设背景下创办“中国特色经济学”实验班,既是对人才选拔的一项积极探索,也是满足国家战略需求、培养解决中国问题的本土经济学人才的积极实践。实验班以拔尖创新人才的学术志向为考查基础,加强对学生政治品德、人文素养、思维能力和技术适应能力的综合评价,严格遵循录取标准,最终形成富有特色的拔尖创新人才选拔模式。这对提升我国经济学教学与研究、建构经济学自主知识体系具有重要意义,也契合新时代我国经济学发展的新要求,为新文科建设探索积累了改革经验。参考文献略。

何沛芸 卿灿:我国小学生考试焦虑状况、影响及其成因——基于SSES2019调查数据的分析

2024-07-01

原创 何沛芸 卿灿 中国考试 2024-06-28 15:53 北京引用格式:何沛芸, 卿灿. 我国小学生考试焦虑状况、影响及其成因: 基于SSES2019调查数据的分析[J]. 中国考试, 2024(6): 90-99.作 者何沛芸,南京大学教育研究院在读博士生。卿灿,华东师范大学教育学部在读博士生(通信作者)。摘 要:行之有效的考试焦虑干预手段,对于保护中小学生心理健康具有重要意义。本研究采用SSES2019年调查数据对我国小学生考试焦虑状况、影响及成因进行初步探讨。研究发现:我国超过三成小学生存在考试焦虑现象,“考试不自信”是小学生考试焦虑主要表现形式;回归分析发现考试焦虑不利于小学生学业发展,阅读成绩受到的影响最为明显,且“考试不自信”对学生学业成绩的负向影响最大;教师期望和家长期望对小学生考试焦虑具有显著正向影响,学校和家庭因素是造成小学生考试焦虑的主要原因。基于此,研究提出三个方面改进举措,包括优化考试制度、建立情感支持体系,转变教育观念、营造和谐家庭氛围,倡导教育多元、加强家庭学校社会合作。关键词:考试焦虑;小学生;学业成绩;教师期望;家长期望一、问题提出考试焦虑(test anxiety)是学生在学习过程中出现的一种消极情绪状态,主要发生在评价情境中[1],具体是指个体处于考试或其他评价情境时所产生的紧张、不安、担忧以及相应的情绪唤醒[2]。我国学生考试焦虑现象在基础教育阶段较为突出,有调查研究显示,近15年来我国中小学生考试焦虑发生率居高不下,长期稳定在30%左右[3]。这严重影响到学生的认知与非认知能力发展,甚至危害其身体健康。考试焦虑是基础教育内卷现象的一种具体表现,东亚社会一直重视教育,孩子的良好教育需要从小抓起也已成为文化共识。为了“不输在起跑线上”,我国不少学生从小学阶段就被迫卷入以考试成绩为代表的激烈竞争,进而导致考试焦虑的低龄化。为促进学生的全面发展和健康成长,2021年7月,中共中央办公厅、国务院办公厅印发了《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》(以下简称“双减”政策),针对我国中小学生过重的作业负担与校外培训负担现象提出整改举措。2023年4月,教育部等17个部门联合发文《全面加强和改进新时代学生心理健康工作专项行动计划(2023—2025年)》,明确指出要加强学生心理健康工作体系建设,全方位强化学生心理健康教育,健全心理问题预防和监测机制[4]。由此可见,全面提升学生心理健康水平已然成为新时代人才培养的必然要求。考试焦虑现象也成为学界关注的重点问题,近年来国内外学者围绕学生考试焦虑的影响及成因进行了大量讨论。从其影响来看,研究发现考试焦虑不仅对学生智商、课程成绩与GPA、记忆力等认知能力具有显著的负向影响[5-8],而且不利于学生的情绪调节能力、专注度等非认知能力发展[9-10]。不仅如此,有学者指出长期的考试焦虑还会危害学生的身体健康水平,对学生的心肺功能、免疫系统等造成危害[11-12],考试焦虑严重时可能使学生产生抑郁情绪甚至自杀行为[3,13]。因此,分析考试焦虑的影响因素进而对学生考试焦虑进行有效干预十分必要。基于既有研究,可以将考试焦虑的影响因素大致划分为内部因素与外部因素两类。内部因素主要源自学生个体层面,包括基因遗传、情境自我评估、自我认知等。例如,有学者提出特质焦虑有50%左右的差异是基因遗传造成的[14]。同时,个体对所处评价环境的自我评估也会影响其情绪状态,当学生判定所处的考试评价情境对其自身具有一定难度或挑战性时便会表现出较高的焦虑情绪[15]。此外,考试焦虑还受到个体自我认知的影响,自我成就目标较高的学生通常比其他学生具有更高的考试焦虑情绪[16]。外部因素方面,既有研究则主要围绕学生家庭和学校两个方面进行探讨。例如,多项研究指出,父母的教育水平越低、家庭社会经济地位越低、对子女的教育期望越高、采取专制型的教养方式等家庭因素会导致学生更高的考试焦虑程度[17-21];同时,就读于重点中学、学校的课业负担重以及教师消极的教学行为等学校因素也会对学生考试焦虑造成负向影响[7, 22-23]。目前,已有不少学者围绕考试焦虑对学生的影响及成因进行了讨论。首先,从研究对象来看,多数学者主要针对中学生、大学生的考试焦虑,专门探讨小学生的研究并不多见。其次,从研究视角来看,多数研究主要围绕学生个体特征以及家庭因素就考试焦虑的成因进行分析,探讨学校特征尤其是教师特征因素影响学生考试焦虑的研究较少。此外,近年我国学生考试焦虑现象呈现出低龄化趋势,在这样的社会背景下亟须对我国小学生考试焦虑现象做出系统全面的分析,为有效提升学生心理健康素养提供经验证据,从而促进我国基础教育健康发展。基于此,本文尝试分析我国小学生考试焦虑状况,并探讨考试焦虑对小学生学业表现的影响,以及家长期望、教师期望和同辈期望对小学生考试焦虑的影响,以期找到干预小学生考试焦虑的有效办法。二、研究方法(一)研究设计本研究数据来源于社会情感能力调查(study on social and emotional skills, SSES)2019年中国小学生样本。该调查是OECD于2019年在中国、韩国、美国等9个国家开展的针对青少年社会情感能力的一项大规模国际性测评。项目采取两阶段抽样方式在中国苏州调查了3800余名小学生的详细信息,包括学生个人、家庭、教师等方面。首先,对问卷中的信息进行编码、合并,并对缺失值、异常值等进行处理,获得2927名小学生有效样本,其中男生样本1584名,占比54.12%;女生样本1343名,占比45.88%。其次,采用OLS回归方法构建模型分别探讨考试焦虑对小学生学业表现的影响和家长期望、教师期望以及同辈期望对小学生考试焦虑的影响。最后,采用夏普利值法(Shapley value method)深入探讨学生个体特征、家庭特征以及学校特征等因素对考试焦虑的影响程度。夏普利值法采取的是合作博弈论的思想,基于回归模型的估计结果,通过逐步剔除各影响变量展开分解并计算拟合优度的变化量,当拟合优度变化越大时则表明该影响变量对被解释变量的边际贡献度越高[24]。(二)模型与变量首先,根据OLS回归方法设定如下模型,探讨考试焦虑与小学生学业表现的关系:上式(1)中,s表示学校,i表示学生个体;gradeis表示小学生的学业表现情况,调查组收集了受访学生在数学、阅读、艺术三个学科的学校成绩信息,并对原始成绩做标准化处理以保证不同学校间成绩具有可比性,然后将其作为判断学生学业成果的依据之一;anxiousis为小学生考试焦虑情况,调查组询问了学生对“经常担心考试很难”“为了考试学习时会感到紧张”“即使准备很好仍然会担心考试”等问题的认可程度,回答均采用5点计分法(非常不同意=1;非常同意=5),然后根据得分情况计算了学生的考试焦虑指数。根据教育生产函数,影响个体教育产出的投入要素主要包括来自学生个体、学生家庭、教师以及学校等方面的投入[25]。据此在模型中控制一系列混淆变量:①学生特征变量(Xperson, is),根据数据可获得性,选取了学生性别(男生=1)、是否为独生子女(是=1)以及学生自评健康状况(很差=1;很好=5)。②家庭特征变量(Xfamily, is),包括学生父母的年龄情况(24岁以下=1;50岁以上=7)、父母受教育水平(文盲=1;博士=8)以及调查组给出的家庭社会经济地位指数(SES)。③教师特征变量(Xteacher, is),涉及教师性别(男性=1)、年龄、教龄以及教师受教育水平(小学及以下=1;博士=7)。此外,考虑到可能还存在一系列学校因素会影响青少年考试焦虑,模型还纳入了学校固定效应(δs)。εis为随机扰动项。其次,根据OLS回归方法设定如下模型,探讨我国小学生考试焦虑的影响因素:上式(2)中,expectis表示小学生受到来自家庭、学校以及同辈的期望,其中家庭层面来自问项“我父母希望我每件事都做得很好”“我父母总是希望我比别人做得更好”;学校层面来自问项“我老师希望我的作业完成得很好”“我老师对我要求很高”;同辈层面来自问项“我朋友对我的期待超出了我的能力范畴”“我朋友对我要求太多了”。所有问项的回答均采用了5点计分法(非常不同意=1;非常同意=5),为了便于分析,本文对每类变量进行加总处理,最终得到家长期望、教师期望以及同辈期望三个变量。模型中其余变量同公式(1)。各变量的描述性统计结果如表1所示。最后,借助夏普利值法进一步探讨学生个体、家庭以及学校等因素对其考试焦虑的影响程度。夏普利值的具体计算可基于如下公式:上式(3)中,Shxj(f)为变量xj的夏普利值;K为自变量的集合{xj};Θ(K)为K所有的排列组合;θ表示自变量的一组排列;MC(xj, θ)表示变量xj在θ中的临界贡献。三、结果与讨论(一)我国小学生的考试焦虑情况首先根据SSES2019调查中针对小学生考试焦虑所提的三个问题进行描述统计,以探清我国小学生考试焦虑状况,结果如表2所示。根据表2,我国小学生考试焦虑现象较为普遍,有接近70%的受访学生表示自己可能存在考试畏难、考试紧张以及考试不自信等考试焦虑情绪;超过三成的学生明确表示自己存在考试焦虑,且男生所占比例高于女生。从考试焦虑的各维度来看,有38%的小学生明确表示即使自己准备得很好仍然会担心考试,即考试不自信;其次是考试紧张与考试畏难,分别占比34%与33%。可以发现,我国小学生的考试焦虑现象较为普遍,亟须社会各界的广泛关注。他们可能承受着较大的压力,其中包括来自家庭、学校以及社会等方面的期望与要求,这些压力导致小学生即使认为自己已经为考试做好了充足准备,仍然会担心考试失利。同时,统计结果也发现大多数小学生不存在考试紧张问题,这或许是因为我国小学生参加了过多的考试选拔活动,已经逐渐适应了考试带来的紧张感。(二)考试焦虑对小学生学业成绩的影响鉴于我国小学生考试焦虑情况确实存在,有必要进一步探讨考试焦虑会对学生造成何种影响。本文主要从小学生学业表现视角进行了分析,小学生数学、阅读以及艺术成绩在不同考试焦虑组别下的均值如表3所示。根据表3,小学生数学、阅读以及艺术成绩在不同考试焦虑组别间确实存在显著差异,无论是考试畏难、考试紧张还是考试不自信,随着其焦虑程度的加重,小学生的各类成绩均有不同程度的下降,其中,阅读成绩降低最为明显,组间差异最大为2.96个标准分,且在统计意义上显著。为明确小学生考试焦虑是否对其学业表现具有消极影响,本文采用模型(1)进行回归分析,结果如表4所示。根据表4,在控制了学生、家庭、教师以及学校等各类因素的条件下,考试焦虑对于学生的学业成绩确实具有显著的负向影响。其中,小学生的阅读成绩受到考试焦虑的影响最大,考试焦虑指数平均每增加1分,其阅读成绩将会显著下降0.06个标准分。此外,本研究还就考试焦虑不同维度对小学生学业成绩的影响进行了估计,结果如图1所示。根据图1,考试不自信对小学生学业成绩带来的负面影响最大,其次分别为考试畏难与考试紧张;从各科学业成绩来看,依旧是小学生的阅读成绩受到的负向影响最大,其次分别是艺术成绩与数学成绩。由此可见,考试焦虑情绪主要对偏文学科成绩影响较大,而对偏理学科成绩影响较小。这可能与心理学提出的注意控制理论有关,阅读、艺术等偏文学科对个体所需的认知与记忆资源要求更高,因此受到的影响也就更大。(三)影响小学生考试焦虑的因素为探讨如何有效缓解我国小学生考试焦虑问题,本研究对小学生考试焦虑的影响因素进行了分析。表5为基于模型(2)的估计结果,来自家庭、学校以及社会等各方面的压力确实对小学生考试焦虑具有正向影响。在控制学生特征、家庭特征、教师特征以及学校固定效应的条件下,家长的期望程度平均每增加1个单位,将会显著提高小学生的考试焦虑指数0.886分;教师期望、同辈期望平均每增加1个单位,将会分别显著增加小学生考试焦虑指数1.581、0.710。为比较家庭、教师以及同辈等对小学生考试焦虑影响的大小,本文还同时将三个变量纳入回归进行分析。从表4中结果(4)来看,教师期望对小学生考试焦虑影响程度最大,家长期望次之,而相较之下,同辈期望对小学生考试焦虑的影响最小且不显著。类似地,本研究也采取与结果(4)相同的实证策略,就各类期望对小学生考试焦虑不同维度进行了估计。从图2的结果来看,对小学生考试焦虑影响最大的仍然是教师期望,尤其是会影响到小学生的考试畏难情绪;相较之下,家长期望对小学生考试焦虑影响较小,主要是会影响小学生考试不自信情绪;而同辈期望则依旧对小学生考试焦虑无显著的影响。可能的原因在于,小学生在校内与校外的活动中最为经常接触的就是教师与家长,他们的行为态度直接影响着小学生的学习状态与情绪变化。就考试焦虑而言,教师直接决定着小学生的学习任务、考试频率、测试难度等,因此教师对小学生的学业要求和期望越高,往往布置的学习任务越多、考试频率越高、测试难度越大,这将会直接影响小学生的考试焦虑,尤其是会让小学生产生考试畏难情绪。而家长则会通过安排校外学习活动以及平时的言传身教等方式,给小学生传达出对其较高的教育期望,也会对小学生考试焦虑具有一定影响。小学生尤其会担心自己在各种竞争性考试中失利而让家长失望,所以会出现考试不自信的消极情绪。相较之下,同辈对小学生的期望不具有约束性和强制性,因此对其考试焦虑的影响相对较小。最后,借助夏普利值法对模型(4)中各回归变量对小学生考试焦虑的影响程度进行分解,结果如表6所示。从各影响因素对小学生考试焦虑贡献率来看,教师和学校层面的因素确实是影响小学生考试焦虑的最主要因素,贡献率高达55.12%;家庭层面因素次之,贡献率达24%。学校和家庭是小学生活动最为密切的环境,他们的教育和生活都主要在这两个时空环境中进行。其中,学校提供了学习的场所和制度,而家庭则是小学生最早接触到的社会环境,都对小学生的情感、认知和行为发展有着深远的影响,因此学校和家庭对小学生考试焦虑影响的贡献率合计达到80%。而相较之下,小学生的社会圈子相对狭窄,通常在认知、情感和社会发展上还处于相对较早的阶段,因此社会因素对其考试焦虑的影响较小。但需要注意的是,虽然学校和家庭特征因素对小学生考试焦虑的影响较大,但其中实则存在了大量人为难以改变的因素,诸如父母年龄、父母受教育水平、教师教龄、教师受教育水平、学校区位、学校教育理念等等,现实生活中难以通过对这些因素的调控来减轻小学生考试焦虑的程度。因此,从可操作角度来看,外界附加在小学生身上的过高期望不容忽视。表6中的结果也显示,家长、教师以及同辈对小学生的期望对小学生考试焦虑贡献率总计达22.78%,其中影响最大的来自教师期望,其次为家长期望。可见,缓解小学生考试焦虑的着力点应放在教师与家长对小学生的期望上,降低对小学生的预期和要求。家庭与学校合力为小学生共同营造一个轻松积极的成长和学习环境是破解小学生考试焦虑现象的关键。四、结论与建议本文基于SSES2019年中国小学生样本数据,首先从考试畏难、考试紧张以及考试不自信三个方面对我国小学生考试焦虑进行了现状描述,发现我国有超过三成的小学生存在考试焦虑问题,且男生占据比例更大;其中,考试不自信是小学生考试焦虑主要表现形式。其次,通过组间差异分析探讨了小学生数学、阅读以及艺术成绩在考试焦虑不同组别间的差异情况,发现小学生各类学业成绩会随着其焦虑程度的加重而下降;通过回归分析也发现考试焦虑对于小学生的学业成绩确实具有显著的负向影响,其中阅读成绩受到考试焦虑的影响最大;从考试焦虑维度看,考试不自信对小学生学业成绩的负向影响最大,其次分别为考试畏难与考试紧张。最后,从家庭、学校以及社会等三个方面分析了家长期望、教师期望以及同辈期望对小学生考试焦虑的影响,发现教师期望和家长期望对小学生考试焦虑具有显著正向影响,并借助夏普利值法对模型各变量的贡献率进行了分解,发现学校和家庭因素是造成小学生考试焦虑的主要原因,贡献率合计高达80%。基于上述结论,本文从学校、家庭、社会三个层面提出如下几点建议。首先,学校应优化考试制度,建立学生情感支持体系。在中小学阶段,学校是学生生活的核心,其不仅是传授知识的场所,更是学生成长、交流和身心发展的重要场所,因此学校在缓解学生考试焦虑问题上应该发挥重要作用。为此,学校应优化考试制度,在考试频率、考试难度、考试内容、考试形式等方面应做出调整,采取多元化的学业测评方式,弱化传统考试在学生校内学习中的应用。此外,学校还应当建立情感支持体系,一方面要重视培养学生的心理韧性和自我调控能力,为学生提供必要的心理健康教育和咨询服务;另一方面学科教师也应适当降低对学生的学习要求和难度,在布置学习任务时要注意到学生间的个体差异,加强个性化培养。其次,家庭应转变教育观念,注意营造和谐家庭氛围。家庭是学生最主要的生活场所、是学生成长过程中的重要支柱,家长的行为态度、言传身教、教育方式等对于学生的情绪状态和性格养成有着深远影响,有效缓解学生考试焦虑离不开家庭的支持和参与。由于教育竞争激烈,学生面临着家长对成绩的过度关心和过高的教育期望,这容易给学生的教育学习带来沉重心理负担。为此,家长应转变教育观念,摆正对孩子学习成绩的态度,不过分强调分数和排名,合理调整对子女教育的期望,注重学生的全面发展和个性化培养;同时还应该营造和谐的家庭氛围,给予学生充分的情感支持和理解,在其遇到困难和挫折时给予鼓励和安慰,不要过分批评或施加压力,让家庭成为学生心理上的避风港。最后,社会应倡导多元教育,加强家庭学校社会合作。家庭的教育方式、学校的教学理念等都会受到社会教育政策和舆论等社会因素的影响。因此,社会应该倡导多元化的教育观念,使大众认识到教育的目的不仅是为了取得好的成绩,更重要的是为了培养学生的综合素质和个性发展。此外,还应加强家庭学校社会的三方联动,为学生提供多样化的学习机会和资源,鼓励他们积极参与各种实践活动和社会实践,培养他们的多种能力素养和创新精神,共同努力为学生营造一个轻松、积极的校内校外学习环境,推动教育改革和良性发展。“双减”政策对我国中小学生校内课程作业与校外补习培训方面做出明确规定,减轻了中小学生的显性负担。然而,有学者指出家长的教育焦虑情绪并未因“双减”政策的实施得到缓解[26],而这种教育焦虑情绪又具有一定的代际传递性,会对学生情绪和行为产生影响[27],给学生带来隐性负担。本研究从教育期望这一外部压力视角出发,探讨了如何从学校、家庭、社会等方面有效缓解学生的考试焦虑,为重构“双减”背景下的良性教育生态提供了新思路。当然,受数据限制,本研究还存有不足之处,后续可基于“双减”政策实施前后的数据做进一步探讨和验证。参考文献略。

孙杭 金艳:考试分数报告研发的国际经验及启示

2024-07-01

原创 孙杭 金艳 中国考试 2024-06-26 15:10 北京引用格式:孙杭, 金艳. 考试分数报告研发的国际经验及启示[J]. 中国考试, 2024(6): 79-89.作 者孙杭,上海理工大学外语学院讲师。金艳,上海交通大学外国语学院教授(通信作者)。摘 要:分数报告是考试结果的呈现形式,作为考试开发人员与考试使用者的沟通媒介,它在很大程度上影响着考试能否达成预期目的。十多年来,在教育与心理测量领域,分数报告的研究与实践取得丰硕成果。本文聚焦于国际前沿的分数报告开发流程和评价方法,对国内外大型外语考试分数报告案例进行分析,提出我国教育考试分数报告的改革和创新可以从整体规划、理论构建和加强信息技术运用等三个方面展开,为我国分数报告的理论和实践创新提供参考。关键词:分数报告;教育评价改革;研发框架;评价体系;国际经验作为考试结果的呈现形式,分数报告(score report)是实现考试功能的重要环节。Zapata-Rivera等指出,分数报告是连接考试信息和考试使用者决策或行动的桥梁[1]。无论一个考试的构思、设计和实施过程如何科学合理,假如考试使用者不能正确地理解和使用分数报告,则所有前期努力都将付诸东流[2]。分数报告作为考试的外部形象,是公众了解考试信息最直观的材料,直接影响着公众对考试的看法[3]。一直以来,考试研发人员将大部分精力放在如何开发技术上能够通过公众和专业人士严格审查的考试,而对如何组织、报告和使用考试结果的研究相对较少[4]。在很长一段时间里,大多数考试的分数报告几乎只包含总分及对考试使用者来说不太相关的信息,给人留下负面刻板印象,认为考试就是将每个考生标记成一个数字或提供一堆令人无法理解的信息[5]585。有研究表明,无论是教育决策者、教学工作者还是公众,在理解和使用考试结果方面都存在不少困难[6-8]。十多年来,社会公众以及教育界对考试后效(washback)不断反思,促使教育与心理测量领域重新认识和关注分数报告的重要性。有关分数报告的相关研究迅猛增长,已经逐渐成为一个重要且独立的研究领域。同时,分数报告的研究内容也不再局限于分析考试分数的心理测量学特质,而是扩展到如何在设计分数报告时充分考虑特定受众的需求和特征,如何利用不同的图示和支持性材料提高使用者对分数报告的理解,以及如何促进考试信息的合理使用等方面[9]。目前,我国大规模教育考试组织严格规范、命题质量高,但对考试分数报告的关注不足、相关研究也较少,尚未形成独立的理论体系和实践模式。国内有关研究发现,分数报告存在内容和形式单一、对教学和学习的导向作用不强等问题,考生认为现有大规模考试分数报告的丰富性有待提高[10-11]。同时,越来越多的国内学者意识到挖掘和利用考试数据、对分数报告进行改革和创新的重要性[12-14]。鉴于此,本文通过梳理和分析国际教育考试研究中分数报告的基本特征、开发步骤与评价方法,总结大型考试分数报告的实践现状,探索科学有效的分数报告内容和形式,以促进我国教育考试分数报告的理论研究和实践探索。一、分数报告的基本特征由于不同考试的考试目的和分数报告对象存在明显差异,因此并不存在一体通用的分数报告模式。然而,分数报告研发时应考虑的因素和分数报告的构成要素上存在诸多共性。有研究者在总结大量现有分数报告的基础上,构建了分数报告的基本特征汇总表[15],见表1。该框架将分数报告的特征分为八个基本要素,其中:1)报告对象,指报告的使用者,包括学生、家长、教师、教育管理人员等,在很大程度上决定报告的内容和信息呈现方式;2)分数量表,指分数的呈现形式,包括原始分、标准分、百分位数等多种形式,每种分数各有利弊;3)分数参照,指考试分数可以提供学生在学校、地区或国家常模群体中的位置(即常模参照),或学生对某些知识内容的掌握是否达到标准(即标准参照);4)评价单元,包含题目分、单项分和总分,总分是最常见的评价单元,特定知识/技能领域的单项分更能提供对教与学具有指导意义的信息,如提供诊断性反馈;5)报告单元,指报告可以提供给考生个人、班级、学校、地区等不同层面,且每个单元具有独特性;6)测量误差,指报告对考试的测量误差进行呈现和解释,如提供单项分的同时也提供该层面的测量误差;7)呈现方式,指报告中包含的数字、图表、文字叙述三种呈现方式;8)报告媒介,指报告传播的三种方式,纸质版是传统的报告媒介,网络版本(包含静态型和互动型)随着信息技术的发展愈发常见。在上述八个要素中,报告对象和报告单元是对报告目标受众的界定,分数量表、分数参照、评价单元和测量误差四项主要关注考试结果的报告方法,呈现方式和报告媒介强调报告内容的信息呈现方式和发放形式等。在研发分数报告时,考试开发人员首先应该考虑和确认这些基本特征。Zenisky和Hambleton在解析分数报告的基本要素时指出,应充分考虑分数报告的内容(描述和数据)、发放方式(纸质或电子版)、发放对象(个人或群体)[5]586-591。其中,报告内容的描述部分是对分数报告进行基本的描述和解释,具体包含考试名称/标识、考试日期、报告标题、报告目的、考试目的、介绍性引言、考生个体或群体信息标题、附加资源(如课程资料、解释性指南)的外部链接、分数使用指导、术语表、后续步骤等多项信息。数据部分是分数报告的核心,包括总结性结果、表现级别描述、单项表现、题目层面结果、常模参照结果、形成性或诊断性信息、进步情况预测和题目映射(item mapping)等七个主要内容。此外,根据2014年版《教育与心理测量标准》(Standards for Educational and Psychological Testing)要求,考试机构应帮助报告对象正确理解考试分数的意义[16]119。因此,分数报告应清晰、易于理解,且提供分数解释的相关信息,如提供计分方法和分数准确性的说明等。同时还应认识到,分数报告包含的最重要的信息和呈现这些信息的最佳方式取决于目标受众、考试目的及考试分数的心理测量学特质[17]。二、分数报告的研发框架与流程近年来,教育与心理测量领域发表了一系列有关分数报告开发步骤的研究。这些研究为考试开发人员提供了科学合理、基于研究支撑的研发框架,有助于收集相关的效度证据。其中,Zapata-Rivera[18]、Hambleton等[19]、Slater等[20]开发的三个框架应用较广泛,本文以主要研究者的名字命名其框架名称,每个框架的主要阶段划分和具体内容示例见表2。通过对比以上三个框架可知,Zapata-Rivera框架对应Hambleton等框架的前三个阶段,而后者在第四阶段强调发布后的分数报告进行持续调整和维护的重要性。Slater等框架增加制订分数报告研发进度表阶段(阶段二),并强调收集考试委托方反馈(阶段四)和使用者反馈(阶段五)的重要性。总体而言,上述三个框架都强调了报告研发前的准备工作、研发报告样例、收集反馈并加以修订、确定分数报告四个主要阶段。下面以Hambleton等框架为例,对考试开发者在各阶段应采取的行动和注意事项进行详细介绍。(一)阶段一:奠定研发基础Hambleton和Zenisky将分数报告研发的前期基础工作分为四步。第一步是对贯穿整个考试设计的分数报告应考虑的因素进行说明。例如,考试测量什么能力或技能?分数报告想要提供哪些信息?这一步的首要关注点是确保分数报告准确地反映考试想要达成的目标,并在考试开发的最初阶段厘清和说明考试、分数和分数报告的关系。第二步是确认报告对象,即明确根据分数报告做出决策或采取行动的利益相关者。例如,谁是分数报告的主要使用者?他们会根据分数报告做出哪些决策?不同群体对分数报告的需求不同,如教师可以根据分数报告调整教学,学生可以借助报告有针对性地开展自主学习,教育管理部门可以将报告作为评价、筛选的重要依据等。第三步是对报告对象进行需求分析。在与报告使用者的沟通过程中,应关注他们想要了解考试表现的哪些方面,哪些信息对他们有用以及如何获取和使用分数报告等[5]593。对报告对象的分析不仅包括鉴定他们的需求,还包括了解他们的测评素养[1]。测评知识较少的群体需要给他们提供更多的解释性、支持性信息以协助他们正确地理解报告内容。第四步是阅读相关文献,包括行业行为准则和有关实证研究[21]。这些行为准则和研究可以为考试开发人员提供科学可靠的参照。目前,很多考试机构都公开其分数报告样式,通过查阅分数报告实例,可以借鉴先进经验并避免重复他人犯过的错误[2]。(二)阶段二:研制分数报告样例基于阶段一收集到的信息资料,考试开发人员要设计一份或多份分数报告样例。分数报告样例也被称为预期分数报告(prospective score report, PSR),是最终版本的分数报告内容和呈现形式的模型[22]。按照考试开发流程,研发人员应在考试开发初期提前设计PSR,并在考试开发流程推进中根据发展变化对其进行相应的修订。然而,实际情况是很多分数报告经常是在考试开发的最后阶段才被提上研究日程,此时留给设计和修改分数报告的时间和资源都极其有限[5]591,由此导致分数报告可能无法提供一些重要信息。此外,PSR既要与测试目标和特定受众的需求相匹配,还要充分考虑整体设计和信息呈现的清晰程度和准确性,因此需要不同领域的专家通力合作。根据分数报告的形式和功能,专家团队包括专业领域专家、测量学专家、信息技术专家、图表设计师等[19]。(三)阶段三:获取反馈并进行修正这一阶段旨在获取相关人员对PSR的反馈信息,并根据反馈信息修正报告,是分数报告研发过程中不可或缺的重要步骤。首先,进行内部审核并达到满意结果,这需要考试开发人员根据收集到的信息对PSR进行几轮审查和修改。其次,采用问卷调查法、焦点小组法、访谈法、有声思维法、直接观察法或眼动实验等等多种研究方法进行外部审核,既要收集报告使用者的态度和感受,也要探究他们能否正确地理解报告内容。考试开发人员可以给报告使用者提供不同版本的分数报告,以了解他们偏向于哪个版本中的哪些特征[20]。最后,要认真、仔细地分析数据并作为依据修改报告。这是一个不断重复的过程,因为分数报告在版本确定和正式投入使用前必须经过多轮修改。(四)阶段四:评估和维护报告在分数报告正式对外发布后,考试研发人员还要对其进行维护。在阶段三中提及的数据收集方法也可应用于本阶段。评价分数报告需要大规模地收集报告对象的意见反馈,既包括对报告内容和形式的反馈(如信息的可读性、视觉化效果、对不同内容和呈现方式的偏好),也包括对分数报告的理解和使用情况的调查。例如,报告对象能否正确地描述分数的含义?他们根据分数报告做出哪些决策?此阶段应着重关注报告使用者在何种程度上理解(或误解)和使用(或误用、滥用)分数报告,以及由此产生哪些正面、负面的影响等。总之,研发框架可以为分数报告的设计提供科学、有效的模板,使考试开发工作有章可循、有据可依。上述研发框架具有一定的灵活性,可以应用在不同的考试场景中。此外,分数报告的研发步骤已经发展为迭代设计方法(iterative methodology design),即根据需要不断地利用后期搜集的信息修改和重复前期工作[17,19],这种重复的迭代方法在Zapata-Rivera的分数报告开发流程中得到体现,见图1。三、分数报告的评价体系为了确保分数报告的效度,需要对分数报告自身及研发流程等进行客观评估,为此不同学者设计了不同的评价系统,以下三种是比较典型的分数报告评价体系。与分数报告开发框架相对应,Zenisky和Hambleton针对每一阶段如何评价分数报告的研发进程同步设计了评价表,见表3[5]595。该评价表由开放式问题组成,旨在鼓励考试开发者清楚地记录分数报告开发过程中的细节。Zenisky和Hambleton认为,通过明确地记录和说明分数报告的开发过程,考试机构可以积累分数报告开发的效度证据以支持报告的合理使用[5]597。此外,Zenisky和Hambleton还就如何评价分数报告提出37个指导性问题,涵盖八个方面。这里,每个领域仅列举一个代表性问题,具体如下:1)总体方面,了解分数报告是否反映主要利益相关者的信息需求;2)报告介绍和描述方面,了解分数报告是否说明考试目的;3)考试分数和表现级别方面,了解分数报告是否详细描述了所使用的表现级别或心理状态,如合格、不合格,基础、熟练、通过等;4)考试表现指标方面,了解分数报告是否通知报告使用者分数的精确程度;5)分数报告内容的其他方面,了解分数报告是否提供电话号码、网站等联系方式以便报告使用者有问题时可以进行咨询;6)语言表述方面,了解分数报告是否去除对报告使用者来说难以理解的统计学或其他专业术语和符号;7)设计方面,了解报告是否清晰且合乎逻辑地被划分为不同部分以提高可读性;8)说明性指南和其他辅助性材料方面,了解说明性指南是否存在,能否提供清晰、有用的信息等。总之,这些指导性问题是对现有分数报告实践和研究的总结,可以为全面地评价分数报告提供支撑。从考试效度概念中对分数的解释和使用角度出发,O’Leary提出关注结果的分数报告评价方法(outcomes-focused evaluation of score reporting),该方法包含清晰度和实用性两个原则,具体分为七个要素[23]。清晰度要求分数报告能让使用者较为容易地理解,具体包含四个要素:1)设计特征,即分数报告的设计必须基于现有的最佳实践,包括当代最优秀的报告范例、行为准则以及文献建议;2)解释性指南,指分数报告必须是独立的,应将充分理解报告信息所需要的额外工作降到最少;3)呈现方式,指分数报告必须融合多种数据呈现方式;4)语言形式,分数报告的语言必须容易理解,而实用性则要求分数报告的目的、预期解释以及预期的行动与后果等三个要素必须明确。综上可知,上述三个分数报告评价体系存在一定区别,其中,Zenisky和Hambleton设计的第一个评价表,其目的在于评价分数报告研发流程,引导考试开发者对开发步骤进行自查;第二个体系关注分数报告本身,以提问的方式检查分数报告的各个组成部分;O’Leary提出的评价体系源于研究者对分数报告效度的要求,从结果使用角度出发对报告进行评估。考试开发机构可根据自身需要,选择合适的分数报告评价体系。四、国内外大型外语考试分数报告案例的分析比较推进和深化分数报告的改革和创新,应基于对现有实践的了解之上。因此,本研究以Ryan以及Zenisky和Hambleton的分数报告基本特征框架作为理论依据,选取国内外测试人数多、具有一定代表性和影响的七项语言测试的分数报告进行分析比较,结果见表4。上述七项语言测试分别为托福(TOEFLiBT)、雅思(IELTS)、剑桥高级英语证书考试(CAE)、培生学术英语考试(PTE-Academic,简称PTE)、多邻国英语考试(Duolingo English Test,简称Duolingo)、大学英语四级考试(CET-4)和汉语水平考试(HSK)。表4为七项分数报告目前包含的信息类型和信息呈现方式。由于这七项分数报告都包含基本信息(考生和考试信息),因此在表中未重复呈现。本研究关注的重点是考试的分数报告,因此在考试官网出现的其他信息未在表中呈现。由表4可知,现有大型外语考试的分数报告在内容和形式上既存在共性,也有相当大的差异。首先,考试总分是考生最关注的信息。上述七种考试的分制为9~710分不等,说明不同分数报告的评分系统差异很大。Zenisky和Hambleton认为,考试采用不同的计分方法,部分原因是考试机构希望将自己的考试分数与其他考试进行区分,以防止错误理解考试[5]590。然而,繁多且复杂的评分系统会使非测试专家,如考生、家长、教师等群体难以理解分数的真实含义。为了帮助考试使用者进一步理解分数的含义,部分考试提供分数与等级量表的对应关系。例如,IELTS和CAE在分数报告上直接体现分数与欧洲语言共同参考框架(CEFR)的比照;TOEFL和Duolingo虽然没在分数报告上直接体现,但在官网上可找到对应信息,Duolingo还提供与TOEFL和IELTS的分数比照,以帮助读者理解自身的能力水平。其次,在信息的丰富性上,虽然这几种考试对语言技能分类稍有不同,但都提供语言技能的单项分。此外,TOEFL还提供考生的历史最高分,HSK为帮助考生了解其分数在常模群体中的位置专门报告百分等级,CET-4在官网的分数解释中提供常模信息、单项分、总分的百分位表等信息。再次,在提供诊断性信息方面,PTE提供考生个人技能档案,并提供技能定义和个性化建议,以帮助考生进一步了解自己的强弱项。最后,在语言能力描述方面,Duolingo报告考生总体能力,CET-4报告口试中语言能力的三个等级,TOEFL等考试在官网上对不同技能和水平进行描述,但并未体现在具体的分数报告上。此外,上述考试多将比较详细的分数解释性指南放在官方网站上,但考生是否能快速找到这些信息,与分数报告上是否标明其位置有关,其中TOEFL、CAE、Duolingo、CET-4四类考试直接在报告上注明相关信息的位置。下面以Duolingo和PTE两个考试的分数报告为例进行分析,见图2、图3。由图2可以看到,Duolingo分数报告可分为三个区域。第一部分是考生和考试的基本信息。第二、三部分是报告的主体,分别为考生的总分和单项分。在第二部分,报告通过加大字号和橙色字体呈现报告使用者最关注的总分,同时采用要点罗列的方式简要描述考生的总体语言能力,以帮助报告使用者了解考生可以用英语完成的任务。除数字和文字呈现外,报告还用图示方式直观地展现考生分数在量尺上的位置。在第三部分,分别报告阅读和写作、阅读和听力、听力和口语以及写作与口语四个单项分数,同样用明亮的橙色字体进行标示,辅以简洁的文字描述和图形展示。值得注意的是,Duolingo报告在分数展示图中呈现考生总分和单项分的分数范围(score range),这涉及考试分数的精确度(the precision of test scores)。2014年版《教育与心理测量标准》一书中明确指出考试开发者应提供报告使用者有关分数精确度的信息[16]119,有研究认为分数精确度的信息有助于防止使用者对分数信息过度解读[7]。Duolingo以图示方式展示考生分数范围的作法,既遵循了优秀分数报告的实践标准,也对如何报告分数精确度进行了有益探索。然而,由于报告上并没有对分数范围的含义进行解释,因此使用者是否理解该部分信息仍有待研究。最后,Duolingo报告还在底部通过“了解更多”信息告知考试使用者有关测试评分详细信息的网址,并用橙色字体进行提示。Duolingo的分数报告简洁清晰、可读性强,没有过多的信息堆积,在空间组织、颜色运用和图表、文字、数字搭配上科学合理,符合有效的分数报告的基本原则,给考生提供分数范围也是一个亮点。然而,有研究发现报告使用者通常难以理解分数精确度的相关信息[7](如标准误差和置信区间等),如果能辅以适当解释可能会有更好的效果。图3为PTE的分数报告。该报告包含四个分区。第一分区是考生考号和注册信息,右侧是考生总分,并通过图形化和背景色方式突出信息重要性。第二分区是听、读、说、写四个交际技能的单项分,同样通过图形和颜色进行强调。第三分区分为两个部分,左侧用柱状图再次呈现单项技能得分和总分,更直观地展现分数间的对比;右侧呈现考生信息。第四分区位于报告底端,是考场信息。当考生在线阅读PTE报告时,还可看到包含口语和写作的开放式作答、短篇写作等八个子技能的个人技能档案,同时还有技能的概述和个性化建议。其中,个人技能档案部分用耳机、书本、对话框和钢笔等图形形象地展示了所涉及的单一或多种技能,并用柱状图展示该领域的能力水平,建议部分则采用要点罗列的文字叙述。这些针对考生个体的详细的诊断性信息可以帮助考生了解自己语言能力的强弱项和未来学习的方向,有助于考生进行有针对性的自主学习。从内容上看,PTE分数报告信息丰富,除报告考生和考试信息、总分、单项分以外,还提供详细的诊断性信息和未来建议,提升考试的促学功能;从呈现方式来看,报告有效地将数字、文字和图表结合起来,但第三分区右侧考生信息部分的排版或可进一步优化,如合并到第一分区中可能会更加清晰。总体来看,上述报告展现了一些优秀的分数报告的样式和内容,包括利用不同形式呈现信息(包括文字、数字、图表)、对重要信息进行突出强调、根据内容重要性合理分区、提供分数解释性指南等;但也存在一些问题,如部分报告缺乏个性化反馈信息、缺少其他资源的具体位置信息等。五、对我国教育考试分数报告改革的启示我国教育考试的种类多、规模大、社会影响深远,对促进教育公平和社会稳定发挥着重要作用[26]。考虑到考试分数对社会的巨大影响,考试机构应充分认识考试分数报告的重要意义,积极探索分数报告的改革。具体而言,借鉴参考国际先进经验做法,我国未来的相关研究和实践可从以下三个方面展开。第一,整体规划考试项目,从研发最初阶段即对分数报告进行全面的设计和考虑。主要有四方面需要提前重点规划:1)确定考试的性质和目的,充分考虑教师、学生、学校等相关方面的信息需求和测评素养;2)将分数解释指南等辅助性材料的研发纳入设计方案,例如,在研发和评价分数报告样例时,应运用不同的实证研究方法(如有声思维、问卷、访谈、眼动实验)调查各类报告使用者(如学生、教师、教育管理人员)对分数报告的态度、偏好、理解,并依据使用者的反馈进行相应修改;3)分数报告发放后,采用追踪研究、个案研究、民族志研究等研究方法持续调查报告使用者依据报告做出的决策和采取的行动,特别要关注分数报告对学生学习和教师教学的导向作用;4)积极借鉴国际前沿的分数报告开发框架和优秀案例,并详细记录和评价具体开发流程,收集分数报告开发的效度证据。第二,进行理论构建和创新,形成本土化的分数报告开发和评价的行为准则和指导方针。理论构建包括分数报告的基本特征、开发步骤、评价方法和效度验证等方面。行为准则和指导方针是对优秀分数报告应该遵循的原则和标准的界定,具体可参考2014年版《教育与心理测量标准》中有关分数报告的行业标准[16]119-144,以及国际测验委员会(International Test Commission)于2014年发布的分数报告质量标准的指导纲要[27]。建立本土化分数报告的行为准则和指导方针,有助于规范我国教育考试分数报告的实践,提高分数报告质量。第三,积极探索信息技术,特别是人工智能辅助下的在线互动型分数报告的设计开发和应用。在线互动型分数报告允许报告使用者选择和排序所展示的信息、探索更深层次的信息、改变信息呈现的方式,使针对性、个性化的立体多维的分数报告成为现实。然而,开发互动型报告的步骤和应遵循的原则与传统书面报告有哪些异同,在技术上如何实现突破,都值得进一步研究探索。在线互动型分数报告的研制离不开跨学科领域专家团队的通力合作,应充分挖掘认知科学、信息设计学、美学、用户界面研究等领域在分数报告设计开发中的应用和作用。对考试分数的解释始于人们阅读分数报告,因此,分数报告的设计和发放直接影响考试效果[17]。优秀的分数报告应该以考试利益相关者能理解的方式给他们提供所需要的信息,从而帮助他们采取合理的行动[2]。在深化新时代教育评价改革的背景下,国内相关领域应转变和创新分数报告的设计理念,深入挖掘考试数据以提供多维、有效的分数报告,为教学和学习提供丰富的信息反馈。通过帮助和引导大众正确理解和使用测试结果,构建和推进科学的教—学—评联动体制,从而提升教育考试的整体质量。参考文献略。