教育资讯 - 天津市教育考试研究所

教育部教育考试院：2025年高考地理全国卷试题评析

2026-06-01

2025年高考文综全国卷地理学科命题坚持以习近平新时代中国特色社会主义思想为指导，以高校人才选拔要求和普通高中课程标准为依据，以真实问题情境为载体，贯彻全国教育大会精神，落实立德树人根本任务，着力体现地理学科独特的育人价值。试卷在整体风格、题型结构上保持基本稳定，给学生以熟悉感。一、以点带面落实立德树人根本任务1．服务国家战略，激发责任担当试题自然融入我国新时期“双碳”发展目标、能源结构调整与产业转型升级等重大发展战略。例如，第1～3题以吉林通榆县风电产业集群为情境，通过分析风电装备制造全产业链与“风电场+制造基地+风电消纳”联动模式，体现我国发展清洁能源、构建新型能源体系的发展战略，引导学生关注科技创新与产业协同对实现碳中和目标的作用，激励学生投身国家前沿科技建设，勇担时代重任。2．弘扬传统文化，贯彻人地协调观中华优秀传统文化蕴含着古人协调人地关系的朴素认知与深远智慧，为当代生态文明建设提供了良好借鉴。例如，第4～6题以江西吉安渼陂古村水系治理为切入点，通过分析“两河一塘（群）”水系的布局原理，展现古人因地制宜、天人合一的治水智慧，传递“尊重自然、合理利用资源”的可持续发展理念，提升学生对中华优秀传统文化的认同，呼应和美乡村建设中保护传统村落文化、传承生态智慧的时代需求。二、特色鲜明考查关键能力与学科素养1．突出学科特点，强化区域认知与综合思维运用区域认知、综合思维发现问题、分析问题和解决现实问题，是地理学科的鲜明特点。例如，第9～11题以我国温带湿润区某盆地为案例，结合台地和谷地、四周丘陵、北缘山峰等不同地貌类型的空间尺度差异，分析气候、地貌、水文、土壤、植被等不同自然要素的综合作用，以及由此形成的地带性与非地带性差异，培养综合思维。第36题要求学生综合工业区位选择与产业集聚、农业发展特点、区域差异和区域联系、产业升级、现代服务业对农业的影响、电子商务与区域经济发展等知识，涵盖了不同产业的联动发展，不同地区的协调发展，培养区域认知。2．依托学术情境，提升地理实践与探究能力依托特定学术情境，考查学生的地理实践与探究能力，培养严谨的科学态度与求实的科学精神。例如，第37题以英国湖区国家公园为案例，将第四纪冰川作用与当前水文特征结合，（1）小题描述湖泊分布与形态，（2）小题分析冰川作用的影响，通过“获取信息、描述现象、分析成因”的能力进阶考查，从表象到机理，形成“观察、解释”的逻辑链。（3）（4）小题，将气候、地形与水文特征关联，引导学生从单一要素分析转向对区域整体思考。旨在通过合理的梯度设计，逐步引导学生运用地理原理解释真实地理现象。三、多维立体呈现思维品质1．对接基本知识技能，夯实思维基础强调基础性，并不是强调对单一知识点的简单再现和机械重复，而是要求学生运用基础知识与基本原理，调动基本技能，解决具体问题，进而为培养持续发展思维品质奠定坚实基础。例如，第7～8题通过广西南宁新旧气象站气压数据对比，要求学生推断站点环境差异。提供的选项均是学生在日常教材学习中遇到的常用概念，如海拔、气温、纬度、风向等，引导学生夯实地理基础知识，把握学科基本概念、基本原理和方法。2．挖掘地理现象内涵，熟用思维方法通过延伸设问逻辑链条，将学生科学运用恰当思维方法分析问题的思维过程外显，是评价学生思维品质的良好依据。例如，第36（1）小题，引导学生系统关联产业发展诸多因素，归纳示范效应、产业集聚、技术扩散、品牌文化升级的递进关系，避免孤立观点罗列、碎片化思维。第36（2）小题要求学生从企业、产业链、农户等多主体角度展开辩证分析，引导学生学习运用逻辑思维、创新思维深挖复杂问题的本质，通过深入分析、结构化表达展现思维品质，体现减少机械刷题、强化思维考查的导向。

Gen-AI自动命题与人工命题的质量比较研究

2026-05-07

作者简介：杨志明湖南师范大学测评研究中心主任，教授。李炳蔚湖南师范大学外国语学院在读博士生。摘要：生成式人工智能为考试命题带来新机遇，但命制的试题质量如何尚需实证检验。本研究以某职业院校120名学生为被试，采用项目反应理论双参数逻辑斯蒂模型，结合作答响应时间分析与选择题干扰项有效性评估，对比了AI生成的英语语法选择题与高等学校英语应用能力考试（PRETCO-A）真题的差异。结果发现：1）AI生成试题与人工真题在难度、区分度、模型与数据的拟合度以及测验信息分布方面均高度接近；2）学生在两类试题上的作答时间无显著差异；3）两者设置的有效干扰项比例无显著差异。上述研究结果连同实验过程中使用的Gen-AI命题原则，对于英语作业设计、低利害性英语考试命题等具有重要意义。关键词：生成式AI；自动命题；项目反应理论；英语应用能力考试引言作为教育测评的关键环节，试题开发面临突出矛盾，即一方面依赖专家经验、成本高昂，另一方面又亟须实现大规模、高效率的命题[1-3]。生成式人工智能（Generative Artificial Intelligence,Gen-AI）为解决上述矛盾提供了新的可能，其核心价值在于快速生成针对性试题，在减轻教师命题负担的同时，又提升了考试与教学的整体效率[4-5]。然而，Gen-AI的命题质量常常受到质疑，直接采用其生成的试题还存在不少风险。为有效管控命题风险，有必要对以下三个问题进行系统研究：其一，在难度、区分度、信息量等关键质量指标上，Gen-AI生成的试题与国家级标准化考试真题之间存在何种差异？其二，在学生的作答响应时间上，两者表现有何不同？其三，在多项选择题选项的迷惑性效果方面，二者又存在怎样的差别？通过对上述问题的回答，不仅可以准确评估Gen-AI的命题质量，还能进一步提炼其优化改进原则与合理应用边界，为教育测评领域的智能化发展提供理论支撑与实践参考。一、文献综述（一）关于Gen-AI命题的相关研究国内外关于Gen-AI命题的研究主要集中在测评效度、命题效能、技术适配性及实际应用四个方面。在测评效度方面，已有研究多关注命题素材与情境的丰富性，知识、能力与素养目标的覆盖程度等问题[6-8]。目前，较具代表性的研究结论认为，如果缺乏必要的人工审核与干预，Gen-AI生成的试题可能存在影响测量效度甚至考试公平的问题，如在客观题命制中可能出现多个正确答案[9-10]，某些试题存在题目功能差异（differential item functioning）等。这类问题也凸显了对其产出进行效度验证的必要性。在命题效能方面，现有研究多集中于命题效率（单位时间内的产出数量）、成本控制（人力与物力资源的投入规模）及试题质量（如难度、区分度、选项有效性）等方面[11]。已有研究发现，Gen-AI生成的试题在难度、区分度及作答时间等方面与教材习题差异不显著，可应用于形成性测评[12-13]。例如，医学考试领域Gen-AI命制试题的整体难度和区分度与人工命题情况相当，因此较为适合做平时练习[9-10]。然而，Gen-AI命题质量也存在波动，其在高中数学命题中就出现难度把握不稳、解题过程不严谨等问题[14]，这提示其效能发挥必须依赖于后续的人工审检与修订。在技术适配性方面，已有研究侧重于两个方面：一是考查命题模式在不同学科中的适应能力，如理科公式生成的准确性、文科情境创设的适切性等[15]；二是考查模型与现有测评系统的兼容性与集成能力[16]。有研究指出，Gen-AI在俄语命题中能基本满足考试与教学需求[17]，但在复杂的数学命题中表现出明显局限性[14]。从Gen-AI命制的题型角度看，英语测评领域的实证研究多集中于听力、阅读等理解型题型，在高阶认知任务方面尚存在局限；此外，对语法题型的系统性研究仍显不足，由此限制了对不同题型适配差异的全面认识[18-20]。这些研究揭示了一类共性问题，即Gen-AI命题的技术适配性受到学科与题型的影响。在实际应用方面，Gen-AI命题的价值主要体现在两方面：一是通过参数化驱动实现批量命题，构建标准化题库；二是借助AI提升情境化命题水平，如结合VR/AR技术构建沉浸式测评场景以降低成本[21]。已有研究发现，Gen-AI的应用潜力在很大程度上依赖研究者对命题目标与框架的明确界定及系统引导。例如，通过输入考试大纲、真题示例或采用迭代提示策略等方式，可以引导Gen-AI生成更加符合预期的试题[5]。因此，将Gen-AI定位为“专家主导的人机协作命题工具”才更为合理。高水平专家应依据考试蓝图、实际学情及历史经验对Gen-AI生成的试题进行系统审查与修订，并重点关注试题情境的适切性、公平性及测量学属性，以最终实现技术赋能与命题质量保障的有机结合。（二）应用IRT评估Gen-AI命题质量的相关研究项目反应理论（item response theory,IRT）自20世纪60年代被提出以来，已逐步发展为现代测量学的重要方法，其模型从单参数逻辑斯蒂模型（1-PL）或Rasch模型发展为双参数（2-PL）、三参数（3-PL）及多维度模型（MIRT）等，具备题目参数与被试能力参数估计的总体不变性等优势，并能有效克服经典测验理论框架下题目和能力参数估计严重依赖考生样本的缺点[22-24]。鉴于IRT的这些优势特性，它被逐步引入对Gen-AI生成试题的质量评估中。目前，关于Gen-AI自动命题与人工命题质量差异的研究尚未形成共识。一方面，有研究发现Gen-AI生成试题在一些测量指标上接近人工命题水平。例如，Bhandari等采用2-PL模型比较Gen-AI生成的大学代数题与教材习题发现，二者在难度、区分度及考生作答响应时间等方面差异不显著[12-13]；Young等在心理学选择题研究中发现，Gen-AI生成的试题在IRT框架下的合格率接近90%[25]。另一方面，在高等教育考试情境中，有研究发现试题测量指标存在不同表现。例如，Mendoza等研究发现，Gen-AI生成试题的难度略高于人工命题，但其区分度和模型拟合度与人工命题相当[26]；Isley等研究发现，Gen-AI生成的大学选修课试题整体难度略低，但其区分度和信度并不低于真题[27]；Lin等对大学英语四级阅读理解题进行比较发现，Gen-AI生成试题在模型拟合度、题目信息量等方面与真题相当，但部分题目表现出更高的区分度[19]。与此同时，也有研究对Gen-AI自动命题的测量学表现持谨慎态度。例如，Zhang等在英语测试研究中发现，Gen-AI生成的阅读理解试题在难度和区分度方面不及人工命题[28]；另有研究指出，Gen-AI在命制涉及高阶认知能力的试题时，容易出现推理深度不足或测量效度受限等问题[29-30]。这些研究结果的差异可能源于学科属性、题型特征以及试题质量评估方法和指标选取等方面的原因。总体来看，已有相关研究主要侧重对题目难度、区分度和模型拟合度等传统测量学指标的对比分析，对考生作答响应时间、选择题干扰项质量等反映作答行为和测量效度的维度关注相对不足。这在一定程度上制约了对Gen-AI自动命题质量的全面认识，也为后续研究提供了更多探索空间。（三）对客观题干扰项质量的相关研究在Gen-AI自动命题研究中，客观题干扰项的质量是影响试题整体效度的关键指标，它直接决定了试题的区分度与测量精度[31]，而且关系到模型拟合效果与测验信息分布的合理性。高质量的干扰项应具备适度的迷惑性，以有效区分不同能力水平的考生。Haladyna和Downing提出的选择题编写标准指出，有效的干扰项需同时满足两个条件，一是选择率不低于5%，二是具有负区分力（即更容易被低分组考生选择）[32]。随后，Tarrant等进一步发展了上述判定框架，并强调通过综合选择率与区分力科学评估干扰项的有效性[33]。目前，相关研究普遍认为Gen-AI在客观题题干生成方面表现良好，但其干扰项设计仍存在明显不足并成为制约命题质量的短板。在医学考试命题中，尽管Gen-AI生成试题的难度与区分度与人工命题相当，但其干扰项质量不高，难以有效区分高水平学生[9-10]。在语言测评领域也存在类似问题，如在对英语学习者的词汇测验中，Gen-AI生成的干扰项大量无效，导致测验整体信度降低[34]；在听力与阅读理解题型中，即便题干与文本质量较高，干扰项的迷惑性依然不足，进而影响了题目的区分度[18–20]。上述多学科领域研究证据表明，干扰项设计仍是Gen-AI命题中一个持续存在的薄弱环节。综上，今后相关研究应在科学标准的指导下，结合实证测量方法，对Gen-AI生成干扰项的有效性进行系统性评估及针对性优化，从而为Gen-AI自动命题的质量控制提供理论依据及实践路径。二、研究设计与方法（一）研究假设为了比较Gen-AI命题质量与真题质量之间的差异，本研究选用高等学校英语应用能力考试（PRETCO-A）的真题（以下简称真题）作为参照，再根据考试要求让Gen-AI命制试题。PRETCO-A是由教育部批准设立，高等学校英语应用能力考试委员会组织设计与实施的一项标准化英语水平测试。这门考试主要考核高职高专学生以英语为工具、进行日常和一般业务交际的能力。之所以选择PRETCO-A真题作为研究样本，是因为该测验是一种高水平统考但又不属于高利害考试，因此试题质量有保障，学生作答表现较少受到各种培训辅导的影响，容易测得学生的真实水平。研究提出的假设主要有以下三个。H1：Gen-AI生成题与真题在题目难度、区分度、模型拟合度以及测试信息分布上差异不显著；H2：学生完成Gen-AI生成题和人工真题的响应时间无显著差异；H3：Gen-AI生成题与人工真题的有效干扰项比例无显著差异。（二）研究方法1.IRT分析法在测量学中，题目定标是指通过实证方法建立测量工具的量尺与其拟测量的潜在能力之间的关系[35]。为了验证H1，采用IRT双参数逻辑模型（2-PL）对试题进行定标，模型为：模型（1）表示被试i在试题j上正确作答的概率，主要由能力水平（θ）、试题难度（b）及区分度（a）共同决定。其中，难度参数指在某一能力值下被试有50%概率答对该题所对应的位置；区分度参数表示答对率随能力变化的陡峭程度，区分度越高，代表该题区分特定水平学生的能力越强[36]。为检验试题效度，本研究参考已有研究提出的相关程序[37-38]，采用联合定标法（concurrent calibration）对Gen-AI生成题目与人工真题同时定标。该方法较单独定标更高效、标准误更小、假设条件更少[39]。此外，由于研究中所用试题测量的能力维度相同，且缺失数据为不完全随机缺失，因此估计结果不存在系统偏倚[40]。为检验两类试题的模型契合程度，本研究通过分析Infit/Outfit MNSQ与ZSTD指标判断试题与模型的匹配度，并识别潜在的异常情况。同时，通过绘制Wright图直观对比两类试题的难度覆盖与被试能力分布的匹配情况，绘制测试信息函数比较两类试题在不同能力区间的测量精度[41]。为了验证H2，本研究使用“课堂派”平台自动记录的作答时间数据分析每道题目的响应时间，主要包括正确、错误作答的时间，以比较两类试题在不同作答结果下的耗时差异。所有IRT参数估计与可视化均基于R studio完成，使用相关统计包进行2-PL模型分析。2.干扰项分析法为了验证H3，本研究在干扰项分析中借鉴Tarrant等判定框架[33]，综合考察选择率与区分力（DP）两个指标，以界定干扰项的有效性。如果某干扰项的被选比例低于5%，则判定为无效干扰项；如果其选择率大于等于5%，再进一步考察其区分表现。DP主要用来评估高、低分组考生在选择该选项上的差异，公式为：其中，PL表示低分组（总分排序处于最低的27%）考生选择该选项的比例，PH表示高分组（总分排序处于前27%）考生选择该选项的比例。理想情况下，正确答案应表现为PH>PL，即DP>0；同时，由于高质量的干扰项更能吸引低水平考生，因此应呈现PL>PH，即DP<0。本研究将有效干扰项界定为选择率在5%及以上且区分力为负值的选项。反之，若干扰项的选择率低于5%或其区分力为正值，则为无效干扰项。在此标准下，本研究分别对两类试题的所有干扰项进行判定与统计，从而比较两类试题干扰项质量的差异。（三）Gen-AI命题原则与试题生成流程在使用Gen-AI命题时，应遵循以下五个原则：一是确保题目与考纲或课标等严格对接，既要有效覆盖所考内容，又要避免超纲；二是题干要简洁、选项具有同质性且正确答案唯一；三是错误选项应具有迷惑性，最好是考生的常见错误；四是题目难度应从易到难合理过渡；五是剔除题目中的文化偏见。本研究采用的Grok3模型（以下简称Gen-AI）是由X AI团队于2024年推出的新一代Gen-AI，在自然语言理解、语法生成与语言规范性方面表现出色。之所以选择该模型，是因为其开放平台提供了相对充足的免费调用额度，研究可以较低成本获取大规模题目样本，从而满足实验所需的数据规模。以PRETCO-A语法选择题作为研究对象，Gen-AI试题生成流程主要包括三步。第一，向Gen-AI输入《A级考试大纲》及近五年PRETCO-A语法选择人工真题，包括题干、选项、答案及解析等内容，作为Gen-AI生成题目过程中的参考资料。第二，向Gen-AI输入以下明确指令：你是一名中国高职高专英语语法命题专家，请按以下要求命制试题：考点范围：参照《A级考试大纲》，涵盖常见语法知识点（如时态、非谓语动词、从句、虚拟语气、情态动词、主谓一致等），知识点随机选取。难度控制：题目应符合A级考试难度，题干简洁，避免超纲内容或过于复杂的语言。试题设计：每题均为四选一单项选择题，题干清晰，语言规范。干扰项设计：错误选项须具备一定的迷惑性，与正确答案在形式或语义上存在一定相似性，但不得出现与正确答案等同或导致多解的情况。答案与解析：每题提供一个唯一正确的答案，并附简要解析，说明考点依据与作答理由。第三，对Gen-AI生成的题目质量进行检查，参考标准有两项。一是语言规范检查，即题干与选项无语法或拼写错误，表达符合英语习惯，且不得出现歧义或不当内容；二是内容相关检查，指题目正确答案均可由考点知识直接判断，选项与题干考点紧密相关。在满足条件的Gen-AI生成题库中随机抽取40道语法选择题作为实验组，对照组是从近年PRETCO-A考试中随机选取的40道语法题。（四）数据收集被试为某高职院校电商专业一年级学生，共120人，年龄18~20岁。根据学校教务处提供的数据发现，被试学生高考英语平均成绩为50分，语法基础较为薄弱。研究共进行了8次测试，其中4次测试选用人工真题，另有4次测试使用Gen-AI自动生成的语法题。测试所用题目均由授课教师通过“课堂派”微信小程序发布。每次测试包含10道语法选择题（四选一），不提供任何提示信息，并要求学生课后独立作答。测试结束后，系统自动收集作答数据。本研究共获得120名学生在8次测验中的所有作答数据。（五）统计方法数据分析涉及参数估计、均值差异检验及比例差异检验三类统计检验方法。其中，题目参数的估计与模型拟合检验基于2-PL模型完成，作答响应时间的比较采用独立样本t检验，干扰项有效性比例的差异比较采用卡方检验。统计分析均在R studio中完成。三、研究结果（一）Gen-AI生成题与人工真题在IRT测量特性上的总体特征IRT分析侧重在题目参数估计、模型与数据拟合性以及试卷信息量三个方面。1.两类试题在难度与区分度参数上的比较运用IRT2-PL模型和同时校准估计方法，得到人工真题与Gen-AI生成题的题目参数和考生能力参数估计值，具体见图1、表1。由图1可知，人工真题与Gen-AI生成题的难度分布相似，均集中在难度值（-2，2）区间，既包含了一定数量的容易题和难题，又包含较多中等难度试题，为区分不同能力水平考生提供了保障。此外，考生的能力分布近似正态，集中在（-2，0）区间，被题目难度分布区间（-2，2）完整覆盖，从而避免了因题目难度与考生能力错配而导致的测量信息不足等问题。由表1可知，Gen-AI生成试题与人工真题在难度与区分度的均值未呈现显著差异（p>0.05），说明两类试题在整体难度和区分度上较为一致，即Gen-AI生成的语法选择题在难度与区分度方面接近标准化真题。2.两类试题在模型拟合程度上的比较IRT假定考生能力水平高于题目难度时答对概率较高，低于题目难度时答错概率较高。如果大量考生在某个试题上的作答表现不符合上述规律，则该题目被认定为表现异常，即IRT模型与数据拟合不良。评估模型与数据拟合性指标主要有Infit和Outfit两类，以均方Mean-Squares或标准化Z值表示。其中，Outfit是题目特别难或特别容易时考生作答表现异常的指标，Infit是题目难度与考生能力水平接近时的考生作答表现异常指标，二者的理论值是1.0，理想区间是（0.5, 1.5）或（0.7, 1.3）。如果outfit MNSQ值远高于1.5，可能是该题太难导致低水平考生随机作答，也可能是该题太容易但有不少高水平考生答错。如果infit MNSQ值远高于1.5，说明考生在试题难度与自身能力水平接近时表现失常。这两类情况都会损害IRT模型与数据的拟合性，具体结果见表2。由表2的t检验结果可知，在模型数据拟合性指标表现方面，Gen-AI生成试题与人工真题接近，二者无显著差异，但这两类试题的具体情况并不相同。其中，Gen-AI生成题目中有2道题的Infit MNSQ不在理想区间，G13和G23均低于0.7；有7道题的Outfit MNSQ不在理想区间，低于0.7的有G10、G13、G21和G35，高于1.3的有G9、G24和G33；人工真题中有1道题的Outfit MNSQ不在理想区间，即A3低于0.7。由此说明，Gen-AI生成试题的异常作答表现比率略高于考生在人工真题上的异常作答表现。然而，如果使用（0.5,1.5）区间值作为模型与数据拟合良好的标准，则Gen-AI生成题与人工真题的IRT模型与数据拟合程度都达到合格水平。3.两类试题在测验信息分布上的比较测试信息函数可以揭示测验在不同能力区间的测量精度[38]。本研究中两类试题的测试信息曲线在整体形态上高度相似，均在能力水平θ≈0附近达到峰值，具体见图2。由图2可知，两类试题在中等水平学生中能提供最高的测量精度，可以较为有效地捕捉该区间学生的能力差异。从经典测量学视角来看，θ=0通常代表样本均值水平，曲线在此位置达到峰值说明这两类试题合理覆盖了大部分学生的能力水平，避免测量精度过度偏向能力过低或过高的学生。此外，人工真题在峰值区域提供的信息量更多，说明其在区分中等水平学生能力时更具优势；Gen-AI命题的曲线虽然峰值略低，但是在θ≈（-2,-1）的低分组区间呈现更为平缓且持续的覆盖，说明Gen-AI命题在对低水平考生的能力估计中更能维持相对稳定的信息量，不会因题目难度过高导致测量效度急剧下降。这一差异在实际测评中具有重要意义。在高职院校，英语基础较弱的学生较多。正是因为Gen-AI自动命题在该区间能提供更为均衡的信息覆盖，所以其在日常作业和教学诊断中能够更好地满足此类学生的需求。对人工真题而言，其在中等能力区间表现更高精度，因此更适合高利害考试。总体而言，这两类试题的信息函数曲线均符合测量学预期的特征，既能对大多数学生所处的能力区间实现较高的测量效率，也能在不同能力水平区间发挥各自优势。总体上，Gen-AI生成题与人工真题在难度分布、区分度水平、拟合度结果及测试信息函数等综合分析结果上都较为相近。虽然两类试题在局部参数上存在细微差别，但总体趋势显示其难度与区分度控制合理，拟合度良好，能够在受试学生的主要能力范围内提供有效测量。（二）Gen-AI生成试题与人工真题作答响应时间差异分析本研究中，学生作答Gen-AI生成题的平均时间为29.83秒/题，作答人工真题的平均时间为31.25秒/题。进一步分析正确作答的题目发现，学生对Gen-AI生成题的平均响应时间为28.47秒，低于人工真题的30.12秒。对于错误作答的题目，Gen-AI出题的平均响应时间为31.92秒，略低于人工真题的32.45秒。从以下两个层面对试题平均响应时间进一步分析：1）项目层面，以题目为单位，先计算每一道题的平均作答时间，再比较两类试题差异；2）试卷层面，以学生的每一次作答为独立观测值，将所有作答记录纳入统计分析。由此，可以同时考察题目整体特征与个体作答行为之间的差异情况。t检验发现，两类试题的平均响应时间差异无论在项目层面（t=-0.21,p=0.84）还是在作答层面（t=-0.27,p=0.79）均未达到显著水平。图3为两类试题的响应时间密度分布图，进一步支持了这一结论，两类试题的分布曲线在主要区间高度重叠，说明学生在两类测验中的作答时长基本一致。（三）Gen-AI生成题与人工真题干扰项质量的比较结果有效干扰项通常更容易吸引低分组学生，从而增强试题区分度；无效干扰项则几乎无人选择，或更易被高分组学生选中，缺乏应有的区分作用。图4为Gen-AI生成试题与人工真题在干扰项分类上的总体分布情况。对两类试题的有效干扰项的比例进行卡方检验，结果显示χ²（1）=1.25, p=0.26，未达到统计学显著水平。这表明两类试题的有效干扰项的比例无显著差异。根据学生测试数据分析结果，在Gen-AI生成的120个干扰选项中，74个为有效干扰项，46个为无效干扰项；在人工真题的120个干扰项中，77个为有效干扰项，43个为无效干扰项。Gen-AI生成试题的干扰项合格率达到61.7%，接近人工真题的64.2%。可见两类试题在干扰项质量上整体接近。从具体题型来看，语法选择题的选项往往在形式和结构上接近，因此Gen-AI更容易通过规则化的要求生成具有迷惑性的干扰项。以下四个例题分别来自Gen-AI生成试题（例1、例2）和人工真题（例3、例4）。Gen-AI在语法题生成过程中能较好地模拟正确选项的表面特征，生成与之高度相似的干扰项，从而使其在语法题中的命题质量接近人工命题。因此，上述四道例题各个选项的选择分布呈现出相似规律。这一发现与前文统计分析结果一致，进一步解释了为何Gen-AI生成试题中有效干扰项的比例能够接近人工真题。在语法题这一知识点规则化、变体相对有限的题型中，Gen-AI生成的干扰项已基本达到与人工命题相当的质量水准，为其在英语测评中的应用提供了实证依据。四、结论与讨论本研究采用IRT方法对比分析Gen-AI生成的英语语法选择题与真题差异，结果发现：二者在难度、区分度、模型与数据的拟合度、学生作答响应时间及题目的有效干扰项比例等方面无显著差异；在生成试题的峰值信息量和模型拟合度方面，Gen-AI生成试题与真题相比略显不足。在难度方面，本研究与Bhandari等研究发现[12-13]一致，但不同于部分研究提出的Gen-AI生成试题整体偏易等结论[25,27,29]。在区分度方面，本研究与Mendoza等研究发现[26]一致，但与Zhang等研究结论[28]不同，该差异可能是由题型特征不同引起的。有研究发现，Gen-AI在语法类结构清晰的题型上表现出较强的生成能力，在需要高阶认知能力的阅读理解题中则表现较弱[29-30]。在作答行为方面，学生在两类试题上的响应时间差异不显著，并在项目层面与作答层面的分析结果保持一致。这在一定程度上说明Gen-AI生成试题的内容效度较好[33]，题意表达清晰，学生在理解题意方面无须耗费更多时间。此外，干扰项设计被视为Gen-AI自动生成选择题的主要瓶颈[34]，但本研究发现两类试题干扰项的质量接近。该发现与医学领域自动命题研究中报告的干扰项质量不足[9-10]形成鲜明对比，由此说明学科特征对Gen-AI命题质量具有重要影响。医学类试题涉及高度专业化的知识，而英语语法题考点规则明确、变式有限，使得Gen-AI更容易生成合理的干扰项。值得注意的是，在英语听力和阅读题型中，Gen-AI自动生成的干扰项质量偏低[18-20]，这说明同一学科内的不同内容也会影响Gen-AI的命题质量。因此，将Gen-AI生成试题应用于正式考试时，应结合学科与内容特点，在训练数据、命题指令、题目参数控制、干扰项质量及专家反馈等方面建立更加系统化的试题质量保障机制。综上，Gen-AI自动生成英语语法试题的质量接近真题水平，且成本低、效益高。教师可根据教学内容快速生成质量接近标准化考试的题目，提供丰富的课后作业和课堂小测资源，大幅降低人力成本和时间消耗，促进教学与反馈衔接。本研究对其他学科自动命题研究亦具有借鉴价值。对于同样具有规则化、结构化特征的学科内容（如数学基础运算、物理公式应用等），Gen-AI可能展现出与语法题相似的命题效果；而对于需要高阶认知能力或复杂推理能力的学科内容，则需要根据学科特点调整命题策略。因此，各学科教师在应用Gen-AI进行命题时，应充分考虑学科、题型特征，坚持人机协作模式，教师需审阅、修订和优化生成内容，以确保试题的可靠性[42]，使Gen-AI在教育测评中发挥更大作用。本研究存在的主要局限及未来改进方向有三点：第一，样本群体仅来自一所高职院校学生，未来可扩大样本学校和班级范围以增强结论的普适性；第二，仅聚焦英语学科语法选择题而未涉及其他题型，未来可扩展到其他更多学科与题型的相关研究；第三，研究所用Gen-AI模型为Grok3，可能存在模型类别间差异。未来可进一步探索指令工程、模型微调等对命题质量的提升作用，推动Gen-AI在教育测评中的科学化、规范化应用。参考文献略。引用格式: 杨志明, 李炳蔚, 李雨黎, 等. Gen-AI自动命题与人工命题的质量比较研究[J]. 中国考试, 2026(4): 37-48.（免责声明：本文转载与《中国考试》官网，转载旨在分享与交流，版权归属原作者，文中观点与本栏目无关，如涉侵权，联系立删！）

俄罗斯拔尖创新人才早期培养的课程创新实践及其借鉴

2026-05-07

编者按：学习好贯彻好党的二十届四中全会精神，切实谋划好、推进好“十五五”时期教育改革发展，奋力谱写以教育强国建设支撑引领中国式现代化的新篇章，是当前教育系统的重大政治任务。中国教育科学研究院组织精锐科研力量，在媒体平台广泛开展阐释研究，推动教育强国建设迈向积厚成势、系统跃升。现摘取部分优秀成果，陆续推出，以飨读者。《中共中央关于进一步全面深化改革推进中国式现代化的决定》（以下简称《决定》）指出：“必须深入实施科教兴国战略、人才强国战略、创新驱动发展战略，统筹推进教育科技人才体制机制一体改革，健全新型举国体制，提升国家创新体系整体效能。”人才是国家创新发展的关键要素之一，尤其是拔尖创新人才。《决定》中还提出：“加强拔尖人才培养，着力加强创新能力培养。”基础教育是创新人才培养的起点，也是关键阶段。课程是基础教育阶段拔尖创新人才培养的核心要素，课程体系是拔尖创新人才培养的有力支撑。学校如何通过课程创新提高拔尖创新人才早期培养成效，是国内外中小学校共同面临的课题。俄罗斯具有优良的拔尖创新人才早期培养传统，形成了系统工程，尤其在课程方面已形成国家层面的宏观性指导政策以及学校层面的课程实践经验。21世纪以来，俄罗斯积极致力于拔尖创新人才的早期培养，创办天才教育与发展中心、大学附属天才寄宿学校、高校附属儿童科技园和以天才教育为办学特色的新型普通中学为主的拔尖创新人才培养机构网络。在课程支持方面形成了国家宏观指导政策下的学校课程创新实践范式，提供了拔尖创新人才早期培养课程建设的国际经验。一拔尖创新人才早期培养的国家课程标准要求按照《俄罗斯联邦教育法》规定，俄罗斯普通教育阶段分为四个层级，即学前教育、初等普通教育（1~4年级，相当于小学阶段）、基础普通教育（5~9年级，相当于初中阶段）和中等普通教育（10~11年级，相当于高中阶段），学前教育相对独立，后三者构成11年制普通教育学制。俄罗斯普通教育阶段课程依据《联邦教育法》《普通教育联邦国家标准》（以下简称《联邦国家标准》）和《普通教育联邦教育大纲》（以下简称《联邦教育大纲》）设置。《联邦国家标准》是国家教育标准的主要部分，是俄罗斯联邦所有实施普通教育大纲并获得国家认证的国立、市属和非国立教育机构必须执行的标准文件，规定每个学段开设的课程结构及课程掌握的总体要求（见表1）。2021年俄罗斯颁布实施新一版《联邦国家标准》，以保障公民接受高质量的普通教育。2021年《联邦国家标准》倡导传统教育模式向新的“系统活动”教育范式过渡，对资优学生、身体有障碍的学生提供不同层次、不同侧重点和不同难易程度的课程，并且对加深学习科目和个性化学习科目也提出要求，凸显对课程质量的高要求。依据《联邦国家标准》，联邦教育部颁布《联邦教育大纲》，从宏观上对普通教育机构的课程进行规范。《联邦教育大纲》规定了各学段的教学基本范围和内容，以及预期学习成果。其中，联邦教学计划部分明确规定各学段的总课业负担量、每周最大课业负担量、课程所在学科领域构成以及学时分配。普通教育各学段的课程由必修课程和教育利益相关者制订的课程两个部分组成，两者所占比例因学段不同而有所变化，初等教育阶段二者比例为8∶2，基础教育阶段为7∶3，中等教育阶段为6∶4。表1 普通教育阶段各学段必修课程《联邦国家标准》给出示范性的必修学科方向和课程，但也给予教育机构一定的自主权。国立、市属和非国立教育机构依据《联邦国家标准》和《联邦教育大纲》，制定本校各学段教育大纲和教育教学计划。教育机构可以自主决定每周工作天数、学年教学周数、放假时长等。教育机构还可以根据学生及家长需求，设计和建设教育利益相关者制订的课程，实施个性化教学计划，自行设计课程模块，自主掌控教学进度和教学形式。二拔尖创新人才早期培养的课程理念与课程目标俄罗斯拔尖创新人才培养理念在21世纪后发生了重要转变，即从注重儿童天赋的开发和培养，转向对儿童、青少年卓越才能和拔尖能力的培养。拔尖创新能力培养的主要载体是课程，因此，课程与教学的创新成为俄罗斯拔尖创新人才早期培养的必要途径和重要抓手。1. 以促进学生个性发展为核心理念俄罗斯拔尖创新人才早期培养的课程以发展学生个性为核心理念。2021年开始实施的新版《联邦国家标准》提出，教育大纲的内容考虑每个儿童的个人发展路径，并渗透到各教育环节。教育机构对课程管理拥有一定的自主权，可以制定和实施深入学习个别学科的教学计划。拔尖创新人才培养机构遵循差异化和个性化原则，根据学生的教育需求和自身能力，制定难易程度不同和指向不同的普通教育阶段课程。课程供给方面扩大了学生选择的可变性，让学生有多种选择，依据个性化需求选择适合自己的课程。实现儿童学习活动个性化的有效途径就是根据每个学生的个人能力和特点，为其制定个性化学习计划或教育路径。个人教育路线能够帮助资优儿童展现其才能，为未来职业定位奠定基础。2. 以提升拔尖创新能力为课程目标拔尖创新人才培养目标根据学生某种资优的特点及其发展的心理特点来确定。培养天赋异禀的儿童的优先目标为：促进其个体精神和道德以及精神价值的发展，为创新人格的发展提供条件；发展拔尖创新人才的个性；提供高水平的广泛通识教育，促进其对世界的整体认知，形成各领域能力。俄罗斯拔尖创新人才早期培养过程中，课程目标指向发展学生拔尖能力，培养创新思维、创新能力。以学生发展需求为导向，针对学生个性化学习意愿设计学科课程。关注学科结构和学科之间的联系，帮助学生更好建立知识体系、实现思维进阶，使其能够尽快适应下一阶段学习，为终身发展奠基；遵循多样化选择和个人教育路径相结合的原则，设置个性化活动课程，培养学生形成探究意识，促进创造性思维的发展；为实现其多元化发展，学校开设多样化补充课程，提供不同学科的知识结构，兼顾学生认知、情感和能力的发展，满足在不同知识领域具有创新潜质的学生发展需求。三拔尖创新人才早期培养的课程类型高质量课程是拔尖创新人才培养的重要“给养供给”。拔尖创新人才培养不仅要发现其潜能，更重要的是在学科课程、课外活动以及补充教育活动等三类课程中促进其拔尖创新能力的进一步发展。1. 寻求学生卓越发展的学科课程作为拔尖创新人才早期培养的主要载体，新型普通教育机构的课堂教学主要实施普通教育学科课程，具体包括国家教育标准规定的必修课程以及教育利益相关者制订的课程。学科课程每年最高负担量因年级差异而不同，例如“天狼星”实科中学课程设置及课业负担量为：1~4年级一般开设13门课程，年学时为714~782；5~9年级为29门课程，年学时为1088~1122；10~11年级根据侧重学习方向不同开设11~15门课程，年学时为1085~1295。不同教育机构的侧重学习方向和课程不同，加深学习的内容和程度也有所不同。例如，柯尔莫哥洛夫寄宿中学为10-11年级开设物理数学、计算机科学、工程技术、化学生物、化学物理等方向的侧重学习班。每个侧重学习方向中，除了国家必修课程外，还有大量的加深学习的专业课程（数学建模、奥林匹克化学、奥林匹克天文学等课程）供学生选择，发展其创新能力。学科课程首先完成《联邦国家标准》规定的必修课程，为学生建构普通教育阶段系统的知识体系起到奠基作用。教育利益相关者制定的课程满足具有拔尖才能的学生加速、加深学习的需求，给予这些学生个性化学习的机会，实现其个性化才能的发展。例如，“天狼星”实验中学的中等普通教育阶段的技术学习方向开设程序语言、奥林匹克数学等特色课程。这些课程为学生创新意识的形成和创新能力的增长起到铺垫作用。2. 追求学生个性化发展的课外活动课外活动是学校教育过程中不可或缺的一部分，肩负着培养学生道德情操、促进社会性发展以及全面学习行为的任务，也是全面落实国家教育标准的主要途径。课外活动通常不区分年级，平均一年为330~350小时。例如，“天狼星”实科中学每月为学生组织包括自然与生态、黑海沿岸天狼星火箭与航天工程技术、金融学问等50多项课外活动，其中一半以上活动与合作伙伴共同开展。“天狼星”实科中学10~11年级实施特有的项目活动与研究性学习活动，使学生能够解决多个学科交叉问题，学会在分析问题时使用数学建模元素，利用数学分析元素解释教育和研究工作的成果。高年级的项目活动和研究性学习活动滋养了学生探索科学的欲望，激发学生创新思想的迸发。学生提出完成任务的有效途径，创造独特的、有意义的思维成果。参与各类竞赛是俄罗斯培养拔尖创新人才的主要途径，也是学生课外活动的组成部分之一。各类新型教育机构组织、指导学生参加全俄中小学生奥林匹克竞赛，该竞赛是俄罗斯规模最大的智力竞赛，每年有600多万中小学生参加。奥林匹克竞赛分为学校、市级、地区和决赛四个阶段，涉及24个科目。决赛阶段的优胜者和获奖者有权免试进入大学。3. 谋求学生多元化发展的补充教育课程俄罗斯补充教育发展由来已久，在天才儿童培养方面功不可没。自2019年9月1日起，俄罗斯开始正式颁发补充教育证书。近年来俄罗斯补充教育得到大力发展，体系不断完善。21世纪初，俄罗斯政府完善天才儿童教育机构网，充分融合天才儿童校内教育和校外教育。补充教育课程由教育机构提供，学生根据自身意愿选择，没有硬性课时规定，补充教育课程有有偿教育服务，也有免费教育服务。为培养天才儿童，发展其拔尖创新能力，俄罗斯设计多种形式的补充教育课程。有针对某特定领域创造性地开展个性化学习或小组学习，也有导师指导下开展的研究与创作项目，还有非全日制课程、夏令营以及儿童科研会议和研讨会等形式。例如，俄罗斯“红帆”补充教育中心设置艺术、社会人文、科技、体育运动、自然科学、旅游6个方向86个补充教育大纲供学生选修。在每个方向，学生可以根据兴趣和个人能力特点选择适合自己的课程。“红帆”补充教育中心的“机器人技术”课程学习期限为1年，共26周，每周2学时，共计52学时。该课程对于学生探索科学兴趣的培养、学科及跨学科知识与能力的培养都有重要的价值。在机器人设计和技术操作过程中，学生掌握了最新的现代技术文化，获得现代理工概念，掌握基本的技术和工艺能力，创新潜质得到挖掘，拔尖能力快速提升。四拔尖创新人才早期培养的课程创新路径俄罗斯普通教育阶段中各学段课程设计与实施遵循《联邦国家标准》。教育内容的选取和课程负担量都以各学段《联邦教育大纲》为基础，各学段的国家必修课程分别占总课时80%、70%和60%，占比过半。必修课程的基本教育内容确保学生后续学习和未来发展所需的基本知识和基本技能，也确保其自身的全面发展。在强化国家标准底线基础上，俄罗斯拔尖创新人才早期培养的课程实践还具有以下创新路径。1. 创新课程组织的“系统活动”范式拔尖创新人才培养需要创新课程实施的新范式，使用先进的教学手段，才能有效地开发儿童智力和创造力，培养具有积极生活态度的人格。新型普通教育机构将“系统活动法”作为教育活动组织形式，引导学生积极主动进行独立认知活动。“系统活动法”考虑学生个体差异，以教育成果为导向，坚持活动性、多样性、心理舒适性、创造性原则，它强调培养学生解决学术问题的能力，以及在接近现实生活的情境中应用学科知识的能力。“系统活动法”确保实现掌握普通教育课程预期结果，并为学生独立、高质量地吸收新知识，形成技能、能力奠定基础。采用“系统活动法”组织课程实施过程中，教师创造条件激发学生在课堂上积极活动，组织学生在自己感兴趣的领域开展项目活动。教师组织教学过程的主要任务由完成教学计划转变为组织学生活动，具体包括搜索和处理信息、归纳行动方法、设定学习任务等。此类课程组织形式不仅强调培养学生解决学术问题的能力，还强调培养学生在接近现实生活的情境中应用学科知识的能力。2. 凸显课程内容的创新特质拔尖创新人才早期培养要求课程内容既有按照《联邦国家标准》和《联邦教育大纲》要求开设的必修课程，也有依据学校特点、学生个性化需求开设的课程，同时各学段之间课程相互衔接，注重课程内容的创新特质。初等教育阶段以学习基础学科课程为主，学生可根据不同方向的教育大纲进行加速学习，重点培养探索发现意识。基础普通教育阶段课程进一步扩充，学时和作业时间要求有所提高，个别科目的加深学习水平较高，突出个人创新才能的发展和培养。中等普通教育阶段课程内容涉及五大领域，即俄罗斯语言与文学学科、外语学科、社会科学、自然科学、体育和生命安全教育领域。课程实施以个性化教学、项目活动及研究性学习为主，强调侧重深入学习，以补充教育拓展延伸，推动学生批判思维、创新能力、自主自觉行为的提升。3. 拓展课程实施的新空间俄罗斯拓展课程实施的新空间，解放课程实施的传统束缚。拔尖创新人才培养的课程实施空间开放、多元。除了传统的课室，还有科技中心、大学实验室、企业、植物园等，开放的课堂培养学生缜密的思维以及实践动手能力。例如，俄罗斯政府主导构建包括科技大学、创新科技中心、植物园的“天狼星联邦级园区”，该园区为“天狼星”实验中学的课程实施提供优越、开放的教育环境，为人才培养提供更多创新实践活动机会。开放式学习环境带来的体验能促进儿童逻辑思维的发展，在解决问题的过程中锻炼学生的实践动手能力。该中学重视非正式学习空间与课堂，遵循课堂教学的开放性原则，鼓励、支持学生到校外机构（第三方机构）中学习，只要课程数量不超过本校教育大纲课程80%，且不是国家终结性评定的科目，“天狼星”实验中学都承认其课程成绩。4. 注重课程评价的多元化拔尖创新人才培养首先应尊重学生个性，并引导学生发挥个体潜能和优势，促进其创新能力的形成与提高。评价的目的不在于甄别卓越，而是促进学生个性发展，激励创新。俄罗斯拔尖创新人才早期培养关注课程的学习成效，在实施个性化学习活动中，对课程的评价内容和评价方式进行改进。课程学习评价内容涉及个体结果、超学科结果和学科结果三个维度。学科结果评价保障学生学科知识、技能和能力的获得；超学科结果评价超越单一学科知识能力限制，诊断自我发展、自我提升等高阶能力水平；个体结果评价超越能力层次，关注学生作为独特个体的特性和价值体系，这也是培养人的终极目的。评价主体接受过专门培训，保障评价程序的专业性。五拔尖创新人才早期培养的课程本土化借鉴俄罗斯拔尖创新人才早期培养已形成国家、社会、学校各主体协同合作的系统，系统的所有资源都服务于拔尖创新人才早期培养的课程，其课程理念与创新路径值得思考与借鉴。为加快建设我国拔尖创新人才早期培养体系，应抓好课程体系建设，形成国家、科研院所、一流大学、企业、中小学一体化课程供给系统。国家层面做好课程整体布局和规划，调动系统中每个合作伙伴的资源与潜力形成合力。同时给予教育机构一定自主权，充分挖掘教育机构的课程创新潜力。1. 通过制定国家层面政策进行课程整体布局拔尖创新人才早期培养关系国家创新战略，国家层面政策的制定与颁布关系到人才培养的走向，会形成较强的政策导向，能够加快我国拔尖创新人才培养体系的构建与践行。课程是人才培养的主要抓手，为保障拔尖创新人才培养质量，首先从国家层面对拔尖创新人才早期培养的课程进行整体布局，在课程方面给予指向性较强的政策引导，保障课程设置与实施的国家标准和要求。制定指向拔尖创新能力培养的国家课程政策，从宏观上把控拔尖创新人才早期培养的规格，既要保障中小学生德智体美劳全面发展的培养目标，又要突出人才的拔尖创新能力特质发展。2. 通过成立职能部门进行课程管理与评价为落实拔尖创新人才早期培养的课程政策，需要规范课程建设，进行有效管理和评价。在组织机构方面，国家应成立专门的职能部门，对拔尖创新人才培养的课程框架进行规划，构建拔尖创新人才早期一体化培养的示范性课程框架。该职能部门需要界定拔尖创新人才核心素养，对教育机构自主设计的拔尖创新人才课程进行管理与评价。首先应对课程实施条件和标准提出总体要求，对教育机构的课程目标要求、课程组织方式以及评价手段等给予宏观性引导建议。其次应强调拔尖创新人才培养课程设置的连续性，旨在促进各学段拔尖人才创新能力渐进性提高。再次对教育机构自主设计的课程及其实施进行适度指导和监督，对课程建设过程进行评价和不间断矫正。最后应对国家课程以及教育机构自主设计的加深、加速和拓展性课程实施效果进行评价。3. 通过协调整合各方资源保障课程实施为培养中小学生拔尖创新能力，应多让学生参与具有实践性、实验性的任务，为中小学生提供各种接近现实的教育资源。因此，拔尖创新人才早期培养不能仅仅局限于中小学校内，更应该延展培养链条，形成早期培养的课程资源立体系统。国家层面应提供政策保障、资源供给保障和课程实施条件保障，整合社会、大学和中小学各种课程资源与设施。首先，协助中小学与大型科技公司、一流大学和科研院所建立合作平台，强化中小学教学基础设施，同时，建立科研院所和一流大学的实验室和实验设施共享机制，为拔尖创新人才成长提供先进实验设施、设备，以及一流科研院所和大学的卓越科研生态环境，科技公司的科学前沿信息。其次，拔尖创新人才早期培养需要富有创新开拓精神的师资队伍，教育机构可以聘请来自知名大学、科研院所和大公司的专家作为导师授课，以及带队进行项目活动，保障学科素养的前沿性。再次，科技领域最新研究成果可以作为课程资源融入课程内容，课程实施过程中也将产生最新研究成果，并将其转化为生产力，带动产业发展。4. 通过赋予教育机构自主权支持课程创新第一，课程设计应根据学生的需求，服务于学生个性发展。每个学生都能够选择适合个体发展的课程，给学生提供的课程既要有宽度又要有深度。课程门类应多元化，设计多门类和多层级课程，让学生有充分的可选择性，能满足学生兴趣、能力以及特长的个性化发展需求。传统单一学科教育和跨学科教育在拔尖创新人才早期培养中各有所长，课程内容既要考虑学科的逻辑完整性，又要蕴含跨学科元素的渗透。同时，应体现课程内容的挑战性、前沿性，指向拔尖能力的提升、创新潜力的挖掘和创新能力的发展。课程的组织形式不局限于学时和学习空间限制。学习方式应充分考虑学生和家长的意愿以及学生的学习实际情况，大胆尝试思辨、探索、拓展等学习方式，并能随时调整某些加深学习和拓展学习的科目。第二，课程实施应坚持“以生为本”，强调学生的主动学习和自觉行为。学校课程建设是一项为学生提供内在体验性的课程实践活动，隐藏在背后的是一种以学生本体价值为本的需求逻辑。为培养拔尖人才的创新意识与能力，课程实施应体现学生本体价值，表现为学生在课程组织和实施的各个环节的主动学习。首先，学生的独立活动应占课时的一半以上，可以采取小组学习和个性化学习方式。其次，学生自主提出实现教学目标的途径，对课程内容主动进行反思，自我监控和相互监控学习过程，自主评价学业成果。再次，课室环境的创设秉承开放学习理念，校内应扩展更广阔空间，也可以设置动态的课程环境，在项目活动、游戏、游学、研学中让学生主动探索和体验。学生的主动学习行为有利于培养学生探索科学的兴趣与意识，学生的自觉行为对于其批判思维形成以及创新能力的提升都有助益。第三，课程评价应借助动态立体多维系统课程评价而非唯分数，以发现、促进学生个体成长和潜在才能为目的，为促进学生个体成长提供准确诊断，从而为学生学习观念、学习策略和学习风格的形成提供有价值的教育策略。拔尖创新人才对课程的学习多呈现个性化活动，学习效果的评价应形成动态的多维系统。课程评价目的既要确保学生全面发展，又要兼顾学生个性发展。创造性人才=创造性思维+创造性人格。因此，评价内容既要考虑智力因素，又要兼顾非智力因素，具体包含学科知识与能力、跨学科学习能力、个性品质和成功特性、自我发展能力以及在认知、交流和调控等方面的综合学习能力等。评价主体多元化，可涵盖学生、教师、企业雇主、导师等利益相关者，以及心理学专家。评价学生的课程学习活动使用低水平、适宜水平和高水平等层级区分，而非具体的分数排名。总之，基础教育阶段是拔尖创新人才培养的奠基阶段，也是拔尖创新人材能力和人格成长的重要时期。培养拔尖创新人才，基础教育阶段课程的创新是治本之策。各类培养主体应解放思想，创新课程类型与实践路径，设计中小学一体化特色课程体系，构建拔尖创新人才早期培养的中国模式。来源｜《教学与管理》2026年第3期作者｜李建民（中国教育科学研究院区域教育研究所副研究员）；赵伟（通信作者，梧州学院教师教育学院院长）（免责声明：本文转载与《中国教育科学院官网》，转载旨在分享与交流，版权归属原作者，文中观点与本栏目无关，如涉侵权，联系立删！）

我国教育考试现代化的探索之路：历程与思考——专访教育部考试中心原主任杨学为

2026-04-11

作者简介：杨学为教育部考试中心原主任，研究员，国家督学，享受国务院政府特殊津贴。访谈者：徐奉先，教育部教育考试院副研究员。摘要：杨学为先生是教育部考试中心（教育部教育考试院前身）首任主任，在机构创立之初即带领全国考试战线开展了高考、会考与自学考试制度改革，对教育考试现代化的基本规律有深入研究和思考，积累了丰富的实践经验。本刊于2025年8月和10月对杨学为主任进行了两次专访，他系统回顾了我国教育考试现代化的缘起、改革历程与实践经验。结合推动高考与自学考试制度改革、引进与推行标准化考试、加强学术研究和创办《中国考试》杂志等实践，他阐述了我国考试现代化在理念更新、技术引进、制度建设和风险管控等方面的诸多探索，同时还讨论了在新的时代背景下如何推动综合考查和多元评价、强化专业能力与加强理论研究等问题。本文旨在为新时期深化教育评价改革提供镜鉴与参考。关键词：教育考试；现代化；教育评价；高考改革；考试史教育考试作为教育评价与人才选拔的重要手段，其现代化进程深刻反映了国家教育治理能力的演进。1987年国家教委考试管理中心的成立，标志着我国开始探索建立专业化的国家级考试机构。在随后的30余年里，这一机构（后改名为教育部考试中心）不仅承担了高考、研考、自考等大规模国家考试的组织实施，而且在考试理念、技术手段、制度设计等方面推动了一系列现代化改革。杨学为先生作为考试中心首任主任，亲历并主导了教育考试领域的一系列关键改革，其个人记忆与工作经验构成了理解我国教育考试现代化改革进程的一把钥匙。本文通过对杨学为主任的深度访谈，力图还原教育考试在特定历史语境下变革的动因、关键节点及面临的挑战，在此基础上探讨其对未来教育评价改革的启示。研究旨在梳理历史脉络，提炼核心经验，为新时代深化教育评价改革提供历史镜鉴与启示。一、教育考试现代化的缘起与内涵访谈者：杨主任您好！祝贺您荣获“全国离退休干部先进个人”称号，也非常感谢您拨冗接受访谈。1987年国家教委考试管理中心成立，您作为第一任主任，主导了我国首个专业化教育考试机构的建设与发展，领导了高考、自学考试等多项国家教育考试的制度创新。首先能否请您谈谈自己的学习、工作经历？杨学为：我1960年从东北师范大学毕业，学的是哲学专业，毕业后就留校任教了。1977年是一个重要的转折点，那年8月我被临时借调到教育部高校学生司，正好赶上了恢复高考这件大事。那段经历让我深刻感受到，高考不仅是一场考试，还关系到国家的命运、知识的价值，也关系到千千万万年轻人的前途。1978年，我正式从东北师大调入教育部学生司工作。1987年国家教委考试管理中心成立，组织上决定由我担任主任。在考试中心工作的12年里，我和同事们重点推动了两件事：一是建立普通高中会考制度，让会考成为评价高中教学质量的“另一把尺子”，和高考这把选拔考试的“尺子”分开使用；二是推进自学考试制度建设，这是中国在教育领域的原创制度，后来韩国还专门来学习过。2000年我从考试中心主任的岗位上退休，但没有离开考试研究，陆续编写了《中国考试通史》《中国考试文献集成》《高考文献》等书。现在我快90岁了，有人问我这辈子最欣慰的事情是什么？我说，我曾经给自己定过一个目标，就是让高考的优点多一点，缺点少一点[1]。我努力过了，至于做到了多少，就只能留给后人评说了。访谈者：杨主任，在您担任考试中心主任期间，您认为哪些关键的社会、经济、技术和教育发展因素促使考试机构必须走向现代化？当时的紧迫性体现在哪里？杨学为：这个问题触及了当年改革的深层动因。我担任考试中心主任的12年里，恰好是国家经济从计划经济向市场经济转轨的关键时期。外部世界的变化、社会对人才需求的转变都迫使我们思考：延续了几十年的考试模式，还能不能适应新的时代要求？我认为当时推动考试走向现代化的动力主要来自四个方面。一是经济体制改革对公平与效率的追求。改革开放后，随着社会主义市场经济概念的提出，社会竞争机制发生了变化。过去讲高考，更多的是讲政治可靠，但市场经济要求的是能力本位，要求人才的公平流动，选拔具有真才实学的人。这反映在考试上，就是让考试分数更准确地反映一个学生的真实能力，而不是死记硬背的功夫，要求考试命题从依靠经验向实现科学化转变。同时，经济搞活了，人口流动加快了，随着城市化的发展，大量流动人口子女、在职人员等都需要参加高考和获得学历，对考试的便利化、社会化服务也提出了新的要求。自学考试之所以能在20世纪八九十年代迅猛发展，就是因为满足了大量在职青年不脱产学习、公平拿文凭的刚性需求。二是素质教育对考试的要求发生了变化。改革开放初期，高考的考题数量比较少，而且基本都是考知识点，于是就出现了猜题、押题的现象。如果考生能押中一道题，就能在高考中获得很大的优势。而且，社会上编写的复习资料也很多，告诉考生应该背哪些内容，就像打靶一样，哪是十环，哪是八环，把知识都分类了。当时，片面追求升学率的问题比较严重，中学阶段的教育几乎变成了高考预备班，学生偏科问题比较突出，身体素质也下降了，社会舆论批评高考是“应试教育”的推手[2]，这让考试机构压力很大。当时我们想，考试机构不能只做高考这一件事，不能只当人才选拔者，还得当好教育引导者。所以我们强力推行了高中会考制度，目的就是让考试机构手里有两把尺子：一把是会考，衡量学生是否达到高中毕业标准，引导学校开齐课程；另一把尺子是高考，服务于高校选拔，这是我们在当时的条件下从单一考试向多元评价迈出的关键一步。三是考试规模扩大带来的管理压力。你刚才提到了技术因素，这一点在当时非常现实和急迫。20世纪80年代末，高考报考人数突破200万，90年代后期达到300万[3]。以前阅卷是纯手工，几百号人围在大礼堂里翻卷子，不仅效率低，而且容易出错。再加上社会对考试公平越来越敏感，一分之差有可能决定一个孩子的一生，用机器代替手工就变成一项非常紧迫的任务。80年代末我们开始大规模引进光电阅读器（OMR），推广标准化考试。这不仅是技术的革新，更是理念的革新。把客观题交给机器，既提高了效率，也降低了阅卷的主观性误差。但推广之初阻力很大，很多老师质疑机器评分的准确性。我们就在全国率先从试点做起，培训评卷骨干，一步步把标准化考试推向全国。可以说，如果没有那次技术升级，后来就应对不了高等教育的扩招。四是国际交流带来的观念冲击。考试中心成立后，我们开始学习国际先进经验，主动联系美国的ETS和日本的考试机构，出去一看，才发现差距太大了。他们在命题理论、计算机技术应用、考试服务等方面已经遥遥领先于我们。这让我们认识到问题的紧迫性，也意识到中国的考试不能关起门来自己搞。全球化的人才竞争要求考试分数具备国际可比性，比如在高考中引入能力测试的元素，就是后来探索高考内容改革时强调考能力、考素质的一个动因。总的来说，当时的紧迫形势可以概括为三个“跟不上”：传统的考试内容跟不上能力型人才的需求，人工的操作方式跟不上每年几百万考生的规模，单一的考试功能跟不上教育改革和社会发展的多元化趋势。所以，当时提出现代化不是赶时髦，而是被逼出来的，必须把考试中心从一个教育行政机构转变成一个专业化、科学化的服务机构，否则就无法支撑改革开放对于人才选拔的需求。访谈者：那么在您看来，一个现代化的国家级考试机构，其核心特征是什么？杨学为：我认为考试机构必须是一个能自我进化、抵御风险、引领教育评价方向的专业机构，其核心特征可以概括为四个方面。一是命题的专业化与科学化，这是考试机构走向现代化的基础。所谓的专业化，绝不仅仅局限于招揽一批高学历的人才，而是意味着建立一套现代化管理制度。一方面，命题要做到科学化。考试中心成立前，我们请老师来命题，更多凭借个人经验；而现代化的考试机构必须建立常设的学科命题队伍，要有题库，要运用科学的测量理论来评价每一道试题的质量。当年引进光电阅读器，就是为了能快速采集数据和对试题进行量化分析，让命题从“手工作坊”走向“标准化生产车间”。另一方面，评价要实现专业化。考试机构不仅负责命题、组织考试、发布成绩，还应该具备对考试结果进行深度分析的能力。这些数据对于国家了解教育发展质量、高校选拔人才、中学改进教学，都是宝贵的资源。因此，一个现代化的考试机构，应该是一个教育考试的研究中心。二是强大的风险抵御能力。高考涉及千家万户的切身利益，是社会情绪的稳定器，不允许有半点闪失，任何一次事故都可能动摇公众对公平的信念。风险应对体现在两个层面：一方面是物理层面的安全，比如试卷的印制、押运、保管；另一方面是社会层面的信任，当出现突发事件，比如自然灾害、突发疫情等，考试机构必须迅速响应、有效沟通、果断处置。所以现代化的考试机构必须有一套严密的风险管理体系和危机应对预案，这种能力比单纯会命题更重要，它是机构正常运行的保障。三是标准化与精细化的管理能力。标准化不是僵化，是为了最大程度的公平和高效。从命题蓝图的制定、考务流程的设计、考场的环境要求，到阅卷的评分细则、分数的合成与转换，每一个环节都必须有明确、可执行、可追溯的标准。我举个例子，主观题的阅卷误差怎么控制？我们当年探索了分步给分和复查机制；后来使用计算机阅卷，主观题都是随机分给两位老师独立评分，评分误差超过某一阈值就自动提交给第三位仲裁。这种精细化的流程设计，保障了哪怕是最主观的作文题也能最大程度地确保公平公正。四是提供多元服务的能力。现代化的考试机构不能只服务高校的人才选拔，比如当年推行的自学考试，就是为了满足社会成人学习、终身学习的需求。随着社会发展，考试机构还承担了职业资格证书、学业水平评估及国际考试服务，从一个管理者转变为一个专业化考试服务者，服务于学生的成长、高校的人才培养、国家的终身学习体系建设。二、考试现代化进程的关键维度与探索实践访谈者：考试中心成立初期，您认为哪些国际经验或关键技术的引入对考试机构现代化产生了深远的影响？杨学为：改革开放初期，我们就像长期关在屋子里的人突然打开窗户看到了外面的世界，那种冲击感至今难忘。如果要我说哪些影响最深远，我想从理念和技术两个层面举出几个典型例子。一是在理念层面，美国ETS的专业化机构模式对我们影响深远。1987年考试中心刚成立不久，我就带队访问了ETS。那次访问对我们心理上带来的冲击，可以用震撼来形容。ETS位于美国普林斯顿的园区不是想象中的政府办公楼，而是一个庞大的研究机构。那里不仅有命题人员，还有数百人的研究团队，专门从事心理测量学、统计学、教育评价的前沿研究。ETS非营利、专业化的运作模式，为我们提供了考试机构发展的可借鉴范例，我们回国后就开始在考试中心内部设立了专门的命题部门，开始招聘教育测量专业的研究生，并尝试建立自己的科研队伍。可以说，ETS的模式启发我们开始了向专业考试机构转型的探索。另外，在推进高中会考制度的过程中，我们系统研究过日本的考试制度，对他们的会考经验进行了借鉴。二是在技术层面，计算机化题库与自适应测验重塑了我们对考试的认知。20世纪90年代中后期，ETS和美国大学入学考试机构已经开始尝试让考生在电脑上答题，题库系统根据考生的答题表现实时调整题目难度，从而更精准地测量考生的能力水平，这让考试测量模式从标准化走向了精准化。这种“题库+计算机化”的技术路径，促使我们在20世纪90年代末投入大量精力探索题库建设。当时已经意识到，未来的考试一定不是每年临时请老师命题，而是从经过动态维护的、科学校准的题库中随时抽取题目组合成试卷。后来的机考、网考，其技术源头都可以追溯到那个时期对国际经验的学习借鉴。实际上借鉴国际经验与实现我国考试现代化，是一个“引进—消化—吸收—再创新”的辩证过程。国际经验为我们提供了专业化转型的参照系，缩短了探索路径，但真正的现代化必须立足国情、以我为主。无论是ETS的机构模式，还是日本的会考制度、计算机化考试技术，最终都是在与中国教育实际的深度结合中转化为具有中国特色的制度安排与技术路径。虽然说他山之石，可以攻玉，但玉成于手，方为根本。访谈者：改革开放后，我们开始运用教育测量学、心理学、统计学等专业的知识和研究方法去研究考试，您认为这些研究在提升命题质量、科学解释分数等方面产生了哪些重要作用？杨学为：我常常说，如果只凭个人经验命题，那就是小农生产；只有建立在科学研究基础上的命题才能称得上是专业化的，没有科学就没有公平可言[4]。教育测量学、心理学、统计学这些学科，恰恰是支撑我们成长为专业化机构的理论基石。首先，教育测量学让命题从“凭感觉”走向了“有标准”。在引入教育测量学之前，命题主要依赖个人经验。请几位教师集中封闭在一个地方，凭他们对教学内容的认识理解出题。题目出得好不好？是不是太难了？有没有区分度？没人说得清楚。教育测量学给了我们一套分析工具。经典测量理论告诉我们，每一道题目都有难度和区分度，难度是指有多少考生答对了这道题，区分度是指这道题能不能把高水平学生和低水平学生区分开。我记得有一年有一道题的难度系数只有0.2（意味着只有20%的考生能够答对），区分度也比较低。我们拿着数据去找命题老师，老师还不服气，说这道题考的是基本功。但实测数据显示平时成绩好的学生也大多没有答对这道题，说明题目本身有问题，而不是学生水平不够。这就是教育测量学的力量，它让命题评价从“我觉得”变成了“数据说话”，通过对考后数据的挖掘分析，我们逐步提升了命题技术，让考试变得更加科学。其次，心理学让考试从考知识走向测能力。尤其是认知心理学和心理测量学给了我们一个重要的启示：考试不仅要考学生记住了什么，更要考学生能做什么。传统的学科考试主要是测量学生对某一专业领域知识的掌握程度，而能力倾向测验则主要测量一个人潜在的学习能力和思维品质。一个具体的例子是英语科目考试的改革。传统英语考试重语法、重翻译，学生背得苦不堪言。后来，我们借鉴心理语言学的研究成果，开始增加阅读理解和完形填空等题型，测量学生的语言理解能力和语感。这种转变背后体现的实际上是命题人员对语言能力认知结构的重新理解。另一个例子是作文命题的改革。过去作文题以命题作文居多，学生容易套作；后来开始尝试设计材料作文、情境作文，让学生在具体情境中展现思维能力和表达能力。这种命题思路的变化，本质上是对写作能力这一心理构念的重新定义。最后，统计学让考试分数从简单的数字变成了有意义的信息。一张试卷能不能稳定地测量出学生的水平？这需要统计方法来检验。如果信度太低，说明考试结果受偶然因素影响太大，这样的分数是不可信的。我们在重大考试项目中引入分半信度、内部一致性系数等统计指标，就是在用统计学的方法为考试质量把关。访谈者：除了提升命题的专业性和科学性，当时您在完善机构内部治理结构、优化考务管理流程、提升风险管理能力等方面进行了哪些现代化的探索呢？杨学为：考试的现代化，最终要落在每一个环节的制度化上。只有把权力关进制度的笼子，把经验变成科学的流程，才能扛起为国选才这个千钧重担。首先，在命题管理方面，考试中心成立之初，我思考最多的问题就是命题权怎么管。过去请老师命题，往往临时找人，随意性大，质量不稳定，也容易出风险，后来就给每个学科设置了专职的学科秘书。这个秘书不是行政干部，而是懂专业的业务骨干，他们的职责是在全国范围内物色、遴选命题老师，建立起一个动态的命题教师库。每年从库里遴选出一些老师参与命题，根据表现决定明年是否继续邀请，也就是说，哪个教师水平高、表现好、出题水准稳定，明年就还请他。这套制度让命题工作从人员的临时组合变成专业队伍的持续建设，同时形成了命题教师的准入和退出机制，让命题权力受到约束和监督，成为命题质量的重要保障。其次，在考务管理方面，借鉴托福考试的办考经验，引入了标准化流程与机器阅卷。1981年，托福首次在中国开考，第一次使用机读答题卡，第一次施行英语听力考试。那时候我们才真正见识到什么是标准化考试——从铅笔的色度到答题卡的格式，每一个细节都有精确要求。由于担心国内铅笔色度不够，影响机器判卷的准确性，当时答题用的铅笔都是从美国运来的[5]。1985年，我们开始在广东进行高考英语标准化考试的试验，逐步推广了机读答题卡和光电阅读器。经过十几年探索，到20世纪末，机器阅卷已经成为高考的标配，不仅极大提高了效率，还实现了阅卷的客观公正。最后，在风险管控方面，通过制度建设实现考试安全。风险管控是考试机构最敏感，也最不能出问题的环节。在实践探索中，我们逐步建立了一整套试卷安全管理制度：印制环节实行封闭管理，押运环节由武警或公安护送，存放环节实行双锁保管、24小时值班。到后来，试卷都是武警开车护送，全程监控，确保万无一失。这些现在看来习以为常的制度，都是当年一点一滴从实践中摸索出来的。每年高考期间，交警在考场周围站岗，禁止车辆鸣笛；环保局下禁令，考点和住宅区附近的工地要停工；天气预报按照春节同等规格，给高考预报三天的天气情况。这些跨部门的联动机制，形成了全社会护航高考的风险防控网络。访谈者：您在任期间，还创办了《中国考试》这本杂志，当时是出于什么样的考虑？这份学术期刊与考试现代化的关系是怎样的？杨学为：《中国考试》1991年创刊，当时考试中心已经成立四年了。为什么要办这么一本刊物？说起来，与我前面讲到的对专业化和科学化的追求是一脉相承的。首先是为考试研究安一个家。我前面讲过，80年代末我们去美国ETS访问，最震撼我的不是他们的技术，而是他们有一个庞大的研究团队，有自己的一整套学术体系和学术刊物。中国的考试要走向现代化，必须有一块土壤，让考试研究的种子能够生根发芽。我们希望有一个平台，能够汇聚全国乃至全世界关于考试研究的最新成果，让从事考试工作的人有一个思想交流、观点碰撞的地方。其次是推动经验向科学转化。我们给《中国考试》的定位，从一开始就不是单纯的工作通讯或政策解读性刊物。它的办刊宗旨很明确：繁荣考试评价学术研究、推动考试评价改革。为什么强调学术研究？因为中国考试最大的短板就是理论研究滞后于实践需求。我们有几千年的考试历史，积累了丰富的实践经验，但这些经验缺乏系统的理论提炼。教育测量学怎么用？心理测量学怎么指导考试设计？这些都需要有专门的阵地来讨论和传播[6]。所以《中国考试》从一开始就设置了很多学术性比较强的栏目，比如考试评价理论、测量技术等，目的就是引导大家把工作中遇到的现实问题上升到理论层面去思考，用科学的方法去解决。最后是培养专业人才，凝聚专业队伍。考试中心成立之初，全国从事考试工作的人员大多是行政干部出身，真正懂测量、懂考试的专业人才凤毛麟角。通过《中国考试》，我们一方面可以把国际上先进的考试理论、测量技术介绍进来，让国内的同仁学习借鉴；另一方面也可以把全国各地考试机构的实践经验、研究成果发表出来，互相启发、共同提高。现在《中国考试》的作者和读者广泛分布于国家及省市教育考试机构、教育研究机构和高等学校，这说明它确实起到了凝聚专业力量的作用。三、未来发展方向与建议访谈者：面向未来，您认为现代化考试机构最需要优先发展和强化的核心能力是什么？杨学为：作为一个把大半辈子献给考试事业的老兵，我虽然退休多年，但一直关注着考试领域的发展，我认为三个方面的能力最为重要。第一是人才评价的专业能力。考试机构存在的价值，不在于组织了多少场考试，而在于能不能科学、准确、公平地评价一个人的知识、能力和素养。面向未来，这种专业能力面临更高的要求。高考评价体系提出立德树人、服务选才、引导教学的功能定位[7]，这要求考试机构不仅要会命题，更要深刻理解国家的人才需求、教育的发展方向，要能够把抽象的人才培养目标转化为可测量、可评价的考试内容。这种将教育理念转化为测评内容的专业能力，是考试机构不可替代的核心竞争力。第二是技术融合应用的创新能力。我们那个年代，引入光电阅读器就是最大的技术革命。但今天，人工智能、大数据、云计算正在深刻重塑考试业态，这种技术融合体现在多个层面。比如说智慧命题，利用AI辅助命题、组卷，提高命题效率和科学性；智慧考务通过“一网统管”实现试卷全生命周期可追溯、考务人员精准化培训、考场监管智能化升级；智慧巡考利用AI识别异常行为，从人防为主转向技防为主、人机协同。未来的考试，可能不再是一张卷子考所有人，而是根据不同学生的特点，进行自适应测验、个性化评价，这才是技术带来的真正革命。第三是开放互鉴的国际影响力。现在中国已经成为世界第二大经济体，教育考试也应该拥有与之相匹配的国际地位。我们应该继续学习借鉴，跟踪国际考试评价的前沿发展，吸收先进理念和技术；加强与海外知名考试机构的交流合作，推动考试结果的国际互认；讲好中国考试故事，让世界了解中国在人才评价方面的探索和贡献。我们有世界上规模最大、组织最严密的考试体系，要有建立中国特色现代化教育考试标准的自信，为世界教育评价贡献中国智慧。第四，贯穿始终的是对公平公正的守护能力。无论技术怎么变、时代怎么变，考试机构守护教育公平的使命不能变。习近平总书记多次强调教育公平是社会公平的重要基础[8]，考试作为社会流动的通道、人才选拔的关口，必须守住公平公正的底线。访谈者：在建设教育强国和深化教育评价改革的背景下，您认为考试机构应该如何利用现代化手段把考试评价与其他评价方式科学地结合起来？杨学为：在我工作的年代，主要解决高考这一把尺子怎么做才能更精准的问题；但今天你们要回答的是如何用好多把尺子，并且让这些尺子都能量得准、让人信得过，这比我们当年面临的挑战要复杂得多。“破五唯”不是不要考试，而是要让考试回归它应有的位置，它依然是重要的评价工具，但不是唯一的工具。如何将考试评价与过程性评价、综合素质评价、实践能力评价等结合起来，我想从理念、技术和实践三个层面谈谈看法。首先，理念层面上必须实现从单一尺子到多元评价的转变。过去全国一张卷，因为它简单、公平、易操作。但今天社会对人才的需求已经发生了根本变化，技术快速迭代、产业形态重构，要求人才具备技术素养、跨界复合能力、高阶认知和创新能力。因此，评价理念必须从统一标尺向多元评价转型。这不是简单地增加几种考核形式就能实现，而是要构建一个技术赋能、多元融合、动态反馈的新型评价体系。这个体系要能够容纳不同的评价目的：育人导向的过程性评价负责引导学生的成长方向，诊断导向的水平性评价负责科学客观地“看见素质”，选拔导向的识别性评价服务于人才选拔。三种功能各司其职，又互为补充，这才是完整的评价逻辑。其次，在技术层面要利用数智手段，让多把尺子变得可用可信。我们当年引入光电阅读器，解决的是效率和公平的问题；而今天的技术，有可能让过去被认为是“软”的、主观的、难以量化的评价变得可测量、可追溯、可比较。例如，过去我们说过程评价，实际上往往流于形式，因为老师没有时间记录，记录了也难以使用。现在依托信息化平台，可以实现学生学习过程数据的实时追踪，课堂表现、作业完成、小组合作等等都可以被记录、被分析。我看到有的学校通过全场景数据采集，形成了覆盖课前、课中、课后的智能诊断评价系统，实现了学生精准学、教师精准教。又比如综合素质评价，以前长期面临评价难落地的困境，现在人工智能技术的发展就为破解这个难题提供了可能，比过去凭印象打分要科学得多。再次，在实践层面要稳妥推进，在探索中积累经验。理念有了，技术有了，真正落地还需要制度设计的智慧和耐心。我注意到各地已经开始了有益的探索，比如深圳有些学校的学生学业质量评价由期末考试、过程评价和学科综合展示评价三部分组成，提高了素养立意的综合展示评价占比。这种“结果+过程+表现”的组合，既保证了考试的客观权威性，又给其他评价方式留出了空间。这些努力就是朝着多元评价迈出的实质性步伐。最后，必须守住一条底线，就是客观公平。任何评价方式的使用，都必须考虑不同地区、不同家庭背景学生的可及性。如果综合素质评价变成了家庭资源的比拼，那就背离了改革初衷。我们运用技术手段也是为了确保城乡、家庭等不同背景的学生都能获得标准化的考试体验。另外，技术的运用不能以消解考试的客观性为代价。过程评价、综合素质评价都很重要，但它们和考试的功能不同，过程能反映努力及努力的方向，但用过程直接表征结果，其科学性就可能出问题。考试仍然是衡量学业水平最客观的尺子，我们要做的不是用其他评价取代考试，而是让它们各司其职、相互补充。我们这一代人的主要任务是让高考这把尺子量得准、量得公平，你们的任务是要在这个基础上，让考试评价守住学业水平的底线，让过程评价引导学生的成长，让综合素质评价看见分数背后的“人”。这是一项前无古人的事业，也是一项必须做好的事业。希望你们能比我那一代人走得更远、做得更好。访谈者：杨主任，您长期从事考试史研究，回望推动考试现代化的历程，您认为考试史研究给了您哪些启示？未来应该怎样更好地从历史中总结经验教训？杨学为：我退休后花了很多时间在考试史的研究上，主编了《中国考试通史》，也写了一些文章。回过头看，当年推动考试现代化改革的那些实践和思考，其实都离不开历史给我的一些启示。第一，考试从来不是孤立的技术问题，而是关乎国家治理、社会流动、文化传承的大问题。我研究科举史，最深切的一个体会就是科举制度在中国延续了1300多年，之所以能长期存在，根本原因在于它承担了多重功能：是选官制度，是教育制度，是社会整合的纽带，是儒家思想传播的载体。科举制以智力为选才标准，从全社会选拔出优秀人才出任各级政府官员，同时极大地促进了文化普及；它按地域分配录取名额，也有利于民族团结、国家统一。这让我认识到，考试机构不能只盯着命题技术、考务管理这些“术”的层面，更要理解考试在国家治理中发挥的“道”的功能。我们当年推动标准化考试、建立会考制度，表面上看是技术革新，本质上则是回答在改革开放新时期，考试应该承担什么样的社会功能？如何在效率与公平之间找到平衡？这些问题，如果不理解历史，就很难想透。第二，考试始终处于矛盾之中，这些矛盾推动着考试不断改革与进步。我在研究唐宋时期的科举制度时发现，关于考经学还是考诗赋，考知识还是考能力的争论，贯穿了整个科举史。这些争论背后，反映的是考试自身的矛盾：内容与形式如何统一？科学性与公平性如何统一？其实这些问题都受到传统、政治、经济等社会因素的影响，受到考试的经验、理论、技术、条件等因素的制约。人们对考试的期望很高，而考试的结果又往往不尽如人意。因此，考试总是处于矛盾之中，人们对考试争论不断、爱恨交加，导致考试屡废屡复。正是这些矛盾、争论，推动考试不断改革与进步。理解了这一点，就不会因为遇到困难而气馁，也不会因为改革见成效而自满——考试改革永远在路上。第三，要从历史中总结经验教训，必须立足当代问题，带着问题意识去研究。我们不可能期望考试史的研究解决所有考试的问题，但是没有考试史研究的基础，很多考试问题就不能得到很好认识和阐释。历史上考试中遇到的诸多问题，比如户籍问题、作弊问题、命题问题、片面应试问题等等，于当今的考试中无不一一遭遇。以片面追求升学率这个问题为例，我研究过克服“片追”的各种方案，发现很多方法之所以无效，是因为没有建立适应双重任务的评价制度。这个认识，直接影响了后来我们对会考制度的设计，就是让会考成为评价高中教学质量的另一把尺子，与高考分开使用。所以我认为，未来的考试史研究，不能停留在写历史的层面，而是要真正走向用历史，要带着现实问题去回溯历史，看看历史上的人们是怎么处理类似问题的，哪些经验可以借鉴，哪些教训必须记取。第四，要深化考试文化研究。2017年，在恢复高考40周年的时候，我写过一篇文章，最后提出一个观点：未来的考试研究重在考试文化的研究[9]。为什么这么说？因为技术层面的问题，随着科学的发展、技术的进步，总能找到解决方案；但文化层面的问题，比如社会对考试的态度、考试价值观的塑造、考试与社会流动的关系，这些问题更根本，也更复杂。考试不仅是一种制度、一种技术，更是一种文化现象。科举文化中读书做官的价值取向如何影响了中国人的集体意识？这种心理在当代高考中如何延续和变化？这些问题，关系到教育评价改革能否真正落地。科举文化中所蕴含的浓厚功利性导向，以及全社会过度重视考试的心理惯性，在当今高考语境下依旧顽固地存续着。要改变这种状况，单靠制度改革是不够的，还需要文化的重塑。我这一生，先是做事，后是研究事。做事的时候，历史给了我智慧和定力；研究事的时候，现实给了我方向和动力。如果说有什么经验可以分享给后人，那就是既要向前看，拥抱新技术、新理念、新方法；也要向后看，从千年的考试史中汲取智慧。考试是古老的事业，也是常新的事业。唯有时刻保持历史的眼光，才能在纷繁复杂的现实中看清方向、守住底线、有所作为。参考文献略。

孙全胜等：深化教育评价改革视角下考试文化现代转型路径研究

2026-04-11

作者简介：孙全胜天津市教育招生考试院党委副书记，研究员。张娟天津市教育招生考试院考试评价处，助理研究员（通信作者）。孔超天津市教育招生考试院党建工作处，副研究员。摘要：考试文化的现代转型是深化教育评价改革的重要命题。针对传统考试文化中分数至上、一考定终身观念根深蒂固、多元评价难以落地等现实问题，本研究从文化观念、制度执行与社会环境三个层面系统剖析了考试文化现代转型所面临的结构性挑战。在文化观念层面，传统考试文化使教师、家长与学生之间形成相互强化的认知闭环，社会竞争为其提供了持续动力；在制度层面，路径依赖强化了制度惯性。回应上述挑战，考试文化的现代转型需要从重塑核心理念、革新评价理念、升级治理理念、更新社会观念四个方面协同推进。关键词：考试文化；现代转型；教育评价改革；转型困境；转型路径考试文化是围绕教育评价活动形成的，是考试观念、制度规则、行为方式与社会习惯的复合型文化形态[1-4]。我国在历史上构建了相对公平的人才选拔机制，长期发展中逐渐形成了以追求分数和升学为核心的考试文化惯性[5]。2020年，《深化新时代教育评价改革总体方案》（以下简称《总体方案》）出台，旨在从根本上扭转“唯分数”“唯升学”的不良评价导向[6]。然而，政策文件可以在短期内确立新的规则，考试文化的转型却非一朝一夕之功，面临长期路径依赖的深层制约。如何在政策引领下推动考试文化从传统的注重选拔甄别走向现代的立德树人，使评价改革实现现代转型，是本文关注的核心问题。近年来，学界对考试文化的研究逐渐从制度层面深入文化观念层面，揭示传统考试文化的惯性特征及其对改革的制约，但系统探讨其现代转型机制与实施路径的研究成果仍显不足[7-10]。诺斯（North）指出，制度由正式规则与非正式约束共同构成，后者如文化习惯、认知模式的变迁等，是一个缓慢渐进的复杂过程[11]。本研究借助制度变迁理论[12]，将考试文化转型置于政策外力与文化内力的持续互动中进行阐释，提出考试文化的现代转型是政策外力与文化内力持续互动、相互塑造的产物，其内在机制决定了转型的渐进性与复杂性。一、考试文化现代转型与教育评价改革的逻辑关系考试文化现代转型指考试文化从传统型向现代型变迁的系统性过程。它不是对考试的技术性修补，而是价值观念、制度规范、行为模式和心理倾向的整体性重构，其本质在于让考试回归育人根本，促进评价文化从以分数为本走向以人为本[13]。这一重构过程不可能孤立发生，而是在教育评价改革的推动与牵引下逐渐展开。因此，理解二者之间的内在关联，是把握转型机制、设计转型路径的前提。教育评价改革与考试文化现代转型之间的关系并非单向的政策推行与被动接受，而是深度交织、彼此塑造的辩证统一过程。这种互动逻辑决定了转型的渐进性与路径依赖性。（一）教育评价改革为考试文化现代转型提供政策依据教育评价改革为考试文化现代转型提供了不可或缺的战略引领与制度杠杆[14-16]。《总体方案》的颁布是以最高决策形式开启的价值重塑与系统重构，其引领性首先作用于价值观层面，通过明确立德树人根本任务和批判“五唯”顽瘴痼疾，在全社会重新锚定教育评价的价值方向，为长期浸染“分数至上”的传统考试文化校准了新方向。在价值引领基础上，《总体方案》进一步将改革理念转化为具体的制度机制，破除“唯分数”的旧框架，建立以“两依据，一参考”为核心的多元评价机制，构建与育人导向相匹配的新型考试运行逻辑。与此同时，国家层面的改革决心释放出强大的政策信号，起到了稳定社会预期、动员各方力量和校准行为策略的作用，为考试文化转型奠定了初步的政策基础。（二）考试文化现代转型是对教育评价改革的积极响应考试文化是一个具有能动作用的复杂适应系统。当外部改革压力输入时，它通过对系统内实践主体行为的理解与协商，作出一系列深层回应与实践调适。这一过程始于政策在传递过程中的多元解读与共识构建。政策文件需要经由各级教育行政部门、学校乃至教师个体进行层层“翻译”，不同主体基于其职责、资源、经验与风险感知，会对政策产生差异化的理解。这个充满观念交流与利益权衡的阶段决定了改革理念能否真正落地。当全社会对政策形成初步共识后，系统的回应便进入基层实践探索与模式创新的活跃期，呈现出丰富的实践样态。一些既能体现改革方向又契合教育规律且取得积极成效的实践经验，逐渐通过教研活动、经验交流、媒体传播等渠道脱颖而出，由案例沉淀为一定范围内共享的新常规，新的文化元素开始萌芽并获得初步的组织形态[17-19]。教育评价改革与考试文化转型的互动，始于国家政策的高位引领，经由多元主体的解读与调适，最终在实践探索中逐渐沉淀为新的文化认知。而新生的文化认知，又会反过来影响对后续政策的理解与新一轮的实践。在这种持续互动中，转型得以在文化观念、制度执行与社会环境三个层面渐次展开。下文从上述三个层面入手，系统剖析考试文化现代转型面临的结构性困境，并在此基础上构建相应的实施路径。二、考试文化现代转型面临的深层挑战与成因（一）文化观念层面：传统观念影响较深，单一评价惯性犹在考试文化现代转型面临的首要挑战，来自传统考试观念长期积淀所形成的强大思想惯性。从古代的科举取士到现在的高校招生录取，学而优则仕的观念早已融入社会大众心理，一考定终身的认知根深蒂固[20]。在这种氛围下，家长、教师乃至社会大众，仍习惯性地将考试成绩视为衡量孩子能力和前途的标尺，对于多元评价、过程性评价等新理念难免心存疑虑。这种观念的形成，实际上是教师、家长与学生三类主体在认知和行为上彼此影响、相互强化的结果。首先，从教师的角度看，由于评价教师工作成效的指标常与学生的考试成绩挂钩，教师不得不将主要精力放在知识传授和应试训练上，这种为考而教的功利性选择，反过来使应试竞争氛围更加浓厚。其次，从家庭方面看，不少家长把考试成绩视为影响孩子未来竞争力的决定性因素，对升学的期望值很高。家长也理解素质教育对孩子长远发展的价值，但具体到行动中，却很难放下对分数的执念，给孩子报各种校外辅导班的现象依然相当普遍。这种理念认同与行动滞后之间的差异，无形中加重了孩子的负担。最后，孩子长期身处“唯分数”的竞争环境，也容易形成思维惯性，觉得学习就是为了考试，考试就是学习的终点。即使一些孩子能意识到应试教育的局限，但面对家长和教师施加的压力，也只能放弃一些兴趣爱好的培养和发展，去适应既有的要求。这种考试文化的闭环之所以牢固，根源在于社会竞争的底层逻辑尚未真正改变。在优质就业岗位依然不充足的情况下，学历仍然是学生求职时最直观也最有效的辨识符号。对大多数普通家庭而言，让孩子尽可能取得更高的考试分数，仍然是风险相对可控、回报相对确定的选择。这种现实状况为观念闭环提供了持续的动力，也让新的素质教育理念很难撼动传统考试文化根基。由此产生的直接后果，就是教育的选拔功能被过度放大，对孩子全面发展的关注却远远不够。不少学生为了追求高分，不得不花费大量时间机械刷题，个人兴趣被搁置，创造力难以得到激发，同时还要承受不小的心理压力[21]。2025年，南京师范大学对江苏省六地市14000多名家长的问卷调查发现，家长的焦虑水平在孩子面临升学节点时明显上升，而那些对自己教育者角色认知清晰的家长越容易因过度关注孩子学业而产生心理负担[22]。这一发现表明，许多家庭在现实的升学压力面前难以摆脱应试惯性，这正是考试观念转型难以实现的症结所在。（二）制度执行层面：制度设计衔接不畅，多元主体协同乏力考试文化转型的阻力不仅在于观念层面，制度设计及执行层面的短板同样不容忽视，主要表现为评价制度自身的流程环节衔接不畅，以及多元主体协同配合不足。评价制度的衔接问题包括多个方面。其一，从纵向来看，小学、初中、高中各学段的评价标准缺乏统一设计，综合素质评价结果难以在升学选拔中获得实质性应用[23-25]。其二，从横向来看，过程性评价与终结性评价如何结合，目前仍缺少明确的制度规范，课程改革引导学生关注日常学习的初衷，在实际操作中往往落空[26-27]，原因就在于公众对非标准化评价的信任基础依然薄弱。标准化考试因其可量化、可比较、难以人为干预，常常被认为更具公平性，而综合素质评价等带有主观判断的评价方式则容易引发公众对客观公平的担忧，以往试图降低分数权重的改革都难以回避舆论层面的阻力。此外，不同地域之间的评价制度差异同样不容忽视，统一的考试政策难以充分兼顾城乡之间的教育资源差异，有可能加剧教育不公。其三，从制度变迁的视角看，路径依赖效应进一步强化了制度惯性。一套运行数十年的考试招生体系，已然形成相对稳固的利益格局、组织行为模式和社会配套网络，切换到新轨道需要承担较大的转换成本，包括各方主体的重新适应、制度体系的重构以及可能出现的新旧过渡问题。例如，综合素质评价已试点多年却难以进入实质性的推广阶段，一个重要原因就在于它与现行招生录取制度难以衔接，与高校的招生能力和中学的备考模式难以兼容[26]。这种成本压力使现行招生体系倾向于维持旧状，对新制度形成隐性排斥，最终使制度转型的力度遭到削弱。其四，从制度执行层面看，多元主体协同存在短板。在评价的实施上，不少教师仍习惯采用传统纸笔测试，对于实践类、综合素养类课程如何评价缺乏足够的专业素养。这不仅与教师的个人能力有关，也与教师培养课程体系中评价素养训练缺失、相关支持匮乏密切相关。而作为培养学生的重要主体，家长未能与学校共同形成对孩子日常学习的关注，对过程性评价的认可度有限。其五，技术应用层面的问题不容忽视。新技术的引入为考试转型带来新的可能，但其潜在影响远比操作层面更为复杂。以命题环节为例，人工智能辅助命题技术日益得到应用，但高考所考查的核心素养能否通过技术语言得以准确呈现，这是一个值得关注的问题[28]。阅卷环节也存在类似问题，因为人工智能辅助评卷在提高效率的同时，也可能悄然改变评分的内在逻辑[29]。当评分标准需要通过算法来执行，评卷者的专业判断空间便会受到挤压，教师的专业自主性难以得到充分尊重。这种潜在的文化影响或许比操作层面的问题更需要审慎面对。（三）社会环境层面：社会评价偏向传统模式，改革缺乏外部支撑考试文化的现代转型，难以仅仅依靠教育系统内部的改革完成，还需要社会层面的理解与支持。目前，社会评价与改革需求之间仍存在明显落差，对考试文化转型构成了不容忽视的外部制约。首先，在人才评价体系方面，社会对一个人的判断常常还是围绕考试成绩和学历背景展开。用人单位在招聘时，仍习惯性地关注求职者的毕业院校和在校成绩，对于问题解决能力、创新思维、合作能力等职场必备素养关注不足。这种相对单一的用人评价标准，一定程度上使多元评价改革难以获得来自社会的正向反馈。其次，从社会舆论来看，公众对考试文化转型的理解还处在较为初级的阶段。一些人对综合素质评价的客观性心存疑虑，担心主观成分过多会影响公平。对于计算机考试、人工智能辅助评卷等新技术，也有一些人抱有审慎甚至排斥的态度，担忧技术不可靠、数据不安全。媒体在报道相关话题时，有时会倾向于放大技术应用中出现的问题，而对于各地在转型过程中进行的积极探索，报道的力度却相对不足。这种舆论倾向不仅不利于形成理性的公共讨论空间，还可能使一线教育工作者承受额外的舆论压力，使改革信心受挫。这种评价落差产生的根源在于优质教育资源分布的不均衡，在名校学位供不应求的情况下，学历依然深刻影响着人的未来发展，考试自然会被赋予某种决定命运的色彩。家长和学生的焦虑，说到底并不在于考试本身，而在于考不上名校后可能面临的落差。这种现实压力使得任何试图淡化分数的改革听起来都显得有些理想化，难以在短期内获得广泛的社会认同。而这种资源分布的现实困境，反过来加剧了家长焦虑和观念闭环，让考试文化转型陷入困局。综上所述，考试文化现代转型所面临的挑战，是由文化观念、制度执行与社会环境相互交织形成的。社会竞争逻辑的刚性、制度信任基础的薄弱以及优质教育资源的分布不均衡，共同构成了一种稳固的阻力结构。这些挑战的存在，使得构建系统性的转型路径成为必要。三、考试文化现代转型的路径探析（一）重塑核心理念，让教育从分数导向回归育人本位面对教师、家长与学生的观念闭环及其认知与行为相互强化的困境，考试文化转型的首要任务在于推动教育核心理念的根本转变，将长期占据主导地位的分数导向回归到育人本位上，让考试不再被视为教育的终极目的，而是服务于人的全面发展。考试的选拔功能固然不能被取消，但这一功能应当被置于育人的根本目标之下，而不是育人过程被考试所牵引和窄化[30]。实现这种转变需要打破观念闭环中各主体的认知定式。首先，对于教师而言，需要逐步完成从知识的灌输者向成长的引导者的角色转换，将教学重心从应试技巧训练转向核心素养培育，为学生创造思维碰撞与个性发展的空间。教师对学生的关注，不应仅停留在分数高低上，而应延伸到思维习惯、兴趣倾向、情感状态等更多维度，这无疑对教师提出了更高要求。其次，对于学生而言，应树立学习是为了认识和改造世界而非应付考试的基本认知，让学习回归到好奇心的驱动之下。如果学生长期身处应试环境，很容易形成被动的心态，把学习窄化为题海战术和死记硬背。学校需要在日常教学中提供更多探究性、项目式的学习体验，引导学生成长为主动的探索者，使他们在解决问题、完成任务的过程中感受学习的意义。最后，家庭层面的转变同样不可或缺。这需要各方主体合力传递多元成才的理念，引导家长看到分数之外的能力价值，如创造力、抗挫力、合作精神等。这些品质往往比单一的分数更能决定一个人的发展潜力。许多家长对子女教育的焦虑实际上源于对未来不确定性的担忧，缓解这种焦虑有赖于科学教育知识的普及。可通过家长学校、社区讲座、公共论坛等途径普及儿童发展规律与科学教育方法，帮助家长认识到每个孩子都有自身独特的成长节奏和优势领域，逐步树立科学的教育成长观，以降低家庭教育中的盲目性与功利性。（二）革新评价理念，促进评价尺度从单一走向多元面对制度衔接不畅与主体协同不足的困境，考试文化转型的关键在于承认人的智能是多元的，成功的路径也应是多样的[31]。这一维度包含评价标准与评价形态的双重变革，核心是使评价从一把尺子量所有人走向多元尺度成就每个人。其一，在评价标准上，要实现从知识本位向素养本位理念的转变。这意味着考试内容的设计应当更多关注学生的思维品质、分析能力与创新意识。同时，应树立过程评价的理念，让成长记录、项目成果、实践表现等都成为评价体系的有机组成部分，引导学生将注意力投向学习过程本身。这一理念革新面临的最大挑战，是社会对公平的敏感焦虑。公众对非标准化评价的信任基础薄弱，要求评价标准的变革必须与评价机制的透明化同步推进，让评价过程可解释、可信可靠。其二，在评价形态上，数字化时代正在催生新的考试文化，其基本特征是从封闭选拔走向开放生长。在线测评、自适应考试、虚拟场景测试等新型考试形式的出现，打破了传统考试的时空边界，使那些纸笔测试难以考查的能力，如信息素养、协作能力、创新思维等有了展示的舞台。更重要的是，借助大数据分析，教育者能够更加清晰地了解每位学生的优势领域与成长短板，使考试从单一的分类筛选工具转变为内生于学习过程的诊断与反馈方式，帮助个体认识自我、发展自我[32]，并为个体的学习与发展赋能。（三）升级治理理念，推动考试治理从经验型向现代型转变考试治理的现代化本质上是一场文化观念的深刻变革。它意味着考试管理从传统的由经验主导转向科学决策，从单向的行政管控走向多元主体的协同共治。这种治理理念的跃升，既是回应前文所述治理短板与技术风险的必然要求，也是多元评价得以落地、考试文化实现转型的重要保障。首先，治理现代化体现为决策理念的科学化。传统的考试管理偏重经验判断与行政指令，决策过程的实证支撑相对不足。现代治理要求建立数据驱动、证据支撑的决策机制，考试机构需要主动研究学生成长规律、追踪人才需求变化、评估改革实际成效，让每一次制度调整都具备充分的科学依据。这种决策理念的转变，本身就是对经验主义考试文化的超越，也为后续各项改革措施的精准实施准备了前提条件。其次，治理现代化体现为运行理念的透明化。公众对多元评价权威性的质疑很大程度上源于对主观臆断的担忧。综合素质评价之所以难以与升学硬挂钩，一个重要原因是评价过程不够公平透明，难以获得社会的普遍信任。治理现代化的核心正是通过科学的制度设计让权力在阳光下运行。当评价标准公开、评分过程可溯、异议申诉畅通时，公众对考试公平的焦虑才能从根本上得到缓解，多元评价也才能获得真正的信任基础。再次，治理现代化体现为参与理念的开放化。传统的考试治理基本上是教育部门的独角戏，其他主体的参与空间十分有限。而现代治理强调多元主体的共同参与，需要建立专业化的考试研究机构，让学术力量参与标准制定。教育部门还应搭建家校社沟通平台，引导家长和社会理解改革意图，并引入第三方评估与监督，用专业力量检验治理成效。当教师、家长、学校、社会从被动的政策接受者转变为主动参与者，考试文化才能真正摆脱僵化封闭的状态，获得持续更新的动力。最后，治理现代化体现为风险判断的前瞻化。现代治理要求在引入新技术的同时，应同步建立伦理审视、过程监测与纠偏机制，而不是等到问题出现才着手应对。这种未雨绸缪的治理理念，在制度设计之初就将可能出现的文化影响纳入考量，既是对技术万能论的纠偏，也是对考试育人本质的坚守，体现了从被动应对到主动防范的治理思维转变，是考试治理走向成熟的标志之一。（四）更新社会观念，以多元成才观取代单一成功标准考试文化的现代转型仅靠教育系统内部的改革很难独立完成，还需要全社会人才观的深刻转变。只有当社会真正接纳多元成功的价值理念时，学校内部的评价改革才能具备实施的深厚土壤。首先，用人单位的招聘理念是观念转型的关键一环。企业和社会组织需要逐步建立更加科学全面的人才评价体系，超越“唯学历”的简单逻辑，真正关注求职者的实际能力、创新潜质与岗位匹配度。当用人标准从毕业于哪所高校转向能够解决什么问题时，学校教育中的应试焦虑才有可能得到实质性缓解。这种转变虽然不可能一蹴而就，但它是指引教育改革方向的重要风向标。其次，媒体与公共舆论的理性引导不可或缺。媒体在报道教育话题时，应当避免过度渲染状元、名校等标签，更多地关注多元发展的典型案例。例如，那些在艺术、技术、公益、服务业等领域获得成就的年轻人，同样是社会的栋梁之材。只有以多元发展的案例打破单一叙事的束缚，公众的教育观念才能在潜移默化中逐步改变。对于改革过程中出现的个别问题，媒体也应秉持建设性态度，避免过度放大负面案例，以包容、理性的氛围支持教育评价的探索与尝试。最后，政策层面的制度支撑为社会观念转型提供公信力保障。政府可以通过薪酬体系、职业资格认证等制度设计，提升技能型人才、创新型人才的社会地位与物质待遇，让不同行业从业者的努力都能获得应有的尊重与回报。同时，持续巩固“双减”治理成果，引导校外教育培训市场健康发展，鼓励其转向素质教育，成为学校教育的有益补充。总之，只有当社会真正形成多元成才的文化观，育人本位回归、评价尺度转变与治理模式提升才能真正落地生根。这种社会观念的更新既是考试文化转型的外部支撑，也是其最终得以确立的根本。四、结束语考试文化的现代转型是政策外力与文化内力持续互动、相互塑造的过程。本文从文化观念、制度执行与社会环境三个层面揭示了转型面临的结构性困境，也通过对四条转型路径的探讨呈现了互动的复杂性。考试文化早已扎根于社会运行的深层肌理，成为人们习以为常的认知框架和行为习惯。政策可以在短期内确立新的规则，但要让新的价值观念真正落地，让多元评价获得社会信任，让育人本位取代分数导向，还需要漫长的文化积淀与实践调适。正因如此，推动考试文化现代转型，不能寄希望于某一项制度或政策的推进，需要多维度协同发力。更为关键的是，转型的成效最终要体现于每一个教育主体的日常实践之中，即教师的评价观念是否真正转变，学生的学习体验是否更加丰富，家长的焦虑是否有所缓解，社会的人才标准是否更加多元。只有这些细微处的改变汇聚成流，新的考试文化才能从理念转变为现实。从这个意义来看，考试文化的现代转型既是一场深刻的制度变革，也是一场静默的观念更新，它需要改革的决心与定力，也需要历史的耐心与智慧。让考试回归育人本质，让每一个孩子的成长都能被看见、被尊重，正是这场转型的最终期许[33]。参考文献略。

教育部教育考试院：2025年高考地理全国卷试题评析

Gen-AI自动命题 与人工命题的质量比较研究

俄罗斯拔尖创新人才早期培养的课程创新实践及其借鉴

我国教育考试现代化的探索之路：历程与思考——专访教育部考试中心原主任杨学为

孙全胜 等：深化教育评价改革视角下考试文化现代转型路径研究

Gen-AI自动命题与人工命题的质量比较研究

孙全胜等：深化教育评价改革视角下考试文化现代转型路径研究