教育资讯 - 天津市教育考试研究所

刘清华：我国高校拔尖创新人才选拔探索的基本经验、理论逻辑与政策建议

2025-06-20

引用格式：刘清华. 我国高校拔尖创新人才选拔探索的基本经验、理论逻辑与政策建议[J]. 中国考试, 2025(6): 27-36.作　者刘清华，南开大学社会学院副教授。摘　要：梳理改革开放以来我国高校拔尖创新人才选拔的实践探索，可以看出在选拔理念上注重考核综合素质与学科特长，在选拔标准上形成了高校自主测试和高考主导两类模式，在衔接机制上形成了不同类别拔尖创新人才选拔和针对性培养相结合的机制。取得这些经验的主要原因，在于我国政府对经济社会发展的人才需求的准确判断，坚持学科考试为基础的多样化评价机制，采用小规模选拔和重点培养相结合的方式。展望未来，建议支持设有基础学科拔尖学生培养基地的高校实施强基计划招生，加强行业特色型高校的应用型拔尖创新人才选育实践，持续优化拔尖创新人才的选育标准和手段。关键词：高校拔尖创新人才；选拔经验；理论逻辑；政策建议党的十六大报告指出，要坚持教育创新，深化教育改革，优化教育结构，合理配置教育资源，提高教育质量和管理水平，全面推进素质教育，造就数以亿计的高素质劳动者、数以千万计的专门人才和一大批拔尖创新人才[1]。党的二十大报告进一步指出，要坚持教育优先发展、科技自立自强、人才引领驱动，加快建设教育强国、科技强国、人才强国，坚持为党育人、为国育才，全面提高人才自主培养质量，着力造就拔尖创新人才[2]。从招生实践来看，我国高校从1978年开始历经了少年班、保送生制度、自主选拔录取试验、强基计划选拔等多种选拔模式，积累了较为丰富的经验，基本形成了符合中国国情和历史发展阶段的特定选拔机制，同时也暴露出一些亟待改进的问题。本文拟对改革开放以来我国高校拔尖创新人才选拔的基本经验进行总结，深入分析这些经验背后的理论逻辑，就相关改革提出进一步政策建议。一、高校拔尖创新人才选拔的基本经验1977年恢复全国统一高考以来，我国高校拔尖创新人才选拔的探索，包括少年班选拔、保送生制度、自主选拔录取试验、强基计划招生等系列实践，在选拔理念、选拔标准和衔接机制上取得了诸多有益经验。（一）在选拔理念上注重考核综合素质与学科特长少年班选拔以中国科技大学为典型代表。为解决常规科技人才培养无法满足国家发展迫切需求的问题，中国科技大学于1978年开始实施面向14～16岁少年的选拔，主要采用自主测试，招收尚未完成常规中学教育的优秀高中生接受大学教育。从20世纪90年代开始，少年班复试环节兼顾智力和非智力测试，开始注重创造力、批判思维能力、解决问题能力、社交能力等综合素质的考核。自2011年起，中科大在招生简章中明确将综合素质突出作为报考标准。其选拔经验被认为是多元选拔，强调基础要宽，但在培养观念上突出基础与创新并重[3]。从20世纪80年代开始实施的保送生制度来看，也具有部分选拔拔尖创新人才的职能。1988年，国家教育委员会印发《普通高等学校招收保送生的暂行规定》，规定保送生制度注重选拔全面发展或者学科成绩优异的学生，将奥赛集训成绩作为学科优异的评价标准[4]。目前，具备高校保送资格者包括中学生学科奥林匹克竞赛国家集训队成员、部分外国语中学推荐优秀学生（20所）、公安英烈子女和退役运动员四类人员，优秀中学生参加学科奥赛的成绩一直被视作学生的学科特长。高校选拔拔尖创新人才的历史演进，经历了高校自主选拔录取和强基计划招生两个阶段。2003年开启自主选拔录取实验的初衷，主要是进一步深化高等学校招生录取制度改革，进一步扩大高等学校招生自主权，遴选试点学校年度本科招生计划总数5％的优秀创新人才[5]。从90多所高校公布的自主招生章程看，均强调考核学生的基础知识、语言表达、思维、想象力、问题解决能力等各种认知技能，同时把国际国内总计多达十余项的学科竞赛获奖以及论文、著作、专利等各种研究创作成果作为学生报考资格和降分录取的条件。2020年，为服务国家重大战略需求，加强拔尖创新人才选拔培养，教育部颁布《关于在部分高校开展基础学科招生改革试点工作的意见》，决定在部分高水平大学开展基础学科招生改革试点，即强基计划[6]。目前，全国39所双一流建设高校每年招生规模共计约6000人[7]。从招生对象来看，有些高校优先选拔综合素质较高并在全国性奥林匹克学科竞赛中获奖的学生。强基计划招生要求学生高考成绩所占比例不得低于85%，这与美国研究型大学招生以学术考试成绩为最重要选拔标准的原则高度一致[8]。高校自主选拔录取转型为强基计划，实现招生选拔培育一体化，是我国高校拔尖创新人才选拔政策的重大进展。其政策基础是高校自主选拔录取已经积累了有益经验，特别是2009年教育部实施基础学科拔尖计划以来，高校招生依靠自主选拔和校内二次选拔，以及高校实验班模式的重点培育，在基础学科拔尖创新人才培养方面取得了重要成效。2009年教育部实施的基础学科拔尖计划，历经基础学科拔尖计划1.0和2018年以来的基础学科拔尖计划2.0两个阶段。有研究显示，该计划实施15年来，初步构建了青年拔尖人才“蓄水池”，在全国拔尖计划1.6万余名毕业生中，93%以上的毕业生进入国内外顶尖大学或科研机构深造，超过86%的毕业生选择在基础学科领域深造，为基础学科拔尖人才准备了坚实的后备力量[9]。（二）在选拔标准上形成了高校自主测试和高考主导两类模式首先，高校自主测试是以少年班选拔和保送生制度为主的综合评价选拔模式。尤其是少年班选拔有严格的高校综合评价模式，它涉及报考资格审查，支持个人申请和他人推荐，主要基于学生学业成绩表现和个人成就进行资格初筛。例如，中科大少年班招生要求学生提前参加高考，以判断其是否具备较高的大学新生水平，其后设有数理基础测试；在综合素质评价环节，由多学科专家组成面试团队判断学生的能力水平，了解其兴趣志向和个性特征。中科大少年班自1982年起就增加了现场学习新知识后的现场考核环节，判断学生的学习能力与认知发展水平。1986年开始在复试环节加入对学生心理发展水平的评估。这些考核总体上被认为能系统考查学生的相关学科基础、逻辑思维能力、创新能力、心理健康发展状态等表现。与中科大少年班招生选拔模式不同，西安交大少年班从1985年开始招生，主要采用笔试、面试和心理测试三种方式，招生对象为初中应届毕业、年龄均在15周岁以下的超常少年，学生的遴选由学校自主命题，独立招生，不参加全国统一高考。为解决“完整高中教育缺失”问题，西安交大采取了预科两年，高中和大学课程贯通的培养模式[10]。其次，高考主导类评价模式是高校自主选拔录取和强基计划招生综合评价模式。在高校自主选拔录取试点中，多数试点高校以学习成绩优异和学科竞赛获奖作为初筛条件，在最终录取中起主要作用的是学生的高考分数，高校自主测试成绩则决定了学生可以降分录取的分值，绝大多数被录取学生的降分范围一般在5分到20分不等。高校自主选拔的招生名额一般不超过招生计划的5%，但自主招生录取实验突破了单一高考评价标准的选拔制度局限。2020年以来，在面向基础学科的强基招生综合评价模式中，高校也普遍强调报考学生的奥林匹克学科竞赛成绩要求，但高考总成绩占比85%是硬性政策规定。在强基计划招生中，科研潜质也是高校选拔拔尖创新潜质人才特别看重的因素，这与2012年开始实施的“高校科学营”政策实践提升了部分优秀高中生的科研兴趣具有一定关联，也与2013年开始实施的“中学生英才计划”有一定关联。2024年，58所高校实施的英才项目培养了1800名左右的优秀中学生，比2023年增加100名左右[11]。尽管在招生政策上高中生参与英才项目的科研表现不与强基计划招生硬挂钩，从部分高校的实际录取结果来看，这些学生成为强基计划招生的重要生源。（三）在衔接机制上形成不同类别拔尖创新人才选拔和针对性培养相结合的机制在全面发展教育方针指引下，承认个体差异并致力于个性优势发展符合因材施教的基本原则。从因材施教思想来看，无论是少年班还是保送生选拔制度，抑或是高校自主选拔录取和2020年以来的强基计划招生，其基本思路都是基于人的个性优势差异，实现人才选拔与重点培育相结合，这事实上已成为中国特色的高校荣誉教育模式。在这一模式中，拔尖创新人才培养路径主要包括：1）完全学分制、全程导师制与进入-退出制；2）“小学分”课程、“小班化”教学与“小组别”研讨；3）“跨学段”选课、“跨学校”学习与“跨学科”发展等[12]。目前，这种选拔与培养紧密衔接的因材施教机制，已经在“双一流”建设高校和地方重点高校两个层面进行了大量实践，形成了以下两种机制。第一，初步形成了双一流建设高校拔尖创新人才选拔与加速培养相结合的创新机制。如北京大学的元培学院、中国科技大学的少年创新学院、南京大学的匡亚明学院、上海交通大学的致远荣誉计划、复旦大学的本科荣誉项目、南开大学的伯苓学院、四川大学的吴玉章学院、华中科技大学的启明学院等。这些高校通过实施强基计划招生选拔和本硕博一贯制衔接教育，通过小班教学和动态进出淘汰机制，高起点和高难度的跨学科课程，以及导师制和国际化培养方式，致力于培养能突破“卡脖子”领域的学术型拔尖创新人才。例如，中山大学不仅建立了科学的人才遴选和动态进出机制，鼓励院系设置创新班、实验班、拔尖班，还加强本科生和研究生培养方案和课程的有效衔接，高年级本科生修读的本研贯通课程可在本校研究生阶段予以免修，完成18个荣誉课程学分并符合相关要求可获授荣誉学位[13]。第二，初步形成了地方重点高校拔尖创新人才二次选拔与重点培育相结合的机制。2017年9月，教育部发布42所“双一流”建设高校名单和95所一流学科建设高校名单。一流学科建设高校中，近一半属于行业特色型大学。尤其是行业特色型高校，他们在一流建设学科或拔尖计划2.0学科均开办了各种各样的校内实验班，通过校内二次选拔机制和重点培养相结合，为实验班学生提供丰富的理论与实践课程，以培养适应地方经济发展需求和创业需要的行业应用型拔尖创新人才。这种拔尖人才选拔机制分为以下两种模式：其一，以高考成绩或高校某一阶段的专业课程成绩对学生进行初筛，继而通过笔试、面试等对学生进行综合素质与能力测试，如哈尔滨工程大学陈赓班、南京航空航天大学长空学院长空创新班、北京交通大学茅以升班、江南大学至善学院等；其二，不与任何高考成绩、专业成绩挂钩，所有学生均可通过自愿报名参加选拔考试，如西安电子科技大学各类试点班、北京科技大学黄昆英才班、西南交通大学基础学科拔尖班等[14]。这些高校的各类实验班不仅为地方经济发展输送了大量应用型拔尖创新人才，也为双一流建设高校输送了高质量的研究生生源。二、高校拔尖创新人才选拔经验背后的理论逻辑高校拔尖创新人才选拔探索取得的基本经验，主要归因于我国教育主管部门对高等教育发展基本规律的把握——既瞄准经济社会发展对基础学科拔尖创新人才的需求，又在选拔标准的科学性方面进行了积极探索，同时创设了适合拔尖创新人才成长发展的教育教学条件。（一）瞄准基础学科拔尖创新人才的选育符合经济社会发展战略需求拔尖创新人才选育必须满足我国经济社会发展的特定学科需求，这是我国推动经济社会发展的重大战略部署。1985年发布的《中共中央关于教育体制改革的决定》明确提出，为增强科学研究的能力，培养高质量专门人才，要改进和完善研究生培养制度，并根据同行评议、择优扶植的原则，有计划地建设一批重点学科[15]。20世纪90年代，“211工程”和“985工程”相继启动，先后建立了100多个国家理科基础科学研究和教学人才培养基地。2016年，党中央作出建设一流大学和一流学科的重大战略部署，进一步凸显重点学科的建设机制[16]。2018年，教育部、财政部、国家发展和改革委员会三部委印发《关于高等学校加快“双一流”建设的指导意见》，明确提出：“坚持内涵发展。以多层次多类型一流人才培养为根本，以学科为基础，更加注重结构布局优化协调，更加注重人才培养模式创新。”[17]2020年，我国强基计划招生政策明确要求的基础学科领域包括数学、物理、化学、生物科学、历史学、哲学、古文字学、基础医学、力学和核工程与核技术十个学科方向，招生领域聚焦高端芯片与软件、智能科技、新材料、先进制造和国家安全等关键领域及国家人才紧缺的人文社会科学相关领域，充分体现了我国拔尖创新人才培育的学科战略定位。基础研究在推动创新、经济增长和福利方面发挥着重要作用。Mansfield通过调查不同行业的美国公司样本，检验了基础研究对企业创新活动的重要性。他发现，在1975—1985年期间，假如没有大学的基础研究，多达11%的公司新产品和9%的新工艺不可能问世；在1986—1994年期间，这一比例则更高，分别达到15%和11%，表明基础研究对工业研发的重要性持续增加[18]。由于知识创新有高度不确定性、取得成果时间较长等特点，企业通常不愿投资于基础研究，需要政府和相关机构增加对基础学科研究的财政投入，制定相应的激励政策[19]。由于历史原因，我国错过了引领三次科技革命的机会，而今要抓住信息时代的人工智能发展机遇，成为世界主要的科学中心思想高地和新科技革命策源地，就必须进一步瞄准基础学科领域拔尖创新人才的选育质量。（二）坚持以学科考试为基础的多元评价机制符合人的全面发展要求坚持以学科考试为基础的多样化评价机制，符合人的全面发展要求。拔尖创新人才培养的前提是识才，而识才最为重要的前提在于实现考试对学生认知发展水平的有效考查。以学科考试的方法选拔拔尖创新人才，既在于知识的内在逻辑——知识是社会进步的力量，是学校教育的基础，也在于考试可以对知识进行有效的测量。换个角度说，学校教育体系是一个以学生知识和能力准备程度来决定一个人在下一阶段进入什么样学校的体系，学校教育始终坚持能力至上[20]。从这点来讲，强基计划招生必须通过一定的学科考试目标来体现，特别是高校招生统一考试这个具有生源可比性的测试机制。有观点认为，仍有大部分学校和教师觉得培养拔尖人才就是教出能考高分、名列前茅的学生，这就导致了基础教育重拔尖而轻创新，出现了拔尖人才易培、创新人才难育的现实困境[21]。这种观点容易把学生考高分与拔尖创新人才的选拔标准对立起来，并不符合以统一考试为基础来选拔拔尖创新人才的高校招生实践。在统一考试制度下，过于追求标准答案固然会对学生求异思维产生一定的负面影响，现实中那些将高考与中学素质教育对立，认为目前高考制度选拔的学生高分低能没有创造力的想法，其实更多是一种认识误区。改革的办法之一就是完善高考指挥棒，科学地命制试题[22]。有了考试制度，高校就可以在此基础上探索更多有效的评价方式，弥补统一考试难以考查学生个性发展情况的缺陷。高校拔尖创新人才主要通过考试方式来选拔，还在于其他方式缺乏刚性可比的标准，易滋生腐败进而导致社会的无序竞争。从考试规则公平角度看，设置公平公正、公开透明的考核程序，有助于杜绝特殊利益群体的暗箱操作，可以更好保障高校招生的公平性。因此，保持全国统一高考制度不动摇，守住高等教育入学机会公平的底线，有助于从全局上保证高中生能够公平获得优质的高等教育机会。（三）实施小规模选拔和重点培养相结合的模式是教育的内外部条件使然高校实施小规模选拔，一个主要原因在于拔尖创新人才总是群体中的少数。国际上一般会把同龄人的前10%左右确定为英才儿童给予区分性教育，而排在同龄人前1%～3%的英才儿童会受到重点关注[23]。美国的英才教育则主要是把5%的天才生与95%的其他学生相区分。康奈尔大学每年都通过考试从新生中选拔40名左右最优秀的学生，并为其提供更自主、更优越的各种学习条件[24]。本（专）科、硕博士阶段可能才是拔尖创新人才专门培养和快速成长阶段，基础教育阶段是其早期培养阶段[25]。在制度设计上，强基计划强调在普通高考基础上进行高校考核，即在统一高考“粗筛”的基础上进行有针对性的学校“细筛”，更具科学性[26]。强基计划要求录取的学生入校后原则上不得转到相关学科之外的专业就读，很大程度上是基于学生的基础学科兴趣要求。实施小规模选拔的一个重要原因，在于国家或高校在教育资源相对缺乏的情况下，只能集中资源办好一批学校或者一些学科，以便提高人才培养效率。此外，人的天赋有差异，学习环境有差异，学生努力的程度也有差异，这决定了拔尖创新人才选育的教育公平，并不是用一种规格、一种标准来要求每一个学生。对有些学生而言可能是拔苗助长，对另一些学生而言可能压抑他的潜能发展[27]。从高校课程设置来看，面向全体学生实施课程选修制度固然是最公平、最高效的制度安排，但现实中大班额授课也存在教育教学资源局限，很难照顾到每一个学生的个体差异。从宏观层面看公平选拔机制，少数拔尖创新人才的选拔培养主要服务于国家重大战略需求的总体部署；从学生个体看公平选拔机制，则是人才成长发展的内在条件使然。当然，义务教育阶段要慎重采用重点班选育制度，毕竟学生的身心发展水平还处于相对不成熟状态，如果简单依据一次考试来决定重点班选育，就在一定意义上违背了义务教育公平的基本原则。不得不说，采用小规模选拔和重点培养相结合的模式，需要以科学的选拔制度为基础，否则就可能出现把一批学生“圈”起来进行加速培养的结局，对学生个人发展的意义有限；毕竟，面向绝大部分学生，改进整体教育模式，营造有利于各类学生“冒出来”的多样化评价制度[28]，才是高校贯彻因材施教的普遍原则。三、拔尖创新人才选拔的政策展望我国的拔尖创新人才选拔已取得很大成绩，但仍存在一些突出问题，影响到拔尖创新人才的培养。事实上，只要抓住影响经济社会发展全局的学科需求，持续优化拔尖创新潜质人才的选育标准和方式方法，就能够为经济社会发展提供源源不断的人才支撑。（一）支持设有基础学科拔尖学生培养基地的高校实施强基计划招生基础科学研究是实现高水平科技自立自强的基石，决定了一个国家的科技创新能力。2018年，国务院颁布《关于全面加强基础科学研究的若干意见》，文中提出：“到2035年，我国基础科学研究整体水平和国际影响力大幅跃升，在更多重要领域引领全球发展，产出一批对世界科技发展和人类文明进步有重要影响的原创性科学成果，为基本实现社会主义现代化、跻身创新型国家前列奠定坚实基础。到二十一世纪中叶，把我国建设成为世界主要科学中心和创新高地，涌现出一批重大原创性科学成果和国际顶尖水平的科学大师，为建成富强民主文明和谐美丽的社会主义现代化强国和世界科技强国提供强大的科学支撑。”[29]该政策出台以来，我国“双一流”建设高校深入实施强基计划，探索本硕博贯通培养，在拔尖创新人才培育方面取得了显著成就。事实上，研究型大学在基础学科拔尖创新人才选育中，肩负着义不容辞的使命。我国改革开放后接受高等教育的67名院士中，有32名院士本科就读于“985工程”重点建设大学，65名院士接受了系统的本科教育并接受过严格的科研训练[30]。目前强基计划招生院校仅限于39所“双一流”建设高校，每年招生规模仅6000余人，远不能满足我国经济社会发展对拔尖创新人才的绝对需求量。此外，每年将近500万的本科生英才培养规模，也需与“基础学科拔尖学生培养试验计划”政策进行更紧密的衔接。2019—2021年，教育部先后公布三批基础学科拔尖学生培养计划2.0基地名单，目前共有77所高校和288个培养基地，其中数学、物理、化学、生物、计算机、地理学、大气科学、天文学、海洋科学、地球物理学、地质学、心理学、基础医学、力学、空天力学、药学、中药学、基础药学、数学物理、大理科、航天力学共21个学科属于理科类拔尖学生培养基地，哲学、经济学、数字经济时代经济学、中国语言文学、历史学、历史+、考古学、中文国际传播、中国语言文学9个学科属于文科类拔尖学生培养基地。如果按照每个培养基地每年招生30人计算，则每年招生规模会达到8640人，这对我国基础学科领域的拔尖创新人才培养是重要的增量。如果这些设有学科培养基地的高校能深入探索出具有学科特色的拔尖创新学生选拔与重点培育的教育机制，我国基础学科领域的拔尖创新人才培养将会取得更大成绩。（二）强化行业特色高校应用型拔尖创新人才的选育《教育部关于“十三五”时期高等学校设置工作的意见》明确提出：“研究型高等学校主要以培养学术研究的创新型人才为主，应用型高等学校主要从事服务经济社会发展的本科以上层次应用型人才培养，职业技能型高等学校主要从事生产管理服务一线的专科层次技能型人才培养，并积极开展或参与技术服务及技能应用型改革与创新。”[31]科技创新是由基础研究和应用研究共同驱动的。广义上的拔尖创新人才，是“在各个领域特别是科学、技术和管理领域，有强烈的事业心和社会责任感，有创新精神和能力，为国家发展作出重大贡献，在我国特别是在世界领先的带头人和杰出人才”[32]。这是从国家社会发展全局出发对拔尖创新人才的定位，要求充分重视学术型、应用型和职业技能型拔尖创新人才的分类选育。从应用型拔尖创新人才的选育来看，当前尤其需要发挥行业特色高校的办学特色和作用。应用学科主要从事应用研究和开发研究，重在解决社会实际问题、工程实际问题等。推动经济社会发展。由于行业特色高校原有学科门类较少，专业设置受限，优势学科单一，且过于集中在与某些行业密切相关的领域，导致综合发展相对滞后，在普通高考招生过程中竞争优势不明显[33]。当前，社会普遍重视学术型拔尖创新人才培养，相对忽视技术技能型拔尖创新人才，而实际上这类人才对社会经济发展的作用力更直接、更明显[34]。从应用学科的人才培养类型来看，工科、农科、临床医学、法科、财经、工商管理等应用学科为主的高等学校主要培养高级应用型人才，这些学科的学生占我国本科学生总数的绝大部分，因此强化应用型拔尖创新人才的选育也十分重要。目前，行业特色高校主要采取二次选拔和重点培养衔接模式，符合我国国情。如果在高考招生环节实施所有学术型和应用型拔尖创新人才选育，牵涉的社会面和学校因素太多，很难从全局上维护高校招生的秩序。高校内的二次选拔与重点培育模式避开了全国性高考单独选拔的公平性难题，在高校内部更有利于解决好学生选拔的有效性和公平性。至于行业特色高校的应用型拔尖创新人才选育标准，尚需充分考虑我国经济社会发展对创新创业人才培养的新要求，如培育学生深厚的家国情怀、强烈的使命感及人类命运共同体意识、国际视野和全球胜任力等，使其具备理论与实践相结合的能力，能够从错综复杂的现象中发现问题和解决问题[35]。（三）持续优化拔尖创新人才的选育标准和手段为进一步完善学术型拔尖创新人才的选拔标准，学生的科研潜质需要通过科研兴趣和科研效果检验，仅凭面试或学科考试成绩或学科竞赛，容易产生测试目标上的部分异质性问题。有学者对我国六所顶尖研究型大学案例的研究发现，现实中一流的学生往往被等同于学业成绩优异或竞赛成绩突出，而学生身上其他诸如好奇心、批判性思维、实践能力等综合素质在这种单一的选拔标准下则很难被注意到[36]。还有调研显示，现实中有相当一部分考试成绩优异的学生参与强基计划入学选择，更多的是为获取更优质的教育资源，而非出于对学科或科研的热爱，因此入学后难以形成坚定的科研目标和志向[37]。没有兴趣就没有学习。好奇心应当是基础学科拔尖创新人才的首要特质[38]。由此，我国在高中阶段实施的“中学生英才计划”是很好的科研志趣和能力识别机制。对不同类型拔尖创新人才的选拔而言，综合评价是基本方法，考试方法只是选才的基础性方法。高校对笔试、口试、操作考试、科研表现评价等不同方法的选用，需要体现高校培养目标和核心能力要求。一般而言，笔试与口试主要检测学生的认知水平、思维能力与学习能力，各种实践调查、社会服务活动和校内实践活动可以检测学生的价值观和社会实践能力，操作考试可以检测学生的动手能力，对学生参与研究的整体表现进行专家评价则能检测他们的科研兴趣和研究能力。而学生创新能力评价涉及对体现知识宽度和深度的T型知识结构、创造力及动机等非智力要素的考查评价，任何单一的衡量标准都无法对学生作出准确评价。各国的教育评估实践表明，在严格的程序下考查评价学生过去的活动和成就，是预测学生未来创造力的最有效方法，如作品集、性格量表、自我报告工具和专家集体的评分[39]。美国高中的经验表明，仅依靠传统的大学先修课程或国际文凭课程，以及各种艺体活动或者兴趣小组，很难满足资优学生的全面发展和个性发展需求；而建立与真实社区的联系，创设各类直面社会问题的研究性学习或实践性课程，依靠口头报告、作品集或者研究论文等评价手段，更有助于有效培养学生的学术兴趣和能力[40]。总之，不能以考试分数作为高校的唯一录取标准，单一考试方法检测出的更多是学科认知能力。我国高考选拔总体上倚重统一考试，常常被诟病为“唯分数”。同时，拔尖创新人才选拔过于看重学科竞赛成绩，也造成很多负效应；还有一些高中不惜人力财力请教练、打比赛，导致高中之间的激烈竞争甚至是恶性竞争[41]。从笔者在教学中接触到的大学本科生和研究生反映的问题来看，绝大多数高中学生囿于唯一的学科考试竞争，远离了真实的社会实践，使创新尤其是文科类的创新成为脱离实践的无源之水。亟须在高考统一考试之外，开设面向少数优秀高中生的解决实际问题的研究性学习课程，并建立相应的表现性评价机制，为拔尖创新人才提供脱颖而出的平台。参考文献略

专家笔谈之一 ∣ 杨卫：教育评价的三重境界：从竞争力到领导力的进阶之路

2025-06-13

引用格式：杨卫, 郑泉水, 侯杰泰, 申继亮, 刘坚, 刘益东. 以教育评价改革助推教育强国建设（专家笔谈）[J]. 中国考试, 2025(6): 15-26.编者按：教育兴则国家兴，教育强则国家强。2025年1月，中共中央、国务院印发《教育强国建设规划纲要（2024—2035年）》（以下简称《强国纲要》），对加快建设教育强国做出了全面战略部署。《强国纲要》明确了到2027年和2035年我国教育发展的主要目标，提出了九个方面的重点任务。在此背景下，由中国教育发展战略学会教育评价专业委员会和湖南师范大学联合主办的“第四届教育评价学术年会”于2025年3月28日至30日在湖南长沙召开，会议主题为“以教育评价改革助推教育强国建设”，共计800余位教育行政部门领导、专家学者、教师和研究人员到会交流，讨论内容涵盖高等教育评价改革、职业教育评价、基础教育评价、区域教育评价、数智赋能教育评价、教育评价牵引高校人才选拔与培养等多个专题领域。在专委会秘书处协助下，本刊整理摘编了大会特邀主旨报告的六位专家发言要点，汇总为一期专家笔谈，以飨读者。作　者杨卫浙江大学教授，中国学位与研究生教育学会会长当前，全球教育格局正经历深刻变革，我国教育评价体系亦面临人才培养从“量”到“质”的转型。如何构建兼具公平性、专业性、科学性的评价机制，成为学界与政策制定者共同关注的焦点。笔者从评价基础、方法分类、境界进阶及现实挑战四个方面展开讨论，以期为完善中国特色教育评价体系提供理论参考。一、教育评价的基础：公平性与专业性的双重基石教育评价体系的构建需要以公平性与专业性两大核心原则为根基。公平性是评价结果得到广泛认同的前提，缺乏公平的评价容易沦为“人气竞赛”，丧失公信力；而专业性则要求评价主体与内容高度适配，即“专业人做专业事”。在此基础上，评价体系还需兼顾成长性，通过方法创新提升对颠覆性成果的包容性、适用面的广度与深度，以及评价结果的实际影响力。评价方法可类比于法学体系中的规则法与案例法两大范式。规则法强调自上而下的标准化框架，注重客观性、逻辑性与普适性；案例法则依托典型案例的动态修正能力，凸显专业性与灵活性。实践中，多数评价体系介于二者之间，形成主客观交织的混合模式。例如，高校教师绩效评估从完全量化的KPI（关键绩效指标）转向专家调整的柔性指标，正是规则法与案例法结合的典型尝试。二、教育评价方法的分类图谱与实践演进现有评价方法可归纳为从完全客观到高度主观的连续谱系。完全客观刚性评价以量化考核为代表，优势在于标准化，但容易忽视学科差异性，如文科成果可能因经费、专利等指标难以量化而处于劣势。为弥补这一缺陷，专家调整的柔性指标应运而生，通过专家介入修正刚性体系的不足，提升学科适配性。进而言之，规则导向的客观筛选强调程序正义，如首轮“双一流”学科评选通过专家制定规则后导入数据完成，但其局限性在于规则制定初期缺乏数据支撑。相比之下，主客观混合机制更趋平衡，常见于大学排名与学科评估，既依托客观数据，又纳入专家意见。在一些评审中，深度数据支持的专家评审（如学术期刊审稿）与同行评议（如国家自然科学基金函评）逐渐占据主导，前者以数据辅助决策，后者则依赖专家主观判断。对于涉及人才选拔与晋升的评价，前置条件约束的专家评审成为主流，如职称晋升与学位答辩需在限定框架内行使裁量权。而无规则的专家评议则完全依赖专家经验与直觉，如重点研发计划评审等。这一分类表明，评价体系的科学化并非追求绝对客观，而需在规则与弹性、数据与经验之间寻求动态平衡。三、教育评价的三重境界：从竞争到引领的跃迁教育评价的终极目标在于推动教育机构实现竞争力、持续力与领导力三重境界的跃迁。第一境界为竞争力，体现为机构在特定领域的不可替代性。其核心要素包括特色鲜明、发展动能强劲与真材实料。特色需在某一赛道形成“硬核优势”，如理工科大学的尖端技术突破；发展动能则强调成果增速，如中国学术产出的全球占比跃升；真材实料要求成果真实可信，资源扎实可靠。此阶段评价聚焦“专项一流”，通过量化指标凸显比较优势。第二境界为持续力，标志着机构超越竞争逻辑，转向生态系统的健康度。评价重心随之调整为可持续发展能力、高质量内涵建设与文化包容性。可持续发展摒弃“唯排名论”，关注学科、团队与教育的长期质量；高质量内涵建设涵盖跨学科融合、原创理论产出等；文化包容性则需尊重多元标准，避免“一刀切”抑制创新。例如，当前我国顶尖高校如北大、清华等已初具生态型特征，但仍需深化结构性改革。第三境界为领导力，是教育评价的最高境界。其表现为全球教育中心地位的确立、哲学高度的价值引领与范式输出能力。全球教育中心需吸引顶尖师资与学生，孕育新学派与新理念；哲学高度则要求成为真善美价值观念的策源地，如古希腊学院或我国春秋时期的稷下学宫；范式输出能力体现在制定国际标准与主导议程设置方面。此境界尚无现代高校完全达成，但应成为长远愿景。四、现实挑战：“五唯”痼疾与评价体系的破局重构“五唯”（唯分数、唯升学、唯文凭、唯论文、唯帽子）是当前评价体系的主要顽疾，其问题症结在于“唯”——单一化导向导致创新受限、学科失衡与人才异化。破解之道需从三个方面入手。首先，构建谱系化评价标准。依学科、岗位差异设计多元指标，如文科重思想性与社会影响，理工科重技术转化与应用价值。其次，动态优化“帽子”体系。人才称号应服务于教育评价生态体系建设，避免异化为资源垄断工具，可探索简化谱系、强化流动性。最后，强化过程性评价。要关注成果背后的社会价值、教育贡献与长期影响，而非仅注重数量化产出。教育评价的本质是教育价值观的具象化。从竞争力到领导力的进阶，不仅需要方法论的创新，更需哲学层面的反思——评价应服务于人的全面发展与社会的可持续进步。未来，我国教育评价体系可进一步借鉴规则法与案例法的优势，构建兼具刚性底线与弹性空间的“韧性评价模式”。唯有如此，方能为全球教育治理提供中国智慧，推动教育真正迈向真善美的理想境界。参考文献略

专家笔谈之二 ∣ 郑泉水：破界创生：数智时代创新人才培养与评价的新范式

2025-06-13

引用格式：杨卫, 郑泉水, 侯杰泰, 申继亮, 刘坚, 刘益东. 以教育评价改革助推教育强国建设（专家笔谈）[J]. 中国考试, 2025(6): 15-26.作　者郑泉水清华大学钱学森班首席教授，深圳零一学院创始院长当今数智时代，科技的飞速发展正深刻改变着人们的生活与教育。人工智能、大数据等新兴技术的广泛应用，使得许多传统知识与技能逐渐被数字智能所取代。在这样的背景下，未来的教育评价应如何适应时代的需求，培养出真正具备创新能力和个性化成长的高素质人才？创生教育理念可以提供一个答案。一、传统教育评价的局限性与个性化成长的困境传统教育评价体系往往侧重于对知识掌握程度的考查，以考试成绩为主要衡量标准。这种评价方式在一定程度上能够筛选出基础知识扎实的学生，但其局限性也日益凸显。首先，它无法全面衡量学生的综合素质与个性特长。每个学生都是独一无二的个体，拥有不同的兴趣、特长和潜力，传统评价试图用一把尺子去衡量所有人，这无疑会压抑学生的个性发展。其次，这种评价方式容易导致学生过度追求分数，忽视对知识的深入理解和应用能力的提升。许多学生为了在考试中取得高分，往往采取死记硬背、刷题等机械式学习方法，缺乏对知识的真正理解和创新思维的培养。在数智时代，这种局限性更加明显。随着人工智能等技术的发展，许多重复性、规律性的知识和技能将被机器取代。未来社会需要具备创新思维、社会适应技能和解决复杂问题能力的人才。然而，传统教育及其评价体系难以培养出这样的人才。例如，美国有超过400万的Z世代（通常指1995年至2009年间出生的一代人）大学生，他们虽然接受了高等教育，但却面临就业困境，其教育经历未能提供充足的个性化成长空间，没有培养其适应未来社会的能力。二、创生教育理念的提出与实践创生教育强调以创生为内生动力，鼓励学生自主探索、获取资源，促进学生创新能力的提升和个性化成长。未来的教育评价不应仅关注学生的知识掌握程度，而应更加注重学生的综合素质、创新能力和社会适应能力的培养。清华大学钱学森班长达16年的人才培养探索便是一个成功案例。钱学森班的学生从清华大学优秀学生中经二次选拔产生，本身已经具备较高的学术水平和综合素质。钱学森班的培养目标是让每个学生都能在个性化成长的道路上取得成功，培养他们的自信和创新能力。以个性化的研究课题、丰富的学习资源和自由的学术氛围为依托，钱学森班的学生在创新能力和个性化成长方面取得了显著成果。许多学生在本科阶段就开始进行自己的研究项目，取得了优异成绩，并在国内外学术会议上发表研究成果。创生教育理念已推广到南昌大学等其他高校，这些高校也创办了类似钱学森班的实验班，取得了良好效果。这些实验班的学生在个性化成长和创新能力方面表现出色，证明了创生教育理念的可行性和有效性。三、X型学生与A型学生：教育评价的两种路径在创生教育理念中，学生可以分为X型和A型两类。X型学生指具有探索精神、敢于冒险、注重个性化成长的学生。他们善于发现自己的兴趣和特长，勇于尝试新的事物，不拘泥于传统的学习方式和评价标准。而A型学生则指那些追求完美、注重成绩、按照传统教育模式学习的学生。他们在学习过程中往往更加注重分数和排名，力求在每门课程中都取得优异的成绩。传统教育评价更适合A型学生，而创生教育理念则更注重培养X型学生。X型学生在个性化成长和创新能力方面具有更大潜力，能够在未来社会中更好地适应变化、解决复杂问题。然而，目前的教育评价体系却往往压抑X型学生的发展，使他们逐渐变成了A型学生。因此，我们需要改变教育评价方式，为X型学生提供更大的发展空间。高考作为我国最重要的教育评价方式之一，对学生的成长和发展具有深远影响。高考改革是实现创生教育理念的关键。具体来说，高考应创新试题设计，更加注重考查学生的思维能力和创新能力。通过这种方式，可以为X型学生提供更多机会，使其在高考中脱颖而出。此外，还应重视高考评价的多元化。高考评价不应仅局限于考试成绩，还应包括对学生的综合素质、创新能力、社会实践能力等多方面的评价。通过多元化的评价方式，更加全面地衡量学生的能力和潜力，为学生的个性化成长提供更多机会。四、创生教育的未来展望创生教育理念提供了一种全新的教育评价和人才培养模式。它强调以学生为中心，注重个性化成长和创新能力的培养，为学生提供更多的发展空间和机会。在未来的教育改革中，应积极探索创生教育理念的实践应用，推动教育评价体系变革。关于创生教育的理论基础和实践指南，均整理于笔者的《破界创生：从清华钱学森班到深圳零一学院的创生教育》一书之中[1]。希望更多的教育工作者和学者关注创生教育理念，共同推动教育改革的发展，为我国培养出更多具有创新能力及个性化成长的高素质人才，为我国在全球科技竞争中取得优势地位提供人才支撑。参考文献略

专家笔谈之三 ∣ 侯杰泰：数据驱动下的教育变革：PISA测评的启示

2025-06-13

引用格式：杨卫, 郑泉水, 侯杰泰, 申继亮, 刘坚, 刘益东. 以教育评价改革助推教育强国建设（专家笔谈）[J]. 中国考试, 2025(6): 15-26.作　者侯杰泰，香港中文大学原副校长，教授。通过全面深入地分析国际学生评估项目（PISA）的研究数据和实证结果，可以对全球教育系统进行深度解构[2]，这为我国教育改革提供了多维度的镜鉴。笔者从资源投入、教育均衡、教学效率、技术应用、教育生态优化五个方面，系统梳理PISA测评数据所揭示的教育发展规律。一、教育资源的投入和配置与学业成就之间存在明显的边际递减效应多年的PISA测评数据显示，教育投入与学业成就之间并非线性相关，而是呈现显著的边际递减效应。以PISA2022测评为例，OECD参测成员国家/地区的平均数学成绩为472分，平均教育投入为每年102612美元[3]。以教育投入为横坐标、数学成绩为纵坐标，进一步构建所有参测国家/地区的数学成绩与教育投入的关系。可以看到，数学学科在生均投入每月4500元人民币以下（2018年PISA约为3000元人民币）时，投入越多成绩越好，但达到该阈值后其边际效益锐减，这时怎样使用教育经费比教育资源投入多少更为重要。显而易见，我们可以采用同一分析方法找出我国三十多个省市的扶贫线（阈值），在阈值以下是资源越多成绩越好，超过阈值之后即为怎样用钱比增加投入更为重要。此外，通过分析瑞典、新加坡等一些私立教育占比较高以及高社会经济地位孩子更为集中的学校发现，过度依赖私立教育可能会削弱公共教育质量，这对不同地方及我国民办教育规范发展具有警示意义。二、教育均衡发展的双重维度综合PISA2018、2022国际比较研究发现：芬兰、挪威、丹麦等国学校之间能力差异非常小，教育基本达到区域均衡。然而，由于这些学校并不依据学生能力选择学生，即能力不同的学生被随机分派到不同的学校，因此所有学校的校内学生能力差异都非常大。如果教师不额外采用超强力度协助学习能力较差的学生，则“不能放弃任何一个学生”“一个都不能少”等目标很难实现。例如，英国、美国、芬兰等国家的学校内差异极大，所有学校都有不少能力极差的学生。而在亚洲的很多地方，如日本、中国的京沪苏浙、新加坡等因为有小学升中学的考试或中考制度，所以导致学校之间能力差异甚大。相较而言，因为不同能力的学生被分流到不同的学校，所以学校内的学生能力差异较小。此外，校内差异程度在亚洲不同地方的表现不同，如我国京沪苏浙地区的校内学生能力差异显著低于其他地区。通过调查发现，京沪苏浙地区的学生即使是能力稍弱，也会通过自身努力或在老师监督下取得较大进步，从而降低校内差异，这是他们的明显优势。为了更好地促进我国教育均衡发展，在借鉴PISA测评结果的基础上，我们可以比较及监察不同省市在优质、均衡、学校间、学校内的各种能力差异，以了解不同地区的教育质量及支持系统。三、学习效率及成绩的代价学习效率是PISA测评的一项重要考查内容，通过测评分数除以校内外学习总时间得到该项分数，即计算PISA每一分的成绩需要学生每周学习多少小时。以PISA2015、PISA2018测评成绩为例，OECD参测国家/地区的学习效率存在明显差异。由结果可知，各参测国家/地区在学校上课时间差别不大，但课外用于学习的时间差别很大。其中，芬兰教育系统以每天极短的课外功课时间实现了学业成就的高效产出，学习效率显著高于其他国家/地区；亚洲（中国澳门除外）学生所用学习总时长较长，但平均学习效率处于中等水平；我国参测四省市的校内外学习时间均处于较高水平，其平均学习效率处于中等偏下位置。由此推测，我国四省市的部分地区存在以时间换分数、学习效率低下等现象[4]，但这并不是说我国学生学习更为迟缓，而是反映了学习边际效应递减将整个学习效率拖低的事实。例如，很多学生学习一个小时就已经可以达到90分，但要想达到92分还需要再多学10个小时。四、善用信息技术二十世纪九十年代末，计算机开始进入学校教育，教育界开始试行并推动将信息科技应用于教育领域。通过比较PISA2000至PISA2012这十多年间学生的阅读素养成绩与在学校使用计算机完成作业的学生占比情况可知，使用计算机完成作业的学生占比越高，其阅读素养成绩反而呈下降趋势。由此可知，计算机进入校园以后，并不一定能提高学生的学习能力，因此还要不断地研究及监察使用计算机及科技与教育之间的关系。近年来，随着ChatGPT等生成式人工智能（AI）的高速发展，一些国家紧急制定了相应的管控政策和要求，揭示了高科技技术的双刃剑效应。例如，澳大利亚在2024年11月发布公告禁止16岁以下青少年使用社交媒体；新加坡发布了严格的屏幕使用指南[5]。对此，我国教育领域亟须建立AI应用分级管理制度，如在基础教育阶段侧重思维、创意培育工具开发，高等教育阶段强化技术、态度、伦理教育，同时还要特别要警惕生成式人工智能对元认知能力发展的潜在影响，构建教育领域正确使用、定向开发、过程监控的人工智能应用框架。五、教育生态的系统优化在PISA调查问卷中，当提问学生“30岁可能在做什么工作”时，不同国家/地区的学生作答情况差异较大。例如，美国15岁学生中认为自己30岁时会从事科技领域工作（工程、科学、医疗卫生、计算机等）的人数占比高达37%，但他们的科学素养成绩是整体较低的；加拿大、英国、新加坡学生认为自己会从事STEM（科学、科技、工程、数学）工作的也很多，占比约为30%。这种科学素养与就业领域的非对称性特征，可能与不同国家/地区特有的科技创新生态系统密切关联，学生认为科学素养能帮助他们今后的工作及学习，并认为无论将来做什么工作，都需要科学素养。反观我国参测学生可知，学生整体的科学素养得分很高，但愿意在30岁时参与科技工作的人数却很少。由此说明，学生对科学学科的兴趣和素养并未转化为职业倾向和职业选择，他们认为科学成绩只是申请大学的工具，今后从事的工作并不一定与科学相关。实际上，现在的工作几乎都离不开科技成果的使用甚至开发，如教师要学习使用新的智慧课堂软件。因此，我国学生对科学素养的消极态度容易导致未来科研人才的流失，这种现象值得教育领域人士深思。没有实证数据，很难判断谁的意见或猜想更为准确。PISA研究展示了多种非常有启发性的研究分析方法，借鉴这些方法可以比较我国不同省市地区的教育情况，从而更深入、精准地进行教育改革，以推动我国基础教育向更高质量、更可持续的方向发展。参考文献略

黄锡汝等：初中科学实践课堂评价的困境、方向与路径

2025-05-21

引用格式：黄锡汝, 周文叶, 顾亭亭. 初中科学实践课堂评价的困境、方向与路径[J]. 中国考试, 2025(5): 44-52.作　者黄锡汝，女，华东师范大学课程与教学研究所在读博士生。周文叶，女，华东师范大学课程与教学研究所教授。顾亭亭，女，华东师范大学课程与教学研究所在读硕士生。摘　要：科学教育在提升国家科技竞争力、培养创新人才的过程中发挥着基础性作用。随着我国教育评价改革的推进与科学课程学习方式的变革，科学实践愈发受到重视，课堂评价和学业成就评价方式也需随之革新，其核心在于通过实践性评价捕捉学生做中学、用中学、创中学的实际表现。然而，当前科学实践课堂评价中存在认知理解偏差、方法工具匮乏等问题。为解决这些问题，评价目标需从传统的知识掌握向问题解决能力培养转变，评价内容需从低阶单一向高阶融合转变，评价方式需从纸笔测验向表现性评价转变。实践课堂评价改革应从制订多类型评价目标、设计表现性评价任务、开发高质量评分规则等举措入手，确保评价的科学性和有效性，提升科学实践的育人成效。关键词：科学实践；课堂评价；科学素养；科学教育；教育评价改革科学教育在提升国家科技竞争力、培养创新人才的过程中发挥着基础性作用。《教育强国建设规划纲要（2024—2035年）》提出要加强科学教育，注重学生的科学素养培养。在这一宏观背景下，科学实践显得尤为重要，它是落实素养导向的科学课程与教学的有效途径，在学生科学素养的发展中发挥着关键作用。《义务教育科学课程标准（2022年版）》（以下简称新课标）明确指出，义务教育科学课程是一门体现科学本质的综合性基础课程，具有实践性[1]。新课标将“探究实践”确定为科学课程的核心素养内涵之一，倡导以探究和实践为主的多样化学习方式，让学生主动参与、动手动脑、积极体验，经历科学探究以及技术与工程实践的过程[1]。实践取向的科学教育需要新的课堂评价和学业成就评价模式，以评估学生在日常实践活动中的表现，以及是否具备解决现实问题的实践能力[2]。然而，初中阶段的科学实践如火如荼，其课堂评价却未能同步跟进。沿袭传统模式的课堂评价，既不能有效衡量学生在科学实践中的综合能力，从实践取向上反映学生真实素养水平，也不能提供有效的评价反馈以帮助学生改进其在科学实践中的表现，发挥促进学习的作用。在此背景下，本文尝试剖析当前科学实践课堂评价所面临的问题与挑战，分析课堂评价难以有效促进学生科学实践能力发展的原因，并在此基础上，从理论角度阐明其改进方向，提出具体的改革路径建议，以期为优化初中科学实践课堂评价、提高学生科学素养提供参考。一、科学实践课堂评价的现实困境科学实践让学生通过具身参与主动进行知识建构，体验知识由何而来、去往何处，在学习和运用科学知识的过程中体悟科学的价值与实践的意义，形成科学观念、掌握思维方法、发展探究能力、树立责任态度。它强调学习不是根据预先设定按部就班进行，而是一种不断生成和修正的状态，是一个动态、弹性、可持续的过程[3]。然而，由于部分教师对科学实践的认知较为形式化和浅表化，重知识轻能力、重理论轻实践的知识教育观仍普遍存在。譬如，有研究发现，调查样本中90.9%的八年级物理教师认为知识的理解与应用在科学素养中至关重要；认为数据的收集与分析等实践要素应占据重要地位的教师仅占15％[4]。这种认知失衡导致课堂教学呈现出知识本位特征。在实际课堂教学中，科学基本事实和基础知识的教授依然占据主要地位，科学实践往往流于形式[5]，得不到充分展开，“教”而非“做”的现象较为普遍[6]。因此，针对科学实践的评价往往侧重于将对科学基本事实和基础知识的掌握程度作为衡量学生科学实践能力的标尺，忽略了对学生实践表现的综合性评价[7]。有研究指出，在科学实验类活动中，课堂评价多以一问一答、一问多答等形式进行，教师发起的师生对话占92.4%，大多数问题由教师主导提出，其中封闭性问题占92.8%[6]。这种评价导向不仅无法全面反映学生真实的科学素养水平，更可能抑制学生实践能力的发展，造成“重教轻学”现象。此外，目前大多数教师使用终结性测评工具对科学实践进行评价，存在对学生的学习结果做出对/错、优良等简单评价、忽视学生在过程中的表现、缺少形成性评价等问题[8]。教师往往依赖于通过纸笔测验进行评价，不仅评价方式单一，也背离了科学实践本质，难以评估学生的实际能力表现[9]。纸笔测验所遵循的标准化测量范式与科学实践所需的情境化评价要求存在根本性错位，无法全面评估学生的实验设计、数据解读等综合实践能力。对此，有学者尝试引介国外科学实践相关评价工具，如美国针对科学实践设计的课堂评估任务模板（Integrating Science Practice into Assessment Tasks）等[2]。但由于国情和教育理念差异、教学情境适配性等问题，这些工具并未能在我国实现本土化转化应用。评价方式和工具的缺乏，使得教师在对科学实践这一学习方式进行评价时无从下手，大多数教师依然沿用传统评价方式。即使一部分教师尝试针对科学实践进行评价设计，但由于缺乏高质量的评价案例参照，质量也往往良莠不齐。有研究者在实际调研中发现，科学实践评价量规形同虚设的现象较为普遍[10]。总之，当前科学实践课堂评价主要面临两大现实困境：一是教师对科学实践的认知存在偏差，导致评价无从下手；二是科学实践缺少与之相匹配的有效评价方法和工具，导致实践效果不明显。教师对科学实践的本质内涵认识不足，也导致其对科学实践的评价定位不准，不清楚科学实践课堂评价是什么、评什么、为什么评，成为制约课堂评价有效实施的首要难题。而教师对科学实践的评价缺乏有效的方法和工具，不清楚科学实践具体怎么评、用什么评，使得教师难以全面判断学生在科学实践中的表现与进步。这些困境不仅限制了科学实践的实施效果，也阻碍了学生科学素养的全面提升，因此亟须寻求行之有效的方案，推动科学实践课堂评价的改进与优化。二、科学实践课堂评价的改进方向为解决上述困境和问题，初中科学实践课堂评价亟须对标课程育人要求，充分发挥课堂评价促进科学素养落地的导向作用。新课标提出，利用具有探究性和操作性的任务或问题有效测评学生的能力，突出评价方式的实践性[1]。具体而言，可以从评价目标、评价内容、评价方式三个方面做出调整与改进。（一）评价目标：从知识掌握到真实问题解决传统科学课堂教学主要依赖于教师讲授和单向提问，将学生的学习任务简化为程序性的探究方案、观察和结果，其核心目的在于阐释并验证既定的科学知识。这种目标取向往往导致学生缺乏参与实践的机会，难以触及更高层次的思考与决策过程，甚至容易将科学实验视为一种决定科学见解的机械化过程[11]，如此，学生在学校所学的知识技能与社会实际需求之间的差距会越来越大[2]。为弥合这一差距，科学实践的评价目标需要实现从知识掌握到真实问题解决的根本转变，促使学生像科学家一样思考和实践。科学实践是一个依托真实情境、与现实生活和社会实践紧密关联的过程，强调技能迁移、融会贯通，致力于解决现实生活中的实际问题。科学实践将学生的角色从被动的知识接受者转变为主动的意义建构者，学生需要根据在实践中遇到的新现象、新问题，协商出新的实践方案[2]，培养面对不确定性、复杂性情境时解决真实问题的高阶思维能力[12]。因此，科学实践课堂评价的目标应指向学生在真实情境中的问题解决能力，强调学生在融合科学核心素养的实践活动中的真实表现。教师需要通过情境化的驱动性问题唤醒学生的实践兴趣，并借助科学论证、科学建模等多种实践方法，加强科学知识与学生个人经验、现实生活、社会实践之间的联系，架起科学学习与现实世界之间的桥梁，引发学生灵活运用所学解决真实问题的实践行动，并由此评估学生的科学理解与实践能力，而不是一味把学生封闭或局限在知识世界里进行“机械备考”和“虚假实践”。（二）评价内容：从低阶单一到高阶融合在传统科学实践课堂评价中，评价内容往往是低阶单一的，大多关注某一特定的科学要素，并且多集中在科学学科内部，鲜少关注学生的跨学科综合实践。然而，科学实践是一个多要素相互作用的整体过程，涉及科学概念、科学思想、科学探究、科学态度等多个方面。同时，许多科学问题不是单一学科知识所能解决的，而是需要综合运用多个学科技能交互协作[13]。为了促进学生科学素养的整体发展，帮助他们适应未来复杂多变的科学和社会环境，科学实践的评价内容亟须实现从低阶单一向高阶融合的转型升级。一方面，科学教育评价不应孤立地评估学生对核心概念或思想的理解，而脱离其在科学实践中的应用能力。相反，应当将这两者综合起来，考查学生是否在掌握科学概念的同时还能够将其灵活应用，通过科学实践活动来观察、调查自然世界，解决有意义的真实问题[14]。另一方面，当前的科学评价过分局限于单一学科领域，有必要引入跨学科内容和方法加以完善，以此激发学生的创造性和综合性思维[15]，使学生能够扎实掌握科学核心概念，并有能力通过跨学科方式综合运用这些概念，以应对新情况、新现象和新情境等。因此，科学实践课堂评价应更加关注科学观念、思维方式、探究方法以及科学态度等高阶要素的培养与评估，同时鼓励学生将不同学科的知识和方法整合起来，以解决复杂的科学问题。这意味着评价不应仅停留在学生对基础科学知识的记忆和理解层面，而应深入考查他们如何运用这些知识理解科学现象、解决科学问题。教师需要从整体出发，设计开放的综合性评价内容，将科学实践核心概念与其他学科进行整合，引导学生在多个学科的交互性实践中更好地理解科学知识如何获得、科学问题如何解决以及科学如何把具有跨学科普遍意义的概念联系起来。（三）评价方式：从纸笔测验到表现性评价在当前的科学教育中，纸笔测验仍是评价的主要手段，考查学生对实验步骤、操作流程和注意事项的记忆与理解。然而，纸笔测验主要反映学生的认知能力，并不能全面反映他们的科学实践能力和科学素养，无法有效检测其动手能力、创新思维以及科学态度等。相较于纸笔测验，表现性评价可以更全面地评估科学实践能力。它要求学生在现实的科学探究活动中实际运用这些技能，通过操作真实的设备和材料来解决问题[16]。在科学教育中，表现性评价通常指操作型表现性评价（hands-on performance assessment）[17]。学生通过观察、探索和推理，利用真实材料进行小型调查、实验等方法解决问题。这种评价方式能够充分收集有关学生表现的信息，从而对学生的科学学习过程及所掌握的技能进行有效评估，包括掌握科学方法、进行科学推理，以及为实现特定结果而采取某一程序或策略[18]。更重要的是，表现性评价为学生提供了实践机会，使他们通过拟定解决方案而不是回忆事实来展示和应用科学知识与技能，进而提升问题解决能力、推理能力，并对复杂科学现象建构起认知模型[16]。因此，科学实践课堂评价应超越传统的纸笔测验，积极探索并实施表现性评价这一更为生动有效的评价方式。教师需要设计具有挑战性的科学实践任务，提供真实的设备和材料资源，引导学生亲手操作，亲身体验科学探究的过程，让学生能够在实践中深化对科学原理的理解。同时，教师需要观察、记录和分析学生在完成任务过程中的表现，以全面、准确地评估学生的科学实践能力及素养水平，并提供有针对性的指导和反馈，促进学生的持续发展。三、科学实践课堂评价实施路径从评价目标的转变到评价内容的优化，再到评价方式的革新，旨在加强课堂评价的探究性和操作性。换言之，上述改进方向可以经由评价目标制订、评价任务设计以及评分规则开发三种举措得以落实。下面以义务教育科学课程核心概念“人类活动与环境”中的学习内容“自然灾害”为例，具体阐释如何以多类型评价目标指引科学实践方向，以表现性评价任务作为载体促进实践落地，同时以高质量评分规则来保障实践成效，从而实现高质量的初中科学实践课堂评价设计。（一）以多类型评价目标指引实践方向作为一个融合系列科学要素且广泛涉及多学科领域的综合性过程，科学实践课堂评价的目标必须体现全面性，涵盖知识性、推理性、技能性、成果性、情感性等多种类型，以确保从多方面、全方位地捕获学生在科学实践中的表现信息。同时，评价目标旨在引导学生在评价过程中从多方面投入努力，通过完成实践任务，不仅在知识、技能和思维能力上获得提升，也促进情感态度价值观的积极发展，实现综合素养的提升。因此，教师在制订评价目标时，需立足整体视角，兼顾各类目标，避免片面强调知识、技能或单一追求成果创造和情感体验，确保评价目标的多元化与综合性，以全面促进学生问题解决能力的提升。美国学者Chappuis在《促进学习的课堂评价：做得对用得好》一书中明确指出，优质课堂评价的关键要素之一便是清晰的目标[19]，具体包括五个方面内容。其一，教师应重视知识性目标，即学生对科学事实性信息、程序性知识以及相关概念的理解[19]。虽然教师不应只将注意力放在科学知识上，但也不可对之盲目忽视或舍弃。知识性目标构成了其他类型学习目标的基础，不存在无知识的推理、无知识的熟练表现和无知识的产品开发[19]。没有科学知识作为基础，科学实践不免陷入“巧妇难为无米之炊”的窘境。其二，教师应关注推理性目标，即学生在科学实践中有效运用所学知识进行思考的过程，包括推断、分析、比较、分类、评价以及综合[19]，帮助学生通过科学实践发展高阶思维、实现深度学习。其三，教师需要重视技能性目标，即学生在科学实践中的实时行为和表现[19]，培养学生的真本领、硬功夫，而不仅仅是掌握“知道如何做”的程序性知识。其四，教师要引导学生展现成果性目标，即形成成果，如用手工制品来呈现学习结果等，将自身对科学的理解和思考外显出来，使科学核心素养“可视化”[19]。成果性目标不仅是衡量知识和推理能力的参照，同时形成成果本身就是一种学习形式。其五，教师不应忽视情感性目标，即影响学生学习方法的态度、动机和兴趣等教育体验的“副产品”，包括积极和消极情感两个方面，以及其中多种情感强度水平[19]。本研究参考了斯坦福大学表现性评价任务库中的极端天气规划应对（Planning for Extreme Weather）评价任务设计[20]，依据新课标中的课程内容要求对其进行适应性改编，以契合我国科学实践的内涵特征与情境需求。以“自然灾害”的学习为例，课堂评价可以设计为要求学生结合信息技术调查特定地区的自然灾害，分析和解读相关数据，并预测未来的灾难性事件，以减轻其影响。具体评价目标如下：1）分析并解释自然灾害的概念和分类（知识性目标）；2）计划并开展一项关于特定地区自然灾害的调查，建构有关自然灾害的数据模型（图形/图表/地图等），制作探究海报（技能性目标、成果性目标）；3）分析并阐释自然灾害数据及其模型，感受自然灾害如何影响人们的生产生活（推理性目标、情感性目标）；4）基于对自然灾害数据模型的分析，预测未来的灾害趋势（推理性目标）。以上评价目标不仅包含基本的科学知识（如自然灾害的概念和分类），还涉及科学思维的培养（如分析并阐释自然灾害数据及其模型），能够锻炼学生的科学探究技能（如开展调查、数据收集、处理和分析），同时鼓励学生进行成果创造（如制作海报）。在这一过程中，学生需要综合运用科学、地理、数学、信息技术等学科领域的知识和技能，体现出评价目标的跨学科性和综合性。同时，评价目标中的情感性目标（如感受自然灾害如何影响人们的生产生活）不仅可以培养学生的同理心和责任感，还有助于促进其科学态度的形成。这种对自然灾害影响的深刻理解和情感体验，有助于学生更加积极地参与到问题解决的过程中。此外，对自然灾害数据模型进行分析并预测未来的灾害趋势，不仅可以考查学生的推理思维，评价任务还直接指向其真实问题解决能力的发展。（二）以表现性评价任务推动实践落地科学实践课堂评价强调学生在真实性情境中，通过融合多方面科学要素以及进行跨学科实践解决现实问题的能力，其根本目的在于对学生在真实情境中完成复杂任务或解决复杂问题的过程表现及结果做出判断，并促进学生的深度学习以及高阶思维发展，最终实现科学素养的提升。科学实践课堂评价应将表现性评价作为主要路径，让学生在真实问题情境中，展示运用所学知识和技能的水平，旨在引发核心素养的相关表现[21]。表现性评价是促进科学实践在课堂中落地的重要抓手和关键推动力，学生完成表现性评价任务的过程即解决真实问题的实践过程。在设计与表现期望相关的评价任务时，教师需要考虑四个方面的问题：1）期望学生运用的概念模型及证据；2）适合学生认知水平的评价情境；3）任务特征选项（如基于计算机的模拟或动画、纸笔书写和绘画等）以及这些选项中的哪些对于激发学生的期望表现至关重要；4）揭示学生理解和技能水平的证据类型[22]。具体而言，科学实践表现性评价任务的设计首先需要提供真实或模拟真实的科学实践情境，指定学生在任务中需要完成的实践目的或挑战（如调查、实验等），同时需要明确学生在任务中的角色（如科学家、工程师等），以及学生用以展示其对素养目标掌握程度的作品或表现形式（如调查报告、海报等），以作为评估学生素养水平的证据。此外，还需要确定任务结果的受众，即学生的作品或表现给谁看、为谁完成[21]。基于前文所设定的评价目标，表现性评价任务可设计如下：想象你是一位科学家，请以小组为单位，计划并开展一项调查，探究我国某个地区的自然灾害发生情况及规律，以海报的形式呈现探究过程及结果，并预测该地区未来的自然灾害发生趋势，为科学家、工程师、救援队等群体的防灾减灾、应急救灾工作提供参考，以尽可能减轻自然灾害的影响。教师可以创设“我国是自然灾害频发的国家，如山区的泥石流、东南沿海地区的台风、北方地区的干旱、南方地区的洪涝等，都给人们的生产生活造成了严重危害。作为小科学家，我们如何探究不同地区自然灾害的发生规律，为防灾减灾、应急救灾等提供解决方案，以尽可能减轻自然灾害的影响呢?”这一真实情境，引导学生以“小科学家”的角色，计划并开展一项关于我国某地区自然灾害发生情况的探究活动，并制作一张海报，内容包括调查地点、研究问题、待收集的数据、数据收集表、数据结果显示（图形/图表/地图等）、对研究问题的回答等信息。具体而言，学生需要完成如下任务：1）明确自然灾害的概念和分类，选择一种自然灾害进行解释和分析；2）提出一个关于某地区自然灾害的可调查的研究问题，计划并开展数据收集；3）根据收集结果构建数据模型，以图形/图表/地图等形式进行呈现；4）分组对数据进行分析和解释，并征求另一个小组的反馈，以改进本组的数据呈现和解读；5）以小组为单位，使用自己的数据来概述自然灾害问题，预测未来十年该地的灾害趋势，以指导科学家和工程师等考虑自然灾害的未来影响和解决方案。（三）以高质量评分规则保障实践成效不同于传统评价只以结论的获取作为终点的做法[23]，科学实践课堂评价强调对学生的科学实践表现进行多维度、全方位的动态评价，关注学科以及跨学科素养的发展。评分规则作为教师课堂教学评价的指导，可以在多方面促进学生的学习。高质量的评分规则是确保科学实践评价有效实施的重要因素，它不仅可以明确教师的评价标准和评分细则，而且可以让学生清楚地了解到在科学实践任务中高水平的表现具体是什么样、如何可以达成[24]。科学实践的评分规则应当具备完整、清晰和一致的评价维度、等级水平、描述语设置和表现样例，重视学生在科学实践中的形成性表现，不仅需要评估各方面科学要素，也要关注跨学科层面的发展。科学实践课堂评价覆盖学生科学学习的不同方面，因此完整的评分规则应同时指向科学实践、核心概念以及跨学科概念，囊括与评价任务相关的重要方面。以前文表现性任务为例，首先，要基于课程标准明确三个评价维度，包括科学实践、核心概念和跨学科概念。以科学实践为首要层面，结合核心概念和跨学科概念，综合考量后可提炼出一个涵盖评价目标的高质量表现[25]，见表1。其次，要关注学生在实践中的外在表现，应当对每个评价维度下的具体行为进行清晰界定，以确保这些表现是可直接观察到的，而非依赖于评分者的主观推论[26]。评价维度还应当与课程标准和评价任务保持内在一致性，并在评价任务的提示中明确告知学生具体的评价要求，为学生理解评价维度提供支持。再次，等级水平和描述语也是评分规则的关键要素。理想状态下，评分规则若包含多个等级水平便能够更充分地覆盖学生的表现并提供详尽信息。然而，过多的等级划分也可能制约学生在科学实践中的形成性表现和创造性发挥。因此，在设置等级水平数量时，需要在清晰传达目标期望的同时，确保其处于可管理的限度内，以实现评价维度与等级水平之间的平衡[27]。各等级水平的描述语应当足够清晰而简练，准确界定在科学实践中所期望的学生表现，以便师生双方能够依据评分规则，有针对性地改进教与学的过程[28]。最后，高质量的评分规则还应包括表现样例，即符合评分规则中某一等级描述的实例，在等级描述下给出相应的学生表现案例，为教师和学生理解和运用评分规则提供支持，见表2。四、结束语科学实践作为新课程背景下育人方式的重要变革，担负着为国家培养具有科学素养和创新能力的高质量人才的重要使命，急需与之相匹配的课堂评价，以捕捉学生在实践过程中的行动表现，着力促进学生科学素养的提升。本文在深入剖析当前科学实践课堂评价所面临困境的基础上，针对评价目标、评价内容以及评价方式三个方面，提出了明确的改进方向，并结合案例提供了初中科学实践课堂评价设计策略。未来研究还需更多关注如何构建和应用科学实践的多层次、多角度素养评价体系，以更好地推进与深化素养导向的教育评价改革。参考文献略

刘清华：我国高校拔尖创新人才选拔探索的基本经验、理论逻辑与政策建议

专家笔谈之一 ∣ 杨卫：教育评价的三重境界： 从竞争力到领导力的进阶之路

专家笔谈之二 ∣ 郑泉水：破界创生：数智时代 创新人才培养与评价的新范式

专家笔谈之三 ∣ 侯杰泰：数据驱动下的教育变革：PISA测评的启示

黄锡汝 等：初中科学实践课堂评价的困境、方向与路径

专家笔谈之一 ∣ 杨卫：教育评价的三重境界：从竞争力到领导力的进阶之路

专家笔谈之二 ∣ 郑泉水：破界创生：数智时代创新人才培养与评价的新范式

黄锡汝等：初中科学实践课堂评价的困境、方向与路径