摘 要:阅卷工作是高考过程中极为重要的一环,是国家考试能否体现公平公正的晴雨表,更是保证高考成绩准确无误的调节器。本文就高考语文阅卷工作中有关评分参考的拟定、试评双评的流程、网上评阅的方式,以及作文评阅所引发的外界猜疑与争议等几个问题,结合多年阅卷经验进行讨论,并给出慎重使用网上评卷技术、加强阅卷期间各省之间的交流沟通等建议。通过讨论与反思语文学科阅卷工作,希望引起相关方面对于高考各学科及其他考试项目阅卷工作的高度重视与深入研究。
关键词:高考语文阅卷;评分参考;评阅机制与流程;考试公平
高考作为我国考试招生制度的重要组成部分,具有重要和特殊的政治功能、教育功能、社会功能和文化功能[1]。在每年与高考相关的工作中,阅卷是极其重要的一环,事关广大考生切身利益,受到考生、家长、社会和媒体的高度关注。除了教育领域的高考、中考、研考、教师资格考试外,还有公务员考试、司法考试,以及各行各业的多项考试,一年之中,几乎无时不在考试。有鉴于此,对于各类考试中的阅卷环节,应该进行细致而深入的研究,因为能否正确理解与把握命题者的意图,赋予考生准确而公正的分数,都体现在阅卷者的工作中。反过来说,如果试题本身与评分参考出现了微瑕,也可以通过阅卷环节的及时调整,达到科学合理的赋分。因此,阅卷者尤其是作文阅卷人员,必须要做到“词无繁简,范之以法;文无奇正,约之以理。不敢以小疵而弃大醇,不敢以细失而訾全美”[2]。唯有兢兢业业,如履薄冰,才能做好阅卷工作。总之,阅卷工作是考试组织的落实点,也是考试信效度的晴雨表与调节器,是某项考试从命题到组考成功圆满与否最重要的标志之一。 笔者从20世纪80年代中期起,即经常参加高考与其他各类考试的阅卷工作,已有三十余年。现就参加高考语文阅卷工作中长期思考的几个根本性问题展开讨论。同时,对一些围绕高考语文试卷常见的不实说法,也予以澄清和说明,以还原真相,以正视听,减少对阅卷工作的场外干扰,使阅卷过程中真正应该高度重视的问题得以凸显,对道听途说而毫无根据的臆说也予以辩驳。
一、关于阅读题作者思路与设问思路的关联问题 多年来,高考语文科目中有个问题一直引起关注,甚至是过度关注与解读,即中、高考所选的现当代作家作品,往往会出现两种让作家和大众都不满的情形:一方面一些解读者认为命题者对作家作品进行删剪与改编,是对原作品的“再度创作”,使作品偏离原意甚至失去了原意;另一方面认为命题者所提供的答案超出作品原旨原意,甚至作家本人也答不出来。那么,这些说法有没有道理呢? 如果读者对中、高考现当代文阅读理解题型比较熟悉,就会发现长期以来有这样两种待遇不同的情形:如果是现代名家名作,如鲁迅、巴金等人的作品,则试题在进行语篇选取时基本不做改编;而如果是当代作家(一般指新中国成立以后的作家)的文章,则剪裁与改编的情况时有发生。那么,这又是为什么呢? 因为就鲁迅、巴金等名家而言,他们的作品尤其是高考命题所选用的作品,已经具备了权威性、经典性或者准经典性,不便轻易更改;同时,他们的作品发表时间大多在20世纪上半叶,正处于文言文与白话文的交接过渡阶段,因此作品中往往呈现出文白相杂与词语不定的特征,如“的”“地”“得”的混用,以及“绍介”“打谅”“遭塌”“捉摸”等现在看来不规范的词语出现,也无法一一修改。因此,在用到这些名家作品时,便一般不做更改。但当代作家尤其是20世纪90年代以后作家的作品,大多不具备权威性与经典性,而且有些存在少量语法错误、语意复沓甚至有错别字等现象,如果不加以剪裁或修改,不仅会对考生阅读造成障碍与误导,而且也容易在考后产生舆情,被认为是命题错误,所以对他们的文章做部分修改,就显得十分必要。但就其文章整体理解而言,仍然需要不失原意,不是改写与改编,更不是误解与曲解。 至于对这些文章的阅读理解,命题者给出的答案,作家本人认为超出其创作意图之外,也并不值得大惊小怪,正所谓“有一千个读者,就有一千个哈姆雷特”。例如,2020年河南中考语文试题中,现当代文阅读所用语篇选自笔者的散文《无言丰碑的孔夫子——我的太爷老师》[3],命题者给出的答案也有个别超出作者本人意料,但笔者认为也是合理合情的。有些问题是作者在创作时并没有想到的,因为创作过程很多时候是一种情绪的宣泄与流淌,也是一种语言的自然生成,并不会去想文章被试题选用后会怎么设计问题;如果这些试题是根据语言与逻辑的固有规律来命制,那么尽管作者没想到,但也必须认同,这就是“命题者比写作者还明白”的现象,正所谓当局者迷,旁观者清,出现这种情况是很正常的。参考答案的客观合理,是考试公平公正的保证,而不依赖于选文作者是否认同。如果命题者遵循语言、情感与思维的固有规律,合理地给出答案,作者本人不认同,则意味着作者心中所想的和最终呈现的文章并不完全一致,读者无法由其言而揣测其意。在这种情况下,作者也必须认同,因为考生在考场上只能通过作品的语言与逻辑来推理思考得出答案,而不可能去求证于作者。 换言之,自古以来对文学作品尤其是诗歌的解读,原本就无定说,作者的文章一旦公之于众,如何理解就不由得作者了。否则,如果每首诗、每篇文章都有定论,那么诸如李商隐的《锦瑟》、曹雪芹的《红楼梦》这样的经典作品,就不会至今仍然有各种不同的解读。因为越是经典的作品,往往越具有更多的争议性与不确定性,这恰恰也是经典的魅力之所在。当然,无论怎么理解,也仍然是“哈姆雷特”,如果理解成“罗密欧”,那就是真正的曲解。但这种答案的非唯一性与多样性,非高中生知识与能力所能达到,属于大学生与研究者所要面对的问题了。
二、关于“标准答案”与“评分参考” 每年参与高考命题的专家都会为每道试题给出一个适度准确的答案,供阅卷者在具体评阅过程中参考执行,俗称为“标准答案”。但实际上,无论命题者还是阅卷者,从来都不认同“标准答案”的说法,一般都会称为“评分参考”。因为就命题者所拟答案而言,语文学科不像数理化科目有相对确定的唯一答案,很少有考生能够完全答出所谓的“标准答案”。这个答案是否准确适度,还要通过大量的试评工作进行验证,因为考生的作答往往意思接近答案但表述方式五花八门,因此评分参考就不宜过细过苛,应当给阅卷者适度的校验与调整空间,认真梳理出考生能够得分的主要作答类型,只有这样才能真正保证考生权益,并体现出准确性与公平性。 如果命题组拟定的答案偶尔有些微的误差,或对题意的照顾并不周全,往往从考生、家长、一线教师到媒体都会认为罪不可恕,其实这种情况也可以说是不正常中的正常。何以言之?中、高考试题的答案尤其是文科类主观性较强的试题答案由命题组制定与解释,但命题组人数有限,试卷和评分参考又是在短时间内命制完成,可以说要做到尽善尽美、滴水不漏是一种苛求;而答题者是数百万至上千万考生,往往会有超出意外的作答出现。有大量考生会答出一些与评分参考不符合的内容,基本上都是错误的;但偶尔也有考生所答的内容溢出评分参考,有一定的合理性与正确性。这种情况如果再加细分,一般又包括三种情形:第一种是评分参考过于抽象与严苛,考生不能完全答出要点;第二种是评分参考所分配的分值与大部分考生的作答表现不匹配,分值偏高或偏低;第三种是个别考生作答内容超出评分参考之外,而且是合情合理的,这种情形尤其需要关注。 那么,这些情况出现后,又该如何解决评分参考的疏漏与误差呢?窃以为不能再严格地按评分参考生搬硬套,而是应该坚定地向有利于考生的方向倾斜,对答案做出微调。针对第一种情形,应降低难度,梳理出考生的答案类型,拟定适宜的答案和评分细则,使大多数考生能够得分;第二种情况,应调整得分点的步骤分或进一步细化与调整得分点分值,以利于考生得分;第三种情况,就需要给少数考生的特殊答案酌情赋分,以显示真正的公平。 总之,高考阅卷要以绝大多数考生的利益为重,因为当一道试题的答案绝大部分考生答不出时,如果仍按原答案赋分,实际上反映出试题的效度欠佳。而如果能够答出所给答案以外的合理见解,充分说明考生对试题读得深、看得远,思考更为缜密,见识超出平凡,这样的考生很可能就是未来的发明家与创新人才。因此,当评分参考疏漏甚至有误时,应有及时纠正的勇气与胆魄,这才是对考生负责的态度,也才是为国选才的态度与担当,否则吃亏的往往是那些读书多、爱思考、有见识的高水平考生。
三、关于试评的必要性与示范作用 在中、高考阅卷工作中,试评环节是必需的,也是必要的。手工阅卷时代很难做到正式阅卷之前的试评,但在网上阅卷普及的今天则是轻而易举的事情。就笔者个人的阅卷经历而言,北京市语文高考阅卷中高度重视试评工作,一般要试评三天才开始正式阅卷,这对于保证阅卷工作的准确、公正与公平起到了非常重要的作用。 所谓试评,就是在全体阅卷员正式开评之前,负责不同题型阅卷工作的题组长提前进入阅卷点,对考生的真实答卷进行实验性评估与评卷。当评阅的试卷量达到一定数量后,再针对考生的具体作答与命题组提供的评分参考进行认真细致的对比与分析,随后就考生五花八门的答案进行反复讨论商榷。比如,文言文默写题的作答中会不会出现与评分参考不同的异文异字,考生所答错别字有无规律可循,哪些字容易写错等;又比如问答题中,有哪些作答是超出评分参考之外,但考生所答内容有部分的合理性等。这些问题经过数次讨论之后,各组形成相对定型的答案集。然后,所有已试评过的试卷成绩全部归零,回归至无评阅的原始状态。当全体阅卷员进组以后,才进入正式评卷阶段。试评组所制订的答案(一般仍依据命题组提供的评分参考,极个别有微调),即为该题所依据的标准答案,绝不允许再有更改。这样既保证了答案的科学性与阅卷的可行性,也保证了阅卷能够自始至终依据同一标准和保持稳定性。 多年的阅卷经验表明,有无试评工作以及试评是否扎实、准确与有效,对阅卷的整体质量影响极大。试评工作做得好,既可以保证阅卷质量,还可以节省阅卷时间,使阅卷在有序而稳定的环境下取得最佳效果。
四、关于双评制度 为了保证高考阅卷的准确、公正与公平,20世纪90年代引入了双评制度。所谓“双评”,就是同一道试题同一份试卷,由两位阅卷员各自进行独立评分,然后取两人赋分的平均分,作为此题/此卷的最终得分。在手工阅卷时代很难做到双评,因为在每道试题的打分处阅卷员必须明确写出相应的得分,第二位阅卷员如果在已经打分的试卷上再做评判,显然会受到第一位阅卷员评分的影响,很难做到客观与准确。网上阅卷的应用,使双评制的实行成为可能,并最终落实在具体阅卷工作中。 就高考语文试卷的评阅而言,最初的双评试行只在作文阅卷中,后来逐渐应用到机评的选择题之外,几乎所有主观性试题都需要双评。从表面看,这样做可以最大程度上做到准确与公平,但在实际阅卷中却是利弊共存。双评中的两位阅卷员并不知道对方为这道题打了多少分,如果两位所打分数相同或相近时,则取其平均分为最终得分;但当两位所赋分值相差较大的时候,就出现了矛盾。为解决此矛盾,在阅卷中为该题设计了相对合理的阈值,即两位阅卷员的打分在规定的阈值内时,则取平均分作为最终得分;如果超出阈值,则需要三评、四评甚至该题组组长打分,为本题给出最终的分数。这样慎重地设计阈值,就是为了防范和抑制同一道题打分过高或过低的弊端。 然而,双评与阈值的设计也有一定的负面影响:如果阈值设计的分差太大,则等于没有阈值,起不到克服打分过高或过低的弊端;如果阈值太小,则超出阈值外的无效打分数量大增,三评率、四评率会直线上升,给阅卷工作带来压力,直接影响阅卷质量与工作进度。同时,阈值的设定也给阅卷员造成了极大的心理压力,阅卷员一旦意识到自己所阅试卷的三评率过高,往往会在此后的阅卷中趋于打中间分,造成成绩失准。 因此,就高考语文阅卷中的双评制度而言,建议除作文题以外,其他主观题的阅卷不一定非要通过双评保证阅卷质量。做好试评工作,并有针对性地选好适合评阅某道试题的阅卷员,培训到位,及时复核,严把质量,始终如一,就可以出色地完成阅卷工作。
五、关于作文阅卷的误解与谣传 高考语文试卷中,作文题分值最大(60分)。因此,阅卷中作文评阅是重头戏,也是考生、家长、社会与媒体最为关注的题型。因为这道60分(北京卷大作文50分,微写作10分;全国卷及其他卷种作文60分)的试题,得分高低甚至重要到足以影响考生的命运。因此,民间有所谓“得作文者得语文”“得语文者得高考”的说法。究其实,这些说法既没有事实依据,更无科学性可言。 关于高考作文的阅卷,现实中存在诸多传说与误解。例如,在每年高考阅卷期间,社会和媒体最关注的就是本年度有没有满分作文,或者有几篇满分作文,并以此制造新闻热点和作为评价作文试题以及阅卷工作优劣的标志。如果没有出现满分作文,似乎就是试题本身存在问题、阅卷工作做得不好,亏待了考生[4]。又如,社会上传说在作文阅卷中记叙文得分偏低,议论文得分偏高,阅卷老师更喜欢与看重议论文,所以在考场上写议论文的考生更多[5]。实际上,很多考生从高二年级开始就已经放弃了记叙文的写作练习,单练议论文,相较于记叙文,他们更习惯于写议论文。还有人认为考场作文一定要引用名人名言、古代诗文等,以显示其“亮点”所在,以致无论线上还是线下,专门针对高考作文训练的所谓“名人名言素材库”比比皆是。更多的观点是,无论文章开篇写什么内容,在结尾一定要“高大上”,与国家命运与前途挂起钩来,否则就不能得高分等等。这些做法与说法都偏离了写作的初心,误导了大众,并给阅卷工作带来干扰和不该有的压力。 2024年全国报名参加高考的考生达到1342万人,创历史新高[6]。笔者认为,在来自全国各地上千万人参考的大规模考试中,东北考生的作文应该有黑土地的肥沃气息,江南考生的作文应该有水乡儿女的明丽与温婉,西北考生应该写出黄土高原的旷远厚重,西南考生应该能写出十万大山的崚嶒雄奇。但实际情况是全国雷同,千篇一律,僵硬死板,男女莫辨。这种“套作”严重的现象,也在很大程度上导致作文题分数过于集中,作文作为大分值题型区分度不高,影响了高考试题以评促教功能的发挥。 还有人说,作文阅卷速度极快,阅卷老师根本不仔细看考生的作答,随便打个照面就打分,导致所赋分数有误差,敷衍了事,草菅人命,这是更大的误解与谣传。笔者在全国各地调研时,常跟中学语文教师和考生举例说明:那些平素作文写得好的考生,高考作文的得分也是比较高的;而平时作文写得差的考生,高考作文的得分也不会高。有个别作文高手平时考试得分总在50分以上,但在高考时由于压力过大或者跑题等原因,结果发挥失常,得分较低,甚至在40分以下,这种现象偶尔会有;但平时写作就不好,得分在30分以下的考生,从来没有一人在高考中作文得分达到50分以上。这就充分说明高考作文阅卷员们确实在认真细致地评判考生作文,并打出准确而公正的分数,评卷质量经得起检验。 因此,对于考生来说,应该有充分的自信,做好自己的复习,发挥出正常写作水平,甚至超水平发挥,答出满意的分数;对家长、教师和媒体等而言,不能被网络间流传的各种错误信息误导;对阅卷员来说,尽最大可能做到阅卷的公正与公平,才是消除误解与谣传的正确路径。
六、关于阅卷工作的沟通与交流 目前的中、高考阅卷工作是各省组织人员,各自为阵,各定标准。高校在各省有明确的招生数量,考生总成绩的高低,并不影响他们在各自省份的招生录取。这种招生模式下阅卷的好处是:无论从阅卷质量还是录取人数方面,各省之间互不干涉,互不牵制,也互不影响。但多年来造成的弊端是:各省的评阅标准不一、宽严尺度不一、赋分高低不一、阈值大小不一,导致各省间各科成绩尤其是语文、历史、政治、地理等学科考生分数相差较大。就高考总成绩而言,文、理分科时期总分皆为750分,有些省份的理科最高分往往在720~730分之间,而偏低的省份在690~720分之间,高分省与低分省相差在30分左右,导致很多人误认为分数高的省份教育水平高、教学质量好、学生能力强;反之,分数较低的省份则相对教育水平低、教学质量差、学生能力弱。其实,这种说法是没有道理的,比如单就原始总分而言,北京卷的总分就曾经在全国处于中间甚至偏低的位置,这能说是北京教育水平低吗? 阅卷工作是一件非常严肃谨慎而极费心力的工作,应该做充分的调研与长期研究。比如阅卷员的挑选与培训,就有许多工作可做。阅卷员的语文水平与能力固然对阅卷工作有影响,而他们的脾气秉性、生活习惯与喜乐好恶,有时对阅卷的影响甚至超过了语文能力。长期阅卷也反映出,有的阅卷员阅得又快又好,有的却又慢又差;有的打分可能偏高,有的则总是偏低;有的上午阅卷效率高误差小,有的则反之;有的古诗文水平高,有的现当代文鉴赏能力强。针对这些具体情况,就必须做出合理的分配与协调,比如总是拿捏不好宽严尺度的阅卷员,就让他评阅默写题,只要做到认真细致即可;古诗文水平高的阅卷员阅古诗文题,现当代文鉴赏能力强的人阅现当代文阅读题,各自发挥其特长。要了解阅卷员的语文能力与性情爱好,然后根据个性特点分配最适合评阅的题目,才能扬长避短,把阅卷工作做得更好。 高考应建立起全国统一的阅卷标准,在评卷正式开始前加强对相关人员的培训,以解决各省对评分参考执行的宽严不一问题。此外,全国各省之间的阅卷工作也应该加强沟通与交流,通过学术会议,异地考察等方式,相互取经,汲长补短,交流合作。唯其如此,才能在不断改进工作方式的基础上,提高阅卷工作质量与效率,把这项举国关注的重要工作做得更好,圆满完成为国选才的重大任务。
参考文献略。