教育考试研究详情 - 天津市教育考试研究所

王希常：智能时代的教育测量新视野

图片1.png

原文刊载于《中国考试》2023年第11期第1—8页。

作者

王希常，山东省教育招生考试院研究员。

摘　要：针对生成式大语言模型ChatGPT引发的新一轮人工智能技术发展，阐述智能及智能评测的有关概念及挑战，分析人工智能技术对人类学习和教育系统的影响，提出教育在智能时代可能发生的变革，以及在教育智能化过程中教育测量承载的历史使命。展望教育测量未来发展，教育测量应与智能认知研究相融合，广大研究者应致力于智能模型测评、心理测量与教育测量的融合研究，促进智能技术在教育和学习中的合理应用，使教育测量在教育变革及社会发展中发挥更加重要的作用。

关键词：智能；人工智能；教育测量；智能测评

　　生成式大语言模型ChatGPT出现后，因其所提供的高度智能性对话体验，引发人工智能技术创新发展的空前热潮，也引发人们对人工智能技术诸多问题的关注和思考。ChatGPT实现了流畅的人机对话，可以使用多模态方式根据提示内容生成多种形式的信息，如图表、图画、PPT文档等，还可以根据指令写报告、论文及文章，距离强人工智能更近了一步^[1]。学术领域和工业界对这次人工智能的突破给予很高的评价和关注，有研究者认为ChatGPT是向通用人工智能技术发展的一次突破，在实现智能化方面迈出了重要一步^[2-3]。
　　人工智能技术的突破性发展给各个领域和行业带来深刻变革。从人工智能新技术的影响来看，其直接作用主要是推动工业生产智能化，在较大范围内替代人类劳动职位，这在很大程度上改变了目前的生产方式和社会形态。同时，人工智能的替代作用还将直接影响人类的学习方式和教育系统。人工智能系统挑战人类的学习能力和职业岗位，因此，人类的思想状态和劳动方式都将被重新定位。根据Gartner最新发布报告，预计到2026年我国将有超过30%的白领工作被重新定义，使用生成式人工智能将成为一项广受欢迎的技能^[4]。
　　在人类心智的研究方面，认知科学最核心的目标是建立一个可以类比人类思维过程的模型^[5]。一些前沿科学家宣称，现在的技术已经可以构建具有意识的人工智能系统，甚至可能很快实现类似人类形体的自主智能体，这对人类社会将产生比ChatGPT更大的冲击^[6]。实际上，目前比较合理的是信息标准计算模型，从深度神经网络的成功案例来看，使用这种模型的可能性还在不断增加。在一些应用领域，已经产生了大量基于ChatGPT技术的网络虚拟人和企业虚拟职工，甚至出现了企业机器人CEO，这对人类传统的信息交流、社区活动和工作方式都产生了深刻的影响。未来，如果高级自主智能体出现，其将争取与人类同等行为要求的社会存在位置，并形成全社会的形态变革。
　　智能工具是人类不断追求的强大生产力，制造高级智能系统和工具是人类一直以来追求的目标，也是对人类创造力的最高挑战。然而，由于人们尚不清楚人工智能对人类社会将产生何种程度的深远影响，因此对人工智能的突破性发展也普遍存在一种担忧。深度学习的奠基人Hinton曾指出，人工智能的继续发展将对人类产生很多威胁，人工智能终究会具有意识和自主能力，人类社会如何与机器群体共存将是一个危险的挑战^[6]。很多科学家倡议暂缓人工智能研发，允许人类充分思考人工智能存在的各种问题，做好进入智能时代的准备。实际上，人工智能技术对人类社会存在形态的挑战已经出现，如近期出现的好莱坞编剧大罢工、知识产权侵犯争端、就业危机、伦理道德考验等问题。
　　面对人工智能发展的历史机遇和挑战，联合国及各个国家都在积极启动各种发展计划和应对策略。2021年11月，联合国教科文组织（UNESCO）发布《人工智能伦理问题建议书》，提出以符合伦理要求的方式运用人工智能的全球框架^[7]，以用于指导各国最大限度地发挥人工智能优势，降低风险。2023年2月，一些科学家和AI专家签署《暂停大型人工智能研究》的公开信，倡议应暂缓人工智能研发，允许人类充分思考人工智能存在可能带来的各种问题，为进入智能时代做好准备^[8]；同年7月，UNESCO发布的《全球教育质量监测报告》重点指出科技在教育中的应用问题，呼吁在教育领域要合理使用科技技术^[9]，并号召各国立即执行《人工智能伦理问题建议书》。2023年7月，我国国家网信办、国家发展改革委、教育部等多部门针对人工智能技术应用联合颁布《生成式人工智能服务管理暂行办法》，力图规范人工智能技术的使用，促进生成式人工智能健康发展和规范应用，保证公众和生产过程中的智能技术应用安全^[10]。总之，研究、评估智能技术应用及高级智能系统的心理特性，对社会发展尤其是教育领域具有重要意义。鉴于此，本文探讨智能及智能评测的有关概念及面临挑战，分析人工智能技术对人类学习和教育系统的影响，并指出教育在智能时代发生的变革，以及在教育智能化过程中教育测量要承载的历史重任。

1　智能与智能评测

　　如何定义智能，是一个比较困难的问题。计算科学之父阿兰·图灵将对“智能”的认定归结为一种实验方法，建议通过测试方式检测一个机器系统是否具有智能，并反对给出一个描述性定义^[11]。换言之，图灵认为在人类没有确切认识“智能”之前，可以将人类群体作为样例，并通过测试方式检测一个系统是否具有智能行为。因此，在早期的人类心智研究中，人工智能的智能性以人类的智能行为作为目标，但由于缺乏实验条件和理论支撑，长期处于试验观察水准。进入21世纪以来，脑科学已经成为一门正式且独立的学科，人类对人脑和心智的研究取得诸多进展，这些都推动了人工智能技术的快速发展。

　　1949年，加拿大心理学家Hebb提出人脑神经元激活方式假设^[12-13]，开启了模拟人类神经元网络构建智能系统的探索。此后很长一段时期，人工神经网络技术经历多次起伏波折，甚至因模型缺陷和理解偏颇几近停滞。进入21世纪，特别近20多年来，深度神经网络模型不断得到实践证实，也由此催生了大语言对话模型ChatGPT。就ChatGPT的对话表现而言，其在很多方面已经满足了图灵测试的基本要求。就技术而言，大语言模型的持续发展对高级自主智能体的研究，具有支撑和促进作用。目前，人们对人工智能的未来发展充满信心，学术研究达到空前热度，一些大型科技公司、研发应用等机构也在全力追逐，具有模拟人类行为能力的自主智能体将很快出现。未来10年，将是人工智能大发展的新工业革命阶段，也是人类社会产生剧变的重要阶段。
　　人工智能系统的发展，激发了对智能本质和智能系统功能评测的需要。由于智能来自于人类智能性的行为表现，因此，对智能的评测主要涉及两类智能系统：一是具有高级智能的人类自身，二是模拟人类智能性的机器系统。人具有先天的智能本质，但基于其智能本质发展的更高级能力则是通过教育的不断培育实现的。机器智能系统是人类设计和制造的，目前大多使用学习模型，并基于人类已有的知识进行训练学习，最终达到一定的智能水平。目前，针对机器智能的测评更多是从模型表现出发，即针对设计目标进行的工业指标基准测试。同时，一些教育、心理研究人员注意到智能系统对人类的影响，并开始开展机器心理特性的测试，这可谓新的开端^[14]。然而，针对机器系统是否可以建立类似人类的教育系统并使用教育测量手段进行测试，目前还存在很多未知领域。
　　评测智能之所以重要，主要有两方面原因。其一，对智能与智能系统的评测，可以指导人类学习和教育系统如何与先进的智能工具相融合，以阻止盲目使用智能技术造成的人类自身发展生态的破坏。其二，目前的智能技术实现机制还存在诸多原理和功能上的缺陷，广泛地开展智能测评和研究分析可以促进智能模型具备人类需要的思维和行为能力。此外，还需要更为深入地研究智能系统潜在的心理活动，包括伦理道德、情绪思想、自我意识等。未来，机器系统将更为广泛地参与人类社会活动，因此还需要防止人工智能系统和智能体可能造成的负面影响、虚幻内容或伤害破坏行为。对机器系统的智能性评测，既是保护人类社会生态的一道重要屏障，也是智能系统研究开发的指导和监督。基于心理与教育测量理论建立的考试系统，是针对人的知识记忆和运用能力而设计的，机器系统有很多不同的特性，显然不能完全照搬测试人类的方式，因此，如何评测机器智能是一个极具挑战性的问题。开展智能系统评测，需要紧密结合智能技术、认知科学及人文社会学等领域。一些学者认为，研究人员不应仅仅依赖现有的基于表现的基准，而应基于认知心理学的方法深入了解人工智能模型，将智能模型视为心理学实验的参与者，以便研究这些系统的决策、推理、认知偏差及其他重要心理特征的机制^[13-15]。

2　教育智能化面临的挑战

　　教育是人类社会中最重要的文化培育和心理发展过程，是人类成长和发展的大环境。人工智能是模仿和发展人类智能行为的技术，其目的在于创建与人类心智和行为能力相当的自主智能体，以代替部分人类劳动职能。作为高级技术工具，人工智能不断推动教与学的创新发展。在人类文化传承和社会发展历程中形成的教育系统，不仅是一般学科知识掌握和职业能力培养的过程，也存在很多非知识能力和身心发展的潜在因素。教育系统以知识传授和能力培养为主导，目标是促进人的成长并为社会培养有用人才。从功能性来看，人工智能技术在教育中的不断渗透和发展，将会替代教师的部分教学指导行为，也会改变传统的教学管理和学习方式；因此，智能技术革命必将引起教育领域的重大变革。面对人工智能技术引发的教育变革，最受关注的是对教育系统社会职能的全面审视，要注意在高级人工智能不断发展和普遍存在的情况下，教育的传统模式已经不可持续，教育需要进行重新定位和结构调整^[16]。
　　一直以来，人们过于注重在教育系统中引入和使用智能技术，不遗余力地推动“教育+智能”，其主要目的是提升学习效率和教学效果。但在高级智能工具出现以后，人们开始重新思考教育智能化的合理性。教育是植根于社会互动的一种深刻的人类行为，在ChatGPT出现之后，更为先进的智能技术不断涌现，教育智能化面临更多挑战；因此，如何合理应用高级智能技术、探讨其对教育环境和学生学习的影响等问题值得深入思考。
　　第一，智能化影响能力培养。教育，不仅是传授学科知识，更重要的是培养学生学习和运用知识的基本能力，形成思考、解决问题的素养。随着人工智能的普遍应用，学生是否还需要培养那些将来可能不需要的能力，是否还需要大量记忆各种学科知识，正在成为人们普遍关注的问题。未来教育应培养面向现实场景和智能工具赋能的能力，而不是在使用智能技术的便利中就此“沉沦”^[16]。因此，在未来社会发展中，教育应放弃一些传统技能的培养，放弃一些被动的学习模式。
　　第二，智能化改变、冲击传统的教学方式。当高级人工智能工具被引入教学过程以后，很多由教师主持的教学活动变为智能设备主导的控制系统，教师与学生之间的互动大为减少。由智能技术管理的知识灌输和行为引导，更接近机械控制系统，教育的人文性被淡化。如果单纯从知识传递效率和学科能力提升角度看，这种方式或许会促进教育取得更大进步，但学生的身心发展和精神世界将会产生质变。这种影响是潜在的和长期的，需要从技术资源、技能培养、规划发展及社会文化等方面进行深度考证分析^[9]。
　　第三，智能化伴随学习成长。教育过程也是人的成长过程，关注人的成长是教育的根本任务。人类教育体系中不仅仅是知识传授，还包括促进人的健康成长和全面发展，使人在教育过程中成长为社会所需要的人。如果学生在教育过程中过度使用智能技术，并代替很多自身学习、掌握和运用知识的过程，这将如何影响人的成长，值得深入思考。
　　第四，智能化改变职业岗位并带来专业设置重构。由于高级人工智能技术的出现，很多职业领域将会出现大量人工智能技术，有些岗位会被替代甚至消失，因此，企业组织体系也将产生巨大改变。但是，人工智能也会催生新的职业能力需求，产生新的职业岗位^[4]。这些转变和发展动态，会深刻改变未来的专业、职业教育走向和结构，进而改变教育的培养过程和形式。教育系统应思考未来社会的人才需求，制订长期发展规划以应对职业形态的改变。
　　第五，智能化涉及教育安全与公平。先进的人工智能技术不断涌入教育系统，其可信性和安全性正在成为广泛关注的问题。如果智能系统出现误导、欺骗或攻击性危险信息，而学生或相关接受者并不能明辨其错误和风险，则会产生严重的安全问题；同时，智能技术造成的不公平也会引发教育资源平衡问题。如果没有对安全风险的充分评估和预测，直接应用人工智能则需要承担责任及后果^[9-11]。
　　实际上，无论是研究领域还是工业应用领域，对人工智能新技术的研究开发不仅没有停止，反而在不断加速，更为高级的智能技术将很快出现并应用于社会的各个领域。因此，针对人工智能发展对教育产生的冲击，既不能简单地采用隔离、阻止的应对方式，也不能放任智能性工具肆意改变教育环境和学习方式。面对人类社会即将到来的智能化新生态，教育亟须解决关系自身发展的很多重大课题。诸如制订符合教育理念和支撑人类长期发展的决策，深入研究和评估教育领域正在和即将使用的人工智能等都非常重要，而对各种智能技术进行系统性评测分析则需要充分发挥教育测量的作用。教育测量不仅应评测智能工具应用于教学和学习过程的效应，也应将研究范围拓展到智能模型原理、机器智能心理以及人机交互技术应用等方面，尤其要重视对未来教育方式和职业岗位能力需求变革的评估分析。

3　智能化背景下教育测量的新视野

　　测量是最基本的科学研究活动，是对事物属性和状态的数字化表征和建模过程^[17-18]。教育测量研究人类学习、成长过程中的心理活动状态，属于高级心理特性测量，其测量方式和结果解释都具有特殊性；因此，教育测量也可以被视为一项社会测量工程。由于对人类心智机制的研究一直缺乏较为确切的物理模型，因此心理与教育测量研究主要基于刺激反应式的项目测验方法，并通过数理统计方法进行分析^[17]。随着计算科学和人工神经网络的出现，对心智的研究逐渐趋向使用计算模型进行解释^[5,18]。以大语言模型为代表的新一代人工智能技术的出现，进一步验证了使用计算模型模拟和解释人类智能的科学性，也提供了分析和透视人类学习和教育活动的新理论、新方法和新工具。
　　在智能时代背景下，教育测量应重新思考其研究目标和服务宗旨，推动对智能本身的认知，解析教育与智能技术的融合、促进与冲突，以应对人工智能与人类文明发展之间的世纪性挑战。这需要扩展原有的研究范围和方法，从研究知识传授和学习，到探讨智能和心智的评测，探究智能系统在人类社会中的作用和位置。比起传统性研究，教育测量研究需要解决更多关于智能和人的心智的固有问题，关心人的成长和社会环境问题，深度思考所面临的时代性问题，看到新的研究领域和目标。
　　第一，关注教育和成长过程中的评测和指导。陶行知先生认为，生活即教育，社会是一所大学校^[19]。在信息技术普及和智能技术涌现的今天，这个观点尤为符合实际。自20世纪以来，教育的形式和方法不断拓展，从电视教育到网络教育，从全日制教育、职业教育到终身教育，教育不断发展和深入生活。教育测量也随之发生改变，不仅要专注于大型考试、课堂测试等传统方式，还应关注更为广泛的学习成长过程。针对当前正在发生的智能技术革命，应关注智能技术在教育生活中的影响和作用，开展更广泛的教育和学习的评测。
　　第二，结合智能技术推动系统性应用研究。在教育系统开展智能技术应用，需要大量的工程化探索，在教育过程中使用智能工具的评估，已经受到各方面的重视。针对智能技术在教育中的应用问题，教育测量的目标要求更具有综合性、技术性和过程性，不仅要评价知识能力成效，也要全面评估智能技术和智能系统对教育过程和学生成长的影响，分析评估智能工具和智能系统的原理、作用和价值，判断智能技术应用对学生成长的预期成效和负面效应。在这种需求驱动下，需要一个能跟踪和应用最新智能理论和技术的测量体系，这是一个工程化的发展前景。
　　第三，回归到面向心理和智能研究的实践和探索。一直以来，教育测量的服务目标多为教育成效评测，较少回归到心理学研究背景^[18]。智能时代的到来，提出了更多具有挑战性的问题，将会促使这种研究的回归。基于大数据分析和人工智能模型，将会提升测量理论方法，提供针对心智、智能以及意识等问题的阐释，为人工智能技术的发展提供导引，为构建符合人类社会行为要求的智能体提供依据和判断。面向未来发展，将人类心智和智能技术作为实验研究对象，应更为切合教育测量在智能时代的目标和责任。
　　第四，支撑智能时代的教育发展变革。教育系统如何在人工智能技术的发展中改变和适应，需要大量的评测分析和实证研究，这也是必要的科学决策过程。为做好新型复杂人工智能的应用，教育系统需要强化监管和规范的制订^[17]。在制订规范和管理决策中，教育测量应发挥核心作用，基于多视角的观察和调查对智能技术的教育效能和应用特性进行分析论证和评价。如果没有相关规范和策略的跟进，教育智能化将面临不确定性风险，且这些风险不仅发生在学校和课堂中，也存在于学生的学习和生活过程。
　　第五，探索智能技术应用的伦理道德问题。目前，智能技术正在改变人类行为，虚拟人（如机器人客服）已经充斥网络社区。未来，正在设计开发的高级智能体很可能以独立行为体的身份进入人类社会，并作为正式员工参与劳动工作，人类社会的结构也将产生前所未有的变革。由人类制造的智能体可以在很多方面替代人类，但它们是否需要类似人类的教育过程，如何培养它们的道德情操和伦理观念，都是亟待探索的重大课题^[20-21]。因此，针对智能体的行为约束能力评测和综合心理能力评测，正在发展为一种新的测量研究方向^[15,21]。
　　第六，结合认知科学的理论方法开展智能问题研究。有关心智机制和意识的科学性解释一直困扰着心理学界和哲学界，研究者期待有一种抽象解释模型可以表征心理活动，而认知科学正在努力完成这一使命。认知科学融汇了哲学、心理学、语言学、人类学、计算机科学和神经科学等学科研究，推动了对人类智能神秘性机制的解析，围绕智能、心智、意识等问题开展科学性探索。随着神经科学和人工智能技术的不断发展，认知科学在解决人类心智方面提出了极具科学性的解释模型，正在促进对智能和智能技术的理论研究和技术实践^[1,20,22]。在评测人类心智、人工智能模型方面，教育测量应积极结合认知科学的理论模型和技术方法，推动自身的变革。
　　随着智能技术的不断突破和升级，教育工作者需要重点关注诸多关键问题，如智能技术如何与人类进行交互，它们对人类的心理和智力的影响是什么，它们对教育过程中潜在的、长期性作用是什么，等等。在教育研究中，应积极研究和应用大数据和智能模型技术，类比和分析人的智力行为，探索智能与心智问题，这也需要教育和人工智能领域共同努力。对人类教育过程心理行为的评估分析，对智能技术教育影响的分析，以及对智能模型的心理特性解析，都是教育测量研究的目标，这将会促使教育测量产生新的突破和发展。
　　经过多年的探索研究，教育测量已经成为较为成熟的学科，其理论模型和评测技术得到广泛应用。一个成熟的学科，在前进中需要反思和突破，在受到新科学发现推动或应用问题困惑时应产生自身重塑和冲出重围的活力。教育测量学在不断成熟的过程中，有些偏重于自身的理论完善和方法解释，局限于已有的范式，并逐渐远离了其实质研究对象——人类心智，这与托马斯·库恩对一些成熟学科状态的解析类似^[23]。随着新智能技术时代的到来，人们应看到对教育测量技术新使命的召唤，看到更为广阔的发展空间。

4　结束语

　　ChatGPT的出现，标志着人工智能技术革命时代的到来，也预示着人类自身的知识创新和应用能力会遇到挑战。未来，由机器学习技术突破而产生的价值将改变世界经济、文化形态，展现一个新的文明时代和地球生命进化阶段^[22,24]。智能技术对人类社会产生深刻影响，甚至导致结构性变革。目前，学界对未来智能技术发展存在较为激烈的争论，存在乐观、谨慎（中立）和悲观3种观点，关于智能技术发展的探讨已经上升为对人类前景的思考^[25-26]。分析和预估智能技术未来的发展变革及其对教育和人类成长的影响，不仅要研究智能模型的实现机制和效能表现，也要关注文化生态与伦理道德问题，这就需要融合智能模型测评与教育测量的综合性测量技术。测量可以帮助我们在认知世界的过程中探索分析和决策，教育测量与智能技术研究的融合，将为未来教育发展提供支撑，为构建一个智能技术的美妙世界作出积极贡献^[27-29]。

参考文献：（略）

（声明：本文选自《中国考试》，如涉侵权，联系立删）