智能技术赋能新时代

综合评价：挑战、路径、场景及技术应用

作者：刘邦奇，讯飞教育技术研究院院长，西北师范大学教育技术学院教授。

刘碧莹，科大讯飞教育技术研究院初级教育技术研究员。

摘要：顺应新时代“智能+”发展趋势，探索利用智能技术健全综合评价，已成为教育评价改革发展面临的重要命题。当前教育综合评价在指标构建、数据采集和处理、结果应用等方面还存在诸多现实问题，影响综合评价的科学性和有效性。为探讨智能技术赋能综合评价的路径，围绕综合评价的4个重要环节，即综合评价指标模型构建与优化、全域评价数据采集与汇聚、综合评价数据深度挖掘分析、综合评价数字画像建立与应用，探讨各环节中关键场景的技术应用，为智能时代深化教育评价改革、实现“健全综合评价”目标提供路径参考。

关键词：数字化考试；智能技术；教育评价改革；综合评价

中共中央、国务院印发的《深化新时代教育评价改革总体方案》（以下简称《总体方案》）明确提出“健全综合评价”“完善学生综合评价体系”等要求。综合评价注重对评价对象进行全面性、整体性评价，是对唯分数、唯排名、唯升学率等片面化评价的纠正与改进。充分利用智能技术优势，开发智能化评价工具和产品，提高综合评价的科学性、客观性、有效性，创新智能技术赋能的综合评价模式，是深化新时代教育评价改革的重要命题。

1 新时代综合评价面临的问题与挑战

1.1　综合评价的发展背景与特点

　　综合评价起源于20世纪80年代初期，当时的中国经济统计学界就经济效益综合评价问题展开了广泛研究与热烈讨论^[1]。之后，综合评价在教育领域得到广泛应用，主要用于教育复杂性问题的分析、论证及价值判断。建立客观、多元、开放、综合的教育评价体系是新世纪全球教育评价改革的趋势。国际教育成就评价协会（The International Association for the Evaluation of Educational Achievement, IEA）倡导开展多维、综合评价^[2]。世界各国积极探索实践，形成了国际学生评估项目（PISA）、国际阅读素养进步研究（PIRLS）、国际数学与科学趋势研究项目（TIMSS）、国际成人能力评估调查（PIAAC）等国际知名教育评价项目，评价工具由单一的纸笔测验发展为纸笔、观察、计算机、人工智能、大数据、全息画像等多种手段相结合，评价方式从断点走向连续，注重多种评价方式相结合，实现了综合诊断、服务决策及促进发展等功能。围绕综合评价在教育领域的应用，我国也开展了一系列理论研究与实践探索，并在诸多方面取得了广泛共识。从评价对象多重属性的角度来看，王宗军认为，综合评价是对具有多重属性体系结构对象的系统性、全局性和整体性的评价^[3]。从价值判断的角度来看，金菊良等提出，综合评价是按照评价对象在总体上的相似性和差异性进行的排序或分类方法^[4]。从评价内容的角度来看，许海霞等认为综合评价重在全面考查，包括考试成绩、综合素质评价及非智力因素测评等^[5]。《教育评价辞典》对综合评价的界定是“对评价对象进行完整的系统的价值判断”^[6]。综上，综合评价是从全方位关照被评价对象的思维视角，通过构建科学合理的评价指标体系，对评价对象进行全面性、整体性的评判，综合反映评价对象的总体特征，全面考量和判断评价对象的价值。

　　综合评价的本质在于综合，关注整体成效和全局特性，能够综合多方意见、采取多种方法和视角对评价对象进行整体性评价，在评价实践中呈现系统性、多样性、复杂性、全面性等特点。具体而言：系统性是指综合评价可被视为一个层次分明的评价系统，评价对象、评价活动和评价结果等组成部分都可单独作为一个子系统，综合评价是一项复杂的系统工程；多样性表现为综合评价在评价主体、方法、内容等方面具有鲜明的多元化特征，如评价主体包括政府部门、学校、教师、学生、同行及第三方机构等，评价方法包括问卷调查、指标分数、自评、互评等定性、定量研究，评价内容包括教育质量、综合素质、学业水平等；复杂性体现在综合评价对象往往受多种因素制约，且各因素相互影响，评价指标难以确定和量化，使得评价准备、实施及结果处理的复杂程度高；全面性是指全维度客观采集数据、深度分析数据，基于全方位考查实现对评价对象的全面评价。

1.2　综合评价面临的问题与挑战

　　新时代背景下，教育改革不断深化，教育综合评价加速发展，对建立健全科学、有效的综合评价体系的需求更加迫切。当前，教育综合评价在指标构建的科学性、数据采集的系统性和处理的可行性、结果的客观公正性等方面仍面临诸多问题与挑战。

　　首先，评价指标体系的科学性亟须提升。综合评价研究的教育类问题一般复杂程度较高，传统评价指标构建多采用德尔菲法、文献分析法、层次分析法等方法，虽有一定的优势，但更多是基于主观判断，科学性、客观性不够。此外，在各地开展学生综合素质评价、学校发展评价、区域督导评价等实践中，还普遍存在以学生学业成绩作为综合评价主要依据的现象，其原因在于对学业成绩以外的评价指标如何确定与合理赋值、如何验证指标的科学合理性及如何运用现代科学技术手段等方面存在知识上的不足^[7]。因此，亟须采用新的技术手段构建和优化综合评价指标体系。

　　其次，评价数据的采集维度需要拓展。在评价实践中，客观存在着综合评价数据来源渠道少、采集不全面、丰富度与精细度不够等问题，由此导致评价结果难以充分反映被评价者的真实状态。以学生综合素质评价为例，学校作为数据的主要提供者，能够提供结果性的学业数据，但难以科学全面地记录学生学习过程、学习能力、交流与合作等方面的数据，客观存在着过程性数据采集不准确、数据遗漏不完整等问题，由此导致数据分析结果的全面性、整体性不足。事实上，综合评价数据的采集效率低、成本高，需要从多个维度全程记录评价对象的数据，如开展学校、区域评价等，数据采集体量十分庞大，这对当前的数据采集方法提出了更高要求。

　　再次，复杂的评价数据处理难度大。综合评价需要处理大量类型复杂的数据，如：来自于物联网、互联网的评价数据；数据模态存在显著差异的数据，包括图数据、流数据、矢量数据、标量数据等；价值密度低、实时性要求高的数据；等等^[8]。面对这些复杂的综合评价数据，传统数据处理方式显得力不从心，限制了综合评价发挥其应有的功能^[9]，迫切需要引入智能技术以有效提高数据处理能力。

　　最后，综合评价结果客观公正性要求高。综合评价作为一种全面性、整体性的价值判断，评价结果是否客观公正，事关评价对象、评价主体、评价委托方等多方利益。然而，在教育评价实践中，综合评价结果往往存在“高位平均”现象，区分度模糊、有效性低，客观公正性有待进一步提升。同时，还存在主观评判现象，即评价依据以质性资料为主，易出现违背事实、弄虚作假等问题，进而难以客观真实、全面精准地刻画评价对象的综合水平。因此，迫切需要采取新的技术手段，尽可能避免人为主观因素的参与，以保障综合评价的客观公正。

2　智能技术赋能综合评价的理念与路径

2.1　树立智能化教育评价新理念

　　综合评价发展中存在的现实问题，需要依靠新的手段和方式加以解决。近年来，随着人工智能技术的快速发展与广泛应用，教育评价方式得到有效创新，提高了教育评价的客观性、科学性和有效性。从研究领域看：董奇提出技术的整合或结合将推动教育评价进入新的发展阶段，智能化的教育评价新趋势已经出现^[10]；杨宗凯认为智能技术与教育的深度融合为教育教学评价改革创新提供了可行路径^[11]。从实践领域看：刘云生提出第五代教育评估是服务导向的智能化教育评估^[12]；陈峰强调加快更新迭代教育评价手段，研究开发教育测量和评价技术，充分利用“互联网+”、AI等技术工具，探索“智评”模式，以此推行精准评价^[13]。可见，新时代教育评价发展应顺应智能化发展趋势，树立智能化教育评价新理念，探索教育评价改革新路径。

2.2　利用智能技术支持综合评价改革

　　智能技术支持下的综合评价是教育评价对时代发展作出的回应^[14]。2019年5月，在国际人工智能与教育大会上，联合国教科文组织发布成果文件《北京共识——人工智能与教育》，提出“发掘数据潜能，支持学生综合能力的多维度评价”^[15]。杨勇认为，把智能化方法引入综合评价，通过机器学习、神经网络等智能化方法，能够对综合评价的标准、指标体系、指标权重、评价模型的确立提供强有力支持^[16]。杨宗凯认为，健全综合评价，要强化评价主体和手段的多元性，推进教师评价、家长评价、同伴评价、自我评价甚至是机器评价的融合发展，采用基于智能技术的试题测试、实践操作、面试答辩等不同方法进行综合评价^[11]。因此，走向智能时代的综合评价迎来新的发展契机，应开发利用智能技术手段，促进人工智能技术与综合评价融合创新，探索与实践新型综合评价模式。

2.3　智能技术赋能综合评价的主要路径

智能技术赋能综合评价，是指充分利用人工智能、大数据等技术优势，赋能综合评价的各个重要环节，对评价内容和方式进行革新与发展，实现系统、全面和高效的综合评价与反馈，探索形成新的综合评价模式。智能技术赋能综合评价的主要路径架构包括支持层、平台层、服务层和应用层，见图1。支持层包括物联网、（移动）互联网、云计算、大数据、人工智能、5G、虚拟现实等智能信息技术，为智能化综合评价提供基础支撑。平台层是基于智能信息技术构建集评价指标设计、数据采集汇聚、数据处理分析和评价结果反馈等功能的智能化综合评价服务平台。服务层提供智能技术赋能综合评价的 4项关键服务：一是支持综合评价指标模型构建与优化，基于人工神经网络、机器学习、蒙特卡罗模拟方法等智能化的算法，在对评价数据进行科学分析的基础上提取有效的评价规则，实现综合评价指标的科学筛选和权重计算，进而构建智能化的综合评价指标模型，并在不断迭代优化的过程中，能够系统地、科学地分析和处理评价指标的各类复杂问题；二是支持全域评价数据采集与汇聚，基于智能化的数据采集汇聚技术和手段，采集综合评价对象在全时空的数据，汇聚集成不同类型的海量复杂数据，解决难以全时段采集数据、不能有效覆盖全场景、临时性采集造成数据失真等难题；三是支持综合评价数据深度挖掘分析，基于智能技术可以对海量复杂数据进行深度挖掘分析，深度剖析综合评价各方面的特征与关系，深刻揭示评价对象整体发展特点、优势、潜能与不足，并预测其发展态势与未来走向；四是支持综合评价数字画像建立与应用，基于大数据、学习分析等技术，最终将综合评价结果通过可视化工具输出个体或群体的数字画像，助力评价对象进行清晰直观、形象生动地理解并应用评价结果，实现资源共享、行为调整、体验改善、效率提升^[8]。应用层能够实现各类综合评价场景应用的智能化，包括区域教育质量评价、学校发展评价、教师教学评价、学生综合素质评价等教育教学综合评价实践应用。

3　智能技术赋能综合评价的关键场景及技术应用

人工智能、大数据等智能技术作为综合评价的核心技术支撑，能够赋能评价的各个重要环节及关键场景，解决综合评价的现实难题，可以极大地提高评价的科学性和有效性。

3.1　综合评价指标模型构建与优化

　　综合评价指标模型是评价指标体系内在逻辑关系和数学关系的具体体现，是获取综合评价结论的重要途径和工具^[17]。在教育评价实践中，充分利用智能技术构建一个科学合理的综合评价指标模型，对全面提升综合评价效果和评价效率非常必要，其作用主要体现为：1）实现复杂问题的模型化处理；2）能够在大量的、类型复杂的数据中提取有效的综合评价数据；3）使综合评价指标模型具备强数学特征，具有自适应和自组织能力及很强的稳健性^[16]，并根据实际需要对模型进行更新迭代；等等。

在综合评价指标模型构建与优化中，主要的应用场景有2个，即指标体系构建和模型验证迭代。指标体系作为综合评价指标模型构建的重要基础和关键要素，其构建方法包括文献分析法、德尔菲法、层次分析法等，在引入智能化方法后，常用的方法有机器学习、人工神经网络、蒙特卡罗模拟方法等。这些方法对科学筛选指标和计算指标权重，确保用精简的关键指标反映评价对象系统的主要特征、判断该指标对评价结果的贡献度等发挥着至关重要的作用^[18]。模型验证是从模型的应用目的出发，考查验证模型在其应用域内是否精准正确地代表了原型系统。基于一定的验证方法和验证工具，能够对得到的结果进行验证，并通过不断修正补充，直到出现科学合理的评价结果，实现对模型的更新与优化，相关技术应用及说明见表1。

在教育评价实践中，各级各类教育机构都开始关注智能技术在综合评价建模中的应用，构建科学可行的评价指标体系，并通过多轮迭代验证模型的科学性和有效性。如北京师范大学远程教育研究中心，构建了学习者综合评价参考模型并进行更新与优化，现已应用于学校实践中，为实现智能化学生综合测评提供了基础^[19]。

3.2　全域评价数据采集与汇聚

　　全域评价数据采集与汇聚是有效提升综合评价科学性、专业性、客观性的基础支撑，可在全时空对评价对象进行数据采集，“采集的全样本、混杂、海量数据再汇聚成一个立体化的智能‘网络’”^[9]，最终实现对评价对象整体发展情况的全域关注与监测，为客观真实的综合评价提供有效数据支撑。全域评价数据采集与汇聚的作用主要有以下3个方面：1）全时段自动采集，如将学生各时段（课堂、课间、课外、居家等）的表现记录下来，以周、月、学年为周期进行汇聚，全面描述学生综合素质发展轨迹；2）全场景布局，确保在各个场景空间中采集的数据能够满足综合评价全部指标的采集内容需求；3）可在无意识、非侵入、非配合状态下忠实记录评价对象的表现，确保采集到本真状态下的评价数据。

全域评价数据的采集汇聚需要因地制宜、多源归一，即根据数据采集场所的变化灵活选择一种或多种采集技术，将不同来源的海量数据统一集成并有序存储，其关键场景及技术应用见表2。在全域评价数据采集场景中，主要通过物联感知、平台采集、图像识别、视频录制等技术手段，采集评价对象在各个时空的数据，如采集学生在学习、生活、运动、社会实践时的相关数据，获得学生德智体美劳等综合素质评价指标的各类支撑数据。在全域评价数据汇聚场景中，主要通过数据集成技术高效处理不同数据类型的海量数据，并快速汇聚到数据中心，实现评价数据从碎片到集约。

在智能技术赋能下，各类数据采集设备和数据汇聚平台层出不穷，区域和学校可选择的数据采集方式不断增加，数据汇聚能力不断增强。近年来，各地非常重视将全域评价数据采集汇聚应用于综合评价的实践中。例如：上海市打造学生综合素质评价系统，构建了大数据采集链，支持来自不同学校多源数据的采集汇聚^[20]；合肥市自2018年起将教育评价改革的重点逐步放在面向学生品德行为、学业表现、身心发展、兴趣爱好、学业负担等多维度综合评价上，通过对多维指标数据的收集和汇聚，对学生的发展进行全面评价^[21]。

3.3　综合评价数据深度挖掘分析

　　数据深度挖掘分析是获得更科学、更有价值的综合评价结论的必要路径。利用人工智能、大数据等技术对不同来源、类型与结构的海量评价数据进行深度挖掘分析，可以深刻揭示评价数据在特定时空的变化过程与特征，进而挖掘变量间隐含的关系和深层规律，从而在宏观层面深刻掌握评价对象的发展过程与趋势，从更加全面、系统的角度完成对评价对象的综合评价。综合评价数据深度挖掘分析的作用主要体现为：1）拓宽综合评价内容，从过去只能处理包含相同类型属性的数据集，转向支持挖掘分析异构属性的数据集（如含有文本、超链接、图像、音频和视频的Web及社交媒体数据）；2）通过多种数据挖掘算法，深入挖掘认知、情感、态度、动机、行为、个性等数据变量之间的关系，挖掘分析评价数据的潜在价值。

数据深度挖掘分析可以从大量数据中提取有效信息，并将其转化为易于理解的结构以供进一步使用，只有选择适当的挖掘技术与方法才能取得较好的应用效果，其关键场景及技术应用见表3。在基于描述模型的数据挖掘场景中，主要通过分类聚类、关联规则等基于描述模型的挖掘算法分析评价数据并发现新的模式或结构，如按性格类型、学习风格等维度对学生进行分类，对师生关系和学业成绩进行关联分析，对学生同时选修多门课程进行关联分析等。在基于预测模型的数据挖掘场景中，主要通过多元回归分析、马尔科夫预测等方法，深刻揭示评价对象的未来发展趋势，如为综合评价学生潜能、心理成长等提供科学依据，根据学生初中各科成绩预测高中选考科目成绩等。

在综合评价实践中，智能技术赋能能够对海量复杂评价数据进行深度挖掘分析，基于数据分析结果可以促使综合评价从经验判断走向数据举证。如基于学生行为偏好、阅读内容、科目成绩等数据进行预测，可以帮助学生及早进行生涯规划、科学志愿填报，在安徽省蚌埠市国家级智慧教育示范区建设中，通过对蚌埠市教育大数据的深度挖掘分析，实现了教学规律建模及趋势预测，为教育考试相关决策和综合评价学校教学质量提供了底层支撑^[22]。

3.4　综合评价数字画像建立与应用

　　数字画像是依托人工智能、大数据、学习分析等技术，通过基本信息、行为数据、心理数据等多源数据构成的代理原型，用于支持教育决策、改进教育管理及优化教育服务^[23]，是综合评价实现精准诊断、及时干预和个性化支持的基础。数字画像可以呈现更精确的评价过程分析和更精准的内容推送，助力评价对象进行资源共享、行为调整、体验改善及效率提升。综合评价中数字画像的主要作用有3点：1）能够有效融合综合评价的多重数据，高度仿真地评价个体及群体在教育教学中的真实表现，保障评价信息的真实有效；2）能够呈现更加形象、全面、易懂的综合评价结果；3）能够感知、监测、诊断及预测综合评价全方位的发展状态和未来走向。

通过对综合评价数据的记录、分析、挖掘与呈现，最终运用可视化工具输出个体或群体的数字画像，形成具有准确性、科学性、实用性和发展性的分析报告，为满足个性化需求、实现精准服务提供更多可能，其关键场景及技术应用见表4。在画像标签体系构建场景中，画像标签体系作为数字画像建立的重要基础，根据构建的难易程度和各类标签的依存关系，生成事实标签、模型标签及预测标签，并最终形成具有映射关系的画像标签体系，实现画像的构建^[24]。在画像建立场景中，基于构建的画像标签体系，通过各类数据挖掘方法分析数据，并以画像的形式呈现计算结果，实现标签画像库的建立。在画像输出与应用场景中，根据画像目标和综合评价数据，利用数据可视化、虚拟现实、区块链等技术的相互配合，以图示方式对抽象的内部结构加以可视化处理，呈现学习者画像，并保障画像的安全应用。

在智能技术赋能下，综合评价数据可被全方位采集汇聚，并得到自动化处理分析，由此提炼出可描述评价对象特征和行为的标签集，最终从各维度完整刻画数字画像。如上海市闵行区一所小学基于学生数字画像，创新开发了环境感知系统、数字画像应用系统及智能分析系统，为学生搭建了多功能的智能化学习空间，由此生成的学生数字画像实现了精准综合评价，有效促进了学生的综合发展^[25]。

　　智能技术是引领未来社会变革和推动教育转型发展的重要驱动力，对推动新时代教育评价变革具有重要价值和意义。在深化教育评价改革的时代背景下，面对“五唯”顽瘴痼疾，教育评价实践必须突破传统评价思维和评价方式局限，充分利用智能技术优势，结合区域、学校、学生、教师等综合评价主体的实际需求，开发更加科学高效的智能化评价工具和手段，探索基于智能技术支持的综合评价新模式，推动教育评价改革不断深化。

参考文献

（稿件来源：选自《中国考试》2022年第六期）