骆方王珊：第十四届海峡两岸心理与教育测验学术研讨会

暨全国教育统计与测量学术年会会议综述

图片1.png

原文刊载于《中国考试》2023年第9期第87—94页。

作　者

骆方，北京师范大学心理学部教授。

图片2.png

王珊，北京师范大学心理学部研究助理。

摘　要：第十四届海峡两岸心理与教育测验学术研讨会暨全国教育统计与测量学术年会近日于广州成功举办，会议主题为人工智能时代下的心理与教育测量。会议共设有5个主会场、24个分会场，交流研究报告216篇、海报展示83篇，来自两岸三地高校和相关机构的409位专家学者出席了此次会议。会议涵盖心理测验理论与技术、信息科技与测验发展、教育测验新进展、人事测评理论与技术、临床与咨询中的心理测验、发展性诊断与测评、统计模型新进展等议题，集中展示了海峡两岸暨香港专家学者研究的前沿成果和最新进展，促进了心理与教育测量领域的学术交流。

关键词：海峡两岸心理与教育测验学术研讨会；全国教育统计与测量学术年会；人工智能；心理与教育测量；智慧教育；智慧评价

　　2023年8月12日至13日，第十四届海峡两岸心理与教育测验学术研讨会暨全国教育统计与测量学术年会在广州华南师范大学成功举办。研讨会由中国教育学会教育统计与测量分会、中国心理学会心理测量专委会以及中国测验学会（台湾）3家学术机构联合发起，自1993年起每两年一届，轮流在海峡两岸举办，旨在深入探讨心理与教育测验及统计科学等前沿发展议题，带动并活跃海峡两岸学术氛围，促进海峡两岸学术交流。
　　本届研讨会主题为人工智能时代下的心理与教育测量。会上，两岸三地的409位学者齐聚一堂，来自北京师范大学、华东师范大学、江西师范大学、华南师范大学、台湾师范大学、台北教育大学、台中教育大学、台南大学、成功大学、台北商业大学、香港中文大学等70余所高校，以及教育部教育考试院、微软亚洲研究院等20余家教育考试机构、中小学和相关企业的代表共同参会。

1　海峡两岸携手并进，心理与教育测量同仁共迎人工智能新时代

　　我国教育评价改革目前处于攻坚克难阶段，亟需多学科融合的教育评价技术创新的积极推动。2020年10月13日，中共中央、国务院印发《深化新时代教育评价改革总体方案》，强调要“创新评价工具，利用人工智能、大数据等现代信息技术，探索开展学生各年级学习情况全过程纵向评价、德智体美劳全要素横向评价。”^[1]这充分体现了我国对人工智能（artificial intelligence, AI）与大数据等新技术、新手段助力教育评价改革的重视和期望。

1.1　人工智能助力提升教育的综合评价、过程评价和增值评价水平，完善教育评价机制

　　围绕大会主题，中国教育学会常务副会长李天顺教授提出，在深入研究各级各类教育内在规律和时代特征的基础上，发挥自身专业特长，为解决教育评价的难题贡献智慧和力量。一是着眼健全综合评价，充分运用人工智能助力的教育评价，进一步全面评估学生发展。例如：利用数字化、信息化等手段来客观记录学生品行的日常表现和突出表现，完善德育评价；使用可穿戴设备等新型设施和技术，记录学生日常体育参与情况和体质健康水平；等等。二是着眼强化过程评价，进一步深度挖掘教育和学习过程中的数据。过程性评价的关键一环是数据获取和应用，如何借助人工智能和教育大数据技术，对学生进行一系列过程性、伴随性、无觉察的测评，使测评的方式和类型更加丰富、结果更加准确，是强化过程性评价的重要抓手。三是着眼探索增值评价，进一步了解学生的成长和进步。借助人工智能和大数据挖掘算法的支撑，便于更加精确地评估每一名学生的成长曲线，进而更加深入地了解学生的成长和进步。四是着眼完善评价机制，进一步探索更深层次的教育教学规律。通过挖掘、分析教育大数据，量化学习过程，表征学习状态，发现影响因素，找到干预策略，从更深层次揭示教育规律，使其为区域教育管理提升等教育实践服务，推动教育评价结果更好、更扎实地发挥作用。

1.2　人工智能等新技术推动测量方法和测验工具的创新发展

　　人工智能时代的到来，使心理与教育测量领域面临诸多机遇和挑战，也推动了测量方法和工具的创新与发展。中国测验学会（台湾）理事长林素微教授认为，两岸无论从实践需求、面临的挑战和学科发展机遇上，都存在着很多共性的特点。林素微教授分享了台湾地区数字教学与数字化测评的发展现状与成效。顺应大型国际调查的发展趋势，中国测验学会（台湾）致力于推广教育大数据资料的串接、分析与应用，包括国际阅读素养进展研究项目（PIRLS）、国际数学与科学趋势研究项目（TIMSS）、国际学生评估项目（PISA）、国际公民意识和公民素养研究项目（ICCS）、国际计算机与信息素养研究项目（ICILS）等国际调查。此外，会上讨论并分享的数字化测验与评价的技术与实务应用、信息科技在教育与心理测量上的应用等内容，为教育政策规划提供了参考。

1.3　心理与教育测量技术进步，推动教育事业高质量发展

　　心理与教育测量在教育发展中具有重要意义，既为教育决策提供科学依据，又能很好地推动教育综合发展。作为大会承办单位，华南师范大学党委书记王斌伟认为，当前人工智能技术正以前所未有的速度和广度影响着我们的生活。在实现全面建设社会主义现代化国家的目标过程中，优质的教育和人才培养是关键因素。会议以“人工智能时代下的心理与教育测量”为主题，具有重大的现实意义和深远的战略意义，旨在进一步推动心理与教育测量朝向数字化、信息化的方向发展，进一步促进心理与教育测量学科建设，为推动教育考试事业高质量发展、培养高素质的社会主义建设者和接班人，进而实现中国式教育考试现代化提供有力支持。

2　主会场高屋建瓴，聚焦数字化考试与教育手段提升

　　随着信息技术的飞速发展，借助数字化手段获得大量的学习和行为数据成为可能。应用数字化、智能化信息技术手段，深入分析数据，用以发现学习趋势、认知模式和效果评估等方面的规律，从而指导教育改革和个体干预。

2.1　建设与智慧教育相适应、服务智慧教育的数字化考试系统

　　教育部教育考试院党委副书记、副院长于涵研究员在专题报告中提到，作为国家教育制度的组成部分，我国大规模教育考试在保障教育公平公正、服务拔尖创新人才培养、促进人力资源优化、助力经济社会发展等方面发挥着积极作用。随着国家教育数字化战略行动深入推进，利用现代数字技术和理念助力教育考试内容、形式、评价及治理改革，建设与智慧教育相适应、为智慧教育服务的数字化考试体系（简称智慧考试），是我国教育考试现代化进程中一项重要且急迫的任务。教育部教育考试院聚焦国家教育数字化战略行动总体要求，对标智慧教育总体架构，以数字化思维重构考试业务流程，提出以智慧考试为核心概念的全新考试业务系统，描绘我国大规模教育考试数字化发展的愿景和技术路线。智慧考试服务于智慧教育主要体现在3个方面：第一，为智慧教育提供高质量的数据资源，包括面向考试全环节的海量题库、命题素材、无感信息和考生作答信息等；第二，智慧考试的评价结果在教学端服务于学生学习和学校教学，在教育端服务于教育评价和教育改革；第三，通过可及性更好的考试促进教育公平，通过准确性更高的评价保障教育质量，通过适配性更强的考试与智慧教育总体架构实现深度嵌套、全面融合。

2.2　拓展自适应个性化学习、评估与反馈的教育新模式

　　人工智能技术可以更精确地衡量个体的认知、情感和学习进展。个性化测量手段能够实现对个体认知、情感和学习进展进行精准化测量，分析其学习状态与学习结果，为每个学习者设计定制化的评估方式和学习计划。基于人工智能的自适应学习和测量系统则能够根据学生的表现和需求调整教材和测验的难度和内容，使学习过程真正基于学生自身水平进行，从而更好地满足其学习需求和发展潜力。
　　台湾地区于2017年至2020年实施前瞻基础建设计划，已完成智慧教室与网络带宽设施。疫情发生后，在现有数字化建设基础下，台湾当局提出《推动中小学数字学习精进方案》，规划数字内容充实、行动载具与网络提升及教育大数据3项计划，加速数字化教学推动，以期达成教材更生动、书包更轻便、教学更多元、学习更有效、城乡更均衡五大目标；建设“因材网”，涵盖1-12年级学科教材、素养教材、游戏教材和资讯科技等内容。系统实现了计算机化动态测评学习分析，动态测评由选择题组成，当学生尝试作答错误时，系统会针对错误类型给予适当的反馈，在评估的同时协助学生学习与解题。

2.3　依托过程测评，为复杂问题解决能力评估提供全新测评范式

　　北京师范大学心理学部刘红云教授较为全面和系统地总结介绍了近几年复杂问题解决能力的过程测评与测量模型发展。自20世纪90年代，核心素养（key competencies）已成为全球范围内教育实践和研究领域的重要议题。核心素养的复杂性使得传统的教育测验范式难以直接应用，需要教育测量理念、方法和技术的系统性革新。近年来，信息技术进步为以复杂问题解决能力为代表的核心素养测评提供了全新的测评范式。依托计算机的交互式测验，能够在仿真任务情境下实时记录学生的反应过程，对学生解决复杂问题解决能力的过程进行测评，并保存为过程数据。过程数据蕴含关于学生认知与思维活动的丰富信息，对这些信息进行挖掘与分析有利于对学生潜在能力进行更加准确的估计。
　　在专题报告中，刘红云教授系统介绍了过程测评的缘起、特点以及测验设计的核心内容并结合过程测评，对数据挖掘方法与测量模型结合的前景进行了展望。

2.4　加速领域融合创新进程，提升与丰富心理与教育测评技术及手段

　　心理测验诞生至今已逾百年，现已被广泛应用于教育、企业管理、临床医疗等领域，发挥了重要作用。然而，传统心理测验本身的一些局限，如问答形式带来的个体焦虑与外在表现水平的降低、自陈式量表造成的不认真作答和作假现象、测验曝光率过高等问题，使其在应用中面临诸多挑战。
　　信息技术发展为心理与教育测评技术和手段的创新提供了新的解决思路。北京师范大学心理学部黎坚教授介绍了基于游戏的评估方式与最新进展。基于游戏的评估（game-based behavior assessment, GBA）是指通过游戏或者游戏化的活动来对某一对象进行评估。从心理学的角度来说，GBA就是采用游戏的方式，对一个人的能力、人格等心理特质和行为进行量化评估。由于具有可玩性、隐蔽性与仿真性3大优势，GBA能够较好地应对传统心理测验面临的受测者作答动机不高、测验焦虑、测验情境远离现实等问题，已逐渐应用于实践。
　　北京师范大学心理学部骆方教授团队则开发了系列人机交互式测验，包括创造力、批判性思维、复杂问题解决、计划能力、科学探究能力等测验。这些测验基于证据中心设计（evidencecentered design）框架研发，采用不同测验任务载体，对测验过程性数据的分析也各有不同。报告介绍了从基本的场景化设计、情境性设计到基于虚拟现实的多种设计方式，并从题目作答正确性、作答反应时间和文本数据3方面实现自动化计分。报告强调基于测验的目的和施测条件需要选择恰当的方法来完成整个测验的研发过程，为实际的测验设计与开发提供了经验借鉴。
　　台中教育大学教育资讯与测验统计研究所的吴慧珉助理教授介绍了高阶能力题型及其自动计分机制的相关研究。研究利用自然语言处理预训练的BERT（bidirectional encoder representation from transformers）模型语言识别技术，对文字进行自动识别，将其运用于考生作答发音的评分中，大幅降低人工评分的主观性和不确定性研究通过计算机手段辅助，模拟了一系列问题情境，使得测评情境更加真实、更能准确评估高阶能力，如可以实现对数学开放题的自动化评分，体现了自然语言处理的能力与优势。
　　技术进步推动心理与教育测量领域发展，而心理与教育测量手段也能够反向为技术发展提供一些有趣的研究与评价视角。来自湖南师范大学测评研究中心的杨志明教授研究团队，结合英语原著《Charlotte’s Web》阅读训练编制了一套批判性思维测试并分析了ChatGPT的作答结果。结果发现，ChatGPT给出的作答理由比较肤浅，基本上是从题干或答案选项中重抄一部分文字，这可能也意味着ChatGPT在回答问题时重在计算文本之间的相似度，而不是具有真正的思考能力。

3　分会场报告异彩纷呈，共同探索教育与心理测量发展新路径

　　此次研讨会开展了多种形式的学术交流。研讨会共设有5个主会场，24个分会场，汇集学术前沿报告发言216篇、海报报告发表83篇，涉及统计模型新进展、发展性诊断与测评、心理测验理论与技术、信息科技与测验发展、教育测验新进展、人事测评理论与技术、临床与咨询中的心理测验等重要议题。与会专家在各自领域的探讨与研究，为人工智能时代下的心理与教育测量描绘了精彩的未来图景。

3.1　统计模型的前沿进展

　　在统计方法及其应用分会场，与会者围绕统计建模及应用前沿进展展开了深入的探讨。一方面，聚焦于心理统计领域的方法前沿问题，围绕追踪数据分析、结构方程模型等主题广泛开展方法研究，提出新的统计分析方法以及优化改进已有方法的新思路，为心理、教育等学科研究的开展奠定统计方法基础。另一方面，从心理学理论和实证数据出发，应用前沿统计分析方法探究变量之间的关系，挖掘数据中的规律。例如，探讨家庭照料与老年人生活满意度之间的关系、分析父母教育卷入类型、探究学习动机对学习投入的影响等。这些实证研究为心理学理论的构建和验证提供了实证基础，为日常生活和教育教学等提供了有益的启示，有效地促进了统计分析方法的发展以及心理学理论的建构与验证。学者们在会场中积极交流研究成果，探讨前沿统计方法和应用课题，进一步推进了统计方法领域研究的进展。

3.2　认知诊断研究进展

　　在认知诊断专场报告中，与会者汇报了认知诊断研究的前沿进展，具体包括如下议题：在认知诊断模型开发上，基于实际提出参数与非参数化的多策略模型等，并联合作答数据与过程性数据构建模型；为了解学习者的动态学习过程，开展基于两阶段增强信息的研究，构建学习模型；为提高认知诊断计算机化自适应测验（cognitive diagnostic computerized adaptive testing, CD-CAT）结果准确性，促进其实践应用，从参数与非参数结合等方面开发新选题方法，探索在线标定方法和可修改答案CD-CAT；梳理Q矩阵理论及其进展，对Q矩阵估计、被试拟合指标、贝叶斯参数估计等进行研究；基于已有理论研究，积极展开应用研究，将认知诊断应用于数学核心素养评估、比例推理学习进程等。所报告的研究兼具深度和广度以及创新性，丰富了认知诊断领域研究的内容，为该领域的研究提供新的视角与思路。在教育测评中可服务于教师的因材施教以及学生个性化学习方案的制定，以达到诊断结果促进学习和教学、有效减轻学生考试压力和负担的目的，最终促进智慧学习、高效学习、轻松学习。

3.3　题目作答时间建模与应用

　　在题目作答时间（response time, RT）建模与应用分会场报告中，与会参与者探讨了RT这一具有代表性的多模态数据在心理与教育测量中的理论和实践应用价值。例如：为进一步实现对传统题目作答精度（response accuracy, RA）和 RT的准确客观分析，提出基于广义项目反应理论模型簇和对数正态RT模型的广义联合层级建模框架；为探究潜在能力和潜在加工速度之间的并行交互发展，提出针对纵向RA和纵向RT数据的纵向联合建模框架。在模型构建之外，面对心理与教育测量中快速猜测等异常作答检测所面临的难点问题，与会者还探讨了RT在快速猜测等异常作答检测中的应用，提出联合RA和RT的变点分析法、联合RA和RT的诊断分类树模型和联合RA和RT的混合层级认知诊断模型。这些模型建构和实践应用对于加快推进心理与教育测量中多模态数据的分析与利用具有重要价值，既为我国智能化考试的数据分析提供方法学支持，促进我国智能化考试落地，也为学习科学和教育数据挖掘等相关领域研究者提供方向参考。

3.4　心理健康新型测评的研究与实践

　　在心理健康新型测评专场报告中，与会者分享了与特殊测评技术和机器学习算法结合的心理健康评估的研究现状，还探讨了如何简化和优化传统的心理健康评估工具，以适应数字时代的需求，为实现心理健康的准确测评提供了全新视角。与会者围绕心理健康测评中的热点难点问题展开讨论：针对传统测评无法解决的社会称许性的问题，提出采用投射测验和条件推理测验等形式的测验进行测量；针对传统测评筛查费时费力的问题，提出结合大数据和算法实现无侵扰大规模测量。在中国式教育考试现代化的背景下，这些方法技术创新为更客观、全面地评估学生的心理状态提供了可能，有助于更好地关注学生的整体发展，对于推进心理健康测评领域的技术创新和应用具有重要价值。

3.5　组织中的人事测评新视角

　　在组织中的人事测评专场报告中，与会者聚焦当前人事测评领域难题，结合层面理论、项目反应理论、认知诊断理论等测量理论和机器学习领域视角，针对测量工具的理论构想设计与验证、受测者作假及甄别、自适应题库的建设等一系列亟待解决的前沿问题展开探讨，为解决上述问题提供了充足的理论与数据分析模型。在前沿理论的指导下，与会者探讨了各测量形式及其应用优势：基于游戏的评估能够较好解决受测者的测验焦虑等问题；迫选测验和条件推理测验能够较好应对作答过程中受测者的作假行为倾向、具有较高的抗作假能力；而开放式情境测验则能够在具备高拟真性的同时，使用ChatGPT实现自动化评分。各专项报告从测评形式设计、受测者作答模式、测评数据分析、测评题库建设等角度出发，探索实践应用问题的理论解决方案，锚定理论研究构想的落地应用场景。在人工智能这一时代背景下，专项报告形成的智慧结晶为组织中的人才选拔与评估贡献新思路，为人事测评领域研究开阔新视野。

3.6　人机交互式测评技术探索

　　在人机交互式测评专场报告中，与会者从测评的任务设计、测评的数据分析和测评的实践应用3个角度出发，探讨了人机交互式测评、基于游戏的测评等人机交互式测评工具在心理测量领域的巨大潜力。所报告的研究多采用反应时间、眼动数据、过程性指标等丰富的数据类型对复杂任务进行分析，介绍如何使用序列分析、网络分析等方法，在过程性数据的帮助下分析任务完成过程中的个体差异。在新型测评的开发过程中，测验的设计思路、收集的过程性数据的类型和数量以及使用过程数据的方式都发生了巨大的变化；随着技术的不断发展与进步，新型测评还可能采集更广泛的数据，包括生物识别（如心率、面部表情）和基于手势的输入。技术的进步使得设计和开发各种精巧、便携的测评工具成为可能，随着统计建模和数据分析的发展，还可以实现更快地收集、分析、可视化评估数据，有助于在学习环境中进行更有效的测评。除此之外，基于交互性、新颖性、及时反馈等特点，交互式测评工具还可以被用于训练和辅助学习。人机交互式测评不仅可以帮助提升学生的思考能力和学习方式，而且有助于更加全面地评估学生的能力，在教育和考试领域具有广阔前景。

3.7　ChatGPT在心理与教育测评场景中的应用

　　在ChatGPT与心理教育测评专场报告中，与会者对以ChatGPT为代表的生成式AI大模型在心理教育测评领域中的现有及潜在应用场景进行了讨论。有学者报告了在作文自动化评分、开放式测验作答评分等任务上ChatGPT模型的表现，展示了ChatGPT在心理教育测评任务上的巨大潜力。此外，如何审视ChatGPT这种通用人工智能也成为热议的话题，有研究者从人格、高阶思维等视角，通过专业的心理测验工具对人类群体、ChatGPT、GPT4等进行了评价对比，提出GPT系列大模型尚存在的不足。这些研究结果对如何建立长久的人机协同机制、如何应用大模型改进心理教育测评等提出新的思路，对探索大语言模型技术如何服务于中国式教育考试现代化具有重要学术意义和参考价值。

3.8　教育质量监测和学业测评

　　教育质量监测和学业测评分会场的报告人来自高校、中小学和教育测评机构，报告主题涉及质量监测、测验改进、学习分析3个方面。与会者探讨了区域基础教育质量监测的需求和挑战，提出以整合的思路建构区域教育质量监测方案，以应对监测结果应用不足的问题；围绕测验的开发与改进，与会者探讨了测量理论和方法、心理学实验方法、人工智能与技术对命题和测验编制、测验实施、评分技术、分数报告等方面的进展；与会者还探讨了基于人工智能对学生学习过程的刻画，以及对不同类型学生的识别和帮助的策略，为教师的教学改进提供了新的可能。这3个方面的报告，充分体现出监测与改进融合、测评与学习融合、测验技术与人工智能融合的重要性与必要性。此外，也可以从与会者的交流中了解到，高校、中小学和教育机构的合作十分必要，且前景广阔。

3.9　人工智能时代教育测量学面临的挑战与机遇

　　在人工智能与教育考试专场报告中，与会者探讨了人工智能时代教育测量学面临的挑战和机遇，提出智慧考试学评融合的理论架构，把量子测量的思路和方法引入教育测量，为构建人工智能时代下的教育测量基础理论提供全新视角。在理论探讨的基础上，与会者还探讨了高校人才选拔中的热点和难点问题：针对高考综合改革中的选考科目等级计分问题，提出借助统考科目成绩为选考科目建立通用能力量尺的思路；为对标人工智能时代下的人才需求，提出从评价理念、试题呈现、评卷方式等维度改革考试内容和形式的思路。这些理论探讨和实践改革思路聚焦教育考试高质量发展，探索适应人工智能时代要求的教育考试新理论、新模型、新应用，打造为育人选才全过程服务的考试新业态，对于加快实现教育考试现代化具有十分重要的意义。此外，本场报告以教育考试机构中青年学者为主体，面对人工智能技术的发展，他们以数字化思维重构考试业务流程，对数字化考试业务系统进行学理化阐释、学术化表达，为教育考试学术共同体的建设和发展注入了新的活力。
　　经过为期两天的高密度学术交流，主题丰富、层次多样的研究报告使与会者充分了解教育与心理测量领域的前沿进展和热点问题，对如何利用技术进步、迎接技术挑战有了更为深入的思考，对人工智能浪潮下心理与教育测量未来发展趋势有了更加清晰的认识；各领域的专家学者也各尽所能，来自不同地区、不同类型单位的专家学者、研究生、中小学教师以及教育机构与企业的实践工作者等，相互平等交流、深入探讨学术问题、碰撞学术思想、助力学术互鉴，推动构建海峡两岸暨香港学术共同体的融合发展。
　　大会将“海峡两岸学术交流杰出贡献奖”郑重授予侯杰泰教授、吴武典教授、车宏生教授和冯伯麟教授等4位教授，以表彰他们在推动海峡两岸学术交流与合作中作出的突出贡献。另有24位参会代表获得“青年学者大会论文奖”。
　　特别感谢陈睿、曾平飞、涂东坡、詹沛达、田雪涛、李辉、王欣夷、程雪迎、张照辉等同志对本文的贡献。

参考文献：

图片5.png

第十四届海峡两岸心理与教育测验学术研讨会 暨全国教育统计与测量学术年会会议综述

骆方 王珊：第十四届海峡两岸心理与教育测验学术研讨会

暨全国教育统计与测量学术年会会议综述

第十四届海峡两岸心理与教育测验学术研讨会暨全国教育统计与测量学术年会会议综述

骆方王珊：第十四届海峡两岸心理与教育测验学术研讨会