
[作者简介]
季瑜,华南师范大学教育信息技术学院博士研究生;李文锋,华南师范大学教育信息技术学院硕士研究生;
李婷婷,博士,华南师范大学教育信息技术学院博士后、特聘副研究员;
詹泽慧,博士,华南师范大学教育信息技术学院教授、博士生导师。
[基金项目]本文系国家自然科学基金面上项目“基于事理图谱的计算思维智能导训模型及可解释性研究”(项目编号:62277018)、华南师范大学研究生科研创新计划项目“AIGC 支持创造性问题解决的模式构建与实证研究”(项目编号:2024KYLX009)的研究成果。
[摘 要] 跨学科主题教学设计的质量评价是提升课堂教学效能的关键。 现有研究在其评价标准的适切性、评价过程的客观性、评价效能的系统性、评价手段的时效性及评价结果的解释性等方面存在不足。 为此,本研究基于检索增强生成技术构建了概念群、问题链、目标层、任务簇与证据集评价智能体,并在此基础上采用“统筹智能体+工作流”的双重调度结构,构建了针对跨学科主题教学设计的多智能体评价系统(即机器专家)。 通过实验,研究对比了机器专家与人类专家在教学设计评价上的表现,发现:机器专家擅长通识问题纠错、正向激励与高效反馈;人类专家则擅长情境理解、价值判断与审美意趣。 基于此种人机互补性,研究提出了一个适用于跨学科主题教学设计的循证教研模式。 该模式前期由机器专家主导,遵循“计划—冲突—构想—反思—行动”的逻辑对教学设计进行循环改进;后期转由人类专家指导,按照“说课—共享—行动—展示—转化”的逻辑进行精准提升。 本研究为跨学科教研的提质增效提供了基于证据的实践方案。
[关键词] 跨学科主题教学设计;多智能体评价系统;循证教研模式;生成式人工智能;人机互补
一、引言
跨学科主题学习是培养学生跨学科素养的重要方式, 体现了国家对培养什么人及如何培养人的关键诉求(詹泽慧,等,2025)。 超过70%的教师认同跨学科主题教学的价值 (杨昕, 等,2024), 但仅有21.8%的教师能完成合格的教学设计(梁舒婷, 等,2024)。跨学科主题教学设计作为教学实施的系统性蓝图,其质量决定着课堂教学的实际效果。传统的方式是教师通过集体教研对跨学科主题教学设计进行讨论、评议与修订,但这种以人的主观经验为依据的评估方式受人力、时间和精力等条件制约,且无法常态化展开。 当前,生成式人工智能(generative artificial intelligence,GenAI)能够与人类进行实时且高效地交互,并具备在多模态环境下感知、推理与决策的能力(季瑜,等,2025)。 它可以通过应用程序编程接口(application programming interface,API)接入到各类智能体当中(季瑜,等,2024),并在多场景任务的评分中与人类专家保持一致(Li,et al.,2024)。 目前,多智能体已广泛应用于跨学科主题教学设计, 展现出良好的技术增值效益(董艳,等,2025;袁磊,等,2025)。 然而,已有研究对多智能体赋能跨学科主题教学设计的评价关注仍然有限。科学、有效地评价不仅有助于精准判断教学设计质量, 还能够切实提升跨学科教学的实施成效。在此背景下,如何统筹人类专家的经验智慧与机器专家①的智能算力,形成优势互补的评价合力,成为亟待深入探讨的问题。 为此,本研究首先梳理了当前跨学科主题教学设计评价中存在的主要问题,明确人机协同的评价需求;其次,构建并依托多智能体评价系统开展跨学科主题教学设计实证评价, 深入挖掘人与机双方在评价过程中的差异与互补潜力;最后,立足人机互补优势,提出基于跨学科主题教学设计的循证教研模式, 以促进教学设计的持续优化与教师专业发展。
二、跨学科主题教学设计评价的主要问题
跨学科主题学习的实施成效离不开教师对教学设计的“千锤百炼”。 对跨学科主题教学设计的评价既受制于“人”,也受制于“技”。 基于大语言模型的(large language model,LLM)的多智能体系统可推动跨学科主题教学设计的评价从经验驱动向数据驱动转型。
(一)传统视角下跨学科主题教学设计评价的问题
1.评价标准的适切性
自新课标实施以来,大单元、大概念、大问题等理念推动了学科教学设计朝着更加结构化、 实践化的方向发展。 然而, 这些理念主要根植于单学科逻辑,在跨学科主题教学设计中则存在适切性问题(刘登珲,等,2023)。 究其原因,不同专家与教育实践者对跨学科主题教学设计关键要素的认定存在分歧,导致尚无统一框架来明确评价标准。 其次,传统“目标—手段”模式(如泰勒模式)强调教学设计在目标、内容与方法之间的逻辑一致性 (Luttenberg,et al.,2013),在单学科情境中具有较高适配性。 但在跨学科主题教学设计中,由于起点通常为复杂问题情境,演进路径受到学生兴趣、资源动态、学科整合等多重因素影响, 目标、 任务与活动的生成往往不可预设(Wang,et al.,2020)。 因此,线性评价模型可能难以适用于非线性的跨学科主题教学设计。
2.评价过程的客观性
跨学科主题学习通常以某一主干学科为基础,辅以其他学科视角或方法来丰富问题解决路径 (詹泽慧,等,2023a)。 然而,这一模式在实践中常出现“学科稀释”与“学科拼凑”等现象,这在一定程度上源于教学设计的合理性与逻辑性缺失。 尽管集体教研在一定程度能够缓解上述问题, 但专家在评价过程中不可避免地受到其主修学科“认知图示” 的影响, 往往倾向于将教学内容纳入自身熟悉的学科框架进行判断,从而忽略跨学科教学设计的目的、方式及融合程度(郭子超,2024)。 此外,人类专家难以处理教学设计中非线性的知识网络, 学科交叉产生的概念越多,其认知负荷越大,评估的准确性也随之下降。一般而言,亲缘性学科(如文科与文科、理科与理科)间的概念整合相对容易,而异质性学科(如文科与理科)间的概念整合难度较大(詹泽慧,等,2024)。在评价异质性学科的跨学科教学设计时, 人类专家容易因“认知过载”而影响评价的客观性。
3.评价效能的系统性
跨学科主题教学设计的评价常受制于专家资源稀缺、反馈链条冗长、响应周期滞后等因素,致使教学设计的最佳修正窗口被反复错过 (宋宇, 等,2024)。 在教学设计初期,频繁试错与迭代原本有助于教师对核心概念与任务逻辑的深入理解, 但专家高质量反馈的缺位却使教学设计陷入“反复修改—低效反馈—策略固化”的循环。 研究表明,专家的反馈虽有价值(Close,et al.,1995),但在“专家—教研员—教师” 的层级传递中, 反馈内容易被简化和稀释,从而削弱最终指导效能。 此外,欠发达地区教师在跨学科主题教学设计中往往依赖标准化的教学模板,这种“被动规范性”容易使教学设计流于形式。同时,由于智力资源的不足,这些地区的教师在教学设计与实施过程中难以获取高质量的专家反馈与改进建议,进而影响跨学科主题教学的实际效果。上述问题使得斯坦伯(Stember,1991)提出的“真正跨学科性”在实践操作层面始终难以实现。
1.评价手段的时效性
教学设计不仅是教学实施的前提, 更是决定教学成败的基础(Sweller,et al.,2019)。 近年来,学习分析技术逐渐被用于教学改进。例如,邵明铭等(2022)通过采集学生的脑电波、心率和学习行为等数据,支持教师开展个性化教学;詹泽慧等(2023b)提出了融合知识与事理逻辑的细粒度教学行为分析方法;孙阳等(2024)通过TALIS项目对37个课堂观察指标进行分析, 揭示了以学生为中心教学行为的变化及其权重占比。 上述方式大多是基于课堂实录开展滞后性比较分析,尽管分析结果可对教师行为进行“补偿性修正”,但对当下学生的学习效果已难以产生实质性影响。在此背景下,部分实时课堂分析系统开始应用于教学实践(Hu,et al.,2024)。 这类系统的反馈主要聚焦于可量化的行为指标, 且对技术和资源要求较高。无论是事后分析还是实时分析,其报告均包含海量信息, 易造成教师难以准确把握改进的关键点。此外,这类技术在中小学课堂中的大规模部署仍面临设备短缺、隐私风险、数据解读等多重障碍,且在呈现教师设计动机、学科意图等“隐性教学逻辑”上仍缺乏有效途径。
2.评价结果的可解释性
随着GenAI技术的成熟,LLM已被用于单学科教学设计的快速诊断与生成式反馈。例如,王冬青等(2025) 构建了基于思维链提示回复的教育智能体,其生成的诊断报告在准确性和逻辑性方面表现较好。 穆肃等(2025)从“教学设计任务分解与规划”出发,配置专用智能体对教学设计方案进行诊断,但诊断的精确性仍有待提升。 总之,基于LLM的智能体可在较短时间内识别教学设计中的问题, 并基于语料库提供模板化建议,但也存在明显局限:其一,当前主流的LLM多基于通用语料进行预训练(Min,et al.,2023), 在未进行专用微调或注入跨学科教学场景知识的前提下,模型更倾向于生成“看似合理但实则空泛”的建议,其中带有“幻觉性”或“合理性偏差”的建议极易误导新手教师(Hicks,et al.,2024);其二,LLM当前仍主要依托语言模型的语义匹配与统计学习能力,其判断主要建立在语料相似度上,难以对跨学科主题教学设计中的“内容—目标—实践—评价”结构一致性开展逻辑推理(詹泽慧,等,2023a),导致诊断报告多停留于术语层面,忽视教学结构的系统性。
综上,以下问题亟待解决:一是明确跨学科主题教学设计的核心要素与评价标准,以解决“评什么”的根本问题; 二是构建跨学科主题教学设计专家知识库,为机器评价注入精准的领域知识,从数据源头保障专业性并抑制“幻觉”问题;三是部署多智能体评价系统,通过智能体间的分工与校验,在提升评价逻辑性与精确度的同时,减轻人类专家的认知负荷,破解评价过程中的主观性与迟滞性等难题。
三、面向跨学科主题教学设计的多智能体评价系统设计
单智能体在常规应用中表现出较低的灵活性及适应性(欧阳璠,等,2025),而多智能体因其包含多个分布式实体,且每个独立实体拥有自己的状态、动作和奖励信号, 可通过智能体间的协作或竞争共同完成复杂任务(刘石奇,等,2025)。 为了提升评价的精确性, 本研究基于检索增强生成 (retrieval-augmented generation,RAG)、工作流等技术,构建了用于评价跨学科主题教学设计的多智能体系统(见图1)。

图1 面向跨学科主题教学设计的多智能体评价系统架构
(一)跨学科主题教学设计评价标准的构建
尽管学界尚未对跨学科主题教学设计的核心要素达成共识, 但普遍认为其主要包括概念群、 问题链、目标层、任务簇及证据集(简称“C-POTE”)等要素(董 艳,等,2025;袁 磊,等,2025;詹 泽 慧,等,2023a)。 具体而言,“概念群” 是由学科大概念与跨(超)学科大概念所构成的集合;“问题链”由层层递进的主干问题与子问题串联而成;“目标层” 体现素养导向的层级化教学目标;“任务簇”由主干任务、子任务及具体活动构成;“证据集” 则用于收集反映学习成效的多维证据。 这些要素为构建结构化评价体系提供了基础。 此外,在多指标评价体系中,指标维度及权重的设定通常依赖专家共识或实证模型(Saaty,2008)。然而,本研究最终采用等权赋分策略,原因如下: 一是当前跨学科主题教学设计的核心要素并未形成共识; 二是在前期的两轮专家咨询中,7位专家之间也未形成一致意见 (Kendall’s W<0.5)。在此情形下,本研究选择等权赋分方法,以避免主观性干扰及保证决策中立性。同时,该设定也可为后续研究引入基于数据的权重优化方法(如加权回归、聚类加权等)提供基准参照。
本研究构建了总分为40分的结构化评分体系(见表1),概念群、问题链等五个维度各占8分,每个维度得分为其下属3项指标的均值。 单项评分采用8分制而非常见的5分或10分制,旨在提升区分度与操作性,避免评分过度集中或过于繁复。该评分结构既保证了维度间的权重平衡, 也为智能体的评分与解析提供了清晰的数据框架。
表1 跨学科主题教学设计评分指标体系

(二)基于RAG 的单个评价智能体设计
在厘清跨学科主题教学设计核心要素与评价指标体系的基础上,本研究基于“C-POTE”构建了五个相应的单智能体。 为确保智能体能够准确识别教学设计中的术语、结构与表述逻辑,本研究构建了结构化的专家知识库,并引入RAG作为每个智能体的运行基础(Lewis,et al.,2020)。 专家知识库包含:①课程标准文本、与跨学科主题学习相关的论文和专著,以及专家依据评价指标生成的评分记录与评审建议等,为教学设计提供系统化表达模型与术语框架;②跨学科主题教学设计的评分细则及不同质量层级的教学设计案例(人工标注),作为评分与建议生成的内容基准。
每个智能体均采用统一的三层结构处理任务。在数据输入层上, 智能体基于分段规则和显性线索进行语块提取,识别当前任务所需语义单元,并将关键语义单元转化为自然语言查询语句, 用于后续知识检索。在数据处理层上,智能体先从专家知识库中检索当前维度的评分指标,包括定义、评分要点与典型案例。随后,对教学设计文本执行语义切块与维度聚焦操作, 提取出与每一评分指标相关的语段与术语内容,将该语段、所匹配的评分指标及其评分标准一并整合,通过预设的提示词模板输入至LLM,完成逐项评分任务。评分过程中,提示词要求模型依据评分细则中的“指标定义”,结合案例示范,对教学设计文本逐项对比分析, 并在输出中附带每项评分的理由说明与判断依据, 以增强评分结果的可解释性与追溯性。在数据输出层上,智能体将模型输出的结果进行结构解析与格式化处理, 提取每一项指标的评分分值与判据说明,并按各维度设定的评分逻辑,自动对3项指标的得分进行平均计算, 生成维度总评分。同时,将评分等级、主要问题、修改建议与知识推荐等信息,整合为一份统一规范的结构化报告,并通过输出接口提交至后续模块。
(三)多智能体协同评价机制设计
单个评价智能体承载异质性较强的功能需求,仅凭平面化的并行操作难以实现结构一致性与任务闭环。 为此,本研究引入“统筹智能体(Meta-Agent)+工作流”的双重调度结构,将其作为多智能体系统运行的逻辑核心,以实现各模块之间的流程调度、语义衔接与结构对齐。
多智能体系统的运行遵循“结构识别—智能体调度—一致性校验—结果整合”的工作流展开。在结构识别阶段,Meta-Agent基于“C-POTE”五个核心要素, 对教师上传的教学设计文档进行文本解析与结构识别,提取其中关键语块并完成语义归属标注,为后续模块划分文本片段与明确任务指向提供基础。在智能体调度阶段,Meta-Agent依据教学设计的结构顺序逐一激活五个评价智能体, 使其独立完成本维度的内容分析、知识比对与评价生成,并将结果写入中间缓存, 供模块读取和参考。 在一致性校验阶段,Meta-Agent对各智能体输出的结构化内容进行对齐分析与逻辑校验 (如问题链是否准确承接概念群等),提升诊断结果的可靠性与解释力。 一旦检测到结构性脱节、不一致或冗余问题,系统将回溯触发相关维度的评价智能体重新加载任务, 以当前上下文和已输出结果为基础进行针对性修正与补充。 在结果整合阶段,Meta-Agent将五个智能体生成的评分等级、主要问题、修改建议与推荐资源归类整理,生成统一格式的结构化评价报告, 并通过交互接口反馈给教师用户。
为提升系统的易用性与交互友好性, 本研究在前端设计中引入自然语言交互机制, 构建出一个低门槛、高可解释性的人机交互界面。教师用户无需掌握复杂的提示词(prompt)指令,仅需上传教学设计文档并输入任务请求, 即可触发系统自动运行。 例如, 教师在平台对话框中输入:“@C-POTE智能评分,请你对上传的跨学科教学设计进行评价。 ”系统接收到该请求后, 立即启动后端流程。 然后,Meta-Agent根据任务结构进行维度识别与流程调度,实现对跨学科主题教学设计的结构化分析。最后,系统将整合后的评价结果以结构化报告形式呈现, 返回至交互界面供教师查阅与使用。
四、多智能体评价系统的应用与效果
为确保研究对象具备一定的跨学科教学设计能力及智能技术应用能力,本研究采用目的性抽样,从广东省某区域“跨学科教研共同体” 中遴选实验样本。最终入选的26位信息科技教师(14男,12女,平均年龄为32.95岁)具备以下特征:①具有2年及以上STEM或跨学科教学经验; ②主持或参与过至少1项跨学科教学项目; ③具有GenAI赋能教学设计与实施的经验; ④未开展过新课标导向下的跨学科主题教学设计。抽样依据如下:①降低参与者因跨学科教学设计能力不足而带来的内部效度风险; ②具备智能技术应用能力的教师, 能够更敏锐地评估多智能体系统的功能效用及其反馈质量。
跨学科主题学习是以某一学科课程内容为主干,运用并整合多学科知识和方法,开展综合学习活动的过程(詹泽慧,等,2023a)。本研究向教师提供了信息科技等学科的课程标准, 以及与跨学科主题学习相关的论文与著作, 要求教师自主研习并完成一份以信息科技为主干学科的跨学科主题教学设计。教师提交后, 机器专家与4位具有相同经验的人类专家(其中2位各评6份,2位各评7份)依据评分标准对教学设计进行评分,并写出评价意见。 随后,研究者将机器专家和人类专家给出的评价意见反馈给每位教师,要求他们对两份评价意见进行评分。依据反馈质量理论,有效评价应体现明确的标准、基于证据的判断、指向改进的建议、准确的问题定位及清晰易懂的表达等特征(Hattie,et al.,2007)。在此基础上,本研究结合跨学科主题教学设计的特点,形成了合理性、专业性、建设性、准确性与清晰性五个维度的评价量规(满分100分),请教师据此进行满意度评分并给出具体意见(见表2)。 为确保评价的公正性,研究者事先告知教师,两份教学设计的评分与意见均由人类专家提供, 并要求教师以匿名形式填写满意度评分与意见表。实验结束后,本研究通过随机抽样的方式对4位教师进行访谈。在访谈前,研究者向受访教师说明, 两份意见实际上分别由机器专家与人类专家生成。 访谈旨在了解教师对两类评价意见的真实感受与看法。 实验过程见图2。
表2 教师满意度评分量规


图2 研究过程
1.人机评分差异
(1)教学设计要素评分差异
由于人类专家与机器专家的评分数据不满足正态分布,故采用Wilcoxon符号秩检验进行配对比较。效应量通过秩二列相关(r)计算,其中,|r|≈0.1表示小效应,|r|≈0.3表示中等效应,|r|≈0.5表示大效应(Fritz,et al.,2012)。各个教学设计要素的描述性统计与检验结果见表3。 其中,机器专家在概念群(Z=-4.093,p<0.001,|r|=0.802)、问题 链(Z=-3.169,p=0.002,|r|=0.621),目标层(Z=-2.500,p=0.012,|r|=0.490,以及总得分(Z=-4.304,p<0.001,|r|=0.844)上的评分都显著高于人类专家,而在任务簇(Z=-1.155,p=0.248,|r|=0.226)及证据集(Z=-0.258,p=0.796,|r|=0.051)上的评分则与人类专家无显著差异。
表3 人类专家与机器专家评分比较

第一,概念群作为跨学科教学设计的起点,其质量直接影响后续设计逻辑的合理性。 人类专家通常从不同层级大概念(学科/跨学科/超学科)的关系,以及其在主题中的适配度与融合度等方面进行评判。由于教师是初次设计, 对于概念群的构建易出现理解偏差,因此人类专家打分偏低。 相较之下,机器专家侧重识别文本中的高频学科术语、概念标签等,在“准确性”“结构性”“整合性”等结构性要素上具备较强识别能力。但是,机器专家对语境及概念间联系的深层逻辑把握不足,容易对一些“表面合格型”教学设计给出高分。
第二, 问题链的设计质量高度依赖于概念群的构建。当大概念设定偏差或整合度不足时,问题链极易出现“空泛”“不聚焦”等问题,呈现出“一损俱损”的传递效应,因此,人类专家对此项的评分也较低。而机器专家通过识别“主问题→子问题” 的逻辑结构,在知识库中进行匹配后给出分数。一位受访教师表达:“看似递进的问题链, 到底能不能引发学生思考?我认为机器评判不了。”相比之下,人类专家则侧重于依据问题的探究性、 开放性与启发性进行综合判断。 一位专家在评价意见里写道:“虽然形式上分了主问题和子问题,但实际上只是知识延伸,难以真正启发学生思维。”这也解释了人类专家评分低于机器专家的原因。
第三,由于教师受限于自身学科经验,对素养目标的表述往往容易流于抽象、空泛,或仅偏重某一学科。人类专家评估聚焦的是目标的教学可行性、认知达成度与学段适切性,故评分比较低。一位专家批注道:“这个素养目标学生真的能达成吗? 它与大概念之间是否匹配? 目标能否兼顾多学科特征? ”相较之下, 机器专家主要基于结构匹配与关键词识别来判断表述是否包含“知识—思维—素养”三类目标,是否符合“动词+行为+条件”的形式。因此,机器专家对“格式完整”“关键词覆盖”等形式性指标赋予更高权重,但难以对目标背后的教学意图作出有效判断。
第四,任务簇的设计多具有明确的产出导向,譬如“使用二维码生成器和WPS设计植物的数字身份证”“通过编程实现太阳能板的转动”等。这类任务本身具有高度标准化的评价路径, 在支撑性和表现性等方面的判断标准也相对清晰。 机器专家凭借结构化提示与规则识别机制, 能够有效判断任务是否完整、是否真实、是否贴合主题,从而在该要素上呈现与人类专家较为一致的评分趋势。
第五,证据集采用“学习的评价—学习性评价—学习式评级”三要素模板,强调任务成果的可见性和多元性等。 多智能体系统能够基于上传的教学成果文本,从语义结构中提取与课程目标、任务要求相对应的成果内容, 并结合预设的评分模板与结构规则对证据集的合理性与规范性进行判断。 而人类专家对该维度的评价同样依托评价标准与成果规范,其评价逻辑与机器专家较为一致。
可见, 基于LLM的多智能体评价系统在处理显性知识结构(如关键词对齐、术语规范性)方面具有较高的敏感度与一致性。例如,机器专家在“学科与跨学科大概念表述是否正确”“目标格式是否符合动词+行为+条件” 等方面表现出规则驱动的结构性判断优势(Brown,et al.,2020)。 但这也可能导致其在面对格式规范、 表达完整的“合格型” 教学设计时出现“迎合性”输出,即给出较为空泛的建议或偏高的评分。
(2)主题类型对评分的影响
本研究发现, 跨学科主题类型会在一定程度上影响人类专家与机器专家评分的一致性。 结果显示, 机器专家给出的各教学设计要素评分及总分在自然科学与人文社科这两类主题之间均未出现显著差异。相比之下,人类专家在概念群(Z=-3.808,p<0.001)、问 题 链(Z=-2.473,p=0.017)及 总 分(Z=-2.987,p=0.002) 上对自然科学类主题给出了更高的评分,而在目标层、任务簇与证据集上差异不显著。具体数据详见表4。
表4 人类专家与机器专家在不同主题类型下的评分比较

自然科学类主题(如“信息科技+数学+科学”)因具备较强的知识结构性与逻辑稳定性, 更契合当前以LLM为基础的多智能体评价系统。 例如,科学课程标准提出的13个学科大概念及4个跨学科大概念,信息科技课程标准提出的“六条逻辑主线”,为教师构建概念群提供了清晰且结构化的支撑。 教师在内容层面组织好概念群后, 问题链的设计也据此展开(詹泽慧,等,2023a)。 机器专家通过关键词提取、术语比对与逻辑规则对教学设计质量进行判断,给出的评分与人类专家一致。
人文社科类主题(如“信息科技+语文+历史”)则在概念群建构上具有更强的主观性与解释弹性。 例如,“语言是表达思想情感和成果交流的基础” 等大概念, 表征形式高度依赖教师的经验性转化与语境感知。当前,人文社科类学科尚未建立系统性的大概念框架(张俊列,等,2024)。因此,当多智能体系统无法在专家知识库中找到明确匹配项时, 只能依赖通用LLM进行生成性补全,导致输出内容往往语义空泛或立场中性,呈现出“语义迎合性”的特点。而人类专家基于自身教学与研究经验,能从价值观念、文化精神、 意义体系等方面判断概念群与问题链的合理性,因此在该类主题上评分更加严苛。
综上,自然科学类主题因其具备“结构稳定—逻辑闭合—术语一致”的显性特征,使机器专家能够在识别概念层次与逻辑关系时, 表现出更高的评分准确性与判定稳定性。相比之下,人文社科类主题具有“语义开放—经验依赖—结构非线性” 的隐性特征,呈现出更高的解释空间和情境依赖性, 更依赖人类专家的情境理解与专业判断。在这类主题中,机器专家可能因难以充分捕捉隐含语义与复杂语境而出现偏高的评分或错判的情况。
2.人机评价意见的教师满意度比较
教师的满意度评分数据服从正态分布, 故采用配对样本t检验进行分析(见表5)。教师对人类专家(M=91.58,SD=3.81)与机器专家(M=90.38,SD=3.97)的评价意见均具有较高满意度, 但二者差异依旧显著(t=3.20,p=0.004),平均差异为1.19分,具有中等水平的统计学显著性(Sawilowsky,2009)。
表5 教师对评价意见满意度检验结果

首先,由于实验设计中有意隐藏反馈来源,所有教师都认为两份反馈建议均来自人类专家。 因此,教师在对评价建议打分时,可能会出于“资源理性”的考量——即在“专家权威性”与“意见中肯性”之间寻求平衡, 致使两份反馈的评分整体较高且分布趋于一致。 一位教师表示:“两份反馈建议都比较专业,指出了我的教学设计中存在的问题。 ”其次,在任务密集、目标导向性强的实验情境中,教师可能出于“配合研究”的动机而倾向于快速完成评价任务,对两份反馈都表达出“看起来挺合理”的笼统认可。 一位教师坦言:“由于时间原因,我没有仔细对每一条建议进行详细思考和分析,都说得挺有道理,因此给了比较高的分数。 ”最后,受集体主义文化中“和谐”取向的影响,教师在反馈评价中更倾向于回避批评, 给予正向回应。 这可能提高了满意度评分,同时掩盖了教师对部分反馈内容在准确性、简明性或适切性等方面的意见。
其次, 教师普遍对人类专家的评价意见表现出更高的满意度, 因为人类专家能够明确指出教学设计中存在的关键问题,如“在概念整合上缺乏跨学科联系”“问题链的设计不足以激发学生的高阶认知活动”等。 尽管这类反馈在表述上略显消极,但为教师提供了具有针对性及反思价值的改进方向, 体现出人类专家在“促进性评价”中的重要作用(Li,et al.,2023)。 然而,有教师写道:“专家1(人类专家)明确指出各设计要素存在的问题及彼此间的逻辑关系,但并没有指出应该怎么修改, 我理解这些评价意见还存有困难。 ”因此,若教师未能解决跨学科主题教学设计中存在的通识性问题, 人类专家的反馈效能将被削弱, 他们甚至需要对相似的基础性问题进行多次解释与纠正。
相较之下, 机器专家在评价语言上更具支持性与鼓励性,通常采用“优点+改进建议”的结构呈现评价意见, 这有助于激发教师的设计动机与自我效能感(Ji,et al.,2025)。 一位教师写道:“专家2(机器专家)的意见给了我很大的信心,指出了我拟定的跨学科主题教学设计在各个要素上存在的问题, 并给出了具体的修改意见和推荐资料。”机器专家能够指出教学设计初稿中存在的通识性问题, 帮助教师厘清概念群、问题链、目标层等多个构成要素。 因此教师对机器专家评分的满意度较高。然而,机器专家在解释教学设计问题方面的深度依旧有限, 其评析主要停留在表层, 难以揭示设计中潜在的逻辑关系或根本性问题。这一发现与现有研究相符,即GenAI易生成“符合预期、回避冲突”的内容(Steiss,et al.,2024)。
3.面向人机优势互补的实践启示
本研究揭示了人类专家与机器专家在跨学科主题教学设计评价中的差异化及各自优势。 机器专家在识别文本高频术语、概念标签、任务结构等显性要素方面表现突出, 能够快速锁定通识性问题并提供正向性、结构化反馈;但在理解语境逻辑、概念关联及教学意图等方面存在局限, 且易对表面符合标准的设计给出虚高评分。相较而言,人类专家凭借自身丰富的教学与研究经验,对探究深度、学段适切性、价值取向及教学意图等方面具备敏锐判断力, 能够把握设计整体合理性与深层逻辑; 但对教学设计中的通识性问题需反复指出与纠正。本研究认为,机器专家提供的正向性鼓励与人类专家提供的批判性反馈可互为补充,形成“内脑—外脑”协同(詹泽慧,等,2023b),进而实现领域互补、层次互补、方式互补、分工互补,从而产生“1+1>2”的效应(见表6)。
表6 人类专家与机器专家优势互补机制

五、人机协同循环纠错:基于跨学科主题教学设计的循证教研模式构建
(一)模型构建
基于实证发现,本研究构建了“结构层(机器)—价值层(人类)”的协同机制:由机器专家在前期承担前置结构筛查与激励型反馈, 而人类专家在后期主导高阶判断与促进性评价,以优化评审分工,增强教师投入,并推动跨学科主题教学设计的迭代。机器专家所输出的结构化评分、问题识别与改进建议,以及人类专家在群体协商过程中产生的反馈与建议,共同构成了为教学设计迭代提供支持的“证据池”。 循证实践理论认为, 教学决策应建立在 “最佳可得证据”基础之上(Davies,1999)。 依托这些证据,教师可减少教学设计中的潜在偏误, 从而提升设计的一致性、规范性与逻辑性。同时,行动中的反思理论认为,学习者能够在行动和反思中丰富对问题和方案的理解(El-Dib,2007)。 教师应加强对教学设计的反思,在反思中追问教学设计背后的育人价值与审美表达,推动教学设计从“可实施”走向“有意义”。
本研究以循证实践理论与行动中的反思理论为指导,在把握人机互补优势的基础上,构建了基于跨学科主题教学设计的循证教研模式(见图3)。 在教研前期, 教师与机器专家进行多轮交互, 按照“计划—冲突—构想—反思—行动”的路径,对教学设计中存在的通识性问题进行修正;在教研后期,教师与人类专家组成跨学科教研共同体, 按照“说课—共享—行动—展示—转化”流程,解决教学中的情境性问题,并实现教学设计的人本创新。教师需充分利用不同环节产生的证据: 前期借助循证反馈确保教学设计“做得对”,后期通过行动反思探寻如何将教学设计“做得好”且“做得有意义”。

图3 基于跨学科主题教学设计的循证教研模式
1.机器专家提供多轮反馈与错误纠正
跨学科主题学习作为一种“新事物”,对教师来说依然存在较大挑战。在教研前期,通过与机器专家进行多轮交互, 教师既可以修正自身对设计要素的偏差性理解, 也能在机器专家的正向反馈支持下调节畏难情绪。
(1)计划:设定任务要求。 教师在自主研习和教学思路初步成型的基础上, 将拟定的跨学科主题教学设计上传至平台,并设定任务要求,指定某一或多个维度(如概念群建构、问题链转化等)为反馈重点,说明个人理解与困惑点, 要求多智能体系统在理解后输出相应反馈。
(2)冲突:呈现认知差异。 多智能体系统基于预设指标进行诊断,输出维度评分、评价意见、主要问题与知识推荐等信息。 这些反馈会直接挑战教师对自身设计“已趋完善”的预设。例如,机器专家指出的“核心概念界定模糊”或“任务与目标关联度弱”等通识性问题,能够将教师未察觉的认知盲区显性化,触发其深度思考。
(3)构想:拓展理解路径。当教师对系统的反馈感到困惑时,应从被动接收转为主动探究。一方面,通过与机器专家展开苏格拉底式对话,层层深入地厘清术语内涵与反馈内容;另一方面,通过查阅外部资料(如课标、文献、案例)对机器专家的反馈进行验证与补充,将其化为自身能理解、可运用的教学设计知识。
(4)反思:反思设计问题。 反思的核心在于教师对内外信息进行整合与判断。教师通过比对“自身原有的设计逻辑”与“新获取的外部证据”,在批判性分析的基础上校正自身的设计逻辑。 当与部分反馈存在认知不一致时, 教师可与机器专家再次交互以明确后者反馈的意图。
(5)行动:教学设计改进。 行动是教师将反思所得转化为具体改进方案的关键步骤。 此阶段并非简单地按反馈清单逐一修补, 而是教师在深化理解的基础上,有选择、有创造性地进行再设计。例如,教师重新设计表现性任务使其证据可观测、可评估。修订后的教学设计再次上传至平台, 触发新一轮评价反馈,实现人机交互的螺旋式循环演进。
2.人类专家领衔的教研讨论
育人本质具有不可被完全技术化复现的特征,这决定教学设计必须遵循“人类主体性”原则。 机器专家的反馈数据为教研共同体的研讨提供参照,有助于成员聚焦教学设计的高频问题, 并增强教学设计的人本性。
(1)说课:授课教师阐释。 授课教师对迭代后的教学设计进行系统性阐述 (包括设计理念、 主题结构、设计要素等),并同步展示人机互动中多智能体系统生成的反馈结果,从而为后续研讨提供“证据”锚点, 使人类专家能够快速定位教学设计中的高频问题与潜在优化点。
(2)共享:群体智慧涌现。 教研共同体成员基于各自专业判断与教学经验, 重点围绕教学设计中难以被机器量化的维度(如价值引领、教学艺术等)开展深度研讨。通过观点碰撞与经验共享,教师能够对教学设计产生更深入的理解。
(3)行动:教学设计改进。 教师基于教研共同体提出的建议、 多智能体系统的反馈及自身的教学经验,对原有教学设计进行深度重构。 此时,教学设计的优化不再局限于逻辑性或合理性层面, 而是上升到价值引领、主题审美与教学艺术等高阶层面。
(4)展示:教研成果检验。 教学设计的最终价值需通过实践中的“生成性验证”体现。 教师在真实环境中授课,以检验教研成果的可行性与有效性。而教学的“生成性事件或数据”也会为后续教学设计提供参考,促进教研成果的提炼与教学策略的优化。
(5)转化:教研成果凝练。在人类专家指导下,教师将优化后的教学设计、教学反思、学生学习表现等过程性材料,转化为论文、案例、课题等多类型科研成果。这一过程不仅实现了教学资源的知识化、理论化表达, 也推动了教师的角色从教学实践者向知识生产者跃迁。
(二)运行机制
为保障该模式有效运行,本研究从“人”“技”视角提出该模式的运行机制。
(1)技术维度:构建数据驱动与知识进化的支持体系。 第一, 教师应基于人机交互数据进行专业反思。 人机交互数据不仅为教师提供自我诊断与反思的客观依据, 也构成教师教学行为改进的过程性证据。相较于传统教研的“黑箱”状态,系统化的人机交互数据通过将教师发展路径可视化, 有助于提升其专业成长的透明度与可追踪性。第二,多智能体系统的专家知识库应保持动态更新。 多智能体系统通过支持教师上传典型案例、 调取前沿研究与输入新知识, 实现反馈逻辑与评价指标的实时微调。 这即是说,机器专家并非固定规则的执行者,而是在实践中不断优化其知识结构与反馈策略,具备“随着教师成长而成长”的发展性适应能力。
(2)人类维度:强调共同体智慧与成果转化的专业路径。 第一,教师教研活动应设置专家指导小组。在这一环节, 人类专家负责引导教师对多智能体系统提供的反馈进行意义建构与价值判断, 尤其应在育人导向、 设计意图与审美表达等机器难以触及的层面为教师提供专业支持。第二,教研成果应落脚于知识产出。在专家指导下,教师可将优化后的教学设计用于课题、案例或论文撰写,实现从教学行为到教研成果的转化,拓宽教师的专业成长通道。
六、研究结语与展望
跨学科主题学习作为落实课标的抓手, 其成效很大程度上取决于教学设计的质量。 针对跨学科主题教学设计评价的主要问题,本研究基于RAG技术设计了“概念群—问题链—目标层—任务簇—证据集” 五个评价智能体, 并据此构建多智能体评价系统,实现对跨学科主题教学设计的评价。实验结果揭示了人类专家与机器专家在评价上的优势互补机制。基于此,本研究提出了基于跨学科主题教学设计的循证教研模式, 将前期 “计划—冲突—构想—行动—反思”的循环改进逻辑与后期“说课—共享—行动—展示—转化”的精准改进逻辑相结合,旨在实现跨学科教学质量从“毛坯”到“精装”。然而,本研究仍存在一些局限性:一是相较于自然科学,人文社科类概念群的聚类设计更为主观和困难, 这使得评价的精确性降低。 二是本研究在探索多智能体评价系统的应用效果时, 仅关注了以信息技术为主干学科的跨学科主题教学设计,尚未扩展至其他主干学科。三是文中最后提出的教研模式, 其有效性有待准实验研究检验, 具体实施方案也需在基于设计的研究中迭代优化。
①在本文中,“机器专家”指代基于检索增强生成技术、工作流机制与统筹智能体协同运作的多智能体评价系统,能够模拟人类专家的分析逻辑与判断路径,从而形成一种可与人类专家进行对照的“准专家化”智能代理。
(免责声明:本文转载于《远程教育杂志》公众号,转载旨在分享与交流,版权归属原作者,文中观点与本栏目无关!如涉侵权,联系立删!))