人工智能在教育领域:是辅导老师、答案捷径,还是全新的学校基础设施?
教育中的 AI 不是单一技术。它是一整套工具包:自适应导师、生成式语言模型、自动评估、学习分析、组织聊天机器人和支持教师的系统。从 OECD、UNESCO 的报告以及最新的研究综述得出的最重要的结论是简单的:AI 可以提高学校的学习成果和工作效率,但前提是它必须植根于合理的教学法中。 如果 AI 充当了获取即时答案的捷径,那么完成任务得更好并不一定意味着学习得更深入。学生可能会提交一份更完美的作业,但在工具移除后却无法解释其推理过程。这一区别对于家长、教师、校长和国家来说至关重要。 对于波兰来说,这个话题非常具体。NASK 在 2025 年指出,生成式 AI 已经进入了学校实践:许多青少年使用像 ChatGPT 这样的工具进行学习和家庭作业,而一些家长甚至不知道他们的孩子是否使用了这类系统。因此,学校不能假装 AI 只是未来的事物。 教育中的 AI 是什么? UNESCO 广泛描述了教育中的 AI:作为支持学习、教学、评估和组织教育系统的技术。OECD 补充说,现代生成式 AI 是独特的,因为它易于使用,通常成本低廉或免费,并且在机构控制之外得到应用。 在实践中,值得区分四种主要的工具类型。 自适应导师 根据学生的进度调整任务、节奏和提示。 生成模型 创建文本、摘要、问题、反馈和对话模拟。 自动评分 有助于快速检查简短答案或书面作品的特定特征。 学习分析 分析学生进度的数据、日志和行为,以触发教师警报或干预。 将这些工具混为一谈会导致错误的决策。一个设计用于学习数学的导师与通用聊天机器人运行方式不同。分析仪表板不会“教学”,但它可以帮助老师更快地发现问题。自动评分提供了规模化评估,但这并不意味着仅仅因为它是算法化的就具有中立性。 研究真正揭示了什么? 最强大的历史证据涉及智能辅导系统。Kulik和Fletcher在2016年的一项经典荟萃分析涵盖了50项对照评估,显示的中位效应值为0.66个标准差。这是一个强有力的结果,但它涵盖了不同的技术时代,并不能自动说明每个教育聊天机器人都能达到这样的效果。 较新的K-12综述更为谨慎。斯坦福SCALE在2026年的一份报告中分析了来自AI Hub for Education存储库的800多项研究,指出只有20项提供了更强的因果证据。结论是实用的:当学生能够使用人工智能时,其任务表现通常会得到改善,但在断开工具后知识迁移可能会较弱或不一致。 学习分析通常会带来积极但温和的效果。它最擅长支持那些可以清晰衡量和修正的内容:声明性知识、任务进展以及延误风险。然而,对于长期自我调节能力、社交能力和幸福感的发展,它的效果则较差。 关于生成式AI的证据是最新的。荟萃分析和综述指出,它有潜力提高成绩、动机和参与度,但许多研究都集中在大学、短期干预和定义明确的任务上。关键细节是:当使用AI得到教师支持时,效果明显优于让学生缺乏结构自行使用的情况。 最重要的问题:完成任务不等于学习 经合组织(OECD)警告说,如果没有明确的教学目标,生成式AI可能会提高工作成果,但不能保证提升学生的实际能力。这是最现实的风险。学生可能更快地写出一篇论文、解决一个问题或准备一份演示文稿,但如果AI替他们完成了关键的推理步骤,学校得到的将是一个漂亮的“产品”,而不是学习的过程。 因此,优秀的教育AI应该更频繁地提问、引导和要求解释,而不是直接给出现成的答案。最佳用法是“陪练伙伴”(sparring partner):一个会要求提供理由、指出错误、提出类比并鼓励改进的工具。最差的用法则是代笔(ghostwriter),它负责产出最终的作品。 工具类型:益处与风险 工具类型 益处 风险 自适应导师 根据学生水平调整任务和提示。 在狭窄的领域内效果最好;不能取代师生关系。 生成模型 解释、示例、反馈、24/7可用性。 幻觉、过度依赖、断开工具后缺乏迁移能力。 自动评分 速度、规模和即时反馈。 奖励格式而非推理的风险;公平性问题。 学习分析 早期发现问题和更好地定位支持。 监控、错误预测、缺乏实际可用性的仪表板。 案例研究 乔治亚州立大学:作为流程支持的聊天机器人 最著名的例子不是“机器人老师”,而是 Pounce 聊天机器人,它在学生开始学习前帮助他们处理各种手续。在一项随机实验中,接受支持的学生按时注册的概率提高了 3.3 个百分点。这表明 AI 在流程可重复、数据可用且信息可以精确匹配学生情况的地方能迅速发挥价值。 物理学习中的 AI 导师 发表在 Scientific Reports 上的研究表明,精心设计的 AI 导师在特定背景下,与主动学习课程相比,可以提高成绩并缩短学习时间。这是一个重要的信号,但不能证明任何聊天机器人都能取代老师。这项成功涉及的是设计良好的工具、具体的材料和受控的干预措施。 Estonia AI Leap 爱沙尼亚的 AI Leap 项目正在欧洲受到关注,因为它结合了工具的可及性、教师培训以及对伦理、自我调节和批判性使用的强调。这是一个实施政策的例子,但不能作为有效性的最终证明。整个项目的硬性、独立结果才是关键。 波兰:基础设施正在增长,标准必须跟上实践 波兰已经有大型的基础设施项目。教育数字化转型政策包括AI/STEM实验室、数字能力发展和教师培训等。KPO为学校增加了设备。这很重要,但仅仅配备教室无法回答学生是否学得更好的问题。 最大的缺失在于实施标准:学校如何评估工具、保护学生数据、衡量教学效果、区分帮助和代劳,以及如何为教师使用AI做准备。没有这些,我们面临的风险是缺乏教育学指导的数字化:设备很多,演示文稿很多,但关于实际学习的证据太少。 不容忽视的风险 幻觉和答案质量。 如果学校将聊天机器人视为知识来源,而不是需要验证的助手,错误的答案就会成为教学错误。 不公平的评估。 自动评分系统可能更好地识别风格,而不是推理的准确性。在高风险的评估中,这种风险尤为危险。 儿童隐私。 学生数据可能包括成绩、行为、教育困难、健康和学习档案。GDPR(通用数据保护条例)、数据最小化原则和透明度不是附加项,而是实施的先决条件。 接入不平等。 数字鸿沟并不仅限于互联网。它还包括设备、资源质量、父母的能力、教师的准备以及优质工具的成本。 削弱教师工作。 AI可以节省时间,但如果它在没有反思的情况下接管了任务设计、评估和沟通,学校就会失去教育质量。教师应该保持流程的设计者,而不是自动模板的操作员。 这对父母意味着什么? 孩子们已经在使用AI,即使成年人没有注意到。没有沟通的禁令通常是无效的。更好的方法是提出三个常规问题:你用AI做什么?你如何知道答案是正确的?如果没有它你能做到什么? 父母不需要了解所有工具。但他们应该帮助孩子区分帮助和代劳,保护个人数据,并理解聊天机器人即使出错也可能听起来非常肯定。 这对教师意味着什么? 如果一个任务可以用一个提示词(prompt)很好地完成,问题就不只出在学生身上。问题在于任务的构建方式。评估必须转向过程:草稿版本、作品集、口头辩护、阶段性工作、本地化任务和需要证明决策依据的问题。 AI可以帮助教师准备不同级别的材料变体、示例、练习、草稿反馈和进度分析。然而,它不应取代专业的评估、教育关系或对内容真实性的责任。 这对公共政策意味着什么? 在欧盟,AI法案正在改变背景。关于人工智能素养的第4条将于2025年2月2日生效,要求提供和使用AI的实体确保用户具备适当水平的能力。教育也是部分AI应用可能被归类为高风险的领域,特别是当系统影响学生的学习机会、评估或监控时。 因此,公共政策不仅应该资助设备和许可证,还应该资助效果评估。每个大型试点项目都应有衡量无AI转移、福祉、公平性、数据保护和成本的指标。否则,决策将更多地基于供应商的承诺而非证据。 学校的最低要求 学生和教师使用AI的允许原则。 采购和实施阶段的隐私和GDPR核对清单。 面向教师、学生和学校行政人员的人工智能素养计划。 评估工具是否改善学习而非仅仅缩短工作时间的程序。 新的评分规则:过程、论证、作品辩护和分阶段作业。 结论 教育中的AI的意义不在于作为学校的替代品,而是作为一个经过四个过滤器的工具:教学法、人工监督、数据保护和效果评估。没有这些过滤器,它可能会加速生成漂亮的答案,同时减缓真正的学习过程。 最好的AI学校不会是聊天机器人做得最多的学校。而是学生理解何时使用工具、何时不信任它、如何核实答案以及如何独立解释自己推理过程的学校。 来源 OECD:数字教育展望 2026 UNESCO:教育和研究领域生成式人工智能指南 UNESCO:各国政府必须迅速规范学校的生成式人工智能 NASK:波兰学校中的生成式人工智能 Stanford SCALE:K-12 领域人工智能的证据基础 Kulik, Fletcher:智能辅导系统(ITS)的有效性 Scientific Reports:AI辅导优于课堂主动学习 EU AI Act Service Desk:第四条人工智能素养 欧盟委员会:关于人工智能和教育数据教师的指南 联合国教科文组织:教师和学生的人工智能能力框架