人工智能在教育领域：是辅导老师、答案捷径，还是全新的学校基础设施？

教育中的 AI 不是单一技术。它是一整套工具包：自适应导师、生成式语言模型、自动评估、学习分析、组织聊天机器人和支持教师的系统。从 OECD、UNESCO 的报告以及最新的研究综述得出的最重要的结论是简单的：AI 可以提高学校的学习成果和工作效率，但前提是它必须植根于合理的教学法中。如果 AI 充当了获取即时答案的捷径，那么完成任务得更好并不一定意味着学习得更深入。学生可能会提交一份更完美的作业，但在工具移除后却无法解释其推理过程。这一区别对于家长、教师、校长和国家来说至关重要。对于波兰来说，这个话题非常具体。NASK 在 2025 年指出，生成式 AI 已经进入了学校实践：许多青少年使用像 ChatGPT 这样的工具进行学习和家庭作业，而一些家长甚至不知道他们的孩子是否使用了这类系统。因此，学校不能假装 AI 只是未来的事物。教育中的 AI 是什么？ UNESCO 广泛描述了教育中的 AI：作为支持学习、教学、评估和组织教育系统的技术。OECD 补充说，现代生成式 AI 是独特的，因为它易于使用，通常成本低廉或免费，并且在机构控制之外得到应用。在实践中，值得区分四种主要的工具类型。自适应导师根据学生的进度调整任务、节奏和提示。生成模型创建文本、摘要、问题、反馈和对话模拟。自动评分有助于快速检查简短答案或书面作品的特定特征。学习分析分析学生进度的数据、日志和行为，以触发教师警报或干预。将这些工具混为一谈会导致错误的决策。一个设计用于学习数学的导师与通用聊天机器人运行方式不同。分析仪表板不会“教学”，但它可以帮助老师更快地发现问题。自动评分提供了规模化评估，但这并不意味着仅仅因为它是算法化的就具有中立性。研究真正揭示了什么？最强大的历史证据涉及智能辅导系统。Kulik和Fletcher在2016年的一项经典荟萃分析涵盖了50项对照评估，显示的中位效应值为0.66个标准差。这是一个强有力的结果，但它涵盖了不同的技术时代，并不能自动说明每个教育聊天机器人都能达到这样的效果。较新的K-12综述更为谨慎。斯坦福SCALE在2026年的一份报告中分析了来自AI Hub for Education存储库的800多项研究，指出只有20项提供了更强的因果证据。结论是实用的：当学生能够使用人工智能时，其任务表现通常会得到改善，但在断开工具后知识迁移可能会较弱或不一致。学习分析通常会带来积极但温和的效果。它最擅长支持那些可以清晰衡量和修正的内容：声明性知识、任务进展以及延误风险。然而，对于长期自我调节能力、社交能力和幸福感的发展，它的效果则较差。关于生成式AI的证据是最新的。荟萃分析和综述指出，它有潜力提高成绩、动机和参与度，但许多研究都集中在大学、短期干预和定义明确的任务上。关键细节是：当使用AI得到教师支持时，效果明显优于让学生缺乏结构自行使用的情况。最重要的问题：完成任务不等于学习经合组织（OECD）警告说，如果没有明确的教学目标，生成式AI可能会提高工作成果，但不能保证提升学生的实际能力。这是最现实的风险。学生可能更快地写出一篇论文、解决一个问题或准备一份演示文稿，但如果AI替他们完成了关键的推理步骤，学校得到的将是一个漂亮的“产品”，而不是学习的过程。因此，优秀的教育AI应该更频繁地提问、引导和要求解释，而不是直接给出现成的答案。最佳用法是“陪练伙伴”（sparring partner）：一个会要求提供理由、指出错误、提出类比并鼓励改进的工具。最差的用法则是代笔（ghostwriter），它负责产出最终的作品。工具类型：益处与风险工具类型益处风险自适应导师根据学生水平调整任务和提示。在狭窄的领域内效果最好；不能取代师生关系。生成模型解释、示例、反馈、24/7可用性。幻觉、过度依赖、断开工具后缺乏迁移能力。自动评分速度、规模和即时反馈。奖励格式而非推理的风险；公平性问题。学习分析早期发现问题和更好地定位支持。监控、错误预测、缺乏实际可用性的仪表板。案例研究乔治亚州立大学：作为流程支持的聊天机器人最著名的例子不是“机器人老师”，而是 Pounce 聊天机器人，它在学生开始学习前帮助他们处理各种手续。在一项随机实验中，接受支持的学生按时注册的概率提高了 3.3 个百分点。这表明 AI 在流程可重复、数据可用且信息可以精确匹配学生情况的地方能迅速发挥价值。物理学习中的 AI 导师发表在 Scientific Reports 上的研究表明，精心设计的 AI 导师在特定背景下，与主动学习课程相比，可以提高成绩并缩短学习时间。这是一个重要的信号，但不能证明任何聊天机器人都能取代老师。这项成功涉及的是设计良好的工具、具体的材料和受控的干预措施。 Estonia AI Leap 爱沙尼亚的 AI Leap 项目正在欧洲受到关注，因为它结合了工具的可及性、教师培训以及对伦理、自我调节和批判性使用的强调。这是一个实施政策的例子，但不能作为有效性的最终证明。整个项目的硬性、独立结果才是关键。波兰：基础设施正在增长，标准必须跟上实践波兰已经有大型的基础设施项目。教育数字化转型政策包括AI/STEM实验室、数字能力发展和教师培训等。KPO为学校增加了设备。这很重要，但仅仅配备教室无法回答学生是否学得更好的问题。最大的缺失在于实施标准：学校如何评估工具、保护学生数据、衡量教学效果、区分帮助和代劳，以及如何为教师使用AI做准备。没有这些，我们面临的风险是缺乏教育学指导的数字化：设备很多，演示文稿很多，但关于实际学习的证据太少。不容忽视的风险幻觉和答案质量。如果学校将聊天机器人视为知识来源，而不是需要验证的助手，错误的答案就会成为教学错误。不公平的评估。自动评分系统可能更好地识别风格，而不是推理的准确性。在高风险的评估中，这种风险尤为危险。儿童隐私。学生数据可能包括成绩、行为、教育困难、健康和学习档案。GDPR（通用数据保护条例）、数据最小化原则和透明度不是附加项，而是实施的先决条件。接入不平等。数字鸿沟并不仅限于互联网。它还包括设备、资源质量、父母的能力、教师的准备以及优质工具的成本。削弱教师工作。 AI可以节省时间，但如果它在没有反思的情况下接管了任务设计、评估和沟通，学校就会失去教育质量。教师应该保持流程的设计者，而不是自动模板的操作员。这对父母意味着什么？孩子们已经在使用AI，即使成年人没有注意到。没有沟通的禁令通常是无效的。更好的方法是提出三个常规问题：你用AI做什么？你如何知道答案是正确的？如果没有它你能做到什么？父母不需要了解所有工具。但他们应该帮助孩子区分帮助和代劳，保护个人数据，并理解聊天机器人即使出错也可能听起来非常肯定。这对教师意味着什么？如果一个任务可以用一个提示词（prompt）很好地完成，问题就不只出在学生身上。问题在于任务的构建方式。评估必须转向过程：草稿版本、作品集、口头辩护、阶段性工作、本地化任务和需要证明决策依据的问题。 AI可以帮助教师准备不同级别的材料变体、示例、练习、草稿反馈和进度分析。然而，它不应取代专业的评估、教育关系或对内容真实性的责任。这对公共政策意味着什么？在欧盟，AI法案正在改变背景。关于人工智能素养的第4条将于2025年2月2日生效，要求提供和使用AI的实体确保用户具备适当水平的能力。教育也是部分AI应用可能被归类为高风险的领域，特别是当系统影响学生的学习机会、评估或监控时。因此，公共政策不仅应该资助设备和许可证，还应该资助效果评估。每个大型试点项目都应有衡量无AI转移、福祉、公平性、数据保护和成本的指标。否则，决策将更多地基于供应商的承诺而非证据。学校的最低要求学生和教师使用AI的允许原则。采购和实施阶段的隐私和GDPR核对清单。面向教师、学生和学校行政人员的人工智能素养计划。评估工具是否改善学习而非仅仅缩短工作时间的程序。新的评分规则：过程、论证、作品辩护和分阶段作业。结论教育中的AI的意义不在于作为学校的替代品，而是作为一个经过四个过滤器的工具：教学法、人工监督、数据保护和效果评估。没有这些过滤器，它可能会加速生成漂亮的答案，同时减缓真正的学习过程。最好的AI学校不会是聊天机器人做得最多的学校。而是学生理解何时使用工具、何时不信任它、如何核实答案以及如何独立解释自己推理过程的学校。来源 OECD：数字教育展望 2026 UNESCO：教育和研究领域生成式人工智能指南 UNESCO：各国政府必须迅速规范学校的生成式人工智能 NASK：波兰学校中的生成式人工智能 Stanford SCALE：K-12 领域人工智能的证据基础 Kulik, Fletcher：智能辅导系统（ITS）的有效性 Scientific Reports：AI辅导优于课堂主动学习 EU AI Act Service Desk：第四条人工智能素养欧盟委员会：关于人工智能和教育数据教师的指南联合国教科文组织：教师和学生的人工智能能力框架