人工智能主权与国家语言模型

AI主权已不再是科技会议的口号。各国开始将语言模型、公共数据和计算能力视为关键基础设施的一部分：类似于能源、电信和网络安全。重点不在于每个公民是否会使用国家版本的ChatGPT。重点在于行政部门、法院、公共卫生和安全部门是否依赖于国家无法控制的外部API。 2025年，Linux Foundation将AI主权描述为一种日益增长的全球趋势，在这种趋势中，对数据、模型、基础设施和本地文化法律适应性的控制成为国家战略的要素。到2026年，这一趋势已在实践中显现：加拿大正在发展主权计算基础设施计划；印度正在构建接入国家GPU池的能力；波兰正在开发PLLuM系列；而乌克兰则正在准备基于开放的Gemma系列的国家级LLM。什么是AI主权？ AI主权是指国家或国家集团在发展、部署和控制对安全、经济和公共服务至关重要的领域的人工智能系统的能力。这并非指完全的技术自给自足。目前，没有哪个中等规模的国家能够控制整个链条：从半导体光刻到GPU、数据中心、基础模型、数据、应用程序和监管规定。更现实的目标是韧性：限制最危险的依赖，保持对敏感数据的控制，具备审计系统的能力，以及即使价格、规定、地缘政治或外国供应商的可获得性发生变化时仍能持续运行的能力。主权人工智能的四个层次计算能力：在国家领土或受信任的法律区域内获取计算能力。数据：控制公共和部门数据集、其许可、质量和安全性。模型：无需完全依赖封闭供应商即可运行、审计、微调和更新模型的能力。适应性：响应与当地语言、法律、行政规范和机构文化的一致性。国家语言模型只是这个堆栈中的一个元素。缺乏数据、基础设施和实施流程的模型，只能算是一个研究项目。只有将模型与登记册、知识库、安全托管、审计和程序相结合，才能为国家创造真正的价值。为什么国家需要自己的模型？首先：数据。行政部门处理税收、健康、司法、人事、基础设施和安全信息。将这些信息发送给公共聊天机器人或不受控制的云服务，存在法律和操作风险。其次：法律。一个全球模型可能能用波兰语写得很好，但它不一定理解行政程序、当地法律文件的风格、公务实践，以及一般建议与具有约束力的解释之间的区别。第三：持续运营能力。如果一项关键公共服务依赖于外部 API，国家就会容易受到价格上涨、出口限制、故障、政治争端或使用条款变更的影响。第四点：本地生态系统。一个根据语言和法律定制的开放模型可以成为初创企业、中小企业、大学和集成商的基础，他们无需从零开始，也不必为每一次尝试向外国供应商付费。如何在技术上运作当前项目最重要的结论很简单：大多数国家不会从零开始构建模型。完整的前沿模型的预训练成本太高，且对计算能力过于依赖。相反，各国和联盟采用开放权重模型，使用本地语言进行额外学习，并利用符合行政、法律和公共服务的示例对模型进行指令微调。第二个支柱是 RAG，即检索增强生成（Retrieval-Augmented Generation）。模型不需要在其权重中包含所有最新的法律知识。它可以作为一个语言层运行，从经过认证的数据库获取上下文：法令汇编、判决书、法规、登记册和程序文件。这样，答案可以基于当前文档，而不是模型在训练日期的记忆。第三个支柱是审计。在行政管理中，答案听起来可信是不够的。系统必须记录来源、操作推理路径、模型版本、输入数据和负责决策的人员。特别是在欧洲，欧盟人工智能法案（EU AI Act）对此提出了要求，它将就业、教育、法律执行或服务获取等部分应用归类为高风险系统。波兰：PLLuM 作为本地语言层波兰的 PLLuM 项目是一个欧洲模式的例子：与美国或中国相比，预算相对有限，但重点放在语言、行政和开放性上。数字化部于 2026 年 5 月宣布扩大 PLLuM 系列，新增了 11 个模型，包括 4B、8B、12B 和 70B 等变体。较小的模型具有实际意义，因为它们更容易在本地部署、更便宜地维护和适应特定的流程。重要的是的不是 PLLuM 是否能击败最大的前沿模型。重要的是它是否足够好，能够完成具体的任务：总结文件、分类案件、支持公务员、简化文档语言、处理波兰法律以及通过数字渠道服务公民。在这些应用场景中，一个与 RAG 和行政数据良好集成的本地模型，可能比大型通用模型更有用。加拿大：计算能力作为战略基础加拿大展示了人工智能主权始于计算能力。Canadian Sovereign AI Compute Strategy 是在 2024 年预算的大额投资框架下宣布的，它将重点从单纯的研究资金转移到了基础设施上。AI Sovereign Compute Infrastructure Program 旨在支持国家计算基础设施的建设和维护，官方文件指出，未来几个财年用于构建基础设施的层级约为 8.9 亿加元（CAD）。这对其他国家是一个重要的信号：没有 GPU、能源、冷却系统、数据中心和基础设施运营商，即使最好的模型战略也只会停留在演示阶段。计算能力正成为一种战略资源，而不仅仅是 IT 预算中的一项常规支出。印度：语言规模与公共 GPU 访问印度是一个特殊案例，因为他们的问题不仅仅在于构建自己的模型。这个国家必须处理巨大的语言、方言、字母和数字服务接入水平的规模。IndiaAI Compute Portal 旨在为研究人员、初创企业和机构民主化计算能力的可及性。公开声明已经指出了数十万个 GPU 的资源池以及进一步扩大资源的计划。印度教训很简单：语言主权并非源于模型本身。需要数据、资源数字化、语音、OCR、翻译以及在公民与国家实际接触渠道中运行的工具。在一个多语言的国家，一个只很好支持英语的模型不能算作公共基础设施。乌克兰：战争条件下的混合模型乌克兰正与 Kyivstar 和数字转型部合作构建国家级 LLM。根据乌方声明，该模型计划于 2026 年进入 Beta 版本，其技术基础选择了 Google 的 Gemma 系列，并针对乌克兰语言和背景进行了调整。该项目由公私合作提供资金和开发，并计划将模型移交给国家。这展示了一条不同于传统国家研究机构的路径。电信运营商提供技术能力和执行力，政府提供背景、目标和可信数据。在国家安全环境下，这种模型可能比多年的公共采购更快，但需要明确的所有权、审计和访问规则。最大优势数据安全：敏感文件可以在本地或受信任的云端处理，而无需依赖全球模型。更好的公共服务质量：助理可以为公民翻译复杂的法规，总结程序并支持公务员。更低的供应商锁定风险：国家保留了迁移、审计和本地部署的可能性。发展本土企业：开源模型和国家基础设施可以构建应用程序，而无需完全依赖超大规模云服务商。文化适应性：该模型可以更好地处理本地语言、法律、行政风格和社会背景。最大的风险独立性的幻觉。模型可能是本土的，但 GPU、系统软件、云、库和半导体供应链仍然是全球性的。完全主权往往不如弹性化和多样化现实。能力差距。公共管理部门可以为模型提供资金，但如果私营部门支付的费用高得多，它们就难以维持 MLOps、安全、评估、集成和数据团队。技术过时。国家项目的开发周期比商业实验室的周期慢。如果项目像传统的 IT 系统而不是活生生的基础设施来推进，那么国家模型可能在正式发布之日就已经过时了。缺乏高质量数据。国家可能拥有巨大的档案，但如果这些档案是扫描件、旧格式、孤立存储或没有明确许可，它们就无法立即用于训练或 RAG。神话与现实从实际情况主权AI意味着从零开始构建一切。通常意味着采用开源模型、本地数据、私有部署和对关键层的控制。国家级LLM将取代ChatGPT为公民服务。主要应用是行政、安全、法律、教育和公共服务，而非娱乐或通用聊天机器人。只需购买GPU。计算能力是必需的，但如果没有数据、团队、流程和集成，它仍然只是一个昂贵的服务器机房。开源自动带来独立性。开放权重有帮助，但还需要数据许可、基础设施、审计和维护。 2026-2035年情景预测谨慎情景：国家模型主要仍是试点项目。行政部门使用具有额外数据本地化保障的商业云，但没有建立深厚的模型能力。基线情景：出现混合市场。本地模型处理官方事务、语言、法律和敏感数据，而商业前沿模型则用于风险较低或研究任务。突破性情景：推理成本下降、更强大的开源模型以及欧洲在计算方面的投资，使中等规模国家能够维持自己非常好的领域模型。大型科技公司不会消失，但将在公共采购中失去垄断地位。公共机构应采取的措施进行数据审计：了解文件的位置、其许可协议、质量、格式和法律状态。禁止使用包含敏感数据的人力资源、财务、医疗和行政文件的公共聊天机器人。构建可用于RAG的知识库：最新、版本化、可引用和受控。在特定流程中测试本地模型：会议纪要摘要、程序查找、文件分类、FAQ支持。在行政机构内部建立MLOps和AI治理能力，而不仅仅依赖于外部供应商。结论 AI主权并非指每个国家都必须建立自己的OpenAI替代品。它指的是一个国家知道哪些流程必须保持其控制，哪些依赖是可接受的，哪些会成为战略风险。国家级LLM很重要，但它不是一个独立的解决方案。未来十年将展示谁将AI视为需要订阅购买的又一个应用程序，而谁将其视为国家基础设施。这种差异不仅体现在技术上，还体现在公共服务质量、数据安全、应对危机能力以及本地企业在全球生态系统中的地位。来源 Linux Foundation: The State of Sovereign AI Government of Canada: AI Sovereign Compute Infrastructure Program IndiaAI Compute Portal Ministerstwo Cyfryzacji：PLLuM 模型家族正在扩大 Digital State UA：乌克兰正迈向主权人工智能模型 BCG：AI 主权是一个幻觉。韧性才是真实的 McKinsey：主权 AI - 构建实现战略韧性和影响力的生态系统 EU AI Act：高级摘要