DeepSeek R1：改变人工智能经济格局的中国LLM

DeepSeek R1 不仅仅是一个聊天机器人。它表明，人工智能的优势越来越取决于效率、开放权重和廉价扩展推理的能力。 DeepSeek R1 已成为讨论中国语言模型最重要的参考点之一，因为它结合了三个很少同时出现的要素：在推理任务中非常强大的结果、公开可用的权重以及关于激进成本效益的叙事。实际上，问题不在于是否应将每个 DeepSeek 基准测试都视为优于美国封闭模型的直接证据。更重要的是，DeepSeek 提高了对开放模型期望的门槛：既然一个位于美国市场中心以外的实验室能够发布一款推理模型，其结果可与 OpenAI 级别的模型相媲美，那么企业、大学和行政部门开始以不同的方式计算部署 AI 的成本了。关于历史最具体的部分始于 DeepSeek-V3。在 2024 年 12 月的技术报告中，作者描述了一个拥有 6710 亿总参数和每个 token 大约 370 亿活跃参数的专家混合模型（mixture-of-experts）。这是一个重要的区别：该模型具有非常大的容量，但在单个计算步骤中使用的是部分专家。这种架构并非新颖，但 DeepSeek 展示了其优化可以成为一种战略工具。该模型是在 14.8 万亿个 token 上训练的，报告强调了与系统间通信、多 token 预测和训练稳定性的优化。在商业语言中，这意味着一个事实：成本工程的作用越来越大，而不仅仅是获取最大的 GPU 集群。 DeepSeek R1 更进一步，因为它将注意力集中在了推理能力上。DeepSeek-R1 的报告描述了一系列模型，包括使用强化学习开发的 DeepSeek-R1-Zero，以及结合了增强和额外微调阶段的 DeepSeek-R1。简而言之：与仅通过模仿人类提供的答案来构建模型不同，该团队训练模型的方式是让它改进解决任务的方法。其结果是用户所联想到的推理模型的能力：更长的规划、将问题分解为步骤、以及对数学和编程任务更高的抵抗力。DeepSeek 的资料和 Hugging Face 上的模型卡片指出，R1 在数学、代码和逻辑任务上与 OpenAI o1 进行了比较。虽然需要谨慎阅读此类比较，但这样一个事实——即该开源权重模型成为了一个真正的参考点——本身具有巨大的意义。根据现有数据，最强有力的观点是：DeepSeek 将 AI 的讨论从单纯的模型尺寸转移到了成本与质量的比率。以前，许多公司认为最高质量意味着封闭的 API、高昂的 token 价格和有限的基础设施控制权。在 DeepSeek R1 发布后，越来越多的团队开始质疑是否可以将部分任务迁移到本地或私有云运行的开源模型上。但这并不自动意味着商业模型的终结。它更多地表明市场正在划分任务：最困难、风险最高的任务仍可能进入高端封闭系统，但如果组织具备技术能力，大规模处理、编码、文档分析和产品实验可以使用更便宜的模型。 DeepSeek 也是中国人工智能更广泛战略的一个例证。中国并非只构建一个国家级模型。它正在建立一个完整的生态系统：私人实验室、学术团队、云平台、开源模型和专业解决方案。DeepSeek 的独特之处在于，其技术出版物对全球社区是可读的，并且模型的权重进入了公共存储库。这增强了开发人员的信任，因为他们可以独立测试模型、提炼模型、将其与工具集成并与替代方案进行比较。开放性并不意味着训练数据的完全透明或整个安全流程的透明，但它提供的价值远超制造商单纯的市场宣传信息。然而，有必要将热情与风险区分开来。首先，基准测试（benchmarki）只是近似值。一个在数学任务中表现出色，但在客户服务、长期合同分析或处理敏感数据方面可能表现不佳的模型。其次，开放模型将责任转移给了实施方。如果公司在其自己的基础设施上运行 R1，它必须自己负责过滤、日志记录、质量测试、数据政策和错误响应。第三，公开权重（publiczne wagi）促进了创新，但也助长了滥用。这不是反对开放的论点，而是支持专业模型管理的方法。 DeepSeek 对欧洲和波兰的重要性是非常实际的。中小型企业很少能从零开始构建自己的模型，但它们可以利用开放模型作为自动化层。DeepSeek R1 和蒸馏模型（modele destylowane）表明，推理能力可以更接近用户：私有云、本地服务器、研究环境或行业应用。这在数据不应离开组织的地方尤其重要：金融、工业、医疗保健、行政和律师事务所。当然，模型本身不能解决合规问题。需要流程、审计和测试。但此类模型的可用性降低了进入门槛。 DeepSeek 的经济效应也体现在企业思考 AI 架构的方式上。部署不再意味着必须为所有事情使用一个最大的模型。多模型系统正变得越来越合理：用小型模型进行分类，用中型模型进行数据提取，用推理模型处理困难案例，而只有在质量优势确实能证明成本效益时，才需要高端商业模型。DeepSeek R1 非常适合这种方法，因为它足够知名，可以成为采购和技术比较的组成部分。在讨论中国 LLM 时，地缘政治话题经常出现。这个观点是合理的，但不能取代技术分析。DeepSeek 表明，出口限制、硬件成本和竞争压力可能导致优化，而不仅仅是延迟。如果获取最新芯片变得更加困难，团队就有更大的动力去改进架构、通信、训练和蒸馏。这并不意味着硬件失去了重要性。它意味着 AI 的优势将越来越依赖于硬件、数据、算法和工作组织等组合。对于最终用户来说，最重要的结论比标题更平稳：DeepSeek R1 不是任何模型的魔法替代品，但它证明了 LLM 市场不会局限于少数几个美国 API。在许多任务中，权重可用性、可定制性、token 价格、与本地基础设施的兼容性以及独立于单一供应商的能力都会很重要。这些正是决定企业实际部署的关键参数。蒸馏也至关重要。DeepSeek 不仅提供了主模型，还基于 Qwen 和 Llama 等流行的模型家族提供了一系列蒸馏变体。这进一步降低了进入门槛，因为并非每个组织都需要一个在最大配置下的完整推理模型。蒸馏变体可能足以用于分类报告、生成答案草稿、支持开发人员或分析文档片段。然而，蒸馏是有代价的：较小的模型可能会继承部分推理风格，但不能保证始终保持与大型模型的稳定性和质量一致。因此，不能假设小型变体中的 R1 名称自动意味着相同的能力。在专业部署中，DeepSeek 应该进行自身的评估。最简单的方法是创建一个代表公司实际工作任务的测试集：客户问题、合同片段、技术报告、编码任务、表格数据和边缘案例。然后需要将该模型与替代方案进行比较：GPT、Claude、Gemini、Qwen、Mistral 或本地专业模型。标准应包括不仅限于答案质量，还应包括成本、延迟、格式稳定性、幻觉数量、来源引用质量以及在数据缺失时的表现。只有这样的评估才能说明 DeepSeek 是否为特定组织带来了真正的节省。值得区分两种安全层。第一是模型安全：拒绝、过滤器、生成有害指令的漏洞和抗提示词操纵性。第二是模型运行的系统安全。即使是优秀的模型，如果获得了对电子邮件、数据库、支付或存储库过度的权限，也可能带来危险。实际上，DeepSeek，如同任何开源模型一样，都应该在一个受限的环境中运行，具备操作日志记录、访问控制和对影响资金、个人数据或生产基础设施的操作进行人工批准。在训练数据方面，需要保持谨慎。公开的技术报告描述了架构、训练规模和结果，但无法提供所有数据来源或所有策展决策的完整图景。这对于整个大型语言模型（LLM）市场都是典型的现象，而不仅仅是中国公司。对于受监管的组织而言，这意味着必须将该模型视为一个外源组件，需要进行风险分析。但这并非拒绝使用它的理由，而是记录决定、测试和应用限制的理由。 DeepSeek对市场最可能的影响是价格压力。如果开源模型在越来越多的任务中足够优秀，那么封闭式API的提供商就必须更好地证明其定价合理性。他们可以通过更高的可靠性、更好的工具、保证、合规性、企业级支持和集成来实现这一点。用户从中受益，因为竞争焦点正从模型的单纯尺寸转移到总拥有成本（TCO）。从这个意义上说，即使是永远不会部署DeepSeek的公司，也会认为它很重要：因为它改变了AI谈判和预算规划的基准点。 2026年最合理的策略不是选择一个赢家，而是构建一个模型组合。DeepSeek R1 可用作受控环境中的推理模型，较小的模型可作为快速过滤器，而商业 API 则可作为处理需要最高质量或供应商保证任务的层。这种配置需要更多的架构工作，但提供了弹性。公司不会依赖于单一的价格、单一的规定和单一的故障。DeepSeek 之所以重要，正是因为它使这样的组合更具现实可行性。在运营层面，最好从小型实验开始。第一个好的项目可以是支持 IT 部门分析日志的代理（agent），用于总结技术文档的助手，或用于准备客户服务回复草稿的工具。这类任务是可衡量的，但并没有赋予模型完整的决策权。几周后，可以计算出节省的时间、人工所需的修改次数和实际的基础设施成本。只有这样，扩大部署的决定才有了商业基础。因此，DeepSeek R1 应被视为新兴 AI 市场的一个重要组成部分，而不是一个轰动性的例外。它的意义在于展示了一个可能的方向：推理能力可以更广泛、更便宜、更接近用户。如果后续模型也走上这条道路，优势将属于那些能够衡量质量并快速替换组件的组织。仅仅拥有模型的访问权限是不够的。真正的优势在于围绕模型构建流程的能力。来源 DeepSeek-AI: DeepSeek-R1 technical report, arXiv DeepSeek-R1 模型卡，Hugging Face DeepSeek-V3 技术报告，arXiv