数字《摩诃婆罗多》:印度LLM在全球AI版图上的布局
印度的大型语言模型(LLM)不再仅仅是预告。Sarvam AI、IndiaAI Mission、AI4Bharat 和其他团队正在为这个国家构建本地人工智能层,在这个国家,语言、语音和公共服务的可及性与英文基准测试的排名同样重要。 由于该门户网站不会在文章内容中运行外部 Chart.js 脚本或来自 CDN 的代码,因此所附的 HTML 报告已转移到安全的 React/Recharts 组件中。发布的版本保留了信息图表的性质,但根据以下来源整理了数据:PIB 的官方公告、Sarvam AI 的材料、AI4Bharat 的存储库、Stanford HAI 的报告以及 BCG 的分析。 最重要的背景很简单:印度不需要立即在前沿模型(frontier models)方面超越 OpenAI、Anthropic 或 DeepSeek,就能建立有价值的人工智能战略。他们最大的问题是本地化且规模巨大:处理多种语言、脚本、方言、语音渠道和行政流程。从这个意义上说,印度的 LLM 不仅仅是“印度版的 ChatGPT”,而更像是创建国家级语言基础设施的尝试。 IndiaAI Mission 于 2024 年 3 月获得批准,预算超过 10,300 crore 卢比。PIB 将该计划描述为七个组成部分:计算(compute)、创新中心、数据平台、应用程序、能力建设、初创企业融资以及安全可靠的 AI(Safe & Trusted AI)。2025 年 7 月,PIB 表示 IndiaAI Compute Portal 提供了 34,381 个 GPU,在国家支持下,平均价格约为每 GPU 小时 67 卢比。这对那些否则无法获得大规模训练资源的初创企业来说是一个具体的优势。 在商业上最引人注目的参与者是 Sarvam AI。该公司介绍了 Sarvam 30B 和 105B,称它们是在印度从零开始训练的推理模型,重点关注印度语言、代码、数学和代理工作流。根据 Sarvam 的博客,105B 模型在选定的基准测试中表现出色,例如 AIME 25、LiveCodeBench v6、MMLU Pro、BrowseComp 和 Tau2。这些数字很重要,但需要谨慎:它们来自模型创建者,因此专业的部署应该通过自己的测试和独立的评估来证实。 与此同时,机构和学术层面也在发展。PIB 列出了 Sarvam AI、Soket AI、Gnani AI 和 Gan AI 作为选定的基础模型团队。AI4Bharat 则开发了用于印度语言的开源 NLP 工具,包括适用于印度 22 个计划性语言的 IndicTrans2。这是生态系统中不太引人注目但对翻译、语音识别、语音合成、OCR 和数据集至关重要的部分。 公平的评估必须包括其弱点:私人资本少于美国和中国,对 GPU 可用性的依赖,语言碎片化,监管风险以及使用公共服务模型的必要审计。斯坦福大学 HAI 指出,2024 年美国的人工智能私人投资达到 1091 亿美元,远高于中国和英国。因此,印度不是以对称的金融竞赛来应对,而是采用本地基础设施战略。 结论:印度 LLM 应被视为最有趣的自主人工智能实验之一。如果 Sarvam、Soket、AI4Bharat 和 IndiaAI 能保持这种势头,印度到 2027 年可以为多语言国家建立一个模式:模型比美国的前沿模型更小,但在本地语言、公共服务和公民的实际需求中根植得更深。 来源 Sarvam AI: Open-Sourcing Sarvam 30B and 105B PIB:内阁批准为印度人工智能任务拨款超过 10,300 亿卢比 PIB:印度将举办人工智能影响峰会和基础模型更新 AI4Bharat/IndicTrans2 Stanford HAI:《2025 年人工智能指数报告》 BCG:《全球人工智能竞赛》