全球AI：2026年5月27日重大事件回顾

今天的《每日AI世界简报》汇集了来自全球关键地区的关于人工智能的最新消息。重点关注商业应用、监管、安全以及AI模型的发展。欧洲 AI安全研究员Sahar Abdelnabi在德国开放4个博士和研究职位（全额资助）- 全球南方机会 AI安全研究员Sahar Abdelnabi在德国开放4个博士和研究职位（全额资助）全球南方机会重要性：有必要关注该信息对市场、监管和AI用户的影响。来源： Google News AI Europe (27.05.2026) ACI欧洲呼吁制定统一网络安全战略，因为先进AI威胁能力正在增加航空供应链和云生态系统中的系统性风险 - 旅行与旅游世界 ACI欧洲呼吁制定统一网络安全战略，因为先进AI威胁能力正在增加航空供应链和云生态系统中的系统性风险旅行与旅游世界重要性：有必要关注该信息对市场、监管和AI用户的影响。来源： Google News AI Europe (27.05.2026) AI 股票动能在全球不安中使欧洲保持稳定 - Kalkine Media AI 股票动能在全球不安中使欧洲保持稳定 Kalkine Media 重要性：有必要关注该信息对市场、监管和人工智能用户的影响。来源： Google News AI Europe (27.05.2026) AI 在医疗领域：塑造未来 - CEPS AI 在医疗领域：塑造未来 CEPS 重要性：有必要关注该信息对市场、监管和人工智能用户的影响。来源： Google News AI Europe (27.05.2026) 北美洲迈向无错误电子健康记录：电子健康记录中临床笔记和结构化表格之间的推理密集型一致性验证 arXiv:2605.26463v1 Announce Type: cross Abstract: 电子健康记录（EHR）中非结构化临床笔记和结构化表格之间的数据一致性对于患者安全和临床决策至关重要。然而，现有关于笔记-表格一致性验证的工作主要依赖于数值或简单事件的表面匹配。此类方法无法捕捉到现实世界 EHR 文档背后的推理过程，包括临床解释、事件关系和时间变化。为了解决这一差距，我们引入了 EHR-ReasonCon，这是一个用于笔记-表格一致性验证的推理密集型基准。它基于 MIMIC-III 并辅以专家指导的注释，包含源自临床笔记的 8,048 个实体，并提供了高质量的真实标签。该注释协议由专门的表探索工具支持，以确保系统性的evide 为什么重要：有必要关注该信息对市场、监管和人工智能用户的影响。来源： arXiv AI (27.05.2026) 超越固定基准和最坏情况攻击：用于语言模型的动态边界评估 arXiv:2605.06213v2 Announce Type: replace Abstract: 评估大型语言模型（LLMs）的方法目前依赖于固定基准，这些基准对任何模型应用同一组项目，从而产生掩盖能力差距的上限和下限效应。我们认为，最具信息量的评估信号存在于边界处，即在随机采样解码下，每个提示通过概率接近 $0.5$ 的地方。因此，我们提出了动态边界评估（DBE），它主动定位每个模型的边界，并将其置于全球可比较的难度尺度上。DBE提供了三个成果：（i）一个涵盖安全、能力和真实性的校准项目库，其中包含在9个参考LLMs上验证的每项项目的难度标签；（ii）技能引导边界搜索（SGBS），一种仅使用API级别查询访问即可为给定目标LLM找到边界项目的搜索算法；以及（iii）一个评估协议，该协议...

重要性：有必要关注这些信息对市场、监管和人工智能用户的影响。来源： arXiv AI (27.05.2026) GlobalDentBench：一个用于评估具有专家校准的牙科LLM临床推理的跨国基准 arXiv:2605.24636v2 Announce Type: replace Abstract: 尽管大型语言模型（LLMs）在医学领域具有变革潜力，但它们在现实世界临床场景中的推理鲁棒性和安全性仍是关键未探索的领域，尤其是在牙科。在此，我们介绍了 GlobalDentBench，这是第一个多国牙科基准测试集，其分类法涵盖了横跨六大洲的 88 个国家和地区的 14 个牙科专科。该基准测试包含 8,978 道专家验证的问题，涉及三种格式（选择题、简答题和案例题），并评估三个渐进的推理级别：知识回忆（L1）、常规推理（L2）和个体化推理（L3）。为确保数据质量，自动化构建框架由六名高级牙医校准，在选择题和简答题方面达到了 99.98% 的专家一致率。为什么重要：有必要关注该信息对市场、监管和人工智能用户的影响。来源： arXiv AI (27.05.2026) 不要听我的话！多轮对话如何降低大型语言模型（LLM）的可靠性 arXiv:2603.11394v3 Announce Type: replace-cross Abstract: 大型语言模型（LLMs）在静态基准测试上表现出色，但它们在多轮对话中的性能——这种性能更能反映实际使用情况——仍有待研究。解决这一差距对于医疗保健等高风险环境至关重要，因为患者和临床医生正转向 LLM 聊天机器人来咨询他们的医疗问题。在此，我们引入了“坚持或切换”（stick-or-switch, SoS）框架，该框架将问答空间划分为多个顺序呈现阶段，以模拟两种安全中心行为：信念（即坚持正确的答案选择或对不正确的建议保持弃权）和灵活性（即当出现正确建议时切换到它）。我们评估了跨越三个临床基准测试的 17 个 LLMs，观察到一个普遍存在的对话税，即将答案空间划分为顺序阶段...

重要性: 有必要关注该信息对市场、监管和人工智能用户的潜在影响。来源: arXiv AI (27.05.2026) 亚洲 Microsoft 投资500亿美元扩大全球南方AI普及，并在印度启动教师技能培训计划 - DD News Microsoft 投资500亿美元扩大全球南方AI普及，并在印度启动教师技能培训计划 DD News 重要性: 有必要关注该信息对市场、监管和人工智能用户的潜在影响。来源： Google News AI South America (26.05.2026) 全球公司押注印度能力中心的人工智能创新——News9live 全球公司押注印度能力中心的人工智能创新 News9live 为什么这很重要：有必要关注该信息对市场、监管和人工智能用户的影响。来源： Google News AI Asia (27.05.2026) 印度AI影响力峰会2026吸引世界领导人，全球AI对话成为焦点——DD News 印度AI影响力峰会2026吸引世界领导人，全球AI对话成为焦点 DD News 重要性：值得关注该信息对市场、监管和人工智能用户的影响。来源： Google News AI Europe (27.05.2026) 从检测到恢复：基于 504 个 GPU 的 LLM 预训练操作分析 arXiv:2605.09370v2 发布类型：replace-cross 摘要：大规模 AI 训练现在本质上是一个分布式系统问题，硬件故障已成为常规运行条件而非罕见例外。然而，来自生产训练集群的公开运营证据仍然稀缺。本技术报告展示了对一个由 63 个节点组成的 NVIDIA B200 生产集群（504 个 GPU）的实证分析，使用了 55 天的 Prometheus 时间序列数据和涵盖 224 次多节点训练会话的 73 天运营日志。该集群在一个跨组织的环境中运行，其中五个参与方（SKT、Upstage、Lablup、NVIDIA Korea 和 VAST Data）共享一个统一的监控管道。这种安排使得联合诊断了一个在 2-4 个节点规模时未出现的 60 个节点规模存储 I/O 瓶颈，这是一个任何单个团队都无法隔离的生产规模现象。重要性：值得关注该信息对市场、监管和人工智能用户的影响。来源： arXiv AI (27.05.2026) 南美洲处于分布漂移下的儿童贫血预测的表格机器学习和基础模型的小样本跨国泛化 arXiv:2605.26589v1 Announce Type: cross Abstract: Childhood anemia affects around 40% of children aged 6-59 months globally and arises from heterogeneous factors, limiting model generalizability.

We evaluate a transformer-based tabular foundation model against classical supervised methods under cross-country and data-scarce settings.

We used DHS data from 16 countries across Africa, Asia, Latin America, the Caucasus, and the Middle East (n=68,856).

We compared Logistic Regression, XGBoost, LightGBM, and TabPFN v2.6.

Performance was assessed using AUC-ROC, Brier score, and ECE.

Generalization was evaluated using leave-one-country-out (LOCO), reverse-LOCO, and few-shot settings.