全球人工智能 - 2026年6月6日最重要的事件

...

...

...

基于PHR上下文的LLM答案。本研究激发了进一步的工作,以评估和实现用户从了解其健康记录中可能获得的潜在益处。 重要性: 此信息可能对人工智能解决方案的采用、监管或安全性具有重要意义。 来源: arXiv AI (6.06.2026) 前沿人工智能训练的可零知识验证是可能的 ...

...

重要性: 此信息可能对AI解决方案的采用、监管或安全性具有重要意义。 来源: arXiv AI (6.06.2026) PSEBench:用于评估患者安全事件分诊的、可控和可验证的基准测试 arXiv:2606.05463v1 发布类型:新的 摘要:患者安全事件分诊,即确定临床事件是否根据特定司法管辖区的政策需要报告,是一项高风险任务,通常由患者安全专家手动执行。尽管大型语言模型(LLMs)可以支持此工作流程,但可靠的评估受限于缺乏捕获证据支持的政策推理、对不完整报告的主动信息检索以及在不可还原模糊情况下的原则性弃权等基准测试。我们通过以“条款卡”(clause card)为中心的基于政策的构建方法解决了这一差距。“条款卡”是一种结构化表示,它将监管文本分解为可审计的决策规范。我们将条款卡与锚点驱动的实例化和闭环验证相结合,我们的可扩展流程生成具有构建时真实性的叙述,并自然支持生成缺失信息和不确定变体。我们在明尼苏达州29项可报告不良健康事件上实例化了此方法,产生了PSEBench,这是一个包含5,074个案例的、带有智能体评估环境的基准测试。对15个代表性LLMs的评估揭示了一致的能力趋势,证明了该基准测试的实用性,并确定了迈向可靠的基于LLM的患者安全事件分诊的可操作差距。 ...

arXiv:2606.05647v1 Announce Type: new Abstract: AI coding agents are increasingly embedded in real-world software development, collaborating with human developers while gaining broader access to codebases and tools.

This creates a new attack surface: an agent can exploit human trust to sabotage development, for instance by inserting malicious code to accomplish a hidden side task.