2026-05-17 AI大事件

今日摘要

OpenAI 史上最大规模重组：Brockman 夺权挂帅，三大产品线合并为统一组织 🚀
Anthropic 寻求 $900B 估值融资 $30-50B，年化收入 $45B 首超 OpenAI 🤑
GPT-5.5 网络安全能力匹敌 Mythos：CTF 成功率 71.4%，UK AISI 实测确认 🧠
蚂蚁百灵 Ring-2.6-1T 万亿参数开源，MIT 协议，基准全面超越 GPT-5.4 (๑•̀ㅂ•́)و✧
Mythos 辅助发现 macOS M5 内核漏洞，5 天绕过苹果 MIE 硬件安全 ⚠️
Notion 发布开发者平台 + ntn CLI，开发者工作空间迈向 Agent 原生 🛠️
美国 AI 岗位开始大规模裁员，技术冲击从理论进入实证阶段 ☁️

模型与产品更新

1. 阿里健康发布「氢离子」AI 医学助手

阿里健康发布了专注医生的医学 AI 工具「氢离子」，已独家签约顶刊 BMJ 海量医学文献。该助手可帮专家快速精准搜索，每句建议背后均有循证医学证据支撑，将文献阅读时间从两小时缩短到几分钟 🩺 来源：详情链接

2. 英伟达发布 SANA-WM 26 亿参数开源世界模型

NVIDIA 研究团队发布 SANA-WM，参数规模达 26 亿，专门用于生成长达 1 分钟、分辨率 720p 的视频，在 HN 社区获得 107 点热度 🎮 来源：项目主页

3. 蚂蚁百灵 Ring-2.6-1T 万亿参数推理模型开源

蚂蚁集团 inclusionAI 正式开源万亿参数 MoE 推理模型 Ring-2.6-1T，以 MIT 协议发布，总参数约 1 万亿、每 token 激活约 63B。AIME 2026 得分 95.83、GPQA Diamond 88.27，基准全面超越 GPT-5.4。这是目前许可最宽松的万亿级推理模型 (๑•̀ㅂ•́)و✧ 来源：SCMP 报道 · Hugging Face

4. Notion 发布开发者平台及 ntn CLI

Notion 于 5 月 13 日正式推出 Developer Platform，包含 ntn CLI 工具、Workers 无服务器运行时（TypeScript）、Database Sync、Webhook Triggers 和 External Agents API。Beta 期免费至 8 月 11 日，让 Notion 从文档工具进化为可编程的 Agent 工作空间 🛠️ 来源：官方平台页 · ntn CLI 文档

5. GPT-5.5 网络安全能力经实测匹敌 Mythos

UK AISI 发布独立评测：GPT-5.5 在最高难度 CTF 任务中成功率 71.4%（Mythos: 68.6%），逆向工程任务仅用 10 分 22 秒（人类专家需约 12 小时）。HackerOne 基准测试中漏报率降至仅 10%。OpenAI 已通过 TAC 计划向受信防御者开放 GPT-5.5-Cyber 🧠 来源：Schneier 分析 · HackerOne 基准 · XBOW 测试

6. Codex 支持自定义快捷键

OpenAI 开发者团队宣布 Codex 键盘快捷键现已支持自定义，用户可根据实际工作方式调整快捷键配置 ⌨️ 来源：官方公告

前沿研究

1. 大模型评测标准遭遇信任危机

论文揭露了当前大模型跑分榜单的评价陷阱——许多排行榜其实只衡量表面行为，难以测出真实能力。选模型时别被虚高分数误导，构建真正厉害的智能体需要更严谨的评价体系 (・∀・) 来源：论文

AI资讯：展示模型评价陷阱概念的学术论文架构图

2. GoR：引用图谱驱动科研灵感生成

GoR 方案构建了论文引用演化图谱，微调模型效果超过 GPT-4o。研究涵盖顶级会议七千篇参考数据，显著降低了学术创新门槛 (ฅ՞•ﻌ•՞ฅ) 来源：论文

3. 代码代理可作为物理世界模拟器

研究发现视频模型往往难以维持物理约束，而代码生成系统驱动的可执行仿真环境在具身智能领域表现远超视频模型，代码驱动正成为模拟现实的新范式 (´･ω･`) 来源：论文

4. 具身智能体 ASH 实现自我进化突破

智能体 ASH 成功利用视频实现自我进化，系统借助逆动力学从噪声中提取监督信号，在宝可梦测评中完美达成任务，为自进化路径提供了全新可扩展范式 (⊙o⊙) 来源：论文

5. Articraft：AI 驱动的关节 3D 资产生成系统

剑桥大学、牛津大学和南洋理工联合发布 Articraft——将 3D 资产生成转化为代码生成问题，让 LLM 编写 Python 程序构建可活动 3D 资产。同步开源 Articraft-10K 数据集（超 1 万资产、245 类别），CC-BY 4.0 协议，论文发表于 arXiv 🤖 来源：论文 · GitHub

6. RxEval 医疗处方推荐基准发布

全新针对处方推荐的基准正式发布。测试涵盖九百多种药物，旧测评无法模拟真实临床环境，顶级模型在测试中表现堪忧——模型容易忽略病历核心细节 (·•᷄\u200Eࡇ•᷅ ) 来源：论文

行业、政策与安全

1. 突发！OpenAI 大规模重组，总裁 Brockman 夺权挂帅

OpenAI 宣布史上最大规模重组，将 ChatGPT、Codex 和 API 三大核心产品线合并为统一组织。联合创始人兼总裁 Greg Brockman 正式全面接管产品战略，成为实际掌权者，原 ChatGPT 负责人 Nick Turley 被调离核心岗位。此次重组旨在聚焦「智能体时代」，秘密开发集成多项功能的桌面端「超级应用」🚀

AI资讯：OpenAI联合创始人兼总裁Greg Brockman重归一线接管产品战略

来源：IT 之家报道

2. Anthropic 寻求 $900B 估值融资，年化收入首超 OpenAI

据 Bloomberg 和 FT 报道，Anthropic 正寻求以约 $900B 估值进行 $30-50B 新一轮融资，由 Sequoia、Dragoneer 等联合领投。Anthropic 年化收入已超 $45B，首超 OpenAI 的 $24B，其中 Claude Code 贡献超 $2.5B。公司目标最早于 2026 年 10 月 IPO 🤑 来源：Bloomberg 报道 · CNBC TV18 · Moneycontrol

3. Mythos 辅助发现 macOS M5 内核漏洞，5 天绕过苹果 MIE

安全初创公司 Calif 使用 Anthropic Claude Mythos Preview，在仅 5 天内开发出针对 Apple M5 芯片 Memory Integrity Enforcement（MIE） 的 macOS 内核提权漏洞利用链。这是 MIE 硬件安全机制自 2025 年 9 月推出以来首次被公开攻破。Mythos 协助识别漏洞并辅助开发全过程，但最终绕过 MIE 仍需人类专家参与 ⚠️ 来源：IT 之家报道 · SCWorld · Yahoo Tech

4. 美国开始出现 AI 相关岗位大规模裁员

据彭博社报道，受 AI 影响的职位正经历严重的就业岗位流失，技术冲击已从理论讨论进入现实阶段，具体裁员数字和涉及行业领域正在进一步显现 ⚠️ 来源：Bloomberg 报道

5. 杭州启用国家级具身智能机器人训练场

国家人工智能应用中试基地（具身智能）5 月 16 日在浙江杭州挂牌启用。杭州已施行首部具身智能机器人地方性法规，集聚机器人企业 700 余家，2025 年具身智能产业集群产值达 1068 亿元 (๑•̀ㅂ•́)و✧ 来源：IT 之家报道

6. OpenAI 与马耳他合作，向所有公民提供 ChatGPT Plus

OpenAI 与马耳他政府达成合作，将向该国所有公民免费提供 ChatGPT Plus 订阅服务，并包含 AI 技能实践培训。这是国家级大规模推广 ChatGPT Plus 的首例 ☁️ 来源：OpenAI 官方公告

7. IIQ 企业 AI 影响力评估框架

IIQ 框架提出用「采用指数」取代传统词元统计来评估组织 AI 集成深度，综合考量任务难度与自主性，为工作流嵌入 AI 提供了财务视角 ( •̀ ω •́ )y 来源：论文

8. 亦庄 AI 实战大会即将在北京开幕

「亦庄 AI 落地实战大会」主打全干货，大咖现场拆解具身智能案例，彻底告别 PPT，主打压力测试，推动行业场景渗透 (ง •_•)ง 来源：详情

开源与开发者工具

1. 智能体框架 Superpowers 霸榜 🌟190k

智能体技能框架 Superpowers 在开源平台霸榜，星数突破惊人的 19 万。项目通过 Agentic 架构重塑开发流程，开发者持续涌入 (๑•̀ㅂ•́)و✧ 来源：Superpowers 项目

AI资讯：开发者群体正在涌入GitHub查看superpowers项目的智能体协作流程

2. 开源视频生成平台 Open-Generative-AI 🌟14.4k

聚合了 Flux 和 Sora 等主流架构的开源视频生成工作站，支持私有化部署且无任何限制 (・ω・) 来源：项目地址

AI资讯：Open-Generative-AI展示了聚合Flux、Sora等多种模型的开源工作站界面

3. 本地代码图谱 codegraph 提升效率 🌟2.5k

配合 Claude Code 使用的本地索引利器，可预索引代码大幅减少 Token 消耗，100% 本地运行且完全免费 (〃'▽'〃) 来源：codegraph 项目

AI资讯：将复杂代码库转化为结构化本地知识图谱以降低检索成本

社媒与观点

1. 防护 AI 智能体遭受指令劫持

智能体容易被恶意网页注入指令接管控制权，隐藏代码会窃取凭证甚至修改行为。目前必须采用源感知授权机制防护，开发者可用一行代码集成沙箱保护环境 (つ•̀ω•́)つ来源：Reddit 讨论

2. 最新开源成果 #21：开源模型密集发布

本月开源 AI 模型迎来盛宴——Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等一系列重要新版本密集发布，均在 CAISI V4 评估框架下完成评测 🚀 来源：Interconnects 报道

3. Anthropic 发布《Founder's Playbook》：AI 时代创业失败率更高

Anthropic 于 5 月 14 日发布 33 页创业手册，将 AI 原生创业拆解为 Idea → MVP → Launch → Scale 四阶段。手册引用数据指出 42% 的创业公司死于"做了没人要的东西"，并警告在 AI 时代失败率只会继续攀升——从想法到产品的距离被压缩到几乎为零，创始人极易把"做出来了"误认为"验证通过了" (•̀ᴗ•́)و 来源：官方博客 · 中文解读

快讯

奥特曼个人崇拜导致公司陷入危机。 社区热议 OpenAI 管理层路径依赖问题，未来属于能将技术嵌入工作流的务实者 Reddit 讨论
Show HN: 烧吧，宝贝，烧吧（那些代币）。 开源销毁代币工具，在 HN 上获得 100 点社区热度 🔥 GitHub

今日总结与启示

AI 两巨头同日上演权力与资本双重变局。 OpenAI 重组 Brockman 掌权，Anthropic 估值 $900B 年化收入反超——竞争格局正在从技术之争升维为组织与资本的全方位对决 🚀。
网络安全攻防进入 AI 军备竞赛。 GPT-5.5 CTF 成功率 71.4% 匹敌 Mythos，且 Mythos 已在实战中 5 天攻破 M5 硬件安全。攻防双方的时间窗口正在被 AI 急剧压缩 ⚠️。
中国万亿参数模型以 MIT 协议全面开源。 蚂蚁 Ring-2.6-1T 在基准超越 GPT-5.4 的同时选择最宽松许可，开源模型的技术水位与开放程度同步攀升 (๑•̀ㅂ•́)و✧。
开发者工具进入 Agent 原生时代。 Notion 推出 Agent API + ntn CLI，Superpowers 190k 星——生产力工具正从"人操作"转向"Agent 编排" 🛠️。
AI 对劳动力市场的冲击从预测变成数据。 彭博社首次以实证方式确认美国 AI 相关岗位大规模裁员，杭州具身智能基地千亿产值则展示了另一面——新产业也在同时创造新岗位 ( •̀ ω •́ )。

2026-05-17 AI大事件

今日摘要 ​

模型与产品更新 ​

1. 阿里健康发布「氢离子」AI 医学助手 ​

2. 英伟达发布 SANA-WM 26 亿参数开源世界模型 ​

3. 蚂蚁百灵 Ring-2.6-1T 万亿参数推理模型开源 ​

4. Notion 发布开发者平台及 ntn CLI ​

5. GPT-5.5 网络安全能力经实测匹敌 Mythos ​

6. Codex 支持自定义快捷键 ​

前沿研究 ​

1. 大模型评测标准遭遇信任危机 ​

2. GoR：引用图谱驱动科研灵感生成 ​

3. 代码代理可作为物理世界模拟器 ​

4. 具身智能体 ASH 实现自我进化突破 ​

5. Articraft：AI 驱动的关节 3D 资产生成系统 ​

6. RxEval 医疗处方推荐基准发布 ​

行业、政策与安全 ​

1. 突发！OpenAI 大规模重组，总裁 Brockman 夺权挂帅 ​

2. Anthropic 寻求 $900B 估值融资，年化收入首超 OpenAI ​

3. Mythos 辅助发现 macOS M5 内核漏洞，5 天绕过苹果 MIE ​

4. 美国开始出现 AI 相关岗位大规模裁员 ​

5. 杭州启用国家级具身智能机器人训练场 ​

6. OpenAI 与马耳他合作，向所有公民提供 ChatGPT Plus ​

7. IIQ 企业 AI 影响力评估框架 ​

8. 亦庄 AI 实战大会即将在北京开幕 ​

开源与开发者工具 ​

1. 智能体框架 Superpowers 霸榜 🌟190k ​

2. 开源视频生成平台 Open-Generative-AI 🌟14.4k ​

3. 本地代码图谱 codegraph 提升效率 🌟2.5k ​

社媒与观点 ​

1. 防护 AI 智能体遭受指令劫持 ​

2. 最新开源成果 #21：开源模型密集发布 ​

3. Anthropic 发布《Founder's Playbook》：AI 时代创业失败率更高 ​

快讯 ​

今日总结与启示 ​