2026-06-02 AI大事件

今日摘要

OpenAI 上云 AWS 与 MiniMax M3 同日抢镜，模型能力和交付形态继续一起升级 🚀
Physical AI 线很强，Cosmos 3、FOX 与医疗和晶圆厂落地都在往真实世界深入 🏭
研究区聚焦 RL 稳定性、长任务上下文控制与实时视频编辑，agent 底层能力继续加厚 🧠
Anthropic 上市、Alphabet 800 亿美元融资、Stargate 落地密歇根，AI 基建与资本市场同步升温 ☁️
开源工具从抓取、终端协作到语音合成和前端美化都很实用，开发者基建仍是高频热点 🛠️
社区层面从 Kami、Open Design 到开闭源模型分化讨论，都在提醒我们产品之外还要看生态 (๑•̀ㅂ•́)و✧

模型与产品更新

1. OpenAI 前沿模型与 Codex 现可在 AWS 上使用

OpenAI 把前沿模型和 Codex 正式带到 AWS，企业可以直接沿用现有 AWS 采购、权限和合规流程接入能力，把从评估到生产部署的路径再缩短一步 🚀。来源：OpenAI

2. 英伟达联手富士康落地医疗

NVIDIA 与 富士康、台湾多家医疗机构合作，把 agentic AI 和 physical AI 落到医院与医疗流程中，目标是用医疗代理、机器人和基础设施去提升诊疗效率与覆盖面。来源：NVIDIA

3. MiniMax M3：前沿编码、100 万 token 上下文与原生多模态一体模型

MiniMax M3 同时打编码、智能体和多模态三张牌，支持 100 万 token 上下文，并用 MSA 稀疏注意力把 100 万 token 场景下的每 token 计算成本压到前代的 1/20，预填充速度提升 9 倍以上、解码速度提升 15 倍以上；在 SWE-Bench Pro 上得分 59.0%。来源：MiniMax 博客

4. xAI 发布 Composer 2.5

xAI 在 Grok Build 上线 Composer 2.5，主打长任务与复杂指令处理，SuperGrok 与 X Premium+ 用户可在 /models 菜单里直接切换使用。来源：xAI

5. Qwen3.7-Plus：多模态智能体智能

Qwen3.7-Plus 把聊天、图像与视频理解、图像生成、文档处理、网页搜索、工具调用和制品生成统一到一套多模态智能体体验里，明显在往一体化 agent 工作台推进 ✨。来源：Qwen

6. 使用 NVIDIA Cosmos 3 开发物理 AI 推理、世界与行动模型

NVIDIA Cosmos 3 面向机器人、自动驾驶和智能空间，把物理推理、世界理解与行动生成串到一起，方便开发者训练更贴近真实环境的 physical AI 系统。来源：NVIDIA Developer

7. SenseNova 新模型解决 AI 图表生成难题

SenseNova-U1-8B-MoT-Infographic 专门瞄准图表生成里最烦的数值错误、柱位偏移和布局混乱问题，还支持实时改设计和版式，对信息图和商业汇报场景很实用。来源：商汤科技

8. 介绍 Mellum2：JetBrains 推出的 12B 混合专家模型

JetBrains 发布 12B 混合专家模型 Mellum2，继续补强开发场景模型栈，也说明 IDE 厂商正在把自研模型当成长期基础设施来做。来源：Hugging Face 博客

9. 腾讯混元发布智能体长期记忆插件 Hy-Memory

腾讯混元 发布长期记忆插件 Hy-Memory，把 6 层记忆框架、System1/System2 双系统和三层进化链揉在一起；官方给出的指标是记忆数量减少 70% 以上、单条记忆信息密度提升 45% 以上、超长上下文 token 消耗降低 35%、更新速度提升 20%。来源：腾讯混元

10. NVIDIA 发布工厂运营蓝图，为工厂提供自主智能管理智能体

NVIDIA 发布工厂运营蓝图 FOX，用 NemoClaw、AI-Q Blueprint 和 Nemotron 开源模型搭建统一决策层。富士康等首批采用者给出的预期指标包括根因分析时间缩短 80%、劳动生产率提高 15%、机器故障率降低 10%。来源：NVIDIA Blog

前沿研究

1. 全新强化学习 EchoRL 发布

EchoRL 试图解决强化学习里的信号坍塌问题，通过新的训练框架和熵值步骤提升长程优化稳定性，对 agent 强化学习是个值得看的底层改进 🧠。来源：arXiv

2. 多维时间序列预测获突破

这篇多维时间序列工作用通用关联网络和隐式码本去解耦异构属性，把多源通道统一投到共享隐空间，在迁移学习和泛化预测上都更有想象力。来源：arXiv

3. 实时视频编辑系统惊艳亮相

这套实时视频编辑框架把混合注意力机制和高效视频建模结合起来，能在消费级显卡上跑出高帧率结果，说明高质量视频编辑正在从离线制作走向实时交互 🚀。来源：Hugging Face Papers

4. 长任务推理崩溃得到解决

研究团队针对长任务场景里的推理崩溃问题，引入基于强化学习的上下文控制机制，用动态裁剪去维持高频交互里的信息保真度，适合 agent 长链路执行。来源：arXiv

5. 无人出租车开源模型正式发布

Alpamayo 是面向 L4 级 robotaxi 的 320 亿参数 开源基础模型，权重计划在今年夏天公布；自动驾驶赛道继续把大模型与具身决策深度绑定。来源：NVIDIA

行业、政策与安全

1. 科技巨头申请秘密上市

Anthropic 已启动上市预备流程，先以保密方式推进 IPO 草案；这说明头部模型公司开始从融资竞赛走向公开市场预备阶段 ☁️。来源：The Verge

2. 中国大模型应用预测异见

《纽约时报》披露，中国有关部门在研究利用大模型预测异见与群体事件风险，核心仍是把定位、文本和行为数据拼接到更强的分析系统里，AI 治理边界问题继续升温。来源：纽约时报

3. 三维生成平台用户数破千万

3D 生成平台 Tripo 用户突破 1000 万，同时母公司 VAST 完成 2 亿美元 融资，资金将继续投向算力和产品扩张，3D/视频生成商业化还在升温。来源：AI Weekly

4. Anthropic 保密向 SEC 提交 S-1 草案

Anthropic 今日确认已向美国证券交易委员会保密提交 S-1 草案，具体发行股数和价格尚未确定，但公司已经正式把上市窗口打开。来源：Anthropic

5. 智谱：建议 A 股发行并在科创板上市

智谱计划申请 A 股并在科创板上市，募资拟投向通用基座大模型、MaaS 一站式服务平台及补充流动资金，同时英文名拟变更为 Z.AI Co., Ltd.。来源：IT 之家

6. Alphabet 将通过发行股票筹集 800 亿美元用于 AI 支出计划

Alphabet 正通过发股等方式筹措 800 亿美元，为新一轮 AI 资本开支做准备，云厂与模型厂的基础设施军备竞赛还在继续。来源：Bloomberg

7. 佛罗里达州起诉 OpenAI 与 Sam Altman：涉多起 ChatGPT 相关谋杀案

佛罗里达州起诉 OpenAI 与 Sam Altman，把多起 ChatGPT 相关暴力案件纳入诉状，AI 平台责任边界开始进入更激进的司法测试区。来源：Ars Technica

8. 王兴：美团 AI Agent“小美”与腾讯元宝即将深度合作，用户订单无缝连接

美团 CEO 王兴透露，AI Agent 小美将与 腾讯元宝 深度合作，用户在元宝里提出本地生活需求后，可直接无缝连接到美团外卖、配送等服务。来源：IT 之家

9. 英伟达和台积电将 AI 引入晶圆厂，推动半导体设计与制造发展

NVIDIA 与 TSMC 把 CUDA-X、Metropolis 和 TAO Toolkit 引入光刻、晶体管仿真、工艺控制与缺陷检测。官方给出的一个关键指标是，cuLitho 相比 CPU 方案可带来 20-50% 的成本效率或周期时间改善。来源：NVIDIA

10. OpenAI 在密歇根州启动 Stargate 1GW 数据中心建设

OpenAI 在密歇根州启动 Stargate 1GW 数据中心项目，继续押注超大规模 AI 基础设施，并把就业与社区投资叙事一并打包。来源：OpenAI

11. Meta 的 AI 被利用来劫持 Instagram 账号

The Verge 披露，Meta 的 AI 聊天机器人可被诱导去绑定新的电子邮件地址，从而接管 Instagram 账号；把账户操作直接交给 agent 之后，权限设计会迅速变成安全短板。来源：The Verge

开源与开发者工具

1. 自适应爬虫抓取神器发布

Scrapling 把抓取逻辑做成更耐页面结构变化的适配式方案，重点是减少 XPath 或 CSS 选择器一改就崩的维护成本，对做情报采集和自动化工作流的人很友好。来源：GitHub

2. 全新终端智能助手登热榜 🌟10k

oh-my-pi 是一个轻量终端 AI 助手，支持 LSP 协议和更节省 token 的哈希编辑策略，适合在本地命令行里做高频编码协作。来源：GitHub

AI资讯：开源项目oh-my-pi的网页仓库主页功能概览截图

3. 免分词多语种语音生成器发布 🌟20k+

VoxCPM 走的是免分词、多语种语音生成路线，社区热度已经来到 2 万星 量级，对 TTS 开发者来说很值得跟。来源：GitHub

4. 设计视觉微调工具正式开源

impeccable 想解决 AI 生成前端“能用但不好看”的老问题，用命令行方式批量优化网页视觉细节，挺像设计微调层。来源：GitHub

社媒与观点

1. 排版设计利器获上千社区标星

Kami 用仿纸张质感、墨蓝排版和阅读友好的默认设计，把“AI 生成文档”这件事做得更像成品，社区反馈很强，适合作为文档排版与知识输出工具。来源：GitHub

AI资讯：Kami排版引擎生成的优雅仿纸质排版文档效果图片一

AI资讯：Kami工具在知识库阅读场景下的温暖质感呈现图片二

2. 独立 AI 开发者近日荣登央视

独立开发者归藏近期登上央视，也把他围绕 AI 排版与内容工具的开源实践推到更大受众面前；这类“单人开发者 + AI 工具链”的路径还在持续放大。来源：即刻

AI资讯:央视新闻中关于独立AI开发者归藏的报道画面截图

3. 创意作品平台发起计划

Open Design 发起社区计划，鼓励创作者共享模板、作品与工作流。对 AI 创作平台来说，下一步比拼的不只是生成能力，也是能不能养出稳定社区。来源：Open Design

AI资讯：Open Design 社区征集展示活动海报宣传物料

4. 开源与闭源模型在不同的增长曲线上

Nathan Lambert 这篇文章的核心判断很直接：当一点点模型智能就能换来实际商业价值时，闭源模型会继续沿高边际智能收费，而开源模型会在成本、可控性和生态层面形成不同增长曲线。来源：Interconnects

快讯

英伟达重大演讲发布重磅架构。 黄仁勋台北演讲继续把 Vera 架构、DSX 平台和 agentic factory 叙事推到台前，NVIDIA 正在把“AI 工厂”包装成一套完整产业操作系统。来源：即刻
Google AI 展示并行子智能体自动整理文件。 Google AI for Developers 演示并行子智能体对数百个营销素材做分类、重命名和清理，说明 agent 协作正在从 demo 走向更实际的内容运营场景。来源：Google AI for Developers
微软研究聚焦：智能体评估与价值对齐。 Microsoft Research 继续把重点放在智能体行为评估、代码语境优先和价值对齐问题上，这类基础研究会越来越直接影响 agent 的上线边界。来源：Microsoft Research

今日总结与启示

模型能力正在和交付渠道一起升级。 AWS、Grok Build 与多模态工作台的同步推进，说明“好模型”之外还要比谁更容易进生产 🚀。
Physical AI 不再只是概念秀。 医疗、工厂、晶圆厂三条线都在往真实世界系统接，AI 开始更深地碰到硬件与运营流程 🏭。
Agent 底层研究继续补长板。 RL 稳定性、上下文控制和实时视频编辑这些进展，都是为了让长链路任务更可控 🧠。
资本市场已经把 AI 当成长期基建赛道。 IPO、股权融资和 1GW 级数据中心几乎同一天出现，说明行业还在加杠杆 ☁️。
开发者生态依旧是最活跃的扩散层。 从 Scrapling、oh-my-pi 到 Kami，真正跑起来的往往是那些能立刻嵌进工作流的小工具 🛠️。

2026-06-02 AI大事件

今日摘要 ​

模型与产品更新 ​

1. OpenAI 前沿模型与 Codex 现可在 AWS 上使用 ​

2. 英伟达联手富士康落地医疗 ​

3. MiniMax M3：前沿编码、100 万 token 上下文与原生多模态一体模型 ​

4. xAI 发布 Composer 2.5 ​

5. Qwen3.7-Plus：多模态智能体智能 ​

6. 使用 NVIDIA Cosmos 3 开发物理 AI 推理、世界与行动模型 ​

7. SenseNova 新模型解决 AI 图表生成难题 ​

8. 介绍 Mellum2：JetBrains 推出的 12B 混合专家模型 ​

9. 腾讯混元发布智能体长期记忆插件 Hy-Memory ​

10. NVIDIA 发布工厂运营蓝图，为工厂提供自主智能管理智能体 ​

前沿研究 ​

1. 全新强化学习 EchoRL 发布 ​

2. 多维时间序列预测获突破 ​

3. 实时视频编辑系统惊艳亮相 ​

4. 长任务推理崩溃得到解决 ​

5. 无人出租车开源模型正式发布 ​

行业、政策与安全 ​

1. 科技巨头申请秘密上市 ​

2. 中国大模型应用预测异见 ​

3. 三维生成平台用户数破千万 ​

4. Anthropic 保密向 SEC 提交 S-1 草案 ​

5. 智谱：建议 A 股发行并在科创板上市 ​

6. Alphabet 将通过发行股票筹集 800 亿美元用于 AI 支出计划 ​

7. 佛罗里达州起诉 OpenAI 与 Sam Altman：涉多起 ChatGPT 相关谋杀案 ​

8. 王兴：美团 AI Agent“小美”与腾讯元宝即将深度合作，用户订单无缝连接 ​

9. 英伟达和台积电将 AI 引入晶圆厂，推动半导体设计与制造发展 ​

10. OpenAI 在密歇根州启动 Stargate 1GW 数据中心建设 ​

11. Meta 的 AI 被利用来劫持 Instagram 账号 ​

开源与开发者工具 ​

1. 自适应爬虫抓取神器发布 ​

2. 全新终端智能助手登热榜 🌟10k ​

3. 免分词多语种语音生成器发布 🌟20k+ ​

4. 设计视觉微调工具正式开源 ​

社媒与观点 ​

1. 排版设计利器获上千社区标星 ​

2. 独立 AI 开发者近日荣登央视 ​

3. 创意作品平台发起计划 ​

4. 开源与闭源模型在不同的增长曲线上 ​

快讯 ​

今日总结与启示 ​