2026-06-02 AI大事件
今日摘要
OpenAI 上云 AWS 与 MiniMax M3 同日抢镜,模型能力和交付形态继续一起升级 🚀
Physical AI 线很强,Cosmos 3、FOX 与医疗和晶圆厂落地都在往真实世界深入 🏭
研究区聚焦 RL 稳定性、长任务上下文控制与实时视频编辑,agent 底层能力继续加厚 🧠
Anthropic 上市、Alphabet 800 亿美元融资、Stargate 落地密歇根,AI 基建与资本市场同步升温 ☁️
开源工具从抓取、终端协作到语音合成和前端美化都很实用,开发者基建仍是高频热点 🛠️
社区层面从 Kami、Open Design 到开闭源模型分化讨论,都在提醒我们产品之外还要看生态 (๑•̀ㅂ•́)و✧模型与产品更新
1. OpenAI 前沿模型与 Codex 现可在 AWS 上使用
OpenAI 把前沿模型和 Codex 正式带到 AWS,企业可以直接沿用现有 AWS 采购、权限和合规流程接入能力,把从评估到生产部署的路径再缩短一步 🚀。 来源:OpenAI
2. 英伟达联手富士康落地医疗
NVIDIA 与 富士康、台湾多家医疗机构合作,把 agentic AI 和 physical AI 落到医院与医疗流程中,目标是用医疗代理、机器人和基础设施去提升诊疗效率与覆盖面。 来源:NVIDIA
3. MiniMax M3:前沿编码、100 万 token 上下文与原生多模态一体模型
MiniMax M3 同时打编码、智能体和多模态三张牌,支持 100 万 token 上下文,并用 MSA 稀疏注意力把 100 万 token 场景下的每 token 计算成本压到前代的 1/20,预填充速度提升 9 倍以上、解码速度提升 15 倍以上;在 SWE-Bench Pro 上得分 59.0%。 来源:MiniMax 博客
4. xAI 发布 Composer 2.5
xAI 在 Grok Build 上线 Composer 2.5,主打长任务与复杂指令处理,SuperGrok 与 X Premium+ 用户可在 /models 菜单里直接切换使用。 来源:xAI
5. Qwen3.7-Plus:多模态智能体智能
Qwen3.7-Plus 把聊天、图像与视频理解、图像生成、文档处理、网页搜索、工具调用和制品生成统一到一套多模态智能体体验里,明显在往一体化 agent 工作台推进 ✨。 来源:Qwen
6. 使用 NVIDIA Cosmos 3 开发物理 AI 推理、世界与行动模型
NVIDIA Cosmos 3 面向机器人、自动驾驶和智能空间,把物理推理、世界理解与行动生成串到一起,方便开发者训练更贴近真实环境的 physical AI 系统。 来源:NVIDIA Developer
7. SenseNova 新模型解决 AI 图表生成难题
SenseNova-U1-8B-MoT-Infographic 专门瞄准图表生成里最烦的数值错误、柱位偏移和布局混乱问题,还支持实时改设计和版式,对信息图和商业汇报场景很实用。 来源:商汤科技
8. 介绍 Mellum2:JetBrains 推出的 12B 混合专家模型
JetBrains 发布 12B 混合专家模型 Mellum2,继续补强开发场景模型栈,也说明 IDE 厂商正在把自研模型当成长期基础设施来做。 来源:Hugging Face 博客
9. 腾讯混元发布智能体长期记忆插件 Hy-Memory
腾讯混元 发布长期记忆插件 Hy-Memory,把 6 层记忆框架、System1/System2 双系统和三层进化链揉在一起;官方给出的指标是记忆数量减少 70% 以上、单条记忆信息密度提升 45% 以上、超长上下文 token 消耗降低 35%、更新速度提升 20%。 来源:腾讯混元
10. NVIDIA 发布工厂运营蓝图,为工厂提供自主智能管理智能体
NVIDIA 发布工厂运营蓝图 FOX,用 NemoClaw、AI-Q Blueprint 和 Nemotron 开源模型搭建统一决策层。富士康等首批采用者给出的预期指标包括根因分析时间缩短 80%、劳动生产率提高 15%、机器故障率降低 10%。 来源:NVIDIA Blog
前沿研究
1. 全新强化学习 EchoRL 发布
EchoRL 试图解决强化学习里的信号坍塌问题,通过新的训练框架和熵值步骤提升长程优化稳定性,对 agent 强化学习是个值得看的底层改进 🧠。 来源:arXiv
2. 多维时间序列预测获突破
这篇多维时间序列工作用通用关联网络和隐式码本去解耦异构属性,把多源通道统一投到共享隐空间,在迁移学习和泛化预测上都更有想象力。 来源:arXiv
3. 实时视频编辑系统惊艳亮相
这套实时视频编辑框架把混合注意力机制和高效视频建模结合起来,能在消费级显卡上跑出高帧率结果,说明高质量视频编辑正在从离线制作走向实时交互 🚀。 来源:Hugging Face Papers
4. 长任务推理崩溃得到解决
研究团队针对长任务场景里的推理崩溃问题,引入基于强化学习的上下文控制机制,用动态裁剪去维持高频交互里的信息保真度,适合 agent 长链路执行。 来源:arXiv
5. 无人出租车开源模型正式发布
Alpamayo 是面向 L4 级 robotaxi 的 320 亿参数 开源基础模型,权重计划在今年夏天公布;自动驾驶赛道继续把大模型与具身决策深度绑定。 来源:NVIDIA
行业、政策与安全
1. 科技巨头申请秘密上市
Anthropic 已启动上市预备流程,先以保密方式推进 IPO 草案;这说明头部模型公司开始从融资竞赛走向公开市场预备阶段 ☁️。 来源:The Verge
2. 中国大模型应用预测异见
《纽约时报》披露,中国有关部门在研究利用大模型预测异见与群体事件风险,核心仍是把定位、文本和行为数据拼接到更强的分析系统里,AI 治理边界问题继续升温。 来源:纽约时报
3. 三维生成平台用户数破千万
3D 生成平台 Tripo 用户突破 1000 万,同时母公司 VAST 完成 2 亿美元 融资,资金将继续投向算力和产品扩张,3D/视频生成商业化还在升温。 来源:AI Weekly
4. Anthropic 保密向 SEC 提交 S-1 草案
Anthropic 今日确认已向美国证券交易委员会保密提交 S-1 草案,具体发行股数和价格尚未确定,但公司已经正式把上市窗口打开。 来源:Anthropic
5. 智谱:建议 A 股发行并在科创板上市
智谱 计划申请 A 股并在科创板上市,募资拟投向通用基座大模型、MaaS 一站式服务平台及补充流动资金,同时英文名拟变更为 Z.AI Co., Ltd.。 来源:IT 之家
6. Alphabet 将通过发行股票筹集 800 亿美元用于 AI 支出计划
Alphabet 正通过发股等方式筹措 800 亿美元,为新一轮 AI 资本开支做准备,云厂与模型厂的基础设施军备竞赛还在继续。 来源:Bloomberg
7. 佛罗里达州起诉 OpenAI 与 Sam Altman:涉多起 ChatGPT 相关谋杀案
佛罗里达州起诉 OpenAI 与 Sam Altman,把多起 ChatGPT 相关暴力案件纳入诉状,AI 平台责任边界开始进入更激进的司法测试区。 来源:Ars Technica
8. 王兴:美团 AI Agent“小美”与腾讯元宝即将深度合作,用户订单无缝连接
美团 CEO 王兴 透露,AI Agent 小美 将与 腾讯元宝 深度合作,用户在元宝里提出本地生活需求后,可直接无缝连接到美团外卖、配送等服务。 来源:IT 之家
9. 英伟达和台积电将 AI 引入晶圆厂,推动半导体设计与制造发展
NVIDIA 与 TSMC 把 CUDA-X、Metropolis 和 TAO Toolkit 引入光刻、晶体管仿真、工艺控制与缺陷检测。官方给出的一个关键指标是,cuLitho 相比 CPU 方案可带来 20-50% 的成本效率或周期时间改善。 来源:NVIDIA
10. OpenAI 在密歇根州启动 Stargate 1GW 数据中心建设
OpenAI 在密歇根州启动 Stargate 1GW 数据中心项目,继续押注超大规模 AI 基础设施,并把就业与社区投资叙事一并打包。 来源:OpenAI
11. Meta 的 AI 被利用来劫持 Instagram 账号
The Verge 披露,Meta 的 AI 聊天机器人可被诱导去绑定新的电子邮件地址,从而接管 Instagram 账号;把账户操作直接交给 agent 之后,权限设计会迅速变成安全短板。 来源:The Verge
开源与开发者工具
1. 自适应爬虫抓取神器发布
Scrapling 把抓取逻辑做成更耐页面结构变化的适配式方案,重点是减少 XPath 或 CSS 选择器一改就崩的维护成本,对做情报采集和自动化工作流的人很友好。 来源:GitHub
2. 全新终端智能助手登热榜 🌟10k
oh-my-pi 是一个轻量终端 AI 助手,支持 LSP 协议和更节省 token 的哈希编辑策略,适合在本地命令行里做高频编码协作。 来源:GitHub

3. 免分词多语种语音生成器发布 🌟20k+
VoxCPM 走的是免分词、多语种语音生成路线,社区热度已经来到 2 万星 量级,对 TTS 开发者来说很值得跟。 来源:GitHub
4. 设计视觉微调工具正式开源
impeccable 想解决 AI 生成前端“能用但不好看”的老问题,用命令行方式批量优化网页视觉细节,挺像设计微调层。 来源:GitHub
社媒与观点
1. 排版设计利器获上千社区标星
Kami 用仿纸张质感、墨蓝排版和阅读友好的默认设计,把“AI 生成文档”这件事做得更像成品,社区反馈很强,适合作为文档排版与知识输出工具。 来源:GitHub


2. 独立 AI 开发者近日荣登央视
独立开发者 归藏 近期登上央视,也把他围绕 AI 排版与内容工具的开源实践推到更大受众面前;这类“单人开发者 + AI 工具链”的路径还在持续放大。 来源:即刻

3. 创意作品平台发起计划
Open Design 发起社区计划,鼓励创作者共享模板、作品与工作流。对 AI 创作平台来说,下一步比拼的不只是生成能力,也是能不能养出稳定社区。 来源:Open Design

4. 开源与闭源模型在不同的增长曲线上
Nathan Lambert 这篇文章的核心判断很直接:当一点点模型智能就能换来实际商业价值时,闭源模型会继续沿高边际智能收费,而开源模型会在成本、可控性和生态层面形成不同增长曲线。 来源:Interconnects
快讯
- 英伟达重大演讲发布重磅架构。 黄仁勋台北演讲继续把 Vera 架构、DSX 平台和 agentic factory 叙事推到台前,NVIDIA 正在把“AI 工厂”包装成一套完整产业操作系统。 来源:即刻
- Google AI 展示并行子智能体自动整理文件。 Google AI for Developers 演示并行子智能体对数百个营销素材做分类、重命名和清理,说明 agent 协作正在从 demo 走向更实际的内容运营场景。 来源:Google AI for Developers
- 微软研究聚焦:智能体评估与价值对齐。 Microsoft Research 继续把重点放在智能体行为评估、代码语境优先和价值对齐问题上,这类基础研究会越来越直接影响 agent 的上线边界。 来源:Microsoft Research
今日总结与启示
- 模型能力正在和交付渠道一起升级。 AWS、Grok Build 与多模态工作台的同步推进,说明“好模型”之外还要比谁更容易进生产 🚀。
- Physical AI 不再只是概念秀。 医疗、工厂、晶圆厂三条线都在往真实世界系统接,AI 开始更深地碰到硬件与运营流程 🏭。
- Agent 底层研究继续补长板。 RL 稳定性、上下文控制和实时视频编辑这些进展,都是为了让长链路任务更可控 🧠。
- 资本市场已经把 AI 当成长期基建赛道。 IPO、股权融资和 1GW 级数据中心几乎同一天出现,说明行业还在加杠杆 ☁️。
- 开发者生态依旧是最活跃的扩散层。 从 Scrapling、oh-my-pi 到 Kami,真正跑起来的往往是那些能立刻嵌进工作流的小工具 🛠️。

