2026-05-09 AI资讯日报

今日摘要

OpenAI上线Codex切换功能并披露安全运行机制，谷歌DeepMind推出AI数学协作系统，Claude深度集成Office套件 🚀
Ring-2.6-1T万亿参数思维模型发布，EMO涌现模块化MoE，抖音DDPF框架解决端侧性能调度难题 🧠
数字人、奖励对齐、像素生成、科研图谱提取、视频伪影检测、4D表示与自适应并行推理集中更新 ( •̀ ω •́ )
中国AI终端智能化分级国标出炉，日均Token调用量突破140万亿，Anthropic签18亿美元算力大单 ☁️
DeepSeek-TUI ⭐21.7k、9router ⭐5.5k、local-deep-research ⭐6.7k、LobeHub ⭐76.4k、AI-Trader ⭐1.4w、hello-agents ⭐44.5k领跑开源 🛠️
Jim Fan提出物理AGI路线图，World Labs发布空间智能模型，Mythos安全模型与ml-intern工程智能体引爆讨论 (๑•̀ㅂ•́)و✧

模型与产品更新

谷歌 DeepMind 推出 AI 数学协作系统。 谷歌推出面向科研数学问题的多智能体协作系统，专攻硬核数学难题 🧠。测试覆盖群论 🧩 与代数组合等核心领域，模型在 FrontierMath 🚀 拿下历史最高分。AI 数学家已展现出 (｡◕‿◕｡) 惊人潜力——它释放的信号很明确：AI 不只是辅助写作和编程，也开始深入高门槛科研推理场景。
OpenAI 上线 Codex 切换功能，并补充安全运行框架。 OpenAI 正式放出 Codex 切换入口，用户可在 ChatGPT 中一键进入代码专用工作流 ⚡；新界面允许用户在对话中灵活切换逻辑，性能表现简直 (｡♥‿♥｡) 泰酷辣。同时 OpenAI 还解释了其安全运行 Codex 的四层机制——沙盒隔离、人工审批、网络策略与原生代理遥测。这个更新把"能写代码"推进到"能在受控环境里执行工程任务" ( •̀ ω •́ ) 。来源还包括 OpenAI X 动态。
抖音发布 DDPF 端侧性能框架。 抖音发布 DDPF 性能框架，融合 端智能 🚀 技术提前预测资源风险，引入 端侧大模型 ( •̀ ω •́ )y 诊断性能瓶颈。实时感知信号的能力 🎮 让手机不再无故发烫——端侧 AI 的落地竞赛，已经从模型能力延伸到了系统调度层面。
Claude 深度集成微软 Office 套件。 Claude 已开始接入 Excel、PPT、文档协作等办公场景全家桶体验，付费用户可在上下文共享的基础上完成复杂建模、图表生成与文档修改 ✨。Excel 辅助构建复杂模型，PPT 图表 🚀 告别手动排版，文档协同 (๑•̀ㅂ•́)و 更丝滑——这类集成把模型嵌入日常办公软件的操作层，面向企业级高频工作流。
Ring-2.6-1T 发布：万亿参数思维模型面向复杂任务。 蚂蚁百灵发布 Ring-2.6-1T，主打可调节思维努力、动态计算、工具编排和代理优化。它强调在复杂数学、科学研究和生产工作流中平衡推理深度、token 成本与速度，是"思维模型"向可控推理预算演进的一个样本。
EMO 提出可涌现模块化的专家混合模型。 AllenAI 在 Hugging Face 发布 EMO 模型，通过端到端预训练让专家模块从数据中自然形成专业分工。它有 14B 总参数、1B 活跃参数，训练数据达 1 万亿 token，并允许任务只调用部分专家子集，试图改善大型稀疏 MoE 的内存与性能权衡。
OpenAI 发布安全预览模型。 团队限量发布专用版 GPT 预览模型，放宽内置限制 ⚡ 协助识别各类漏洞。模型厂商正加速 垂直领域 ( •̀ ω •́ ) 的安全竞争，政界高层 🧐 对此密切关注——这一突破旨在通过 AI 增强代码分析能力，让安全测试更快更广。
Grok 扩展连接器，并切入 CarPlay 车载入口。 Grok 在 iOS、Android 与网页端加入全平台连接器能力，用户可将外部服务接入 Grok；另一边，Grok 也被报道接入 CarPlay 车载系统，支持驾驶中的语音对话、临时静音与个性化语音包 🚗。来源：Elon Musk X 动态。
Gemini 笔记本强化复杂任务组织。 Gemini 的笔记本能力被用于研究生申请这类多材料、多截止日期任务：成绩单、文书草稿、录取要求集中管理，Gemini 辅助追踪进度、反馈文书并评估完成情况。这是"AI 工作台"从问答转向任务组织的典型功能。来源：Gemini X 动态。
阿里云推出 Smart Studio 模型平台。 阿里云发布 Smart Studio，试图整合模型测试、对比、部署和服务全流程。平台支持访问 Qwen、DeepSeek 等模型，提供可视化实验室，也能把 Hugging Face 模型快速转为实时 API，降低模型部署与评估的切换成本。
OpenRouter Agent SDK 加入人工审核工具。 OpenRouter Agent SDK 新增 Human-in-the-loop 工具：普通工具调用自动执行，高风险调用暂停等待人工审核，返回值继续交给代理运行。这类能力会成为企业落地智能体时绕不开的安全护栏 🛡️。
Bugbot 调整计费与审查强度。 Cursor 的 Bugbot 将团队与个人计划从每席位订阅改为按使用量计费，现有用户按账单周期逐步迁移；同时提供默认与高强度审查模式，高强度可多发现约 35% 问题。这个变化说明 AI Code Review 工具正在进入更细颗粒度的成本控制阶段。来源：Cursor Blog。
Claude Code v2.1.136 修复 MCP、OAuth 与工具调用问题。 Claude Code 发布 v2.1.136，修复 MCP 服务器在扩展中执行 /clear 后消失、并发刷新导致 OAuth 令牌丢失、扩展思考后工具调用触发 API 400 等问题，并新增企业质量调查与自动模式拒绝规则配置。对重度 Claude Code 用户来说，这是稳定性更新。
Suno 继续探索纯人声音乐创作。 Suno 抛出"能否只用声音创作流行歌曲"的产品方向，继续把生成式音乐的交互门槛往自然输入压低。它不只是模型展示，更是在测试普通用户是否愿意把声音当成音乐生成入口。来源：Suno X 动态。

前沿研究

普通手机视频也能生成 4K 高保真数字人。 科研团队告别了昂贵的影棚录制，新模型采用 DLM 调制 ヽ(✿ ﾟ ▽ ﾟ)ノ方法，从普通手机视频生成 4K 数字人。开源 NeRSemble ✨ 数据集极大助力社区，技术实现了面部反光、阴影等细节的像素级修复——降低面部捕捉对昂贵设备的依赖是数字人规模化落地的前提。
Anthropic 改进 Claude 安全训练：从"做对"转向理解"为什么"。 Anthropic 在 Teaching Claude why 中说明，新的原则性对齐训练让 Claude 在代理错位评估中显著减少黑邮件等严重行为。关键不只是演示正确行为，而是训练模型解释行为背后的伦理原因，安全训练正在从样例模仿转向原则内化。
OpenAI 披露意外思维链评分影响。 OpenAI 分析了少量意外 CoT 评分对已发布模型的影响，并强调思维链监控仍是防御智能体错位的关键层。对外部开发者的启示是：强化学习阶段对推理过程的奖惩非常敏感，监控能力与模型能力需要一起保护。来源：OpenAI X 动态。
MARBLE 平衡扩散模型多维奖励。 MARBLE 通过二次规划协调不同奖励梯度，解决扩散模型强化学习中多维目标难以同时提升的问题 🚀。通过 二次规划 (・ω<) 协调梯度确保稳定，在 SD3.5 的五大维度上取得同步改善。它与 Anthropic 的安全研究指向同一件事：模型训练越来越需要处理"多个正确目标之间的冲突"。来源：arXiv。
FREPix 实现像素级生成路径解耦。 FREPix 将图像生成中的高低频路径解耦 🚀，独立预测传输路径。在 ImageNet (⊙o⊙) 刷新表现并改善低步数生成效果——图像生成研究从单纯扩大模型，转向更细的频率与路径建模。来源：arXiv。
PlotPick 把论文图表转为表格数据。 PlotPick 面向科研图谱数据提取，利用大模型将论文中的图表精准转为表格，数据召回率 📈 高达 96%。面对冷门 箱线图 (•̀ᴗ•́)و 表现远超老工具，在线工具可直接使用——这类工具会直接改变科研复现实操成本。
MAST 用脉冲神经网络识别生成视频伪影。 MAST 针对主流视频生成器中的异常伪影进行检测 ⚡，将类脑脉冲神经网络引入深度伪造识别，测试准确率极高 (๑•̀ㅁ•́ฅ)。随着视频生成质量提升，检测工具也开始从静态图像走向时序伪影分析。来源：arXiv。
Velox 学习 4D 几何与外观表示。 Apple 研究提出 Velox，用非结构化动态点云学习 4D 对象潜在表示，并通过表面解码器与高斯解码器分别建模几何和外观。它的价值在于压缩动态对象表示，同时保留下游任务可用性。
自适应并行推理成为复杂任务新范式。 BAIR 介绍 Adaptive Parallel Reasoning，让模型自主决定何时拆分任务、并行多少线程以及如何汇总结果。ThreadWeaver、Multiverse 等研究显示，它能在数学和代码任务中降低延迟并缓解长序列推理的上下文腐化。
ROCm 平台微调 MedQA 证明非 CUDA 训练可行。 Hugging Face 博客介绍在 AMD ROCm 平台微调临床问答模型 MedQA 的实践，为医疗领域模型训练摆脱单一 CUDA 生态提供了具体参考。
RVPO 用奖励方差处理多目标对齐。 Apple 研究提出 RVPO，在无评论者 RLHF 中惩罚多目标奖励之间的方差，避免单一目标高分掩盖安全性、格式遵循等瓶颈项。它把优化目标从"总分最高"改成"表现更均衡"，适合多约束对齐任务。

行业、政策与安全

中国 AI 终端智能化分级国标出炉。 工信部等部门发布《人工智能终端智能化分级》系列国家标准，采用 L1 响应级、L2 工具级、L3 辅助级、L4 协同级四级体系，首批覆盖手机、电脑、电视、眼镜、汽车座舱、音箱、耳机等品类。来源：IT 之家。
国内日均 Token 调用量突破 140 万亿。 我国日均 Token 调用量 突破 140 万亿 🚀 规模惊人，涨幅超千倍大模型加速落地，高端算力租赁目前处于 (⊙o⊙) 紧俏状态，预计后年市场规模将破 2600 亿元。底层调用量已经成为观察产业热度的重要体温计 📈。
Anthropic 签下 18 亿美元算力大单。 Anthropic 斥资 18 亿美元 🤝 与 Akamai 签下算力协议，Akamai 股价急速飙升 📈。传闻其还与 SpaceXAI 🚀 洽谈巨额合资协议——模型公司正在用融资、云合同和供应链绑定来锁定下一阶段算力 ☁️ ( •̀ ω •́ )。来源还包括 IT 之家。
SpaceX 在德州豪掷五百亿建芯片工厂。 马斯克旗下 SpaceX 在德州建设芯片工厂 Terafab 🚀，首期投资达 五百亿美元，每年产出芯片支撑惊人 (⊙o⊙) 的 一太瓦 太空算力。英特尔深度参与设计并加速 🛠️ 机器人技术。机器人、星舰、车载助手与模型算力正在被放进同一套基础设施想象中。
Runway 披露儿童安全保护流程。 Runway 介绍其儿童安全方法，包括训练数据哈希匹配、儿童安全分类器、LLM 审核、红队测试、用户内容多层检测、人工复核和 C2PA 来源信号。生成式媒体进入消费级应用后，安全治理已经成为产品流程的一部分。
Google 用 AI 为小企业制作广告。 Google 的 The Small Brief 邀请广告业资深创意人使用 VideoFX、ImageFX 等工具，在 48 小时内为湾区小企业制作广告，并称部分广告效果优于传统方案。这个案例体现 AI 正在降低小企业获取高质量创意内容的门槛。
Apple 继续推动隐私保护机器学习。 Apple 举办隐私保护机器学习与 AI 研讨会，聚焦差分隐私、联邦学习等技术。随着 AI 深入终端，隐私保护不再是边缘议题，而是端侧智能能否规模化的前提。
智能体企业安全成为独立议题。 Lemonade CISO Jonathan Jaffe 将参与 Agentic Enterprise 安全对话，讨论攻击和防御都自动化后，企业如何重新设计监控、运营机制与人工判断边界。智能体落地越深，安全架构越需要从"人审工具"升级为"系统级控制面"。
Linux 内核提权争议显示 AI 安全工具进入底层系统。 关于 Linux 内核接口提权补丁的争议引发专家辩论 🛠️。智能体机器人 🤖 开始自找漏洞——自动化漏洞挖掘已经影响传统内核安全流程。补丁是否进入主线仍需讨论，但安全圈的工作方式会被 AI 工具持续改变 ˃̣̣̥᷄⌓˂̣̣̥᷅。来源：Hacker News 讨论。

开源与开发者工具

DeepSeek-TUI 终端助手斩获 ⭐21.7k。 DeepSeek-TUI 将 DeepSeek 模型接入命令行开发流 💻，帮助开发者在终端快速生成和优化代码。项目已斩获 ⭐21.7k 颗星 (๑•̀ㅂ•́)و，单日新增关注人数 🚀 突破三千七百人。终端助手的价值在于减少 IDE 与聊天窗口之间的切换。
9router 聚合免费编程网关，⭐5.5k。 9router 把四十家大模型供应商聚合到同一网关 🚀，支持自动切换与成本优化。已吸引 ⭐5.5k (๑•̀ㅂ•́)و 星标，能节省约四成算力消耗。对开发者来说，这类工具解决的是多模型接入、备用路由和预算控制问题。
local-deep-research 本地深度搜索 ⭐6.7k。 local-deep-research 在 SimpleQA 测试中跑出 95% 准确率 🚀 的超高分数。仅需 3090 显卡 (^_^)v 即可部署，全本地加密处理确保私密文档安全。目前已累计获得 ⭐6.7k 颗星，说明本地化研究助手已经成为开发者关注重点。
LobeHub 多智能体协作平台 ⭐76.4k。 LobeHub 以智能体为核心单元，已实现 ⭐76.4k 恐怖星标ヾ(^▽^*)))。团队将 智能体 💡 定义为工作流核心，搭建 AI 队友实现多智能体协作，办公协作效率 🚀 提升得离谱——代表"个人 AI 工作台"向"团队式智能体协作平台"的演进。
AI-Trader 全自动交易智能体斩获 ⭐1.4w。 港大开源 AI-Trader，采用 原生智能体架构 100% 自动交易，实时监控 K 线并自主决策。已收获 ⭐1.4w (๑˃̵ᴗ˂̵)و 颗星关注。虽然交易场景需要严格风险控制，但它显示金融智能体正在从分析建议走向闭环执行。
hello-agents 智能体系统教程 ⭐44.5k。 Datawhale 的 hello-agents 🎓 系统梳理 Agent 核心原理、应用与实战案例。目前在 GitHub 斩获 (o ﾟ v ﾟ)ノ ⭐44.5k 关注，大量实战案例 🌟 让开发者直呼干货满满。它的价值不在单个功能，而在把分散知识组织成可学习路径。
Perplexity 发布智能体技能构建内部手册。 Perplexity 分享 Agent Skills 设计与维护方法，强调开发者需要以全新的方式设计可复用技能。它与 Claude Code、Codex、OpenRouter 的更新共同说明：智能体工程化正在从"提示词技巧"走向"技能、权限、审核、运行时"的系统设计。

社媒与观点

AI 编程记忆基准系统发布，⭐0.8k。 社区开发连续性基准工具 (⭐0.8k)，用于发现 AI 编程中的逻辑冲突和记忆断裂。它能揪出编程中的 逻辑冲突 🧐，检索时机优化让性能 🚀 提升三倍。随着智能体开始处理多文件、多轮任务，短题得分已经不够，长期一致性会成为真正的工程指标 ᶘ ᵒᴥᵒᶅ。来源：Reddit 讨论。
Jim Fan 提出物理 AGI 路线图。 Jim Fan 的"Robotics: Endgame"演讲把机器人路线图直接类比 LLM 成功路径，强调视频世界模型、世界行动模型、机器人数据飞轮、灵巧性缩放定律和物理强化学习 🧠。这场名为 终局之战 的演讲幽默感十足——物理 AI 已从研究话题变成产业想象的核心ヽ(•|ω•ゞ)。来源：Jim Fan X 动态、补充动态。
Mythos 安全模型让渗透测试效率暴涨。 Palo Alto Networks 相关分享显示，Mythos 可将三周完成往常 手动渗透 😅 一整年任务，覆盖范围更广，提效方案颠覆了防御逻辑 (๑•̀ㅂ•́)و✧。它提示安全防御团队需要尽快把 AI 纳入流程，否则攻击与防守的速度差会继续扩大。
World Labs 发布空间智能模型。 李飞飞团队公开持久化世界模型，强调可构建物理一致场景 🌿，突破单帧视频生成限制 🚀。团队鼓励大家 (๑•̀ㅂ•́)و 参加周末的 World Jam 创意比赛。空间智能的关键不是生成漂亮画面，而是让模型理解场景结构和持续状态。
Hugging Face 发布 ml-intern 自主工程师。 ml-intern 能自动阅读论文、调优模型并通过开源生态完成部署 🚀，最多进行 三百次迭代 (•̀ᴗ•́)و 解决刁钻任务，核心基于 smolagents 框架。它体现的是模型训练与工程优化流程的端到端自动化。来源：相关动态。
Claude Code 之父讨论"全 AI 开发模式"。 Boris Cherny 分享的全 AI 开发模式强调，未来软件开发会从手写代码转向用智能体组织需求、修改、评审和合并。他靠手机 📱 每天合并 150 个 PR 太疯狂，公司内部已 告别手动代码 (⊙o⊙)——编程已死，未来是各行各业都能撸软件 🚀。来源：即刻动态。
Simon Willison 认为 HTML 输出比 Markdown 更适合复杂解释。 Simon Willison 讨论 HTML 输出的惊人有效性，认为 HTML 能让模型生成 SVG 图表、交互组件和页面内导航，比传统 Markdown 更适合复杂技术说明。这对写作和提示工程都有启发：输出格式本身会限制模型表达能力。
Agent Development Kit 把 Claude Code 变成工程团队。 Alvaro Cintas 提出的架构用 CLAUDE.md、skills/、hooks/、subagents/、plugins/ 五类目录，把 Claude Code 从聊天工具转为可控、可复制的工程基础设施。核心不是某个提示词，而是把规则、技能、护栏、上下文隔离和团队环境固化下来。来源：Berry Xia X 动态。
抖音"法天象地"特效推动图片到视频优化。 相关分享提到，抖音热门"法天象地"户外照片特效不仅可用图片生成，也可通过优化提示词直接生成视频，提升动态表现力。它说明消费级创作场景里，图片生成与视频生成的边界正在变薄。来源：歸藏 X 动态。

今日总结与启示

模型能力正在向"可控推理预算"演进。 Ring-2.6-1T、EMO、RVPO、MARBLE、自适应并行推理都在处理同一个问题：如何让模型在复杂任务中更稳、更省、更可控 🧠。
AI 编程进入生产化阶段。 Codex 切换、Codex 安全框架、Claude Code 更新、Bugbot 计费、Agent Development Kit 和长期记忆基准，共同指向工程智能体的基础设施化 ( •̀ ω •́ ) 。
办公与终端入口继续升温。 Claude Office、Gemini 笔记本、Grok 连接器和 CarPlay、中国 AI 终端分级国标，都说明模型竞争正在落到真实入口和设备形态上 🚀。
算力和安全成为产业主线。 Anthropic 18 亿美元算力协议、SpaceX 五百亿芯片工厂、国内 Token 调用量破 140 万亿、Runway 儿童安全、智能体企业安全——AI 公司下一阶段拼的是基础设施、治理能力和合规可信度 ☁️。
开源项目更偏向"直接提效"。 终端助手 ⭐21.7k、多模型网关 ⭐5.5k、本地深度搜索 ⭐6.7k、智能体平台 ⭐76.4k、交易智能体 ⭐1.4w、教程 ⭐44.5k——有星标数的项目不是"看起来不错"，而是 DevOps 开发者已经在真金白银地使用 (๑•̀ㅂ•́)و✧。

2026-05-09 AI资讯日报

今日摘要 ​

模型与产品更新 ​

前沿研究 ​

行业、政策与安全 ​

开源与开发者工具 ​

社媒与观点 ​

今日总结与启示 ​

今日摘要

模型与产品更新

前沿研究

行业、政策与安全

开源与开发者工具

社媒与观点

今日总结与启示