Skip to content

2026-05-09 AI资讯日报

今日摘要

OpenAI上线Codex切换功能并披露安全运行机制,谷歌DeepMind推出AI数学协作系统,Claude深度集成Office套件 🚀
Ring-2.6-1T万亿参数思维模型发布,EMO涌现模块化MoE,抖音DDPF框架解决端侧性能调度难题 🧠
数字人、奖励对齐、像素生成、科研图谱提取、视频伪影检测、4D表示与自适应并行推理集中更新 ( •̀ ω •́ )
中国AI终端智能化分级国标出炉,日均Token调用量突破140万亿,Anthropic签18亿美元算力大单 ☁️
DeepSeek-TUI ⭐21.7k、9router ⭐5.5k、local-deep-research ⭐6.7k、LobeHub ⭐76.4k、AI-Trader ⭐1.4w、hello-agents ⭐44.5k领跑开源 🛠️
Jim Fan提出物理AGI路线图,World Labs发布空间智能模型,Mythos安全模型与ml-intern工程智能体引爆讨论 (๑•̀ㅂ•́)و✧

模型与产品更新

  1. 谷歌 DeepMind 推出 AI 数学协作系统。 谷歌推出面向科研数学问题的 多智能体协作系统,专攻硬核数学难题 🧠。测试覆盖 群论 🧩 与代数组合等核心领域,模型在 FrontierMath 🚀 拿下历史最高分。AI 数学家已展现出 (。◕‿◕。) 惊人潜力——它释放的信号很明确:AI 不只是辅助写作和编程,也开始深入高门槛科研推理场景。
    AI资讯:GoogleDeepMind发布的AI数学协作系统在FrontierMath复杂数学基准测试中的得分表现柱状图

  2. OpenAI 上线 Codex 切换功能,并补充安全运行框架。 OpenAI 正式放出 Codex 切换入口,用户可在 ChatGPT 中一键进入代码专用工作流 ⚡;新界面允许用户在对话中灵活切换逻辑,性能表现简直 (。♥‿♥。) 泰酷辣。同时 OpenAI 还解释了其 安全运行 Codex 的四层机制——沙盒隔离、人工审批、网络策略与原生代理遥测。这个更新把"能写代码"推进到"能在受控环境里执行工程任务" ( •̀ ω •́ ) 。来源还包括 OpenAI X 动态
    AI资讯:OpenAI发布的ChatGPT切换Codex模式的功能预览图

  3. 抖音发布 DDPF 端侧性能框架。 抖音发布 DDPF 性能框架,融合 端智能 🚀 技术提前预测资源风险,引入 端侧大模型 ( •̀ ω •́ )y 诊断性能瓶颈。实时感知信号的能力 🎮 让手机不再无故发烫——端侧 AI 的落地竞赛,已经从模型能力延伸到了系统调度层面。

  4. Claude 深度集成微软 Office 套件。 Claude 已开始接入 Excel、PPT、文档协作等办公场景 全家桶体验,付费用户可在上下文共享的基础上完成复杂建模、图表生成与文档修改 ✨。Excel 辅助构建复杂模型,PPT 图表 🚀 告别手动排版,文档协同 (๑•̀ㅂ•́)و 更丝滑——这类集成把模型嵌入日常办公软件的操作层,面向企业级高频工作流。

  5. Ring-2.6-1T 发布:万亿参数思维模型面向复杂任务。 蚂蚁百灵发布 Ring-2.6-1T,主打可调节思维努力、动态计算、工具编排和代理优化。它强调在复杂数学、科学研究和生产工作流中平衡推理深度、token 成本与速度,是"思维模型"向可控推理预算演进的一个样本。

  6. EMO 提出可涌现模块化的专家混合模型。 AllenAI 在 Hugging Face 发布 EMO 模型,通过端到端预训练让专家模块从数据中自然形成专业分工。它有 14B 总参数、1B 活跃参数,训练数据达 1 万亿 token,并允许任务只调用部分专家子集,试图改善大型稀疏 MoE 的内存与性能权衡。

  7. OpenAI 发布安全预览模型。 团队限量发布 专用版 GPT 预览模型,放宽内置限制 ⚡ 协助识别各类漏洞。模型厂商正加速 垂直领域 ( •̀ ω •́ ) 的安全竞争,政界高层 🧐 对此密切关注——这一突破旨在通过 AI 增强代码分析能力,让安全测试更快更广。

  8. Grok 扩展连接器,并切入 CarPlay 车载入口。 Grok 在 iOS、Android 与网页端加入全平台连接器能力,用户可将外部服务接入 Grok;另一边,Grok 也被报道接入 CarPlay 车载系统,支持驾驶中的语音对话、临时静音与个性化语音包 🚗。来源:Elon Musk X 动态

  9. Gemini 笔记本强化复杂任务组织。 Gemini 的笔记本能力被用于研究生申请这类多材料、多截止日期任务:成绩单、文书草稿、录取要求集中管理,Gemini 辅助追踪进度、反馈文书并评估完成情况。这是"AI 工作台"从问答转向任务组织的典型功能。来源:Gemini X 动态

  10. 阿里云推出 Smart Studio 模型平台。 阿里云发布 Smart Studio,试图整合模型测试、对比、部署和服务全流程。平台支持访问 Qwen、DeepSeek 等模型,提供可视化实验室,也能把 Hugging Face 模型快速转为实时 API,降低模型部署与评估的切换成本。

  11. OpenRouter Agent SDK 加入人工审核工具。 OpenRouter Agent SDK 新增 Human-in-the-loop 工具:普通工具调用自动执行,高风险调用暂停等待人工审核,返回值继续交给代理运行。这类能力会成为企业落地智能体时绕不开的安全护栏 🛡️。

  12. Bugbot 调整计费与审查强度。 Cursor 的 Bugbot 将团队与个人计划从每席位订阅改为按使用量计费,现有用户按账单周期逐步迁移;同时提供默认与高强度审查模式,高强度可多发现约 35% 问题。这个变化说明 AI Code Review 工具正在进入更细颗粒度的成本控制阶段。来源:Cursor Blog

  13. Claude Code v2.1.136 修复 MCP、OAuth 与工具调用问题。 Claude Code 发布 v2.1.136,修复 MCP 服务器在扩展中执行 /clear 后消失、并发刷新导致 OAuth 令牌丢失、扩展思考后工具调用触发 API 400 等问题,并新增企业质量调查与自动模式拒绝规则配置。对重度 Claude Code 用户来说,这是稳定性更新。

  14. Suno 继续探索纯人声音乐创作。 Suno 抛出"能否只用声音创作流行歌曲"的产品方向,继续把生成式音乐的交互门槛往自然输入压低。它不只是模型展示,更是在测试普通用户是否愿意把声音当成音乐生成入口。来源:Suno X 动态

前沿研究

  1. 普通手机视频也能生成 4K 高保真数字人。 科研团队告别了 昂贵的影棚录制,新模型采用 DLM 调制 ヽ(✿ ゚ ▽ ゚)ノ 方法,从普通手机视频生成 4K 数字人。开源 NeRSemble ✨ 数据集极大助力社区,技术实现了面部反光、阴影等细节的像素级修复——降低面部捕捉对昂贵设备的依赖是数字人规模化落地的前提。

  2. Anthropic 改进 Claude 安全训练:从"做对"转向理解"为什么"。 Anthropic 在 Teaching Claude why 中说明,新的原则性对齐训练让 Claude 在代理错位评估中显著减少黑邮件等严重行为。关键不只是演示正确行为,而是训练模型解释行为背后的伦理原因,安全训练正在从样例模仿转向原则内化。

  3. OpenAI 披露意外思维链评分影响。 OpenAI 分析了少量 意外 CoT 评分 对已发布模型的影响,并强调思维链监控仍是防御智能体错位的关键层。对外部开发者的启示是:强化学习阶段对推理过程的奖惩非常敏感,监控能力与模型能力需要一起保护。来源:OpenAI X 动态

  4. MARBLE 平衡扩散模型多维奖励。 MARBLE 通过二次规划协调不同奖励梯度,解决扩散模型强化学习中多维目标难以同时提升的问题 🚀。通过 二次规划 (・ω<) 协调梯度确保稳定,在 SD3.5 的五大维度上取得同步改善。它与 Anthropic 的安全研究指向同一件事:模型训练越来越需要处理"多个正确目标之间的冲突"。来源:arXiv

  5. FREPix 实现像素级生成路径解耦。 FREPix 将图像生成中的高低频路径解耦 🚀,独立预测传输路径。在 ImageNet (⊙o⊙) 刷新表现并改善低步数生成效果——图像生成研究从单纯扩大模型,转向更细的频率与路径建模。来源:arXiv

  6. PlotPick 把论文图表转为表格数据。 PlotPick 面向科研图谱数据提取,利用大模型将论文中的图表精准转为表格,数据召回率 📈 高达 96%。面对冷门 箱线图 (•̀ᴗ•́)و 表现远超老工具,在线工具 可直接使用——这类工具会直接改变科研复现实操成本。

  7. MAST 用脉冲神经网络识别生成视频伪影。 MAST 针对主流视频生成器中的异常伪影进行检测 ⚡,将类脑脉冲神经网络引入深度伪造识别,测试准确率极高 (๑•̀ㅁ•́ฅ)。随着视频生成质量提升,检测工具也开始从静态图像走向时序伪影分析。来源:arXiv

  8. Velox 学习 4D 几何与外观表示。 Apple 研究提出 Velox,用非结构化动态点云学习 4D 对象潜在表示,并通过表面解码器与高斯解码器分别建模几何和外观。它的价值在于压缩动态对象表示,同时保留下游任务可用性。

  9. 自适应并行推理成为复杂任务新范式。 BAIR 介绍 Adaptive Parallel Reasoning,让模型自主决定何时拆分任务、并行多少线程以及如何汇总结果。ThreadWeaver、Multiverse 等研究显示,它能在数学和代码任务中降低延迟并缓解长序列推理的上下文腐化。

  10. ROCm 平台微调 MedQA 证明非 CUDA 训练可行。 Hugging Face 博客介绍在 AMD ROCm 平台微调临床问答模型 MedQA 的实践,为医疗领域模型训练摆脱单一 CUDA 生态提供了具体参考。

  11. RVPO 用奖励方差处理多目标对齐。 Apple 研究提出 RVPO,在无评论者 RLHF 中惩罚多目标奖励之间的方差,避免单一目标高分掩盖安全性、格式遵循等瓶颈项。它把优化目标从"总分最高"改成"表现更均衡",适合多约束对齐任务。

行业、政策与安全

  1. 中国 AI 终端智能化分级国标出炉。 工信部等部门发布《人工智能终端智能化分级》系列国家标准,采用 L1 响应级、L2 工具级、L3 辅助级、L4 协同级四级体系,首批覆盖手机、电脑、电视、眼镜、汽车座舱、音箱、耳机等品类。来源:IT 之家

  2. 国内日均 Token 调用量突破 140 万亿。 我国日均 Token 调用量 突破 140 万亿 🚀 规模惊人,涨幅超千倍 大模型加速落地,高端算力租赁目前处于 (⊙o⊙) 紧俏状态,预计后年市场规模将破 2600 亿元。底层调用量已经成为观察产业热度的重要体温计 📈。

  3. Anthropic 签下 18 亿美元算力大单。 Anthropic 斥资 18 亿美元 🤝 与 Akamai 签下算力协议,Akamai 股价 急速飙升 📈。传闻其还与 SpaceXAI 🚀 洽谈巨额合资协议——模型公司正在用融资、云合同和供应链绑定来锁定下一阶段算力 ☁️ ( •̀ ω •́ )。来源还包括 IT 之家

  4. SpaceX 在德州豪掷五百亿建芯片工厂。 马斯克旗下 SpaceX 在德州建设 芯片工厂 Terafab 🚀,首期投资达 五百亿美元,每年产出芯片支撑惊人 (⊙o⊙) 的 一太瓦 太空算力。英特尔深度参与设计并加速 🛠️ 机器人技术。机器人、星舰、车载助手与模型算力正在被放进同一套基础设施想象中。

  5. Runway 披露儿童安全保护流程。 Runway 介绍其 儿童安全方法,包括训练数据哈希匹配、儿童安全分类器、LLM 审核、红队测试、用户内容多层检测、人工复核和 C2PA 来源信号。生成式媒体进入消费级应用后,安全治理已经成为产品流程的一部分。

  6. Google 用 AI 为小企业制作广告。 Google 的 The Small Brief 邀请广告业资深创意人使用 VideoFX、ImageFX 等工具,在 48 小时内为湾区小企业制作广告,并称部分广告效果优于传统方案。这个案例体现 AI 正在降低小企业获取高质量创意内容的门槛。

  7. Apple 继续推动隐私保护机器学习。 Apple 举办 隐私保护机器学习与 AI 研讨会,聚焦差分隐私、联邦学习等技术。随着 AI 深入终端,隐私保护不再是边缘议题,而是端侧智能能否规模化的前提。

  8. 智能体企业安全成为独立议题。 Lemonade CISO Jonathan Jaffe 将参与 Agentic Enterprise 安全对话,讨论攻击和防御都自动化后,企业如何重新设计监控、运营机制与人工判断边界。智能体落地越深,安全架构越需要从"人审工具"升级为"系统级控制面"。

  9. Linux 内核提权争议显示 AI 安全工具进入底层系统。 关于 Linux 内核接口提权补丁的争议引发专家辩论 🛠️。智能体机器人 🤖 开始自找漏洞——自动化漏洞挖掘已经影响传统内核安全流程。补丁是否进入主线仍需讨论,但安全圈的工作方式会被 AI 工具持续改变 ˃̣̣̥᷄⌓˂̣̣̥᷅。来源:Hacker News 讨论

开源与开发者工具

  1. DeepSeek-TUI 终端助手斩获 ⭐21.7k。 DeepSeek-TUI 将 DeepSeek 模型接入命令行开发流 💻,帮助开发者在终端快速生成和优化代码。项目已斩获 ⭐21.7k 颗星 (๑•̀ㅂ•́)و,单日新增关注人数 🚀 突破三千七百人。终端助手的价值在于减少 IDE 与聊天窗口之间的切换。
    AI资讯:DeepSeek-TUI 终端界面显示代码自动生成的实时过程图

  2. 9router 聚合免费编程网关,⭐5.5k。 9router 把四十家大模型供应商聚合到同一网关 🚀,支持自动切换与成本优化。已吸引 ⭐5.5k (๑•̀ㅂ•́)و 星标,能节省约四成算力消耗。对开发者来说,这类工具解决的是多模型接入、备用路由和预算控制问题。

  3. local-deep-research 本地深度搜索 ⭐6.7k。 local-deep-research 在 SimpleQA 测试中跑出 95% 准确率 🚀 的超高分数。仅需 3090 显卡 (^_^)v 即可部署,全本地加密处理确保私密文档安全。目前已累计获得 ⭐6.7k 颗星,说明本地化研究助手已经成为开发者关注重点。

  4. LobeHub 多智能体协作平台 ⭐76.4k。 LobeHub 以智能体为核心单元,已实现 ⭐76.4k 恐怖星标 ヾ(^▽^*)))。团队将 智能体 💡 定义为工作流核心,搭建 AI 队友实现多智能体协作,办公协作效率 🚀 提升得离谱——代表"个人 AI 工作台"向"团队式智能体协作平台"的演进。

  5. AI-Trader 全自动交易智能体斩获 ⭐1.4w。 港大开源 AI-Trader,采用 原生智能体架构 100% 自动交易,实时监控 K 线并自主决策。已收获 ⭐1.4w (๑˃̵ᴗ˂̵)و 颗星关注。虽然交易场景需要严格风险控制,但它显示金融智能体正在从分析建议走向闭环执行。
    AI资讯:展示AI智能体在实时波动的金融K线图上进行自动买卖决策的监控界面

  6. hello-agents 智能体系统教程 ⭐44.5k。 Datawhale 的 hello-agents 🎓 系统梳理 Agent 核心原理、应用与实战案例。目前在 GitHub 斩获 (o ゚ v ゚)ノ ⭐44.5k 关注,大量实战案例 🌟 让开发者直呼干货满满。它的价值不在单个功能,而在把分散知识组织成可学习路径。
    AI资讯:Datawhale智能体教程Star增长趋势图

  7. Perplexity 发布智能体技能构建内部手册。 Perplexity 分享 Agent Skills 设计与维护方法,强调开发者需要以全新的方式设计可复用技能。它与 Claude Code、Codex、OpenRouter 的更新共同说明:智能体工程化正在从"提示词技巧"走向"技能、权限、审核、运行时"的系统设计。

社媒与观点

  1. AI 编程记忆基准系统发布,⭐0.8k。 社区开发 连续性基准工具 (⭐0.8k),用于发现 AI 编程中的逻辑冲突和记忆断裂。它能揪出编程中的 逻辑冲突 🧐,检索时机优化让性能 🚀 提升三倍。随着智能体开始处理多文件、多轮任务,短题得分已经不够,长期一致性会成为真正的工程指标 ᶘ ᵒᴥᵒᶅ。来源:Reddit 讨论

  2. Jim Fan 提出物理 AGI 路线图。 Jim Fan 的"Robotics: Endgame"演讲把机器人路线图直接类比 LLM 成功路径,强调视频世界模型、世界行动模型、机器人数据飞轮、灵巧性缩放定律和物理强化学习 🧠。这场名为 终局之战 的演讲幽默感十足——物理 AI 已从研究话题变成产业想象的核心 ヽ(•|ω•ゞ)。来源:Jim Fan X 动态补充动态

  3. Mythos 安全模型让渗透测试效率暴涨。 Palo Alto Networks 相关分享显示,Mythos 可将三周完成往常 手动渗透 😅 一整年任务,覆盖范围更广,提效方案 颠覆了防御逻辑 (๑•̀ㅂ•́)و✧。它提示安全防御团队需要尽快把 AI 纳入流程,否则攻击与防守的速度差会继续扩大。
    AI资讯:Palo Alto Networks展示Mythos模型在渗透测试中的提效对比图

  4. World Labs 发布空间智能模型。 李飞飞团队公开 持久化世界模型,强调可构建物理一致场景 🌿,突破单帧视频生成限制 🚀。团队鼓励大家 (๑•̀ㅂ•́)و 参加周末的 World Jam 创意比赛。空间智能的关键不是生成漂亮画面,而是让模型理解场景结构和持续状态。

  5. Hugging Face 发布 ml-intern 自主工程师。 ml-intern 能自动阅读论文、调优模型并通过开源生态完成部署 🚀,最多进行 三百次迭代 (•̀ᴗ•́)و 解决刁钻任务,核心基于 smolagents 框架。它体现的是模型训练与工程优化流程的端到端自动化。来源:相关动态
    AI资讯:HuggingFace发布的ml-intern智能体工作流程图示

  6. Claude Code 之父讨论"全 AI 开发模式"。 Boris Cherny 分享的全 AI 开发模式强调,未来软件开发会从手写代码转向用智能体组织需求、修改、评审和合并。他靠手机 📱 每天合并 150 个 PR 太疯狂,公司内部已 告别手动代码 (⊙o⊙)——编程已死,未来是各行各业都能撸软件 🚀。来源:即刻动态
    AI资讯:Boris Cherny在红杉AI大会现场分享全自动编程愿景

  7. Simon Willison 认为 HTML 输出比 Markdown 更适合复杂解释。 Simon Willison 讨论 HTML 输出的惊人有效性,认为 HTML 能让模型生成 SVG 图表、交互组件和页面内导航,比传统 Markdown 更适合复杂技术说明。这对写作和提示工程都有启发:输出格式本身会限制模型表达能力。

  8. Agent Development Kit 把 Claude Code 变成工程团队。 Alvaro Cintas 提出的架构用 CLAUDE.mdskills/hooks/subagents/plugins/ 五类目录,把 Claude Code 从聊天工具转为可控、可复制的工程基础设施。核心不是某个提示词,而是把规则、技能、护栏、上下文隔离和团队环境固化下来。来源:Berry Xia X 动态

  9. 抖音"法天象地"特效推动图片到视频优化。 相关分享提到,抖音热门"法天象地"户外照片特效不仅可用图片生成,也可通过优化提示词直接生成视频,提升动态表现力。它说明消费级创作场景里,图片生成与视频生成的边界正在变薄。来源:歸藏 X 动态

今日总结与启示

  • 模型能力正在向"可控推理预算"演进。 Ring-2.6-1T、EMO、RVPO、MARBLE、自适应并行推理都在处理同一个问题:如何让模型在复杂任务中更稳、更省、更可控 🧠。
  • AI 编程进入生产化阶段。 Codex 切换、Codex 安全框架、Claude Code 更新、Bugbot 计费、Agent Development Kit 和长期记忆基准,共同指向工程智能体的基础设施化 ( •̀ ω •́ ) 。
  • 办公与终端入口继续升温。 Claude Office、Gemini 笔记本、Grok 连接器和 CarPlay、中国 AI 终端分级国标,都说明模型竞争正在落到真实入口和设备形态上 🚀。
  • 算力和安全成为产业主线。 Anthropic 18 亿美元算力协议、SpaceX 五百亿芯片工厂、国内 Token 调用量破 140 万亿、Runway 儿童安全、智能体企业安全——AI 公司下一阶段拼的是基础设施、治理能力和合规可信度 ☁️。
  • 开源项目更偏向"直接提效"。 终端助手 ⭐21.7k、多模型网关 ⭐5.5k、本地深度搜索 ⭐6.7k、智能体平台 ⭐76.4k、交易智能体 ⭐1.4w、教程 ⭐44.5k——有星标数的项目不是"看起来不错",而是 DevOps 开发者已经在真金白银地使用 (๑•̀ㅂ•́)و✧。