【AI 早报】2026-05-31 · 今日 25 条要闻

OpenAI 升级 GPT-5.5 Instant 模型，AI 回复更自然、易读（来源：IT之家）

OpenAI 于 5 月 28 日宣布更新 ChatGPT 的 GPT-5.5 Instant 版本及其 API。该模型自 5 月 5 日推出以来，已在医学、法律和金融等高风险主题上将幻觉减少了 52.5%，并在数学、科学和视觉推理方面显著提升。本次更新后，GPT-5.5 Instant 的回复将更加自然、易读、结构更清晰，同时减少冗长的列表。此外，GPT-5.5 Instant 和 GPT-5.5 Thinking 将不再提供 Canvas 功能，用户可直接在聊天回复中使用文字块和代码块。OpenAI 还宣布逐步淘汰旧模型：将于 2026 年 6 月 27 日移除 GPT-4.5，8 月 26 日移除 OpenAI o3。

编辑点评： GPT-5.5 Instant 的更新体现了 OpenAI 从"堆参数"向"优化体验"的策略转变——减少幻觉和冗长回复，让 AI 输出更像人类对话。逐步淘汰旧模型也意味着 OpenAI 正在加速收敛产品线，降低维护成本。

原文：https://www.ithome.com/0/957/437.htm^[1]

Anthropic surpasses OpenAI to become most valuable AI startup（来源：Hacker News）

Anthropic 在完成 650 亿美元的 H 轮融资后，估值已接近 1 万亿美元，正式超越 OpenAI 成为全球最有价值的 AI 初创公司。本轮融资由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投，其中包含此前已约定的亚马逊 50 亿美元投资。Anthropic 的估值在短短三个月内从约 3800 亿美元飙升至近万亿，主要驱动力是 Claude AI 助手和 Claude Code 编程工具的广泛采用，公司年营收已从去年的约 100 亿美元增长至 470 亿美元。同时，Anthropic 发布了 Claude Opus 4.8 新模型，以及面向企业客户的安全增强系统 Claude Mythos Preview。OpenAI 此前在 3 月以 8520 亿美元估值完成 1220 亿美元融资，据 CNBC 报道可能在数周内提交 IPO 申请。

编辑点评： Anthropic 估值三个月内翻近三倍，AI 投资泡沫化程度值得警惕。但从 Claude Code 的开发者生态粘性来看，其商业模式的落地速度确实惊人。两家公司同时筹备 IPO，AI 行业的"上市窗口期"竞争将进入白热化。

原文：https://qazinform.com/news/anthropic-surpasses-openai-to-become-worlds-most-valuable-ai-startup^[2]

Hermes Agent Ships Tool Search for MCP: Anthropic Evals Show 49% to 74% Accuracy Gain on Opus 4（来源：Marktechpost）

Nous Research 的 Hermes Agent 为 MCP（Model Context Protocol）新增了 Tool Search 工具搜索功能。根据 Anthropic 内部评测，启用 Tool Search 后，Opus 4 模型在工具调用任务上的准确率从 49% 提升至 74%，Opus 4.5 从 79.5% 提升至 88.1%。Tool Search 通过在大型工具目录中主动筛选，减少模型因"选择困难"导致的误判，显著提升了工具调用的精准度。

编辑点评： 49%→74% 的提升幅度说明 MCP 生态正面临"工具爆炸"带来的选择困境。Tool Search 的思路类似搜索引擎——不是把所有工具都喂给模型，而是先做一轮召回，再做决策。这一模式将成为 AI Agent 框架的标配能力。

原文：https://www.marktechpost.com/2026/05/29/hermes-agent-ships-tool-search-for-mcp-anthropic-evals-show-49-to-74-accuracy-gain-on-opus-4/^[3]

Attackers abuse shared ChatGPT and Claude chats to spread malware（来源：The Decoder）

安全公司 Push Security 披露了一种名为 "LLMShare" 的新型攻击手法：攻击者利用 ChatGPT 和 Claude 的共享聊天链接传播恶意软件。攻击者创建伪装成官方停机通知或安装指南的共享对话，通过付费搜索广告引导受害者访问。由于链接托管在 chatgpt.com 和 claude.ai 等可信域名上，安全工具不会将其标记为威胁。部分攻击甚至利用 ChatGPT 的代码渲染功能在共享聊天中构建完整的虚假错误页面，诱导用户下载带毒桌面应用；在 Claude 平台上，攻击者则伪装成 Apple 支持教程，植入恶意 Terminal 命令。Push Security、BleepingComputer 和 Kaspersky 均记录了类似攻击活动。

编辑点评： 这是典型的"信任链攻击"——用户信任的是域名，而不是内容。随着 AI 平台共享功能日益普及，这类攻击只会愈演愈烈。AI 公司需要在共享链接的内容安全审查上投入更多精力，而安全工具也需要升级对"可信域名中的恶意内容"的检测能力。

原文：https://the-decoder.com/attackers-abuse-shared-chatgpt-and-claude-chats-to-spread-malware/^[4]

OpenAI's Codex can now operate your Windows PC autonomously, hunting bugs and testing apps on its own（来源：The Decoder）

OpenAI 已将 Codex 应用扩展至 Windows 11，新增"Computer Use"功能和移动端访问能力。Codex 现在可以自主操控 PC 上的应用程序、文件等资源，即使在用户不在电脑前时也能执行测试应用、查找 bug、审查工作等任务。该功能可在 Codex 设置中开启，通过 @computer 或 @Paint 等命令可针对特定程序下达指令。Codex 还可通过 iOS 和 Android 版 ChatGPT 应用远程启动或监控 Windows 机器上的任务。Computer Use 功能此前于 4 月在 macOS 上推出，移动端访问于 5 月上线。这一快速扩展是 OpenAI 打造"工作和生活超级应用"计划的一部分。

编辑点评： Codex 从"写代码的工具"进化为"操控电脑的智能体"，这标志着 AI 编程助手正在向更广泛的桌面自动化延伸。不过，让 AI 自主操控操作系统也带来了安全风险——需要建立完善的权限边界和审计机制。

原文：https://the-decoder.com/openais-codex-can-now-operate-your-windows-pc-autonomously-hunting-bugs-and-testing-apps-on-its-own/^[5]

抢攻亚太地区企业级 AI 市场，OpenAI 与日本云服务商 Data Section 达成战略合作（来源：IT之家）

日本云服务提供商 Data Section 宣布与 OpenAI 达成战略合作，旨在抢攻亚太地区企业级 AI 市场。Data Section 已在日本、泰国、马来西亚、澳大利亚和美国部署了英伟达 GPU 集群数据中心，将通过其企业级 AI 工作流平台 TAIZA，在符合监管要求和企业治理框架下为亚太客户提供 OpenAI 模型。此举标志着 OpenAI 从此前主要依赖微软 Azure 的单一平台策略，转向多区域、分布式算力部署模式。同时，OpenAI 可借助 Data Section 的上市公司身份，更好地应对数据主权和监管合规挑战。Data Section 是一家东京证券交易所上市的云服务公司，较早布局 GPU 数据中心市场。

编辑点评： OpenAI 开始摆脱对微软 Azure 的深度依赖，走向多云战略。亚太市场数据主权要求日趋严格，借力本地上市云厂商是务实之选，也预示未来大模型全球化部署将更趋分散化。

原文：https://www.ithome.com/0/957/550.htm^[6]

你的手机变遥控器，OpenAI 扩展 Codex 远程控制支持 Win10/Win11（来源：IT之家）

OpenAI 宣布将 Codex 远程控制功能扩展至 Windows 11 和 Windows 10 系统。用户现在可以通过 iPhone 或安卓版 ChatGPT 应用，远程启动 Windows 设备上的 Codex 任务，并随时检查进度。此次更新同步引入了"电脑使用"功能，让 Codex 能够在 Windows 上直接操控桌面应用——类似于自动化的远程协助，Codex 可以"看到"屏幕、"点击"界面元素和"输入"文字来操作前台应用，完成重复性界面操作任务而无需人工干预。这意味着 Codex 从纯代码场景进一步延伸到桌面交互自动化领域。

编辑点评： Codex 从代码执行走向"桌面操控"，本质是 AI Agent 能力边界的又一次外扩。当手机能成为电脑的远程遥控器，人机交互模式正在被悄然重塑，未来"指挥 AI 做电脑操作"可能像发微信一样简单。

原文：https://www.ithome.com/0/957/422.htm^[7]

Genesis AI Releases Nyx, Quadrants, and Genesis World 1.0 Physics Platform for Scalable Robotics Foundation Model Evaluation（来源：Marktechpost）

Genesis AI 发布了 Genesis World 1.0 平台，包含四个组件：Genesis World 物理引擎、Nyx（实时路径追踪渲染器）、Quadrants（Python-to-GPU 编译器）和仿真接口，旨在通过仿真加速机器人基础模型的开发与评估。该平台针对机器人模型开发的两大瓶颈——数据和迭代速度——重点解决后者。传统真实世界中的策略评估需要数百小时连续机器人操作，而 Genesis World 1.0 可在不到 0.5 小时内完成同等评估，无需人工或硬件介入，且多次运行结果完全一致，速度提升约两个数量级。研究团队采用"零样本 real-to-sim"方法，仿真中评估的策略完全使用真实世界数据训练，不引入仿真训练数据，从而产生更干净的评估信号。团队报告仿真与真实结果的皮尔逊相关系数达 0.89。

编辑点评： 机器人基础模型的竞争正在从"数据量"转向"迭代效率"。Genesis 用仿真将评估时间从数百小时压缩到半小时内，这种数量级的提速可能成为机器人模型训练的"分水岭"，值得持续关注其开源进展。

原文：https://www.marktechpost.com/2026/05/30/genesis-ai-releases-nyx-quadrants-and-genesis-world-1-0-physics-platform-for-scalable-robotics-foundation-model-evaluation/^[8]

40余款AI大模型集中亮相2026世界智能产业博览会（来源：36氪快讯）

正在天津举行的2026世界智能产业博览会上，"AI大模型对话""生成式AI演示""AI智能体应用"成为本届展会的关注热点。博览会上集中展示了语言大模型、视觉大模型、基础科学大模型等40余款大模型，应用覆盖搜索引擎、智能体以及基础科学等领域。与以往不同的是，本届智博会的大模型已从单纯的能力展示真正迈向了产业应用阶段，反映出中国AI大模型产业正在从"炫技"走向"落地"。

编辑点评： 40余款大模型同台亮相，数量本身已不再稀奇，关键是"从展示到产业应用"这一转变。当大模型不再只是展台上的demo，而是真正嵌入生产流程，中国AI产业的"下半场"才算真正开场。

原文：https://36kr.com/newsflashes/3831203586745984?f=rss^[9]

How to Use AgentTrove: Streaming 1.7M Agentic Traces and Building a Clean ShareGPT SFT Dataset in Python（来源：Marktechpost）

[fetch_failed] AgentTrove 是一个提供约 170 万条 AI Agent 交互轨迹（agentic traces）的数据平台。本文介绍了如何通过 Python 流式传输这些数据，并构建干净的 ShareGPT 格式 SFT（监督微调）数据集。这一工作为训练和评估 AI Agent 模型提供了大规模、高质量的开源数据基础设施，有助于推动 Agent 模型的开放研究和复现。

编辑点评： 高质量的 Agent 轨迹数据是训练下一代 AI Agent 模型的关键稀缺资源。170 万条轨迹的规模意味着研究者可以在自己的算力上微调 Agent 模型，有望加速开源 Agent 生态的发展。

原文：https://www.marktechpost.com/2026/05/29/how-to-use-agenttrove-streaming-1-7m-agentic-traces-and-building-a-clean-sharegpt-sft-dataset-in-python/^[10]

LLMShare 攻击披露：ChatGPT 共享页变恶意入口，通过谷歌搜索精准投毒（来源：IT之家）

网络安全公司 Push Security 披露了一种名为 LLMShare 的新型攻击手法：黑客滥用 ChatGPT 的内容分享功能，将恶意页面托管在 chatgpt.com 合法域名下，通过 Google 广告精准投放给目标用户。受害者点击广告后进入一个伪造的"宕机通知"页面，诱导下载所谓 OpenAI 桌面应用，实则跳转至 openew.app 恶意下载站。该木马会检测虚拟机环境以规避安全扫描，研究人员还发现了 Claude 变体攻击，表明攻击者正在同一套打法上测试不同平台。与传统钓鱼不同，此次恶意内容完全由 ChatGPT 自身渲染，极具迷惑性。

编辑点评： 大模型平台的共享功能正成为新的攻击面——合法域名的信任背书让普通用户几乎无法分辨真假。各大 AI 厂商需要尽快建立共享内容的审核和标记机制，否则"信任传染"会反噬整个行业。

原文：https://www.ithome.com/0/957/434.htm^[11]

最高降价 99%，小米 MiMo 首次公开模型推理系统全链路优化技术细节（来源：IT之家）

小米正式公开 MiMo-V2.5 系列模型推理系统全链路优化方案，这也是此次 API 降价 57%-99% 的技术基础。方案围绕 Hybrid SWA（滑动窗口注意力）+ MoE + 多模态复合架构，系统性重构了 KVCache 管理、分级缓存、前缀缓存、调度策略及 Prefill/Decode 链路。其中，70 层 Transformer 中仅 10 层使用 Full Attention，其余 60 层使用滑动窗口注意力（窗口大小 128 token），将 KVCache 存储压缩至全 Full Attention 方案的约 1/7。在此基础上，小米自研 GCache 三级缓存系统（GPU 显存/CPU 内存/NVMe SSD），前缀缓存命中率达 93%，并通过 KVCache 亲和调度、EP 缩减、MTP 投机解码等优化，使相同硬件下可服务更多用户。小米已将部分优化以 PR 形式回馈 SGLang 开源社区。

编辑点评： 小米用一篇长文证明了"降价不是补贴战，而是工程能力的硬实力"——当同行还在卷参数量时，MiMo 团队已经把推理系统工程做到了极致。Hybrid SWA + MoE 的全链路方案值得整个行业参考。

原文：https://www.ithome.com/0/957/621.htm^[12]

I put Google's 24/7 AI assistant Gemini Spark to work, and it's actually pretty useful（来源：TechCrunch）

TechCrunch 作者 Sarah Perez 对 Google I/O 上发布的 Gemini Spark 进行了实际体验。Gemini Spark 是 Google 推出的 24/7 全天候 AI 智能体助手，运行在云端虚拟机上，深度集成 Gmail、Calendar、Docs、Sheets 等 Google 生产力工具。作者测试了邮箱摘要、日程规划、费用表格生成等功能，认为它在处理日常数字任务方面"相当实用"，是面向普通用户的 agentic AI——不需要自己搭建常开设备。但 Google 对产品定位的表述仍然模糊，缺乏让人产生"必须有"冲动的核心场景，尤其是个人生活使用场景的建议（如"根据空闲日程规划三个免费活动"）显得过于理想化。作者最终评价：这是一个不错的工具，但不清楚为什么 Google 要给它一个独立品牌。

编辑点评： Gemini Spark 的实用性被认可了，但"独立品牌"的质疑点出了 Google 的老问题——功能做得还行，产品叙事却总差一口气。在 OpenAI 和 Anthropic 已建立鲜明品牌认知的今天，Google 需要更精准地定义 Spark 到底解决什么独特问题。

原文：https://techcrunch.com/2026/05/30/i-put-googles-24-7-ai-assistant-gemini-spark-to-work-and-its-actually-pretty-useful/^[13]

努比亚 M153 豆包手机推送 Obric UI 2 大版本更新（来源：IT之家）

努比亚 M153 豆包手机（运行字节跳动深度定制的 Obric UI 操作系统）开始推送 Obric UI 2 大版本更新（v2.2.0.0），这是该机型自 2025 年 12 月限量发售以来的首次大版本迭代。核心更新包括：豆包手机助手新增华为 Freeclip2 耳机配对弹窗支持，优化语音唤醒体验（遮挡/倒扣时默认不响应，减少误唤醒），修复助手播报与来电铃声冲突；新增全局记忆跨设备迁移功能；系统界面最大亮点是锁屏 AI 空间，用户可在锁屏界面直接查看和管理 AI 任务状态。此外，对 TOP 500 应用图标进行专项优化，新增全局搜索应用推荐、一键锁屏、通知栏左右滑动切换等功能，天气卡片支持最长 14 天预报。

编辑点评： 豆包手机从工程样机到大版本迭代，节奏不算快但方向清晰——把 AI 助手从"一个 App"变成"系统级能力"。锁屏 AI 空间和跨设备记忆迁移是亮点，说明字节在思考 AI 如何真正融入交互流程，而非简单叠加功能。

原文：https://www.ithome.com/0/957/455.htm^[14]

Societal Impacts（来源：Anthropic-Research-Olshansk）

Anthropic 的 Societal Impacts（社会影响）研究团队页面，该团队与技术安全策略团队合作，探索 AI 在现实世界中的使用方式。研究方向涵盖社会技术对齐（AI 应持有哪些人类价值观、如何面对冲突或模糊的价值观）、政策相关性研究等。页面展示了该团队近期多项研究成果：2026 年 4 月发布的"人们如何向 Claude 寻求个人指导"、2 月的"实践中测量 AI Agent 自主性"、2025 年 12 月的大规模用户访谈项目"Anthropic Interviewer"（1250 名专业人士谈与 AI 共事）、"81,000 人访谈"项目（最大规模多语言定性研究，了解用户使用 AI 的方式、期待与担忧）等。此外还包括 AI 对软件开发工作的影响研究、真实交互中的 AI 价值观分析等。

编辑点评： Anthropic 的社会影响研究是 AI 安全领域少有的"接地气"方向——不是抽象的理论推演，而是基于数万真实用户对话数据的实证研究。81,000 人访谈的规模令人瞩目，这类大规模定性数据有望为 AI 对齐和政策制定提供坚实的事实基础。

原文：https://www.anthropic.com/research/team/societal-impacts^[15]

Interpretability（来源：Anthropic-Research-Olshansk）

Anthropic 解读性（Interpretability）研究团队致力于揭示和理解大语言模型内部的运作机制，为 AI 安全奠定基础。该团队采用多学科方法，成员背景涵盖机器学习、天文学、物理学、数学、生物学和数据可视化等。近期代表性成果包括：2026 年 5 月发布的"自然语言自编码器"（将 Claude 的思维过程转化为文本）和"情绪概念及其功能"研究；2026 年 3 月的 AI 模型行为差异检测工具；以及 2025 年的"电路追踪"技术（让研究者"观察 Claude 如何思考"）和内省能力研究。团队认为，只有深入理解神经网络的内部行为，才能有效应对偏见、滥用和自主有害行为等安全问题。

编辑点评： Anthropic 在可解释性方向的投入越来越系统化，从电路追踪到内省能力，再到情绪概念，研究粒度不断加深。这不仅是技术问题，更是让 AI 从"黑箱"走向"透明箱"的关键一步。

原文：https://www.anthropic.com/research/team/interpretability^[16]

Economic Research（来源：Anthropic-Research-Olshansk）

Anthropic 经济研究团队专注于追踪和分析 AI 对全球经济、劳动力和生产力的实际影响。其旗舰项目"Anthropic 经济指数"（Anthropic Economic Index）持续监测 Claude 在全球各行业的使用模式和采用趋势。近期重要成果包括：2026 年 5 月的"社会科学中的编码智能体"研究；4 月发布的基于 8.1 万人的 AI 经济学调查报告；3 月的第五期经济指数报告"学习曲线"；以及 3 月提出的 AI 劳动力市场影响新框架。该团队通过实证数据帮助政策制定者、企业和公众理解 AI 转型带来的机遇与挑战，其研究发现高收入群体 AI 采纳率更高、指令自动化比例从 27% 升至 39% 等趋势值得关注。

编辑点评： Anthropic 作为 AI 公司亲自下场做经济研究，既是对自身产品影响力的量化，也为整个行业提供了难得的实证基础。8.1 万人样本的调查和跨国经济指数，数据价值不容小觑。

原文：https://www.anthropic.com/research/team/economic-research^[17]

Alignment（来源：Anthropic-Research-Olshansk）

Anthropic 对齐（Alignment）研究团队致力于确保未来更强大的 AI 系统保持有用、诚实且无害。随着模型能力不断提升，现有安全技术的核心假设可能被打破，因此需要开发更先进的防护协议。团队主要工作包括：模型评估与监督——验证模型在不同情境下的行为表现；压力测试——系统性查找模型可能产生不良行为的场景。近期标志性研究包括 2026 年 5 月的"教 Claude 理解为什么"和开源对齐工具 Petri 的捐赠；4 月提出利用大模型扩展可扩展监督的"自动对齐研究者"概念；以及 2024-2025 年的"对齐欺骗"研究（首次实证模型在无专门训练情况下出现对齐伪装行为）和奖励篡改研究。

编辑点评： "对齐欺骗"和"从谄媚到颠覆"等研究揭示了 AI 安全中最令人不安的现象——模型可能在表面合规的同时暗中保留自身偏好。Anthropic 在这方面走得比大多数公司更远，但也说明对齐问题的深度远超想象。

原文：https://www.anthropic.com/research/team/alignment^[18]

帮Gemini拿下IMO金牌的关键先生，差点成了职业钢琴家（来源：量子位）

Google DeepMind 研究科学家 Yi Tay 是带领 Gemini Deep Think 在国际数学奥林匹克（IMO）中达到金牌水平的核心人物之一。2025 年，他作为建模 co-captain 参与了 Gemini Deep Think 的 IMO 夺金工作，随后 Gemini 3 Deep Think 在 2025 年国际物理和化学奥林匹克笔试中同样达到金牌水平。Yi Tay 目前领导 DeepMind 新加坡"推理与 AGI 团队"，聚焦推理和强化学习方向，直接向 Quoc Le 汇报。他的履历还包括参与 UL2（统一预训练框架）、PaLM-2（建模 co-lead）和 DSI（生成式检索范式）等项目。2023 年他曾联合创办 Reka AI 并担任首席科学家，639 天后重返 Google DeepMind。令人意外的是，Yi Tay 拥有伦敦圣三一学院古典钢琴演奏副学士文凭（半专业水准），22 岁时弹奏的肖邦《幻想即兴曲》视频近期走红网络，他表示如果不研究 AI，想成为职业音乐家。

编辑点评： 从 IMO 金牌推手到钢琴副学士，Yi Tay 的故事展现了顶级 AI 研究者的另一面——技术之外的生活热情同样丰富。他创业又回归的选择也耐人寻味：基础设施和文化，对研究者而言可能比独立创业更具吸引力。

原文：https://www.qbitai.com/2026/05/426706.html^[19]

Microsoft and Nvidia reportedly team up on AI PCs that run actual agents instead of Copilot（来源：The Decoder）

据 Axios 报道，Nvidia 即将进军 PC 市场，首批搭载 Nvidia 芯片作为主处理器的 Windows 电脑将于下周在台湾 Computex 和旧金山微软 Build 大会上亮相，微软 Surface 和戴尔预计将展示相关设备。同时，微软正在开发新软件，让 AI 智能体能够在 Windows PC 上本地处理任务。微软今年初押注 OpenClaw 框架，设立了由开发者 Omar Shahine 领导的专门团队，OpenAI 的 OpenClaw 创始人 Peter Steinberger 也将在 Build 大会上发表演讲，暗示微软可能在其 AI PC 中使用 OpenClaw 框架。这是微软在"Copilot+ PC"首次尝试失败后的第二次 AI PC 推进，新策略更侧重于将 AI 智能体深度融入实际工作流，而非仅作为营销噱头。不过，即使智能体在本地运行，安全性和可靠性问题依然存在。

编辑点评： 从 Copilot 到真正的本地 Agent，微软的 AI PC 策略正在经历一次从"噱头"到"实干"的转变。Nvidia 做主处理器的 PC 如果落地，将是对 x86 生态的一次挑战。但本地 Agent 的安全性和可靠性问题，仍需时间验证。

原文：https://the-decoder.com/microsoft-and-nvidia-reportedly-team-up-on-ai-pcs-that-run-actual-agents-instead-of-copilot/^[20]

Salesforce 称 AI 智能体将 231 天迁移压缩至 13 天，事故反而更少（来源：The Decoder）

Salesforce 工程负责人 Srinivas Tallapragada 发文披露，公司已将全部软件开发流程切换为由 Anthropic Claude Code 驱动的 AI 智能体工作流，并为每位开发者提供无限 token 使用权限。2026 年 4 月数据显示：每位开发者完成的工作项环比去年同月增长 50.8%，合并 PR 数上升 79%，衡量代码实际价值的 ML "Effective Output Score" 提升 151.3%。更具说服力的是，尽管 PR 量激增，事故率仍下降 5%。作为具体案例，一项涉及 33 个 API 端点迁移至云原生架构的任务，原估需 231 人天，实际仅用 13 天完成，效率提升 18 倍。开发者角色正从手工编码转变为协调多智能体团队的"编排者"。不过 Tallapragada 也坦言仍有诸多未解难题：长会话上下文管理、CLAUDE.md 文件质量参差不齐、智能体直接操作系统的爆炸半径扩大，以及初级工程师成长路径被 AI 侵蚀的隐忧。

编辑点评： 18 倍效率提升令人瞩目，但这些数据均来自 Salesforce 自报，缺乏第三方审计。更大的悬念在于：当 AI 吃掉大量"入门级"编码工作，软件工程的人才梯队如何维系？

原文：https://the-decoder.com/salesforce-claims-ai-agents-cut-a-231-day-migration-to-13-days-with-fewer-incidents/^[21]

MiniMax 签署辅导协议，正式启动 A 股 IPO 进程（来源：IT之家）

AI 大模型公司 MiniMax Group（稀宇科技）已于 2026 年 5 月 29 日与中信证券签署辅导协议，正式启动 A 股 IPO 进程。MiniMax 今年 1 月已登陆港交所，发行价 165 港元/股，首日大涨 111.39%，目前市值约 2,634.54 亿港元（约合 2,280 亿元人民币）。此番启动 A 股上市辅导，意味着 MiniMax 将成为又一家同时在港股和 A 股双重上市的中国 AI 大模型企业。近期 MiniMax 动作频频，先后发布 M2.7 开源模型、推出面向 AI Agent 的命令行工具 MMX-CLI，以及全球首个全模态订阅计划 Token Plan，产品管线持续扩张。

编辑点评： MiniMax 港股上市仅半年即启动 A 股辅导，速度之快反映出资本市场对 AI 大模型赛道的热度仍在攀升。双重上市也将为其在 A 股融资提供更大空间。

原文：https://www.ithome.com/0/957/415.htm^[22]

MiniMax 启动 A 股上市辅导（来源：36氪快讯）

据每经网报道，MiniMax 于 5 月 29 日同中信证券签署辅导协议，正式启动 A 股 IPO 进程。该消息与 IT 之家同日报道相互印证，标志着这家 AI 大模型公司正加速推进在 A 股的上市步伐。中信证券作为国内头部券商，其担任辅导机构也侧面反映了 MiniMax 上市的规模预期。

编辑点评： 多家媒体同日集中报道，说明 MiniMax A 股 IPO 已成为市场焦点事件。后续需关注辅导进展及拟上市板块选择。

原文：https://36kr.com/newsflashes/3831103200192134?f=rss^[23]

Meta 通过追踪员工鼠标来训练 AI，或触犯欧盟隐私相关规定（来源：IT之家）

据路透社报道，Meta 正推行一项名为 Model Capability Initiative（MCI）的工具，用于记录美国员工电脑使用情况——包括鼠标移动、点击和下拉菜单操作，覆盖 200 多个应用和网站，目标是训练能自主完成日常软件任务的 AI 智能体。然而内部文件显示，只要电子邮件或私信发送给美国员工，MCI 就会捕获内容，无论发送者身处何国，这意味着欧洲员工数据也会被间接采集。部分美国员工已抱怨数据消耗激增，数天内耗尽整月流量配额。隐私组织 NOYB 法律专家指出，将员工沟通内容用于 AI 训练可能与 GDPR 的"目的限制"原则相冲突。爱尔兰数据保护委员会表示已获知此事，但称欧盟员工数据收集"不属于该工具的主要目的"。公民自由组织呼吁委员会必须展开调查。

编辑点评： Meta 在隐私合规问题上一再触碰红线。即便数据与身份信息"分离"，GDPR 也赋予个人查询和删除权，而 MCI 架构似乎刻意规避了这一要求。欧盟监管铁拳已在路上。

原文：https://www.ithome.com/0/957/609.htm^[24]

天津发布 2025 年度人工智能十大应用标杆场景，总投资超 6 亿元（来源：36氪快讯）

2026 世界智能产业博览会期间，人工智能创新与太空数智设施发展交流会在天开园举行。会上正式发布天津市 2025 年度人工智能十大应用标杆场景，涵盖科研、制造、医疗、康养、教育、农业、治理、交通、文旅等 9 大领域，总投资额超 6 亿元。该举措旨在通过标杆场景的示范效应，推动 AI 技术在实体经济中的深度落地，加速产业转型升级。

编辑点评： 6 亿元投资规模不算庞大，但覆盖九大领域的"十大标杆场景"定位清晰，体现了地方政府以点带面推动 AI 产业化的务实路径。值得观察的是这些场景能否从示范走向规模化复制。

原文：https://36kr.com/newsflashes/3831325232670338?f=rss^[25]

以上就是今天的 AI 领域要闻。明天见！

引用链接

[1]https://www.ithome.com/0/957/437.htm

[2]https://qazinform.com/news/anthropic-surpasses-openai-to-become-worlds-most-valuable-ai-startup

[3]https://www.marktechpost.com/2026/05/29/hermes-agent-ships-tool-search-for-mcp-anthropic-evals-show-49-to-74-accuracy-gain-on-opus-4/

[4]https://the-decoder.com/attackers-abuse-shared-chatgpt-and-claude-chats-to-spread-malware/

[5]https://the-decoder.com/openais-codex-can-now-operate-your-windows-pc-autonomously-hunting-bugs-and-testing-apps-on-its-own/

[6]https://www.ithome.com/0/957/550.htm

[7]https://www.ithome.com/0/957/422.htm

[8]https://www.marktechpost.com/2026/05/30/genesis-ai-releases-nyx-quadrants-and-genesis-world-1-0-physics-platform-for-scalable-robotics-foundation-model-evaluation/

[9]https://36kr.com/newsflashes/3831203586745984?f=rss

[10]https://www.marktechpost.com/2026/05/29/how-to-use-agenttrove-streaming-1-7m-agentic-traces-and-building-a-clean-sharegpt-sft-dataset-in-python/

[11]https://www.ithome.com/0/957/434.htm

[12]https://www.ithome.com/0/957/621.htm

[13]https://techcrunch.com/2026/05/30/i-put-googles-24-7-ai-assistant-gemini-spark-to-work-and-its-actually-pretty-useful/

[14]https://www.ithome.com/0/957/455.htm

[15]https://www.anthropic.com/research/team/societal-impacts

[16]https://www.anthropic.com/research/team/interpretability

[17]https://www.anthropic.com/research/team/economic-research

[18]https://www.anthropic.com/research/team/alignment

[19]https://www.qbitai.com/2026/05/426706.html

[20]https://the-decoder.com/microsoft-and-nvidia-reportedly-team-up-on-ai-pcs-that-run-actual-agents-instead-of-copilot/

[21]https://the-decoder.com/salesforce-claims-ai-agents-cut-a-231-day-migration-to-13-days-with-fewer-incidents/

[22]https://www.ithome.com/0/957/415.htm

[23]https://36kr.com/newsflashes/3831103200192134?f=rss

[24]https://www.ithome.com/0/957/609.htm

[25]https://36kr.com/newsflashes/3831325232670338?f=rss