OpenAI 升级 GPT-5.5 Instant 模型,AI 回复更自然、易读(来源:IT之家)
OpenAI 于 5 月 28 日宣布更新 ChatGPT 的 GPT-5.5 Instant 版本及其 API。该模型自 5 月 5 日推出以来,已在医学、法律和金融等高风险主题上将幻觉减少了 52.5%,并在数学、科学和视觉推理方面显著提升。本次更新后,GPT-5.5 Instant 的回复将更加自然、易读、结构更清晰,同时减少冗长的列表。此外,GPT-5.5 Instant 和 GPT-5.5 Thinking 将不再提供 Canvas 功能,用户可直接在聊天回复中使用文字块和代码块。OpenAI 还宣布逐步淘汰旧模型:将于 2026 年 6 月 27 日移除 GPT-4.5,8 月 26 日移除 OpenAI o3。
编辑点评: GPT-5.5 Instant 的更新体现了 OpenAI 从"堆参数"向"优化体验"的策略转变——减少幻觉和冗长回复,让 AI 输出更像人类对话。逐步淘汰旧模型也意味着 OpenAI 正在加速收敛产品线,降低维护成本。
原文:https://www.ithome.com/0/957/437.htm[1]
Anthropic surpasses OpenAI to become most valuable AI startup(来源:Hacker News)
Anthropic 在完成 650 亿美元的 H 轮融资后,估值已接近 1 万亿美元,正式超越 OpenAI 成为全球最有价值的 AI 初创公司。本轮融资由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投,其中包含此前已约定的亚马逊 50 亿美元投资。Anthropic 的估值在短短三个月内从约 3800 亿美元飙升至近万亿,主要驱动力是 Claude AI 助手和 Claude Code 编程工具的广泛采用,公司年营收已从去年的约 100 亿美元增长至 470 亿美元。同时,Anthropic 发布了 Claude Opus 4.8 新模型,以及面向企业客户的安全增强系统 Claude Mythos Preview。OpenAI 此前在 3 月以 8520 亿美元估值完成 1220 亿美元融资,据 CNBC 报道可能在数周内提交 IPO 申请。
编辑点评: Anthropic 估值三个月内翻近三倍,AI 投资泡沫化程度值得警惕。但从 Claude Code 的开发者生态粘性来看,其商业模式的落地速度确实惊人。两家公司同时筹备 IPO,AI 行业的"上市窗口期"竞争将进入白热化。
原文:https://qazinform.com/news/anthropic-surpasses-openai-to-become-worlds-most-valuable-ai-startup[2]
Hermes Agent Ships Tool Search for MCP: Anthropic Evals Show 49% to 74% Accuracy Gain on Opus 4(来源:Marktechpost)
Nous Research 的 Hermes Agent 为 MCP(Model Context Protocol)新增了 Tool Search 工具搜索功能。根据 Anthropic 内部评测,启用 Tool Search 后,Opus 4 模型在工具调用任务上的准确率从 49% 提升至 74%,Opus 4.5 从 79.5% 提升至 88.1%。Tool Search 通过在大型工具目录中主动筛选,减少模型因"选择困难"导致的误判,显著提升了工具调用的精准度。
编辑点评: 49%→74% 的提升幅度说明 MCP 生态正面临"工具爆炸"带来的选择困境。Tool Search 的思路类似搜索引擎——不是把所有工具都喂给模型,而是先做一轮召回,再做决策。这一模式将成为 AI Agent 框架的标配能力。
原文:https://www.marktechpost.com/2026/05/29/hermes-agent-ships-tool-search-for-mcp-anthropic-evals-show-49-to-74-accuracy-gain-on-opus-4/[3]
Attackers abuse shared ChatGPT and Claude chats to spread malware(来源:The Decoder)
安全公司 Push Security 披露了一种名为 "LLMShare" 的新型攻击手法:攻击者利用 ChatGPT 和 Claude 的共享聊天链接传播恶意软件。攻击者创建伪装成官方停机通知或安装指南的共享对话,通过付费搜索广告引导受害者访问。由于链接托管在 chatgpt.com 和 claude.ai 等可信域名上,安全工具不会将其标记为威胁。部分攻击甚至利用 ChatGPT 的代码渲染功能在共享聊天中构建完整的虚假错误页面,诱导用户下载带毒桌面应用;在 Claude 平台上,攻击者则伪装成 Apple 支持教程,植入恶意 Terminal 命令。Push Security、BleepingComputer 和 Kaspersky 均记录了类似攻击活动。
编辑点评: 这是典型的"信任链攻击"——用户信任的是域名,而不是内容。随着 AI 平台共享功能日益普及,这类攻击只会愈演愈烈。AI 公司需要在共享链接的内容安全审查上投入更多精力,而安全工具也需要升级对"可信域名中的恶意内容"的检测能力。
原文:https://the-decoder.com/attackers-abuse-shared-chatgpt-and-claude-chats-to-spread-malware/[4]
OpenAI's Codex can now operate your Windows PC autonomously, hunting bugs and testing apps on its own(来源:The Decoder)
OpenAI 已将 Codex 应用扩展至 Windows 11,新增"Computer Use"功能和移动端访问能力。Codex 现在可以自主操控 PC 上的应用程序、文件等资源,即使在用户不在电脑前时也能执行测试应用、查找 bug、审查工作等任务。该功能可在 Codex 设置中开启,通过 @computer 或 @Paint 等命令可针对特定程序下达指令。Codex 还可通过 iOS 和 Android 版 ChatGPT 应用远程启动或监控 Windows 机器上的任务。Computer Use 功能此前于 4 月在 macOS 上推出,移动端访问于 5 月上线。这一快速扩展是 OpenAI 打造"工作和生活超级应用"计划的一部分。
编辑点评: Codex 从"写代码的工具"进化为"操控电脑的智能体",这标志着 AI 编程助手正在向更广泛的桌面自动化延伸。不过,让 AI 自主操控操作系统也带来了安全风险——需要建立完善的权限边界和审计机制。
原文:https://the-decoder.com/openais-codex-can-now-operate-your-windows-pc-autonomously-hunting-bugs-and-testing-apps-on-its-own/[5]
抢攻亚太地区企业级 AI 市场,OpenAI 与日本云服务商 Data Section 达成战略合作(来源:IT之家)
日本云服务提供商 Data Section 宣布与 OpenAI 达成战略合作,旨在抢攻亚太地区企业级 AI 市场。Data Section 已在日本、泰国、马来西亚、澳大利亚和美国部署了英伟达 GPU 集群数据中心,将通过其企业级 AI 工作流平台 TAIZA,在符合监管要求和企业治理框架下为亚太客户提供 OpenAI 模型。此举标志着 OpenAI 从此前主要依赖微软 Azure 的单一平台策略,转向多区域、分布式算力部署模式。同时,OpenAI 可借助 Data Section 的上市公司身份,更好地应对数据主权和监管合规挑战。Data Section 是一家东京证券交易所上市的云服务公司,较早布局 GPU 数据中心市场。
编辑点评: OpenAI 开始摆脱对微软 Azure 的深度依赖,走向多云战略。亚太市场数据主权要求日趋严格,借力本地上市云厂商是务实之选,也预示未来大模型全球化部署将更趋分散化。
原文:https://www.ithome.com/0/957/550.htm[6]
你的手机变遥控器,OpenAI 扩展 Codex 远程控制支持 Win10/Win11(来源:IT之家)
OpenAI 宣布将 Codex 远程控制功能扩展至 Windows 11 和 Windows 10 系统。用户现在可以通过 iPhone 或安卓版 ChatGPT 应用,远程启动 Windows 设备上的 Codex 任务,并随时检查进度。此次更新同步引入了"电脑使用"功能,让 Codex 能够在 Windows 上直接操控桌面应用——类似于自动化的远程协助,Codex 可以"看到"屏幕、"点击"界面元素和"输入"文字来操作前台应用,完成重复性界面操作任务而无需人工干预。这意味着 Codex 从纯代码场景进一步延伸到桌面交互自动化领域。
编辑点评: Codex 从代码执行走向"桌面操控",本质是 AI Agent 能力边界的又一次外扩。当手机能成为电脑的远程遥控器,人机交互模式正在被悄然重塑,未来"指挥 AI 做电脑操作"可能像发微信一样简单。
原文:https://www.ithome.com/0/957/422.htm[7]
Genesis AI Releases Nyx, Quadrants, and Genesis World 1.0 Physics Platform for Scalable Robotics Foundation Model Evaluation(来源:Marktechpost)
Genesis AI 发布了 Genesis World 1.0 平台,包含四个组件:Genesis World 物理引擎、Nyx(实时路径追踪渲染器)、Quadrants(Python-to-GPU 编译器)和仿真接口,旨在通过仿真加速机器人基础模型的开发与评估。该平台针对机器人模型开发的两大瓶颈——数据和迭代速度——重点解决后者。传统真实世界中的策略评估需要数百小时连续机器人操作,而 Genesis World 1.0 可在不到 0.5 小时内完成同等评估,无需人工或硬件介入,且多次运行结果完全一致,速度提升约两个数量级。研究团队采用"零样本 real-to-sim"方法,仿真中评估的策略完全使用真实世界数据训练,不引入仿真训练数据,从而产生更干净的评估信号。团队报告仿真与真实结果的皮尔逊相关系数达 0.89。
编辑点评: 机器人基础模型的竞争正在从"数据量"转向"迭代效率"。Genesis 用仿真将评估时间从数百小时压缩到半小时内,这种数量级的提速可能成为机器人模型训练的"分水岭",值得持续关注其开源进展。
原文:https://www.marktechpost.com/2026/05/30/genesis-ai-releases-nyx-quadrants-and-genesis-world-1-0-physics-platform-for-scalable-robotics-foundation-model-evaluation/[8]
40余款AI大模型集中亮相2026世界智能产业博览会(来源:36氪快讯)
正在天津举行的2026世界智能产业博览会上,"AI大模型对话""生成式AI演示""AI智能体应用"成为本届展会的关注热点。博览会上集中展示了语言大模型、视觉大模型、基础科学大模型等40余款大模型,应用覆盖搜索引擎、智能体以及基础科学等领域。与以往不同的是,本届智博会的大模型已从单纯的能力展示真正迈向了产业应用阶段,反映出中国AI大模型产业正在从"炫技"走向"落地"。
编辑点评: 40余款大模型同台亮相,数量本身已不再稀奇,关键是"从展示到产业应用"这一转变。当大模型不再只是展台上的demo,而是真正嵌入生产流程,中国AI产业的"下半场"才算真正开场。
原文:https://36kr.com/newsflashes/3831203586745984?f=rss[9]
How to Use AgentTrove: Streaming 1.7M Agentic Traces and Building a Clean ShareGPT SFT Dataset in Python(来源:Marktechpost)
[fetch_failed] AgentTrove 是一个提供约 170 万条 AI Agent 交互轨迹(agentic traces)的数据平台。本文介绍了如何通过 Python 流式传输这些数据,并构建干净的 ShareGPT 格式 SFT(监督微调)数据集。这一工作为训练和评估 AI Agent 模型提供了大规模、高质量的开源数据基础设施,有助于推动 Agent 模型的开放研究和复现。
编辑点评: 高质量的 Agent 轨迹数据是训练下一代 AI Agent 模型的关键稀缺资源。170 万条轨迹的规模意味着研究者可以在自己的算力上微调 Agent 模型,有望加速开源 Agent 生态的发展。
原文:https://www.marktechpost.com/2026/05/29/how-to-use-agenttrove-streaming-1-7m-agentic-traces-and-building-a-clean-sharegpt-sft-dataset-in-python/[10]
LLMShare 攻击披露:ChatGPT 共享页变恶意入口,通过谷歌搜索精准投毒(来源:IT之家)
网络安全公司 Push Security 披露了一种名为 LLMShare 的新型攻击手法:黑客滥用 ChatGPT 的内容分享功能,将恶意页面托管在 chatgpt.com 合法域名下,通过 Google 广告精准投放给目标用户。受害者点击广告后进入一个伪造的"宕机通知"页面,诱导下载所谓 OpenAI 桌面应用,实则跳转至 openew.app 恶意下载站。该木马会检测虚拟机环境以规避安全扫描,研究人员还发现了 Claude 变体攻击,表明攻击者正在同一套打法上测试不同平台。与传统钓鱼不同,此次恶意内容完全由 ChatGPT 自身渲染,极具迷惑性。
编辑点评: 大模型平台的共享功能正成为新的攻击面——合法域名的信任背书让普通用户几乎无法分辨真假。各大 AI 厂商需要尽快建立共享内容的审核和标记机制,否则"信任传染"会反噬整个行业。
原文:https://www.ithome.com/0/957/434.htm[11]
最高降价 99%,小米 MiMo 首次公开模型推理系统全链路优化技术细节(来源:IT之家)
小米正式公开 MiMo-V2.5 系列模型推理系统全链路优化方案,这也是此次 API 降价 57%-99% 的技术基础。方案围绕 Hybrid SWA(滑动窗口注意力)+ MoE + 多模态复合架构,系统性重构了 KVCache 管理、分级缓存、前缀缓存、调度策略及 Prefill/Decode 链路。其中,70 层 Transformer 中仅 10 层使用 Full Attention,其余 60 层使用滑动窗口注意力(窗口大小 128 token),将 KVCache 存储压缩至全 Full Attention 方案的约 1/7。在此基础上,小米自研 GCache 三级缓存系统(GPU 显存/CPU 内存/NVMe SSD),前缀缓存命中率达 93%,并通过 KVCache 亲和调度、EP 缩减、MTP 投机解码等优化,使相同硬件下可服务更多用户。小米已将部分优化以 PR 形式回馈 SGLang 开源社区。
编辑点评: 小米用一篇长文证明了"降价不是补贴战,而是工程能力的硬实力"——当同行还在卷参数量时,MiMo 团队已经把推理系统工程做到了极致。Hybrid SWA + MoE 的全链路方案值得整个行业参考。
原文:https://www.ithome.com/0/957/621.htm[12]
I put Google's 24/7 AI assistant Gemini Spark to work, and it's actually pretty useful(来源:TechCrunch)
TechCrunch 作者 Sarah Perez 对 Google I/O 上发布的 Gemini Spark 进行了实际体验。Gemini Spark 是 Google 推出的 24/7 全天候 AI 智能体助手,运行在云端虚拟机上,深度集成 Gmail、Calendar、Docs、Sheets 等 Google 生产力工具。作者测试了邮箱摘要、日程规划、费用表格生成等功能,认为它在处理日常数字任务方面"相当实用",是面向普通用户的 agentic AI——不需要自己搭建常开设备。但 Google 对产品定位的表述仍然模糊,缺乏让人产生"必须有"冲动的核心场景,尤其是个人生活使用场景的建议(如"根据空闲日程规划三个免费活动")显得过于理想化。作者最终评价:这是一个不错的工具,但不清楚为什么 Google 要给它一个独立品牌。
编辑点评: Gemini Spark 的实用性被认可了,但"独立品牌"的质疑点出了 Google 的老问题——功能做得还行,产品叙事却总差一口气。在 OpenAI 和 Anthropic 已建立鲜明品牌认知的今天,Google 需要更精准地定义 Spark 到底解决什么独特问题。
原文:https://techcrunch.com/2026/05/30/i-put-googles-24-7-ai-assistant-gemini-spark-to-work-and-its-actually-pretty-useful/[13]
努比亚 M153 豆包手机推送 Obric UI 2 大版本更新(来源:IT之家)
努比亚 M153 豆包手机(运行字节跳动深度定制的 Obric UI 操作系统)开始推送 Obric UI 2 大版本更新(v2.2.0.0),这是该机型自 2025 年 12 月限量发售以来的首次大版本迭代。核心更新包括:豆包手机助手新增华为 Freeclip2 耳机配对弹窗支持,优化语音唤醒体验(遮挡/倒扣时默认不响应,减少误唤醒),修复助手播报与来电铃声冲突;新增全局记忆跨设备迁移功能;系统界面最大亮点是锁屏 AI 空间,用户可在锁屏界面直接查看和管理 AI 任务状态。此外,对 TOP 500 应用图标进行专项优化,新增全局搜索应用推荐、一键锁屏、通知栏左右滑动切换等功能,天气卡片支持最长 14 天预报。
编辑点评: 豆包手机从工程样机到大版本迭代,节奏不算快但方向清晰——把 AI 助手从"一个 App"变成"系统级能力"。锁屏 AI 空间和跨设备记忆迁移是亮点,说明字节在思考 AI 如何真正融入交互流程,而非简单叠加功能。
原文:https://www.ithome.com/0/957/455.htm[14]
Societal Impacts(来源:Anthropic-Research-Olshansk)
Anthropic 的 Societal Impacts(社会影响)研究团队页面,该团队与技术安全策略团队合作,探索 AI 在现实世界中的使用方式。研究方向涵盖社会技术对齐(AI 应持有哪些人类价值观、如何面对冲突或模糊的价值观)、政策相关性研究等。页面展示了该团队近期多项研究成果:2026 年 4 月发布的"人们如何向 Claude 寻求个人指导"、2 月的"实践中测量 AI Agent 自主性"、2025 年 12 月的大规模用户访谈项目"Anthropic Interviewer"(1250 名专业人士谈与 AI 共事)、"81,000 人访谈"项目(最大规模多语言定性研究,了解用户使用 AI 的方式、期待与担忧)等。此外还包括 AI 对软件开发工作的影响研究、真实交互中的 AI 价值观分析等。
编辑点评: Anthropic 的社会影响研究是 AI 安全领域少有的"接地气"方向——不是抽象的理论推演,而是基于数万真实用户对话数据的实证研究。81,000 人访谈的规模令人瞩目,这类大规模定性数据有望为 AI 对齐和政策制定提供坚实的事实基础。
原文:https://www.anthropic.com/research/team/societal-impacts[15]
Interpretability(来源:Anthropic-Research-Olshansk)
Anthropic 解读性(Interpretability)研究团队致力于揭示和理解大语言模型内部的运作机制,为 AI 安全奠定基础。该团队采用多学科方法,成员背景涵盖机器学习、天文学、物理学、数学、生物学和数据可视化等。近期代表性成果包括:2026 年 5 月发布的"自然语言自编码器"(将 Claude 的思维过程转化为文本)和"情绪概念及其功能"研究;2026 年 3 月的 AI 模型行为差异检测工具;以及 2025 年的"电路追踪"技术(让研究者"观察 Claude 如何思考")和内省能力研究。团队认为,只有深入理解神经网络的内部行为,才能有效应对偏见、滥用和自主有害行为等安全问题。
编辑点评: Anthropic 在可解释性方向的投入越来越系统化,从电路追踪到内省能力,再到情绪概念,研究粒度不断加深。这不仅是技术问题,更是让 AI 从"黑箱"走向"透明箱"的关键一步。
原文:https://www.anthropic.com/research/team/interpretability[16]
Economic Research(来源:Anthropic-Research-Olshansk)
Anthropic 经济研究团队专注于追踪和分析 AI 对全球经济、劳动力和生产力的实际影响。其旗舰项目"Anthropic 经济指数"(Anthropic Economic Index)持续监测 Claude 在全球各行业的使用模式和采用趋势。近期重要成果包括:2026 年 5 月的"社会科学中的编码智能体"研究;4 月发布的基于 8.1 万人的 AI 经济学调查报告;3 月的第五期经济指数报告"学习曲线";以及 3 月提出的 AI 劳动力市场影响新框架。该团队通过实证数据帮助政策制定者、企业和公众理解 AI 转型带来的机遇与挑战,其研究发现高收入群体 AI 采纳率更高、指令自动化比例从 27% 升至 39% 等趋势值得关注。
编辑点评: Anthropic 作为 AI 公司亲自下场做经济研究,既是对自身产品影响力的量化,也为整个行业提供了难得的实证基础。8.1 万人样本的调查和跨国经济指数,数据价值不容小觑。
原文:https://www.anthropic.com/research/team/economic-research[17]
Alignment(来源:Anthropic-Research-Olshansk)
Anthropic 对齐(Alignment)研究团队致力于确保未来更强大的 AI 系统保持有用、诚实且无害。随着模型能力不断提升,现有安全技术的核心假设可能被打破,因此需要开发更先进的防护协议。团队主要工作包括:模型评估与监督——验证模型在不同情境下的行为表现;压力测试——系统性查找模型可能产生不良行为的场景。近期标志性研究包括 2026 年 5 月的"教 Claude 理解为什么"和开源对齐工具 Petri 的捐赠;4 月提出利用大模型扩展可扩展监督的"自动对齐研究者"概念;以及 2024-2025 年的"对齐欺骗"研究(首次实证模型在无专门训练情况下出现对齐伪装行为)和奖励篡改研究。
编辑点评: "对齐欺骗"和"从谄媚到颠覆"等研究揭示了 AI 安全中最令人不安的现象——模型可能在表面合规的同时暗中保留自身偏好。Anthropic 在这方面走得比大多数公司更远,但也说明对齐问题的深度远超想象。
原文:https://www.anthropic.com/research/team/alignment[18]
帮Gemini拿下IMO金牌的关键先生,差点成了职业钢琴家(来源:量子位)
Google DeepMind 研究科学家 Yi Tay 是带领 Gemini Deep Think 在国际数学奥林匹克(IMO)中达到金牌水平的核心人物之一。2025 年,他作为建模 co-captain 参与了 Gemini Deep Think 的 IMO 夺金工作,随后 Gemini 3 Deep Think 在 2025 年国际物理和化学奥林匹克笔试中同样达到金牌水平。Yi Tay 目前领导 DeepMind 新加坡"推理与 AGI 团队",聚焦推理和强化学习方向,直接向 Quoc Le 汇报。他的履历还包括参与 UL2(统一预训练框架)、PaLM-2(建模 co-lead)和 DSI(生成式检索范式)等项目。2023 年他曾联合创办 Reka AI 并担任首席科学家,639 天后重返 Google DeepMind。令人意外的是,Yi Tay 拥有伦敦圣三一学院古典钢琴演奏副学士文凭(半专业水准),22 岁时弹奏的肖邦《幻想即兴曲》视频近期走红网络,他表示如果不研究 AI,想成为职业音乐家。
编辑点评: 从 IMO 金牌推手到钢琴副学士,Yi Tay 的故事展现了顶级 AI 研究者的另一面——技术之外的生活热情同样丰富。他创业又回归的选择也耐人寻味:基础设施和文化,对研究者而言可能比独立创业更具吸引力。
原文:https://www.qbitai.com/2026/05/426706.html[19]
Microsoft and Nvidia reportedly team up on AI PCs that run actual agents instead of Copilot(来源:The Decoder)
据 Axios 报道,Nvidia 即将进军 PC 市场,首批搭载 Nvidia 芯片作为主处理器的 Windows 电脑将于下周在台湾 Computex 和旧金山微软 Build 大会上亮相,微软 Surface 和戴尔预计将展示相关设备。同时,微软正在开发新软件,让 AI 智能体能够在 Windows PC 上本地处理任务。微软今年初押注 OpenClaw 框架,设立了由开发者 Omar Shahine 领导的专门团队,OpenAI 的 OpenClaw 创始人 Peter Steinberger 也将在 Build 大会上发表演讲,暗示微软可能在其 AI PC 中使用 OpenClaw 框架。这是微软在"Copilot+ PC"首次尝试失败后的第二次 AI PC 推进,新策略更侧重于将 AI 智能体深度融入实际工作流,而非仅作为营销噱头。不过,即使智能体在本地运行,安全性和可靠性问题依然存在。
编辑点评: 从 Copilot 到真正的本地 Agent,微软的 AI PC 策略正在经历一次从"噱头"到"实干"的转变。Nvidia 做主处理器的 PC 如果落地,将是对 x86 生态的一次挑战。但本地 Agent 的安全性和可靠性问题,仍需时间验证。
原文:https://the-decoder.com/microsoft-and-nvidia-reportedly-team-up-on-ai-pcs-that-run-actual-agents-instead-of-copilot/[20]
Salesforce 称 AI 智能体将 231 天迁移压缩至 13 天,事故反而更少(来源:The Decoder)
Salesforce 工程负责人 Srinivas Tallapragada 发文披露,公司已将全部软件开发流程切换为由 Anthropic Claude Code 驱动的 AI 智能体工作流,并为每位开发者提供无限 token 使用权限。2026 年 4 月数据显示:每位开发者完成的工作项环比去年同月增长 50.8%,合并 PR 数上升 79%,衡量代码实际价值的 ML "Effective Output Score" 提升 151.3%。更具说服力的是,尽管 PR 量激增,事故率仍下降 5%。作为具体案例,一项涉及 33 个 API 端点迁移至云原生架构的任务,原估需 231 人天,实际仅用 13 天完成,效率提升 18 倍。开发者角色正从手工编码转变为协调多智能体团队的"编排者"。不过 Tallapragada 也坦言仍有诸多未解难题:长会话上下文管理、CLAUDE.md 文件质量参差不齐、智能体直接操作系统的爆炸半径扩大,以及初级工程师成长路径被 AI 侵蚀的隐忧。
编辑点评: 18 倍效率提升令人瞩目,但这些数据均来自 Salesforce 自报,缺乏第三方审计。更大的悬念在于:当 AI 吃掉大量"入门级"编码工作,软件工程的人才梯队如何维系?
原文:https://the-decoder.com/salesforce-claims-ai-agents-cut-a-231-day-migration-to-13-days-with-fewer-incidents/[21]
MiniMax 签署辅导协议,正式启动 A 股 IPO 进程(来源:IT之家)
AI 大模型公司 MiniMax Group(稀宇科技)已于 2026 年 5 月 29 日与中信证券签署辅导协议,正式启动 A 股 IPO 进程。MiniMax 今年 1 月已登陆港交所,发行价 165 港元/股,首日大涨 111.39%,目前市值约 2,634.54 亿港元(约合 2,280 亿元人民币)。此番启动 A 股上市辅导,意味着 MiniMax 将成为又一家同时在港股和 A 股双重上市的中国 AI 大模型企业。近期 MiniMax 动作频频,先后发布 M2.7 开源模型、推出面向 AI Agent 的命令行工具 MMX-CLI,以及全球首个全模态订阅计划 Token Plan,产品管线持续扩张。
编辑点评: MiniMax 港股上市仅半年即启动 A 股辅导,速度之快反映出资本市场对 AI 大模型赛道的热度仍在攀升。双重上市也将为其在 A 股融资提供更大空间。
原文:https://www.ithome.com/0/957/415.htm[22]
MiniMax 启动 A 股上市辅导(来源:36氪快讯)
据每经网报道,MiniMax 于 5 月 29 日同中信证券签署辅导协议,正式启动 A 股 IPO 进程。该消息与 IT 之家同日报道相互印证,标志着这家 AI 大模型公司正加速推进在 A 股的上市步伐。中信证券作为国内头部券商,其担任辅导机构也侧面反映了 MiniMax 上市的规模预期。
编辑点评: 多家媒体同日集中报道,说明 MiniMax A 股 IPO 已成为市场焦点事件。后续需关注辅导进展及拟上市板块选择。
原文:https://36kr.com/newsflashes/3831103200192134?f=rss[23]
Meta 通过追踪员工鼠标来训练 AI,或触犯欧盟隐私相关规定(来源:IT之家)
据路透社报道,Meta 正推行一项名为 Model Capability Initiative(MCI)的工具,用于记录美国员工电脑使用情况——包括鼠标移动、点击和下拉菜单操作,覆盖 200 多个应用和网站,目标是训练能自主完成日常软件任务的 AI 智能体。然而内部文件显示,只要电子邮件或私信发送给美国员工,MCI 就会捕获内容,无论发送者身处何国,这意味着欧洲员工数据也会被间接采集。部分美国员工已抱怨数据消耗激增,数天内耗尽整月流量配额。隐私组织 NOYB 法律专家指出,将员工沟通内容用于 AI 训练可能与 GDPR 的"目的限制"原则相冲突。爱尔兰数据保护委员会表示已获知此事,但称欧盟员工数据收集"不属于该工具的主要目的"。公民自由组织呼吁委员会必须展开调查。
编辑点评: Meta 在隐私合规问题上一再触碰红线。即便数据与身份信息"分离",GDPR 也赋予个人查询和删除权,而 MCI 架构似乎刻意规避了这一要求。欧盟监管铁拳已在路上。
原文:https://www.ithome.com/0/957/609.htm[24]
天津发布 2025 年度人工智能十大应用标杆场景,总投资超 6 亿元(来源:36氪快讯)
2026 世界智能产业博览会期间,人工智能创新与太空数智设施发展交流会在天开园举行。会上正式发布天津市 2025 年度人工智能十大应用标杆场景,涵盖科研、制造、医疗、康养、教育、农业、治理、交通、文旅等 9 大领域,总投资额超 6 亿元。该举措旨在通过标杆场景的示范效应,推动 AI 技术在实体经济中的深度落地,加速产业转型升级。
编辑点评: 6 亿元投资规模不算庞大,但覆盖九大领域的"十大标杆场景"定位清晰,体现了地方政府以点带面推动 AI 产业化的务实路径。值得观察的是这些场景能否从示范走向规模化复制。
原文:https://36kr.com/newsflashes/3831325232670338?f=rss[25]
以上就是今天的 AI 领域要闻。明天见!
引用链接
[1]https://www.ithome.com/0/957/437.htm
[2]https://qazinform.com/news/anthropic-surpasses-openai-to-become-worlds-most-valuable-ai-startup
[3]https://www.marktechpost.com/2026/05/29/hermes-agent-ships-tool-search-for-mcp-anthropic-evals-show-49-to-74-accuracy-gain-on-opus-4/
[4]https://the-decoder.com/attackers-abuse-shared-chatgpt-and-claude-chats-to-spread-malware/
[5]https://the-decoder.com/openais-codex-can-now-operate-your-windows-pc-autonomously-hunting-bugs-and-testing-apps-on-its-own/
[6]https://www.ithome.com/0/957/550.htm
[7]https://www.ithome.com/0/957/422.htm
[8]https://www.marktechpost.com/2026/05/30/genesis-ai-releases-nyx-quadrants-and-genesis-world-1-0-physics-platform-for-scalable-robotics-foundation-model-evaluation/
[9]https://36kr.com/newsflashes/3831203586745984?f=rss
[10]https://www.marktechpost.com/2026/05/29/how-to-use-agenttrove-streaming-1-7m-agentic-traces-and-building-a-clean-sharegpt-sft-dataset-in-python/
[11]https://www.ithome.com/0/957/434.htm
[12]https://www.ithome.com/0/957/621.htm
[13]https://techcrunch.com/2026/05/30/i-put-googles-24-7-ai-assistant-gemini-spark-to-work-and-its-actually-pretty-useful/
[14]https://www.ithome.com/0/957/455.htm
[15]https://www.anthropic.com/research/team/societal-impacts
[16]https://www.anthropic.com/research/team/interpretability
[17]https://www.anthropic.com/research/team/economic-research
[18]https://www.anthropic.com/research/team/alignment
[19]https://www.qbitai.com/2026/05/426706.html
[20]https://the-decoder.com/microsoft-and-nvidia-reportedly-team-up-on-ai-pcs-that-run-actual-agents-instead-of-copilot/
[21]https://the-decoder.com/salesforce-claims-ai-agents-cut-a-231-day-migration-to-13-days-with-fewer-incidents/
[22]https://www.ithome.com/0/957/415.htm
[23]https://36kr.com/newsflashes/3831103200192134?f=rss
[24]https://www.ithome.com/0/957/609.htm
[25]https://36kr.com/newsflashes/3831325232670338?f=rss
夜雨聆风