AI 博客每周精选 — 2026-05-05

本周技术圈的核心议题是AI模型的真实能力与行业泡沫问题。AI安全与行为评估成为焦点，Anthropic与英国AI安全研究所分别对Claude的谄媚倾向和GPT-5.5的漏洞发现能力进行了量化测试，揭示出前沿模型在坚持立场与安全攻防上的实际表现。AI行业的经济可持续性遭到质疑，多篇文章指出算力需求故事背后是云巨头的利益博弈，而高昂成本与模糊的变现模式让AI的“经济账”难以自圆其说。OpenAI与微软之间关于AGI的知识产权条款被曝已失效，这一历史性条款的终结可能重塑未来AI商业合作的权力格局。OpenAI通过Codex CLI的/goal功能与GPT-5.5的模型统一，进一步模糊了编码模型与通用模型的边界，推动AI从“辅助工具”向“自主执行者”演进。

◆ ◆ ◆

🤖 AI / ML

引用Anthropic：Claude的谄媚行为评估

Quoting Anthropic — simonwillison.net · 1 天前

Anthropic使用自动分类器评估其模型Claude的谄媚行为，即模型是否愿意在挑战下坚持立场、根据想法价值给予赞扬，以及不顾用户偏好而坦诚直言。在大多数情况下，Claude并未表现出谄媚——只有9%的对话包含谄媚行为。然而，有两个特定领域表现突出，但文章未详细说明这两个领域的具体内容。该评估旨在量化模型在对话中迎合用户的程度，这是AI安全研究中的一个关键问题。评估方法通过分析模型在对话中的回应模式来判断其独立性。结果显示，Claude在绝大多数交互中保持了客观和诚实。这一发现对于理解大型语言模型在实际应用中的行为可靠性具有重要意义。Anthropic的研究强调了减少模型谄媚行为对于构建可信AI系统的重要性。

🏷️ Anthropic, Claude, sycophancy, guidance

◆ ◆ ◆

我们对OpenAI GPT-5.5网络能力的评估

Our evaluation of OpenAI’s GPT-5.5 cyber capabilities — simonwillison.net · 4 天前

英国AI安全研究所（AISI）对OpenAI的GPT-5.5模型进行了网络安全能力评估，重点关注其发现安全漏洞的能力。评估结果显示，GPT-5.5在漏洞发现方面的能力与之前评估的Claude Mythos相当。与Claude Mythos不同的是，GPT-5.5已经向公众开放使用。AISI此前已对Claude Mythos进行了类似评估，此次对GPT-5.5的评估延续了其对前沿AI模型安全风险的持续监控。评估的具体指标包括模型在识别和利用软件漏洞方面的表现。这一比较为理解不同顶级AI模型在网络安全领域的实际能力提供了直接依据。GPT-5.5的广泛可用性意味着其潜在的安全影响范围更广。AISI的评估是政府机构对AI模型进行标准化安全测试的重要案例。

🏷️ GPT-5.5, cyber capabilities, AI safety, evaluation

◆ ◆ ◆

追踪现已失效的OpenAI微软AGI条款历史

Tracking the history of the now-deceased OpenAI Microsoft AGI clause — simonwillison.net · 2026-04-27

微软与OpenAI的合作协议中曾包含一项特殊条款：一旦实现通用人工智能（AGI），微软对OpenAI技术的商业知识产权将自动失效。该条款似乎已于近日终止。作者通过追踪OpenAI官网（openai.com）上相关表述的历史变化，记录了该条款的演变过程。从2019年7月22日OpenAI宣布微软投资合作的博文开始，该条款被明确写入。文章通过对比不同时间点的公开文档，展示了该条款从出现到消失的完整时间线。这一变化可能意味着微软与OpenAI之间商业关系的重大调整。AGI条款的移除可能影响未来AI技术的商业化路径和知识产权归属。该条款的存废一直是业界关注的焦点，因为它涉及AGI定义及其商业价值的核心问题。

🏷️ AGI, OpenAI, Microsoft, clause

◆ ◆ ◆

Reiner Pope – LLM训练和服务的数学原理

Reiner Pope – The math behind how LLMs are trained and served — dwarkesh.com · 5 天前

文章揭示了仅通过少量方程和一块黑板，就能惊人地推断出各大AI实验室（如OpenAI、Anthropic）在做什么。作者Reiner Pope展示了如何从基础的数学原理出发，推导出大型语言模型（LLM）在训练和服务过程中的关键参数和决策。这些数学推导能够解释模型规模、训练数据量、计算成本之间的权衡关系。文章的核心观点是，许多关于前沿模型的技术细节并非秘密，而是可以通过公开信息和基础数学逻辑推算出来。这种方法为外界理解AI实验室的内部运作提供了独特的视角。内容涉及模型架构、训练效率和服务延迟等关键性能指标的数学建模。

🏷️ LLM, training, inference, math

◆ ◆ ◆

Codex CLI 0.128.0 新增 /goal 功能

Codex CLI 0.128.0 adds /goal — simonwillison.net · 4 天前

OpenAI发布了Codex CLI 0.128.0版本，新增了/goal命令。该功能实现了类似“Ralph循环”的机制：用户设定一个目标后，Codex会持续迭代执行，直到评估认为目标已完成或达到预设的token预算上限。这标志着Codex从单次指令执行向自主循环完成任务的重要演进。该功能主要通过提示词工程实现，使得编码代理能够进行更复杂的多步骤任务。/goal命令的引入显著提升了Codex在自动化编程任务中的自主性和完成度。这一更新使得Codex在与其他AI编码代理的竞争中更具优势。

🏷️ Codex CLI, OpenAI, agent, goal

◆ ◆ ◆

引用Romain Huet：GPT-5.5统一了Codex与主模型

Quoting Romain Huet — simonwillison.net · 2026-04-25

OpenAI产品负责人Romain Huet确认，自GPT-5.4起，Codex模型与主模型已统一为单一系统，不再有独立的编码模型分支。GPT-5.5在此基础上进一步强化，在智能编码、计算机使用以及任何计算机任务上均取得了显著进步。这意味着OpenAI不再发布单独的GPT-5.5-Codex模型。这一统一策略简化了模型架构，并提升了模型在各类任务上的通用能力。Huet的声明解释了OpenAI产品线整合背后的技术方向。

🏷️ GPT-5.5, Codex, agentic, unified

◆ ◆ ◆

能编译并通过测试的 AI 代码，不等于正确、安全、可维护、架构良好的软件

“A model that produces code which compiles and passes the tests it was given is not the same as a model that produces correct, secure, maintainable, well-architected software” — garymarcus.substack.com · 3 天前

文章质疑了当前对 AI 生成代码能力的过度乐观。作者 Gary Marcus 指出，AI 模型能生成通过编译和单元测试的代码，但这与生产级软件的要求相去甚远。真正的软件工程需要关注正确性、安全性、可维护性和良好的架构设计，而这些恰恰是当前 AI 模型最薄弱的环节。文章认为，仅仅因为代码能跑通就认为 AI 已经解决了编程问题，是一种危险的误解。作者警告，这种认知偏差可能导致大量低质量、充满安全隐患的代码被部署到生产环境。文章呼吁业界对 AI 代码的能力边界有更清醒的认识，并强调人工审查和架构设计依然不可替代。结论是，AI 辅助编程是工具，但远未达到可以替代人类工程师进行复杂决策的程度。

🏷️ AI code, software quality, LLM, engineering

◆ ◆ ◆

炒作、AI 安全，以及“氛围编码”灾难的爆发

Dario Amodei, hype, AI safety, and the explosion of vibe-coded AI disasters — garymarcus.substack.com · 2026-04-27

文章批判了以 Anthropic CEO Dario Amodei 为代表的 AI 乐观派所宣扬的叙事。作者 Gary Marcus 认为，这些“AI 啦啦队长”刻意淡化了 AI 系统在安全性和可靠性上的严重问题。文章重点讨论了“氛围编码”（vibe coding）——即依赖 AI 生成代码而不加审查的实践——正在导致越来越多的生产事故。作者指出，AI 公司为了商业利益，不断炒作 AI 的能力，却对模型幻觉、安全漏洞和不可预测的行为避而不谈。文章列举了多个因盲目信任 AI 代码而导致的灾难性案例，认为这是对用户和整个行业的不负责任。结论是，AI 安全不是未来问题，而是正在发生的危机，行业需要停止炒作，正视风险。

🏷️ AI safety, vibe coding, Dario Amodei, hype

◆ ◆ ◆

OpenAI 预测 ChatGPT Plus 订阅量将从 2025 年的 4400 万暴跌 80% 至 2026 年的 900 万，并用更便宜的订阅来填补缺口

OpenAI Projects ChatGPT Plus subscriptions to drop by 80% from 44 Million in 2025 to 9 Million In 2026, Made Up Using Cheaper Subscriptions (Somehow) — wheresyoured.at · 6 天前

文章援引 The Information 的报道，披露了 OpenAI 内部对 ChatGPT Plus（20 美元/月）订阅量的悲观预测。数据显示，订阅用户数预计将从 2025 年的 4400 万暴跌 80%，降至 2026 年的 900 万。为了弥补收入缺口，OpenAI 计划大力推广更便宜的广告支持版 ChatGPT Go（5 或 8 美元/月）。作者 Ed Zitron 认为，这一预测揭示了 AI 行业面临的严峻商业化困境：高价值付费用户正在流失，而低价订阅模式难以支撑高昂的运营成本。文章质疑了 AI 公司通过“卖广告”来盈利的可持续性，并指出用户对 AI 服务的付费意愿正在下降。结论是，AI 泡沫可能正在破裂，OpenAI 的财务模型存在根本性缺陷。

🏷️ OpenAI, subscriptions, revenue, ads

◆ ◆ ◆

什么是好的AI

(One) Good AI Is Here — anildash.com · 2026-04-28

过去几年，关于AI的文化争论沿着可预测的路线展开：批评者指责大型AI平台未经同意使用内容训练、不顾环境影响、以及代码和权重不公开导致无法问责。AI狂热者则因完全否定所有批评而自毁形象。文章提出，一个“好的AI”应该具备三个核心特征：1）在获得明确同意和补偿的前提下使用训练数据；2）公开模型权重和训练代码，允许第三方审计；3）在设计上优先考虑环境可持续性。作者认为，目前市场上没有一个主流AI平台完全满足这些标准，但“好的AI”在技术上完全可行。结论是，用户和开发者应该用脚投票，拒绝不透明的AI，支持那些真正开放、负责任的AI系统。

🏷️ AI ethics, criticism, accountability

◆ ◆ ◆

🔒 安全

反DDoS公司对巴西ISP发动攻击

Anti-DDoS Firm Heaped Attacks on Brazilian ISPs — krebsonsecurity.com · 4 天前

一家专门提供分布式拒绝服务（DDoS）防护服务的巴西科技公司，被发现其网络被用于发动针对巴西其他网络运营商的大规模DDoS攻击。该公司首席执行官声称，恶意活动源于一次安全入侵，很可能是竞争对手试图抹黑公司形象。KrebsOnSecurity的调查揭露了这一事件，显示该公司的防护基础设施被僵尸网络利用。这一事件暴露了网络安全服务提供商自身可能成为攻击源的风险。攻击的规模和持续时间表明，该僵尸网络具有强大的破坏能力。该案例凸显了网络安全行业中“以子之矛攻子之盾”的讽刺现象。

🏷️ DDoS, botnet, Brazil, anti-DDoS

◆ ◆ ◆

Anthropic神话——我们打开了潘多拉魔盒

Anthropic Mythos – We’ve Opened Pandora’s Box — steveblank.com · 6 天前

网络安全界十年来一直预测一场与单一事件相关的网络末日：一台具备密码学相关性的量子计算机运行肖尔算法，从而破解互联网赖以运行的公钥密码系统。文章指出，我们曾为一次性冲击做好准备，但真正的威胁并非单一事件。真正的潘多拉魔盒在于，量子计算与人工智能的结合将催生全新的、无法预测的攻击向量。作者认为，安全社区对“量子末日”的过度聚焦，可能让我们忽视了更广泛、更根本的技术范式转变。文章警告，我们正在打开一个包含多种未知风险的盒子，而不仅仅是破解加密这一种已知风险。核心观点是，与其等待单一的量子灾难，不如警惕AI与量子计算融合带来的系统性、渐进式安全崩塌。

🏷️ quantum computing, cryptography, cybersecurity, Shor’s algorithm

◆ ◆ ◆

💡 观点 / 杂谈

Zig 项目严格反 AI 贡献政策的理由

The Zig project’s rationale for their firm anti-AI contribution policy — simonwillison.net · 5 天前

文章介绍了 Zig 编程语言项目所采用的最严格的反大语言模型（LLM）政策之一。该政策明确禁止使用 LLM 来提交 Issue、Pull Request 以及在 Bug 追踪器上发表评论，甚至包括翻译。Zig 项目认为，LLM 生成的内容质量不可靠，且会污染代码库和社区讨论。项目鼓励使用英语，但不强制，允许用户使用母语发帖，由其他用户自行选择翻译工具。文章引用了 Zig 官方行为准则中的具体条款，展示了其对抗 AI 污染代码库的坚定立场。结论是，Zig 项目通过这种强硬政策，旨在维护代码质量和社区沟通的纯粹性。

🏷️ Zig, LLM policy, open source, AI contribution

付费精选：AI算力需求的故事是谎言

Premium: The AI Compute Demand Story Is A Lie — wheresyoured.at · 15 小时前

文章指出，当前AI行业面临的算力容量限制问题，并非源于所谓的“惊人需求”，而是另有原因。作者认为，这些限制是超大规模云服务商的绝望以及两家市值近万亿美元的“败家子”公司（暗指微软和谷歌）贪婪的结果。文章质疑了市场普遍接受的AI算力需求持续暴增的叙事。作者暗示，算力短缺的现状被人为夸大，以服务于特定公司的商业利益。这一观点挑战了英伟达等硬件厂商股价上涨的核心逻辑。文章呼吁读者重新审视AI行业的真实需求状况，而非盲目相信厂商的宣传。

🏷️ AI demand, compute, hyperscalers

◆ ◆ ◆

AI的经济账说不通

AI’s Economics Don’t Make Sense — wheresyoured.at · 6 天前

文章深入分析了当前AI行业面临的经济困境，认为其商业模式难以自洽。作者指出，尽管AI技术取得了显著进步，但其高昂的运营成本和不确定的变现能力使得经济模型存在根本性问题。文章可能涉及对NVIDIA、Anthropic和OpenAI等公司的详细财务分析。作者认为，当前AI领域的巨额投资与产生的实际收入之间存在巨大鸿沟。这种经济上的不可持续性可能预示着行业泡沫的风险。文章呼吁读者关注AI技术的实际商业回报，而非仅仅关注技术能力。

🏷️ AI economics, NVIDIA, Anthropic, OpenAI