5/2/2026 AI速递 | Zig封杀AI代码?GPT-5.5门槛归零,Agent学会死磕-夜雨聆风

5/2/2026 AI速递 | Zig封杀AI代码?GPT-5.5门槛归零,Agent学会死磕

阅读指南

更新时间：今天的日期

总字数

2385 字

预计阅读

16 分钟

文章目录

Zig祭出最严禁令：开源圈容不下一行AI代码？

推理算力暴动：Scaling Law 的下半场在测试时

App Store已死？RSS才是AI时代的流量入口

GPT-5.5通过安全评估，黑客门槛归零？

Codex CLI 的 /goal：Agent 终于学会了死磕

编码代理突围：Claude与Codex正在瓜分你的脑力劳动

LWiAI Podcast #242 – ChatGPT Images 2.0, Qwen 3.6 Max, Kimi-K2.6

AI写的代码，其实根本藏不住

01 / 08

Zig祭出最严禁令：开源圈容不下一行AI代码？

2026-04-30T09:24:23+08:00

在 GitHub Copilot 代码补全率突破 40% 的今天，当绝大多数开源项目忙着在 Issue 区部署 AI 机器人和自动翻译插件时，Zig 语言项目组却干了一件极度“反潮流”的事：他们颁布了史上最严厉的 LLM 禁令。禁令范围不仅覆盖代码提交，甚至延伸到了 Issue 提问、PR 评论，连用 AI 做英译中都在封杀之列。这并非保守主义者的最后挣扎，而是一场针对开源社区“信息熵增”的激进实验。深挖 Zig 的技术决策逻辑，你会发现这并非单纯的文化排外，而是对 LLM 特性的精准狙击。目前的 LLM 本质上是概率模型，擅长生成“看起来正确”的文本，但在系统级编程领域，代码的正确性要求是 100%，任何微小的幻觉都可能导致内存泄漏或段错误。Zig 作为一个致力于取代 C 语言、强调编译期计算和内存安全的底层语言，其维护成本极高。维护者需要处理的是复杂的指针运算和对齐问题，而不是分辨一段流利的英语背后究竟是真实的人类意图，还是 GPT-4 的胡编乱造。禁止 AI 翻译更是神来之笔——在技术沟通中，蹩脚但精准的“中式英语”往往比 AI 润色后丢失了上下文语境的“完美英语”更有价值。这直接切断了“低信息密度内容”通过 AI 包装成“高信息密度”的伪装链条。这一政策对行业的影响堪称核弹级。过去两年，开源社区正遭受“AI 垃圾”的围剿，大量由 LLM 生成的低质量 PR、没有任何调试信息的 Issue 报告充斥着维护者的信箱，极大地推高了开源项目的维护成本。Zig 的禁令实际上是在划定一条红线：开源的核心资产是核心开发者的“注意力”，而非代码的数量。当其他项目还在为 AI 带来的贡献数量暴涨而沾沾自喜时，Zig 选择通过提高准入门槛来过滤噪音。这可能会引发开源模式的范式转移——从“开放式协作”转向“精英式协作”。如果这一模式被验证有效，我们可能会看到更多核心基础设施项目（如 Linux Kernel、LLVM）跟进，将 AI 辅助贡献标记为不受欢迎的行为，甚至开发出专门检测 AI 生成内容的反机器人系统。对于普通开发者和 AI 从业者而言，这记耳光打得非常响亮。它意味着“提示词工程”在严肃的系统编程领域正在失效。如果你无法脱离 AI 独立完成 Bug 复现和逻辑构建，你在 Zig 社区将被视为“无效贡献者”。这对那些过度依赖 Cursor 和 Copilot 的新手工程师敲响了警钟：工具可以提升效率，但不能替代你对底层原理的理解。在 AI 时代，最稀缺的资源不再是代码生成能力，而是代码审查能力和对系统架构的深度认知。Zig 正在倒逼贡献者回归“硬核”状态——要么读懂源码，要么闭嘴。这实际上是在进行一场大规模的图灵测试：只有真正理解代码逻辑的人，才配拥有提交权限。当然，这种强硬姿态能维持多久是个未知数。当 GPT-5 或 Claude 4 能够通过图灵测试，完美模拟人类工程师的语气和逻辑时，Zig 的禁令是否会沦为一纸空文？或者，这会成为人类程序员在 AI 浪潮中保留的最后一块“纯血飞地”？在这个 AI 无处不在的时代，我们是否应该重新审视：开源精神的本质，究竟是“人人为我”的协作，还是“人机共生”的狂欢？

* * *

02 / 08

推理算力暴动：Scaling Law 的下半场在测试时

2026-04-30T09:42:51+08:00

Noam Brown（OpenAI o1 核心贡献者）最近抛出了一个反共识观点：“Inference compute is a strategic resource.” 这句话看似平淡，实则是对当前 AI 范式转移的最冷峻注脚。过去两年，行业疯狂迷信预训练算力的暴力美学，认为只要 H100 够多、数据够大，AGI 就会自然涌现。但现实给了这种线性思维一记耳光：Scaling Law 并没有死，它只是换了个战场——从训练时计算转移到了测试时计算。这背后的技术逻辑并不复杂，但极具颠覆性。传统的 LLM 推理是“快系统”模式，一次前向传播生成一个 token，算力消耗是恒定的。而以 o1 为代表的新范式，引入了“慢系统”思维，通过 CoT（思维链）和搜索算法（类似 AlphaGo 的 MCTS），让模型在输出最终结果前，在潜在空间中进行大量的自我博弈和纠错。这意味着，模型在推理阶段的算力消耗不再是常量，而是变量，甚至是一个指数级增长的变量。我们不再仅仅是在“训练”一个模型，而是在每次“使用”时都在进行微调级别的计算。这种计算范式的转移，直接导致推理算力需求呈指数级爆发，瞬间填满了现有的算力储备。这对产业链的冲击是结构性的。Latent Space 近期关注的 CPU compute/sandbox 赛道，正是这一趋势的注脚。当模型开始具备 Agent 能力，代码执行、工具调用成为常态，这些任务并不总是需要 GPU 的张量核心，反而对 CPU 的逻辑处理能力和沙盒环境的安全性提出了极高要求。GPU 厂商的垄断地位开始出现裂痕，高性价比的推理芯片和 CPU 算力正在重获新生。云厂商的商业模式也将被迫重构：过去卖的是“存储”和“训练时长”，未来卖的是“思考时间”和“搜索步数”。谁能提供更低成本的推理算力，谁就能在 Agent 时代掌握定价权。对于 AI 从业者，这不仅是技术迭代，更是生存逻辑的重写。如果你的产品还在依赖简单的单次 Prompt 调用，你的护城河将荡然无存。未来的应用开发，必须在“响应延迟”和“推理深度”之间做极致的权衡。你需要设计机制来控制模型的“思考预算”，防止 API 费用在一次复杂查询中失控。同时，Inference Engineering 将取代 Prompt Engineering 成为显学，如何优化 KV Cache、如何设计并行搜索策略、如何构建高效的 CPU Sandbox，这些硬核工程能力将成为区分高级工程师和调包侠的分水岭。训练算力决定了模型能走多远，而推理算力决定了模型能跑多快。当我们在为模型智力飞跃欢呼时，必须意识到，每一次“顿悟”背后都是真金白银的算力燃烧。留给开发者的问题是：当智能成为一种昂贵的计算资源，你的产品利润率还能撑得起这份“聪明”吗？

* * *

03 / 08

App Store已死？RSS才是AI时代的流量入口

2026-05-01T02:38:48+08:00

Matt Webb 最近抛出了一个看似复古的观点：我们需要 RSS 来分发“氛围编码”（Vibe Coding）的应用。这听起来像个 Web 1.0 时代的冷笑话，但如果你看懂了 LLM 对软件生产关系的重构，就会意识到这是对现有 App Store 模式最犀利的降维打击。当写代码的成本无限趋近于零，软件分发的瓶颈不再是生产，而是渠道。所谓“氛围编码”，本质上是将自然语言意图直接映射为可执行逻辑。Andrej Karpathy 曾断言，未来的编程就是对着 LLM 说话。这导致的结果是，软件不再是稀缺的重资产，而是变成了像博客文章一样的一次性消费品。你为了解决一个极其细分的痛点——比如“把上周的 Notion 日志转换成特定格式的 Excel”——随手 Prompt 一个小工具，用完即弃。这种高频、碎片化、极度个性化的应用形态，与 App Store 繁琐的审核机制、高昂的维护成本完全背道而驰。Webb 提议的 RSS 方案，核心在于“Feed Item 即应用”。技术实现上，这要求 RSS 的 Item 不再仅承载文本摘要，而是封装了代码逻辑的标准化容器。那个“Install”按钮，实际上是在调用某种轻量级运行时环境。这里的技术难点在于“安装到何处”。目前的操作系统生态被 iOS 和 Android 的沙盒机制严密把持，跨应用的互操作性极差。但这并非无解，WebAssembly 和 PWA（渐进式 Web 应用）正在蚕食原生应用的领地。如果未来的 OS 能提供更底层的 Web 容器支持，RSS 订阅源就变成了应用商店，浏览器或阅读器就成了新的 OS 入口。这对行业的冲击是结构性的。首先，中心化的流量分发逻辑失效。App Store 的排名机制建立在“重应用”逻辑上，而 Vibe Coding 时代，应用是原子化的。长尾需求不再需要被妥协进通用软件，而是拥有独立的生存空间。其次，SaaS 行业的护城河将被解构。当一个 RSS Feed 能推送成千上万个针对特定场景优化的微工具，用户为何还要为臃肿的 SaaS 套餐付费？软件行业将从“产品交付”彻底转向“能力交付”。对于开发者和从业者，这意味着必须放弃构建“大而全”平台的执念。未来的核心竞争力，在于能否通过 Prompt Engineering 快速生成高质量、可复用的微服务模块，并将其标准化封装。你需要关注的不再是 DAU 和留存率，而是你的 Feed 订阅数和工具的调用成功率。对于企业 IT 部门，与其采购昂贵的商业软件，不如搭建内部的 RSS 工具流，让员工用自然语言生成自己的生产力工具。当软件像自来水一样通过 RSS 管道流进你的设备，且不论操作系统是否允许，人类真的准备好管理数以万计的个性化微应用了吗？

* * *

04 / 08

GPT-5.5通过安全评估，黑客门槛归零？

2026-05-01T07:03:24+08:00

英国AI安全研究所（AISI）的最新报告把遮羞布扯得干干净净：GPT-5.5的网络攻防能力已经追平了Anthropic未公开的Claude Mythos。这还不是最糟糕的，最讽刺的是，Mythos还在红队测试阶段，而GPT-5.5现在对所有人开放API。这意味着，顶尖实验室严防死守的高危能力，一夜之间变成了几十美元就能调用的“自来水”。先看技术底色。这次评估的核心不是生成文本，而是Cyber Offense Capability（网络攻击能力）。GPT-5.5在漏洞挖掘任务中展现出的核心质变，在于其Context Window（上下文窗口）对大型代码库的吞吐逻辑。早期的LLM（大语言模型）做代码审计，更多是基于Pattern Matching（模式匹配），像是在玩“大家来找茬”。但GPT-5.5展现出了基于AST（抽象语法树）和CFG（控制流图）的深层理解能力。它能构建长达数十步的CoT（思维链），模拟攻击者的思维路径，从数据流入口追踪到危险函数调用，这种逻辑推理能力已经脱离了概率模型的范畴，更像是一个不知疲倦、知识库实时更新的高级安全研究员。AISI的数据显示，在部分CTF（夺旗赛）场景下，其自动化利用成功率已逼近人类专家水平。行业格局这块，变天是必然的。过去安全行业的基石是“攻防不对等”，攻击成本高、门槛高。现在GPT-5.5把这个门槛踩得稀碎。黑产不需要养昂贵的安全专家，只需要一个懂Prompt Engineering的脚本小子，就能批量生成变种Payload，甚至进行自动化的Zero-day挖掘。这对于传统的WAF（Web应用防火墙）和静态代码扫描工具来说是降维打击——基于规则的防御在AI生成的随机攻击面前，形同虚设。更可怕的是，这种能力的“民主化”意味着，任何具备API调用能力的设备都可能成为攻击源，攻击面将呈指数级扩张。安全厂商如果还在卖特征库，基本可以宣告死刑；未来的防御必须是AI对抗AI，用LLM去检测LLM生成的攻击。对于开发者和安全从业者，这不仅是技术迭代，更是生存危机。如果你还在用传统的代码混淆或依赖“隐式安全”，趁早死心。GPT-5.5读代码比你读文档还快，任何逻辑漏洞在它面前都是明牌。你需要做的是立刻将AI引入DevSecOps流程，在代码合入前就用更强的模型进行对抗性测试。安全人员的角色将从“漏洞挖掘者”转变为“AI安全编排师”，你的核心竞争力不再是找到Bug，而是构建能约束AI行为、识别AI攻击模式的防御体系。别再迷信RLHF（人类反馈强化学习）带来的安全对齐，在Scaling Law的暴力美学下，对齐只是增加了Prompt构造的难度，并没有消除能力本身。技术没有善恶，只有代价。当GPT-5.5把相当于国家级的黑客能力下放到每个人手中，我们是在见证网络安全的民主化，还是在亲手构建一个无法防御的赛博废土？当攻击成本无限趋近于零，互联网的信任基石，还能撑多久？

* * *

05 / 08

Codex CLI 的 /goal：Agent 终于学会了死磕

2026-05-01T07:23:17+08:00

大部分开发者还在微调 Prompt 试图让 LLM 一次性生成无 Bug 代码，OpenAI 已经把路走宽了——或者说，走“卷”了。Codex CLI 0.128.0 版本更新的 `/goal` 指令，是一个极具欺骗性的功能更新。表面看是加了个循环参数，实则是 OpenAI 对 Agentic Workflow（智能体工作流）的一次底层定义：从此，AI 编程不再是“一锤子买卖”，而是进入了“死磕到底”的无限博弈阶段。这不仅仅是工具的升级，更是编程范式从“指令驱动”向“意图驱动”转折的分水岭。深入技术细节，这个 `/goal` 指令的核心在于引入了类似“Ralph loop”的迭代闭环机制。在传统的 LLM 交互模式中，输入与输出是线性的，模型生成内容后任务即告终结，这种模式对复杂任务的容错率极低。而 Codex CLI 的 `/goal` 彻底改变了这一流程：你只需定义终态，Agent 会自动拆解任务、执行、验证，并在失败后自我修正。Agent 会持续循环，直到其内部评估逻辑判定目标达成，或者触达了你设定的 Token 预算上限。这里的技术门槛不在于“循环”本身，而在于“评估”。模型必须具备极强的 Reasoning（推理）能力，才能准确判断“目标是否完成”。这要求 Codex 不仅要有代码生成的能力，更要有代码理解和测试验证的能力。这种机制本质上是将“人类调试”的过程外包给了 AI，用算力和时间换取代码的确定性。对于复杂的重构任务或依赖环境配置的脏活，这种“死循环+自省”的架构是目前最接近 AGI 工作模式的工程解法。它不再依赖概率性的“单次命中率”，而是依赖确定性的“迭代收敛”。放眼行业，这对现有的 AI 编程助手市场是一次精准的降维打击。目前市面上的竞品，大多还停留在“Copilot”模式，即拼谁的上下文窗口大、谁的代码补全快。但 Codex CLI 的这次更新，直接跳过了“辅助”阶段，迈向了“自主执行”。这标志着 DevTools 的竞争维度已经从“模型参数”转移到了“Agent 架构”。更值得注意的是“Token Budget”的设计。OpenAI 非常清醒，Agent 的自主性是一把双刃剑。如果 Agent 陷入死循环，用户面临的不仅是时间成本，更是直接的金钱成本。将 Token 预算的控制权下放给用户，是一个极其精明的商业决策：它既展示了 Agent 强大的自主能力，又巧妙地将算力成本的风险转移给了使用者。这暗示了未来 AI 编程工具的商业模式——卖的不是简单的 Token，而是解决问题的“尝试次数”。对于 JetBrains、Cursor 等依赖补全逻辑的厂商来说，如果不跟进这种基于目标的 Agent 架构，很快就会在复杂任务处理上被边缘化。回到开发者视角，这个功能的影响是颠覆性的，但也伴随着巨大的陷阱。你的角色将从“代码编写者”转变为“目标定义者”和“预算控制者”。这听起来很美好，但实际操作难度极大。定义一个精确的 Goal 远比写一段精确的 Prompt 要难。如果 Goal 定义模糊，或者验证逻辑存在漏洞，Agent 可能会在 Token 预算耗尽前生成一堆看似正确实则毫无逻辑的“垃圾代码”，甚至引入难以察觉的隐蔽 Bug。更重要的是，调试的对象变了。以前你调试的是代码逻辑，现在你调试的是 Agent 的思维链。你需要思考：为什么它认为这个任务完成了？为什么它在这个死循环里出不来？这要求开发者对 AI 的底层逻辑有更深的理解。别指望 `/goal` 能让你当甩手掌柜，它更像是一个能力极强但偶尔会犯浑的实习生，你需要时刻盯着它的产出，并在它跑偏时及时止损。当工具开始为了达成目标而不惜一切代价（烧 Token）时，我们究竟是获得了更高的效率，还是制造了一个永远填不满的黑洞？这个问题，留给你的账单来回答。

* * *

06 / 08

编码代理突围：Claude与Codex正在瓜分你的脑力劳动

2026-05-01T12:53:41+08:00

“编码代理正在突破封锁。”这不再是某个科幻小说的开头，而是Unsupervised Learning播客抛出的最新论断。当大多数人还在为LLM的代码补全能力沾沾自喜时，Claude和Codex已经悄然完成了从“工具”到“代理人”的质变。这不仅仅是IDE里的几个Tab键，而是一场针对知识工作流的降维打击。从技术底层看，这一轮进化的核心在于Agent的“执行力”边界被打破了。以前的代码模型是在沙盒里玩耍，现在的Codex和Claude则是在真实的生产环境中“裸奔”。Codex的逻辑在于强推理与工具链的深度耦合，它不再只是生成代码片段，而是直接调用API、操作文件系统、执行终端命令。这种“Breaking Containment”意味着模型不再受限于聊天窗口，而是将整个操作系统视为其上下文。Claude则走了另一条路，它利用超长上下文窗口和RLHF后的对齐优势，在处理非结构化文本和创意工作中展现出惊人的稳定性。如果说Codex是严谨的工程师，Claude就是那个不知疲倦的创意总监。这种技术分野对行业的冲击是结构性的。我们正在见证知识工作被一刀切为两个阵营：逻辑执行层与创意生成层。Codex及其同类正在迅速吞噬掉那些“只要逻辑正确就能执行”的工作——数据处理、脚本编写、API对接。这些工作曾经是初级程序员的护城河，现在却成了Agent的自留地。而Claude则在创意、文案、复杂语义理解上攻城略地。这种分工并非人为设计，而是模型架构与训练数据导向的必然结果。对于SaaS行业来说，这更是一场噩梦：如果你的产品核心价值只是“连接API”或“生成文档”，那么Agent很快就会绕过你的UI，直接以代码的形式干掉你的中间商生意。对从业者而言，这并非简单的“替代”恐慌，而是工作流的强制性重构。你不再需要手写每一行代码，但你需要具备审核Agent输出的能力，这要求你从“执行者”转变为“架构师”或“审核员”。对于知识工作者，核心竞争力的定义已经变了：会写Prompt只是基本功，懂得如何编排Agent工作流才是新的护城河。那些无法理解Agent执行逻辑、无法在Codex的严谨与Claude的创意之间做决策的人，将面临被算法“平均化”的风险。当编码代理突破了编辑器的封锁，代码就不再是程序员的专利，而成了AI操作世界的通用货币。那么，当Agent能够自主编写代码并执行时，我们究竟是在控制工具，还是在为AI提供训练自己所需的反馈数据？

* * *

07 / 08

LWiAI Podcast #242 – ChatGPT Images 2.0, Qwen 3.6 Max, Kimi-K2.6

2026-04-30T15:14:45+08:00

Note from Andrey: I know there haven’t been posts on Substack in the past couple of weeks… Starting this week they’ll resume at a regular cadence, as usual I apologize for the inconsistency. Our 242nd episode with a summary and discussion of last week’s big AI news! Recorded…

* * *

08 / 08

AI写的代码，其实根本藏不住

2026-05-01T05:24:55+08:00

Andrew Kelley（Zig 语言作者）最近抛出了一个反共识观点：认为无法区分 LLM 代码和人类代码，纯属误解。过去几个月，虽然没能 100% 拦截 AI 辅助的 PR，但区别显而易见——人类犯错的方式和 LLM 的幻觉，在底层逻辑上有着根本性的物种差异。从技术底层看，这种差异源于生成机制的本质不同。LLM 基于 Transformer 架构，本质是概率模型，追求的是 Token 预测的“合理性”和上下文的“连贯性”。模型产生的幻觉，往往是构建了一个语法完美、甚至符合惯用模式的代码块，却在 API 调用或逻辑链条上凭空捏造。这种错误带有强烈的“平滑感”——它看起来太正确了，以至于不像人写的。反观人类错误，更多是拼写失误、逻辑断层、或是忘记处理边界条件。人类的错误是“离散的”、“粗糙的”，而 AI 的错误是“连续的”、“平滑的”。这种底层特征的区别，使得经验丰富的开发者只需一眼就能识别出那股“AI 味”。这直接击碎了“AI 能完美混入代码库”的幻想，对开源社区造成了深远影响。维护者们正在面临一场“劣币驱逐良币”的危机，大量由 LLM 批量生成的 PR 淹没了 Issue 区。这些代码往往能通过 CI，甚至能跑通 Happy Path，但在 Edge Case 面前一触即溃。行业里充斥着 AI 提升效率的论调，却忽略了 Code Review 的核心成本从“查找语法错误”变成了“鉴别逻辑陷阱”。这种隐性成本正在急剧拉低开源项目的维护效率。所谓的“无法区分”，很多时候不过是审查者对细节的妥协，而非技术上的不可行。当项目维护者需要花费数倍精力去甄别哪些是真诚的贡献，哪些是概率模型的“胡言乱语”，开源协作的信任基石便开始松动。对于开发者而言，这释放了一个极其危险的信号：试图用 LLM 生成的代码冒充人工提交，正在消耗你在技术社区的信用资产。审查者的直觉比想象中敏锐，一旦被打上“AI 投毒者”的标签，后续的每一次贡献都会被置于显微镜下。更重要的是，这倒逼我们重新思考 AI 辅助编程的边界——AI 擅长生成样板代码，但在逻辑构建上，它目前仍无法模拟人类思维的“不完美性”。如果你想让代码通过审查，不仅要修正 Bug，还要学会给代码注入“人味”，即那些无法被概率模型预测的独特逻辑路径。盲目依赖生成式 AI，不仅无法提升竞争力，反而会让你在资深工程师的审视下无所遁形。既然 LLM 的代码痕迹如此明显，为什么行业内依然充斥着“AI 无处不在”的恐慌？或许问题不在于模型太强，而在于我们对于“代码质量”的定义，正在被这种廉价的高产出生成物逐渐稀释。