乐于分享
好东西不私藏

5/2/2026 AI速递 | Zig封杀AI代码?GPT-5.5门槛归零,Agent学会死磕

5/2/2026 AI速递 | Zig封杀AI代码?GPT-5.5门槛归零,Agent学会死磕

阅读指南

 更新时间:今天的日期 

 总字数 

 2385 字 

 预计阅读 

 16 分钟 

 文章目录 

 1 

 Zig祭出最严禁令:开源圈容不下一行AI代码? 

 2 

 推理算力暴动:Scaling Law 的下半场在测试时 

 3 

 App Store已死?RSS才是AI时代的流量入口 

 4 

 GPT-5.5通过安全评估,黑客门槛归零? 

 5 

 Codex CLI 的 /goal:Agent 终于学会了死磕 

 6 

 编码代理突围:Claude与Codex正在瓜分你的脑力劳动 

 7 

 LWiAI Podcast #242 – ChatGPT Images 2.0, Qwen 3.6 Max, Kimi-K2.6 

 8 

 AI写的代码,其实根本藏不住 

 01 / 08 

 Zig祭出最严禁令:开源圈容不下一行AI代码? 

 2026-04-30T09:24:23+08:00 

在 GitHub Copilot 代码补全率突破 40% 的今天,当绝大多数开源项目忙着在 Issue 区部署 AI 机器人和自动翻译插件时,Zig 语言项目组却干了一件极度“反潮流”的事:他们颁布了史上最严厉的 LLM 禁令。禁令范围不仅覆盖代码提交,甚至延伸到了 Issue 提问、PR 评论,连用 AI 做英译中都在封杀之列。这并非保守主义者的最后挣扎,而是一场针对开源社区“信息熵增”的激进实验。深挖 Zig 的技术决策逻辑,你会发现这并非单纯的文化排外,而是对 LLM 特性的精准狙击。目前的 LLM 本质上是概率模型,擅长生成“看起来正确”的文本,但在系统级编程领域,代码的正确性要求是 100%,任何微小的幻觉都可能导致内存泄漏或段错误。Zig 作为一个致力于取代 C 语言、强调编译期计算和内存安全的底层语言,其维护成本极高。维护者需要处理的是复杂的指针运算和对齐问题,而不是分辨一段流利的英语背后究竟是真实的人类意图,还是 GPT-4 的胡编乱造。禁止 AI 翻译更是神来之笔——在技术沟通中,蹩脚但精准的“中式英语”往往比 AI 润色后丢失了上下文语境的“完美英语”更有价值。这直接切断了“低信息密度内容”通过 AI 包装成“高信息密度”的伪装链条。这一政策对行业的影响堪称核弹级。过去两年,开源社区正遭受“AI 垃圾”的围剿,大量由 LLM 生成的低质量 PR、没有任何调试信息的 Issue 报告充斥着维护者的信箱,极大地推高了开源项目的维护成本。Zig 的禁令实际上是在划定一条红线:开源的核心资产是核心开发者的“注意力”,而非代码的数量。当其他项目还在为 AI 带来的贡献数量暴涨而沾沾自喜时,Zig 选择通过提高准入门槛来过滤噪音。这可能会引发开源模式的范式转移——从“开放式协作”转向“精英式协作”。如果这一模式被验证有效,我们可能会看到更多核心基础设施项目(如 Linux Kernel、LLVM)跟进,将 AI 辅助贡献标记为不受欢迎的行为,甚至开发出专门检测 AI 生成内容的反机器人系统。对于普通开发者和 AI 从业者而言,这记耳光打得非常响亮。它意味着“提示词工程”在严肃的系统编程领域正在失效。如果你无法脱离 AI 独立完成 Bug 复现和逻辑构建,你在 Zig 社区将被视为“无效贡献者”。这对那些过度依赖 Cursor 和 Copilot 的新手工程师敲响了警钟:工具可以提升效率,但不能替代你对底层原理的理解。在 AI 时代,最稀缺的资源不再是代码生成能力,而是代码审查能力和对系统架构的深度认知。Zig 正在倒逼贡献者回归“硬核”状态——要么读懂源码,要么闭嘴。这实际上是在进行一场大规模的图灵测试:只有真正理解代码逻辑的人,才配拥有提交权限。当然,这种强硬姿态能维持多久是个未知数。当 GPT-5 或 Claude 4 能够通过图灵测试,完美模拟人类工程师的语气和逻辑时,Zig 的禁令是否会沦为一纸空文?或者,这会成为人类程序员在 AI 浪潮中保留的最后一块“纯血飞地”?在这个 AI 无处不在的时代,我们是否应该重新审视:开源精神的本质,究竟是“人人为我”的协作,还是“人机共生”的狂欢?

 * * * 

 02 / 08 

 推理算力暴动:Scaling Law 的下半场在测试时 

 2026-04-30T09:42:51+08:00 

Noam Brown(OpenAI o1 核心贡献者)最近抛出了一个反共识观点:“Inference compute is a strategic resource.” 这句话看似平淡,实则是对当前 AI 范式转移的最冷峻注脚。过去两年,行业疯狂迷信预训练算力的暴力美学,认为只要 H100 够多、数据够大,AGI 就会自然涌现。但现实给了这种线性思维一记耳光:Scaling Law 并没有死,它只是换了个战场——从训练时计算转移到了测试时计算。这背后的技术逻辑并不复杂,但极具颠覆性。传统的 LLM 推理是“快系统”模式,一次前向传播生成一个 token,算力消耗是恒定的。而以 o1 为代表的新范式,引入了“慢系统”思维,通过 CoT(思维链)和搜索算法(类似 AlphaGo 的 MCTS),让模型在输出最终结果前,在潜在空间中进行大量的自我博弈和纠错。这意味着,模型在推理阶段的算力消耗不再是常量,而是变量,甚至是一个指数级增长的变量。我们不再仅仅是在“训练”一个模型,而是在每次“使用”时都在进行微调级别的计算。这种计算范式的转移,直接导致推理算力需求呈指数级爆发,瞬间填满了现有的算力储备。这对产业链的冲击是结构性的。Latent Space 近期关注的 CPU compute/sandbox 赛道,正是这一趋势的注脚。当模型开始具备 Agent 能力,代码执行、工具调用成为常态,这些任务并不总是需要 GPU 的张量核心,反而对 CPU 的逻辑处理能力和沙盒环境的安全性提出了极高要求。GPU 厂商的垄断地位开始出现裂痕,高性价比的推理芯片和 CPU 算力正在重获新生。云厂商的商业模式也将被迫重构:过去卖的是“存储”和“训练时长”,未来卖的是“思考时间”和“搜索步数”。谁能提供更低成本的推理算力,谁就能在 Agent 时代掌握定价权。对于 AI 从业者,这不仅是技术迭代,更是生存逻辑的重写。如果你的产品还在依赖简单的单次 Prompt 调用,你的护城河将荡然无存。未来的应用开发,必须在“响应延迟”和“推理深度”之间做极致的权衡。你需要设计机制来控制模型的“思考预算”,防止 API 费用在一次复杂查询中失控。同时,Inference Engineering 将取代 Prompt Engineering 成为显学,如何优化 KV Cache、如何设计并行搜索策略、如何构建高效的 CPU Sandbox,这些硬核工程能力将成为区分高级工程师和调包侠的分水岭。训练算力决定了模型能走多远,而推理算力决定了模型能跑多快。当我们在为模型智力飞跃欢呼时,必须意识到,每一次“顿悟”背后都是真金白银的算力燃烧。留给开发者的问题是:当智能成为一种昂贵的计算资源,你的产品利润率还能撑得起这份“聪明”吗?

 * * * 

 03 / 08 

 App Store已死?RSS才是AI时代的流量入口 

 2026-05-01T02:38:48+08:00 

Matt Webb 最近抛出了一个看似复古的观点:我们需要 RSS 来分发“氛围编码”(Vibe Coding)的应用。这听起来像个 Web 1.0 时代的冷笑话,但如果你看懂了 LLM 对软件生产关系的重构,就会意识到这是对现有 App Store 模式最犀利的降维打击。当写代码的成本无限趋近于零,软件分发的瓶颈不再是生产,而是渠道。所谓“氛围编码”,本质上是将自然语言意图直接映射为可执行逻辑。Andrej Karpathy 曾断言,未来的编程就是对着 LLM 说话。这导致的结果是,软件不再是稀缺的重资产,而是变成了像博客文章一样的一次性消费品。你为了解决一个极其细分的痛点——比如“把上周的 Notion 日志转换成特定格式的 Excel”——随手 Prompt 一个小工具,用完即弃。这种高频、碎片化、极度个性化的应用形态,与 App Store 繁琐的审核机制、高昂的维护成本完全背道而驰。Webb 提议的 RSS 方案,核心在于“Feed Item 即应用”。技术实现上,这要求 RSS 的 Item 不再仅承载文本摘要,而是封装了代码逻辑的标准化容器。那个“Install”按钮,实际上是在调用某种轻量级运行时环境。这里的技术难点在于“安装到何处”。目前的操作系统生态被 iOS 和 Android 的沙盒机制严密把持,跨应用的互操作性极差。但这并非无解,WebAssembly 和 PWA(渐进式 Web 应用)正在蚕食原生应用的领地。如果未来的 OS 能提供更底层的 Web 容器支持,RSS 订阅源就变成了应用商店,浏览器或阅读器就成了新的 OS 入口。这对行业的冲击是结构性的。首先,中心化的流量分发逻辑失效。App Store 的排名机制建立在“重应用”逻辑上,而 Vibe Coding 时代,应用是原子化的。长尾需求不再需要被妥协进通用软件,而是拥有独立的生存空间。其次,SaaS 行业的护城河将被解构。当一个 RSS Feed 能推送成千上万个针对特定场景优化的微工具,用户为何还要为臃肿的 SaaS 套餐付费?软件行业将从“产品交付”彻底转向“能力交付”。对于开发者和从业者,这意味着必须放弃构建“大而全”平台的执念。未来的核心竞争力,在于能否通过 Prompt Engineering 快速生成高质量、可复用的微服务模块,并将其标准化封装。你需要关注的不再是 DAU 和留存率,而是你的 Feed 订阅数和工具的调用成功率。对于企业 IT 部门,与其采购昂贵的商业软件,不如搭建内部的 RSS 工具流,让员工用自然语言生成自己的生产力工具。当软件像自来水一样通过 RSS 管道流进你的设备,且不论操作系统是否允许,人类真的准备好管理数以万计的个性化微应用了吗?

 * * * 

 04 / 08 

 GPT-5.5通过安全评估,黑客门槛归零? 

 2026-05-01T07:03:24+08:00 

英国AI安全研究所(AISI)的最新报告把遮羞布扯得干干净净:GPT-5.5的网络攻防能力已经追平了Anthropic未公开的Claude Mythos。这还不是最糟糕的,最讽刺的是,Mythos还在红队测试阶段,而GPT-5.5现在对所有人开放API。这意味着,顶尖实验室严防死守的高危能力,一夜之间变成了几十美元就能调用的“自来水”。先看技术底色。这次评估的核心不是生成文本,而是Cyber Offense Capability(网络攻击能力)。GPT-5.5在漏洞挖掘任务中展现出的核心质变,在于其Context Window(上下文窗口)对大型代码库的吞吐逻辑。早期的LLM(大语言模型)做代码审计,更多是基于Pattern Matching(模式匹配),像是在玩“大家来找茬”。但GPT-5.5展现出了基于AST(抽象语法树)和CFG(控制流图)的深层理解能力。它能构建长达数十步的CoT(思维链),模拟攻击者的思维路径,从数据流入口追踪到危险函数调用,这种逻辑推理能力已经脱离了概率模型的范畴,更像是一个不知疲倦、知识库实时更新的高级安全研究员。AISI的数据显示,在部分CTF(夺旗赛)场景下,其自动化利用成功率已逼近人类专家水平。行业格局这块,变天是必然的。过去安全行业的基石是“攻防不对等”,攻击成本高、门槛高。现在GPT-5.5把这个门槛踩得稀碎。黑产不需要养昂贵的安全专家,只需要一个懂Prompt Engineering的脚本小子,就能批量生成变种Payload,甚至进行自动化的Zero-day挖掘。这对于传统的WAF(Web应用防火墙)和静态代码扫描工具来说是降维打击——基于规则的防御在AI生成的随机攻击面前,形同虚设。更可怕的是,这种能力的“民主化”意味着,任何具备API调用能力的设备都可能成为攻击源,攻击面将呈指数级扩张。安全厂商如果还在卖特征库,基本可以宣告死刑;未来的防御必须是AI对抗AI,用LLM去检测LLM生成的攻击。对于开发者和安全从业者,这不仅是技术迭代,更是生存危机。如果你还在用传统的代码混淆或依赖“隐式安全”,趁早死心。GPT-5.5读代码比你读文档还快,任何逻辑漏洞在它面前都是明牌。你需要做的是立刻将AI引入DevSecOps流程,在代码合入前就用更强的模型进行对抗性测试。安全人员的角色将从“漏洞挖掘者”转变为“AI安全编排师”,你的核心竞争力不再是找到Bug,而是构建能约束AI行为、识别AI攻击模式的防御体系。别再迷信RLHF(人类反馈强化学习)带来的安全对齐,在Scaling Law的暴力美学下,对齐只是增加了Prompt构造的难度,并没有消除能力本身。技术没有善恶,只有代价。当GPT-5.5把相当于国家级的黑客能力下放到每个人手中,我们是在见证网络安全的民主化,还是在亲手构建一个无法防御的赛博废土?当攻击成本无限趋近于零,互联网的信任基石,还能撑多久?

 * * * 

 05 / 08 

 Codex CLI 的 /goal:Agent 终于学会了死磕 

 2026-05-01T07:23:17+08:00 

大部分开发者还在微调 Prompt 试图让 LLM 一次性生成无 Bug 代码,OpenAI 已经把路走宽了——或者说,走“卷”了。Codex CLI 0.128.0 版本更新的 `/goal` 指令,是一个极具欺骗性的功能更新。表面看是加了个循环参数,实则是 OpenAI 对 Agentic Workflow(智能体工作流)的一次底层定义:从此,AI 编程不再是“一锤子买卖”,而是进入了“死磕到底”的无限博弈阶段。这不仅仅是工具的升级,更是编程范式从“指令驱动”向“意图驱动”转折的分水岭。深入技术细节,这个 `/goal` 指令的核心在于引入了类似“Ralph loop”的迭代闭环机制。在传统的 LLM 交互模式中,输入与输出是线性的,模型生成内容后任务即告终结,这种模式对复杂任务的容错率极低。而 Codex CLI 的 `/goal` 彻底改变了这一流程:你只需定义终态,Agent 会自动拆解任务、执行、验证,并在失败后自我修正。Agent 会持续循环,直到其内部评估逻辑判定目标达成,或者触达了你设定的 Token 预算上限。这里的技术门槛不在于“循环”本身,而在于“评估”。模型必须具备极强的 Reasoning(推理)能力,才能准确判断“目标是否完成”。这要求 Codex 不仅要有代码生成的能力,更要有代码理解和测试验证的能力。这种机制本质上是将“人类调试”的过程外包给了 AI,用算力和时间换取代码的确定性。对于复杂的重构任务或依赖环境配置的脏活,这种“死循环+自省”的架构是目前最接近 AGI 工作模式的工程解法。它不再依赖概率性的“单次命中率”,而是依赖确定性的“迭代收敛”。放眼行业,这对现有的 AI 编程助手市场是一次精准的降维打击。目前市面上的竞品,大多还停留在“Copilot”模式,即拼谁的上下文窗口大、谁的代码补全快。但 Codex CLI 的这次更新,直接跳过了“辅助”阶段,迈向了“自主执行”。这标志着 DevTools 的竞争维度已经从“模型参数”转移到了“Agent 架构”。更值得注意的是“Token Budget”的设计。OpenAI 非常清醒,Agent 的自主性是一把双刃剑。如果 Agent 陷入死循环,用户面临的不仅是时间成本,更是直接的金钱成本。将 Token 预算的控制权下放给用户,是一个极其精明的商业决策:它既展示了 Agent 强大的自主能力,又巧妙地将算力成本的风险转移给了使用者。这暗示了未来 AI 编程工具的商业模式——卖的不是简单的 Token,而是解决问题的“尝试次数”。对于 JetBrains、Cursor 等依赖补全逻辑的厂商来说,如果不跟进这种基于目标的 Agent 架构,很快就会在复杂任务处理上被边缘化。回到开发者视角,这个功能的影响是颠覆性的,但也伴随着巨大的陷阱。你的角色将从“代码编写者”转变为“目标定义者”和“预算控制者”。这听起来很美好,但实际操作难度极大。定义一个精确的 Goal 远比写一段精确的 Prompt 要难。如果 Goal 定义模糊,或者验证逻辑存在漏洞,Agent 可能会在 Token 预算耗尽前生成一堆看似正确实则毫无逻辑的“垃圾代码”,甚至引入难以察觉的隐蔽 Bug。更重要的是,调试的对象变了。以前你调试的是代码逻辑,现在你调试的是 Agent 的思维链。你需要思考:为什么它认为这个任务完成了?为什么它在这个死循环里出不来?这要求开发者对 AI 的底层逻辑有更深的理解。别指望 `/goal` 能让你当甩手掌柜,它更像是一个能力极强但偶尔会犯浑的实习生,你需要时刻盯着它的产出,并在它跑偏时及时止损。当工具开始为了达成目标而不惜一切代价(烧 Token)时,我们究竟是获得了更高的效率,还是制造了一个永远填不满的黑洞?这个问题,留给你的账单来回答。

 * * * 

 06 / 08 

 编码代理突围:Claude与Codex正在瓜分你的脑力劳动 

 2026-05-01T12:53:41+08:00 

“编码代理正在突破封锁。”这不再是某个科幻小说的开头,而是Unsupervised Learning播客抛出的最新论断。当大多数人还在为LLM的代码补全能力沾沾自喜时,Claude和Codex已经悄然完成了从“工具”到“代理人”的质变。这不仅仅是IDE里的几个Tab键,而是一场针对知识工作流的降维打击。从技术底层看,这一轮进化的核心在于Agent的“执行力”边界被打破了。以前的代码模型是在沙盒里玩耍,现在的Codex和Claude则是在真实的生产环境中“裸奔”。Codex的逻辑在于强推理与工具链的深度耦合,它不再只是生成代码片段,而是直接调用API、操作文件系统、执行终端命令。这种“Breaking Containment”意味着模型不再受限于聊天窗口,而是将整个操作系统视为其上下文。Claude则走了另一条路,它利用超长上下文窗口和RLHF后的对齐优势,在处理非结构化文本和创意工作中展现出惊人的稳定性。如果说Codex是严谨的工程师,Claude就是那个不知疲倦的创意总监。这种技术分野对行业的冲击是结构性的。我们正在见证知识工作被一刀切为两个阵营:逻辑执行层与创意生成层。Codex及其同类正在迅速吞噬掉那些“只要逻辑正确就能执行”的工作——数据处理、脚本编写、API对接。这些工作曾经是初级程序员的护城河,现在却成了Agent的自留地。而Claude则在创意、文案、复杂语义理解上攻城略地。这种分工并非人为设计,而是模型架构与训练数据导向的必然结果。对于SaaS行业来说,这更是一场噩梦:如果你的产品核心价值只是“连接API”或“生成文档”,那么Agent很快就会绕过你的UI,直接以代码的形式干掉你的中间商生意。对从业者而言,这并非简单的“替代”恐慌,而是工作流的强制性重构。你不再需要手写每一行代码,但你需要具备审核Agent输出的能力,这要求你从“执行者”转变为“架构师”或“审核员”。对于知识工作者,核心竞争力的定义已经变了:会写Prompt只是基本功,懂得如何编排Agent工作流才是新的护城河。那些无法理解Agent执行逻辑、无法在Codex的严谨与Claude的创意之间做决策的人,将面临被算法“平均化”的风险。当编码代理突破了编辑器的封锁,代码就不再是程序员的专利,而成了AI操作世界的通用货币。那么,当Agent能够自主编写代码并执行时,我们究竟是在控制工具,还是在为AI提供训练自己所需的反馈数据?

 * * * 

 07 / 08 

 LWiAI Podcast #242 – ChatGPT Images 2.0, Qwen 3.6 Max, Kimi-K2.6 

 2026-04-30T15:14:45+08:00 

Note from Andrey: I know there haven’t been posts on Substack in the past couple of weeks… Starting this week they’ll resume at a regular cadence, as usual I apologize for the inconsistency. Our 242nd episode with a summary and discussion of last week’s big AI news! Recorded…

 * * * 

 08 / 08 

 AI写的代码,其实根本藏不住 

 2026-05-01T05:24:55+08:00 

Andrew Kelley(Zig 语言作者)最近抛出了一个反共识观点:认为无法区分 LLM 代码和人类代码,纯属误解。过去几个月,虽然没能 100% 拦截 AI 辅助的 PR,但区别显而易见——人类犯错的方式和 LLM 的幻觉,在底层逻辑上有着根本性的物种差异。    从技术底层看,这种差异源于生成机制的本质不同。LLM 基于 Transformer 架构,本质是概率模型,追求的是 Token 预测的“合理性”和上下文的“连贯性”。模型产生的幻觉,往往是构建了一个语法完美、甚至符合惯用模式的代码块,却在 API 调用或逻辑链条上凭空捏造。这种错误带有强烈的“平滑感”——它看起来太正确了,以至于不像人写的。反观人类错误,更多是拼写失误、逻辑断层、或是忘记处理边界条件。人类的错误是“离散的”、“粗糙的”,而 AI 的错误是“连续的”、“平滑的”。这种底层特征的区别,使得经验丰富的开发者只需一眼就能识别出那股“AI 味”。    这直接击碎了“AI 能完美混入代码库”的幻想,对开源社区造成了深远影响。维护者们正在面临一场“劣币驱逐良币”的危机,大量由 LLM 批量生成的 PR 淹没了 Issue 区。这些代码往往能通过 CI,甚至能跑通 Happy Path,但在 Edge Case 面前一触即溃。行业里充斥着 AI 提升效率的论调,却忽略了 Code Review 的核心成本从“查找语法错误”变成了“鉴别逻辑陷阱”。这种隐性成本正在急剧拉低开源项目的维护效率。所谓的“无法区分”,很多时候不过是审查者对细节的妥协,而非技术上的不可行。当项目维护者需要花费数倍精力去甄别哪些是真诚的贡献,哪些是概率模型的“胡言乱语”,开源协作的信任基石便开始松动。    对于开发者而言,这释放了一个极其危险的信号:试图用 LLM 生成的代码冒充人工提交,正在消耗你在技术社区的信用资产。审查者的直觉比想象中敏锐,一旦被打上“AI 投毒者”的标签,后续的每一次贡献都会被置于显微镜下。更重要的是,这倒逼我们重新思考 AI 辅助编程的边界——AI 擅长生成样板代码,但在逻辑构建上,它目前仍无法模拟人类思维的“不完美性”。如果你想让代码通过审查,不仅要修正 Bug,还要学会给代码注入“人味”,即那些无法被概率模型预测的独特逻辑路径。盲目依赖生成式 AI,不仅无法提升竞争力,反而会让你在资深工程师的审视下无所遁形。    既然 LLM 的代码痕迹如此明显,为什么行业内依然充斥着“AI 无处不在”的恐慌?或许问题不在于模型太强,而在于我们对于“代码质量”的定义,正在被这种廉价的高产出生成物逐渐稀释。