乐于分享
好东西不私藏

AI晚知道 | 第18周周报:自主目标时代

AI晚知道 | 第18周周报:自主目标时代


0xSimon

“All the AI News That’s Fit to Read”

2026年4月27日 — 5月3日 · 第18周周报

关键词:AI Coding 进化 · 开源治理争议 · 开放模型新范式

主题导读 · THIS WEEK

本周 AI 编程工具进入”自主目标”时代——OpenAI Codex CLI 新增 /goal 指令,让 AI 自己循环直到完成目标。与此同时,开源社区围绕 AI 辅助编程的分歧持续发酵:Zig 语言以”抽烟味”比喻公开反对 LLM 贡献,Ghostty 宣布离开 GitHub,Mitchell Hashimoto 写下了充满感情的长文。有趣的是,一个完全基于 1930 年前文本训练的 talkie 模型让我们重新思考:AI 的”预测未来”能力究竟从何而来?

🤖 AI Coding
4月30日

Codex CLI 0.128.0 新增 /goal:AI 自己循环直到完成

OpenAI Codex CLI 最新版加入了 /goal 指令——设定一个目标后,Codex 会持续循环工作,直到自行评估目标完成或达到 token 预算上限。这本质上是一个内置的”Ralph Loop”模式,通过 goals/continuation.md 和 goals/budget_limit.md 两个 prompt 自动注入到每轮对话末尾来实现。这意味着 AI 编程助手从”你问我答”进化到了”你给目标我干活”的新阶段。

💡 启示:AI 编程工具正在从”交互式助手”向”自主代理”演进。/goal 模式让开发者可以设定高层目标后离开,AI 自己完成实现。但这种自主性也带来了 token 消耗不可控的风险——预算上限机制是必要的刹车。

⚖️ 开源治理
4月30日

Zig 全面禁止 AI 贡献,Andrew Kelley:「像闻到烟味一样明显」

Zig 语言项目维持着开源界最严格的反 LLM 政策:Issue、PR、评论均不可使用 LLM 生成。Zig 创始人 Andrew Kelley 本周直言:”人们以为我们分不清 AI 和人类写的代码——但人类犯的错误和 AI 幻觉有本质区别。而且用 Agent 写代码的人有一种特有的数字气味,自己闻不到,但对不用的人显而易见,就像抽烟一样。”与此同时,Anthropic 收购的 Bun 项目对 Zig fork 做了 4x 编译性能提升,但因为 AI 辅助开发而无法 upstream。

💡 启示:这是开源社区 AI 治理分歧的经典案例。Zig 的立场代表了对代码质量和贡献者”真人属性”的坚持,但代价是错失了来自 AI 辅助的性能优化。社区如何在保持质量的同时拥抱 AI 生产力,仍是未解难题。

👋 告别
4月28日

Mitchell Hashimoto 宣布 Ghostty 离开 GitHub:18 年的情感告别

HashiCorp 联合创始人、Ghostty 终端模拟器作者 Mitchell Hashimoto 写了一篇充满感情的长文,宣布将 Ghostty 从 GitHub 迁走。他是 GitHub 用户 #1299,2008 年 2 月加入,连续 18 年每天打开 GitHub。”分手时我在开源中沉浸自己”、”凌晨 4 点大学室友都睡了?让我提交一个 commit”、”蜜月期间妻子还在睡觉?去 GitHub 看看”——这些生动的回忆让人看到一个程序员与平台之间超越工具的情感纽带。他当年创建 Vagrant 的部分原因就是希望能进 GitHub 工作。

💡 启示:GitHub 作为平台已经不仅是代码托管工具,更是开发者的数字家园。当一个核心贡献者选择离开,无论技术理由多么充分,背后都有深刻的情感冲突。这对微软旗下的 GitHub 是一个值得关注的信号。

🔬 研究前沿
4月28日

talkie-1930:完全基于 1930 年前文本训练的 13B 开源模型

Nick Levine、David Duvenaud 和 Alec Radford(GPT、GPT-2、Whisper 作者)联合发布了 talkie-1930-13b,一个在 260B tokens 的 1931 年前英文文本上训练的 13B 模型,Apache 2.0 开源。由于训练数据完全在版权期外,这是一个完全合规的数据集。研究目标引人深思:这些模型能否预测历史事件?能否独立”发明”超出其知识截止日期的东西?团队表示后续将公开更多语料库信息。

💡 启示:版权合规 + 学术开放 = 理想研究环境。talkie 为”模型是否真正理解世界还是在鹦鹉学舌”这一核心问题提供了天然实验条件——一个完全不知道二战、登月、互联网的模型,其推理能力到底从何而来?

🛡️ 安全评估
4月30日

英国 AI 安研究所评估 GPT-5.5:网络安全能力与 Claude Mythos 相当

英国 AI 安全研究所(AISI)此前评估了 Anthropic 的 Claude Mythos 模型的安全漏洞发现能力,本周又对 OpenAI 的 GPT-5.5 进行了同等评估。结论:两者在发现安全漏洞方面的能力相当,但 GPT-5.5 已经公开发布,而 Mythos 仍受限访问。这意味着普通开发者现在就拥有了一个”相当厉害”的代码安全审计工具。

💡 启示:AI 安全审计工具的民主化正在加速。以前只有顶级安全团队能做的工作,现在任何开发者都可以借助 GPT-5.5 完成。但这也意味着攻击者同样可以利用这些能力——AI 安全是双刃剑。

🛠️ 开发工具
4月29日

LLM 0.32:Simon Willison 的 LLM 工具大重构,拥抱多模态

Simon Willison 发布了 LLM 0.32a0,这是他的 Python LLM 库的一次重大向后兼容重构。核心变化:输入从单纯的文本 prompt 升级为「对话序列」(Conversation),支持图片、音频、视频输入和结构化 JSON 输出。自 2023 年 4 月创建以来,LLM 工具已从”输入文本返回文本”演进到需要处理数千种模型的多模态输入输出,这次重构是必要的架构升级。

💡 启示:LLM 工具链的演进反映了 AI 能力的快速扩展。两年前还只需要处理文本,现在图片、音频、视频、结构化输出都是标配。开发者的抽象层必须跟上模型能力的发展——这也是为什么底层 API 设计如此重要。

🧊 冷知识
4月28日

OpenAI Codex 的 GPT-5.5 系统提示:「永远不要谈论哥布林或浣熊」

Simon Willison 翻出了 OpenAI Codex 中 GPT-5.5 的 base_instructions,发现一条令人忍俊不禁的规则:”Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.”(永远不要谈论哥布林、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物,除非与用户查询绝对明确相关。)这条规则的存在暗示了 GPT-5.5 在编码场景中有过度生成这些内容的问题。

💡 启示:系统提示中的这些”奇葩”规则往往揭示了模型的真实弱点。LLM 在编码时突然开始讲浣熊的故事,听起来好笑,但在生产环境中就是令人头疼的幻觉问题。限制指令是当前对抗幻觉的务实手段。

本周数据 · BY THE NUMBERS

talkie 训练数据

260B

tokens · 1931年前

VibeVoice 语音转文字

8:45

处理 1 小时音频(秒)

Mitchell Hashimoto

18 年

连续使用 GitHub

GitHub 用户编号

#1299

2008 年 2 月加入

Bun 编译性能提升

因 AI 禁令无法 upstream

VibeVoice 模型大小

17.3GB

MIT 开源 · 含说话人分离

本周金句 · QUOTES

“从 Agent 编程世界来的人有一种特有的数字气味,自己闻不到,但对不用的人显而易见。就像抽烟的人走进房间——每个不抽烟的人立刻就知道。”

— Andrew Kelley,Zig 语言创始人

“写这篇文章让我感到莫名的悲伤。GitHub 用户 #1299,18 年来我每天都在打开 GitHub,每天,好几次,超过了我人生的一半。”

— Mitchell Hashimoto,Ghostty & HashiCorp 创始人

“当 vibe-coding 加速了应用开发,应用变得更加个人化、更加本地化、更加频繁。发布一个工具就像发一条博客,而不是上线一个网站。”

— Matt Webb,关于用 RSS 分享 vibe-coded 应用

Simon 说 · EDITORIAL

本周最触动我的不是技术新闻,而是 Mitchell Hashimoto 那封”告别信”。18 年,每天打开 GitHub——这不仅是使用习惯,更是一个程序员对创作平台的深厚情感。当他说蜜月期间趁妻子熟睡偷偷打开 GitHub 时,我看到了自己的影子。

而 Zig 的 Andrew Kelley 用“抽烟味”来比喻 AI 生成代码的可识别性,这个比喻精准到令人拍案。这让我想到一个更深层的问题:当 AI 工具越来越强,我们是否正在失去某种独特的”人类代码风格”?

另一方面,Codex 的 /goal 和 talkie 的版权合规实验代表了 AI 的两个正面方向:更自主的工具和更开放的研究。我们的行业正在同时经历效率革命和治理危机——这可能是最好的时代,也可能是最混乱的时代。

— Simon


0xSimon

每周为你精选 AI 资讯 · 关注获取下周更新