5分钟看懂AI这半年:Simon Willison 用一只鹈鹕讲透了LLM的进化密码

PyCon US 2026，一个人走上台，只讲了5分钟。

他叫 Simon Willison，Django 框架的联合创始人。过去两年他几乎在博客上跟踪了每一次模型发布和重大技术变化，开发者社区把他当成LLM领域的风向标。

这次他做了一件颇为有挑战的事情（至少我觉得）：用5分钟讲完LLM过去6个月的全部变化。

他的开场方式很特别：

「请画一只骑自行车的鹈鹕。」

鹈鹕很难画，自行车也很难画，而且鹈鹕根本不会骑自行车。关键是，没有任何AI公司会专门训练模型来做这么搞笑的事。所以这是一个纯粹的通用能力测试。

过去6个月各大模型的表现，让Willison捕捉到了两个大趋势。

一、「最强模型」王座五次易主

2025年11月之前，AI圈的共识是Claude Sonnet 4.5最强。9月29日发布，好评如潮。

然后等到年底，幺蛾子出现了。

11月13日，OpenAI发布GPT-5.1，夺走王冠。五天后Google推出Gemini 3，又抢了回去。说个细节，Gemini 3画的鹈鹕是这波里最好的，它甚至给鹈鹕的自行车筐里放了一条鱼。

紧接着OpenAI又推出GPT-5.1 Codex Max，再次反超。又过了五天，Anthropic发布Claude Opus 4.5，把王冠拿了回来，并在接下来的两三个月里稳坐钓鱼台。

不到一个月，「最强模型」换了五次主人。三家你追我赶的速度，前所未有。

看上去是模型之间的鹈鹕画图大赛，但Willison说，11月真正的新闻根本不是哪个模型最强。

二、真正的拐点：Coding Agent「跨过了门槛」

「11月真正的新闻是，Coding Agent终于好用了。」

这话需要一点背景。

整个2025年，OpenAI和Anthropic都在做同一件事：Reinforcement Learning from Verifiable Rewards（基于可验证奖励的强化学习）。简单说就是让AI写代码，然后自动验证代码能不能跑通、结果对不对，再用反馈训练模型。大半年默默投入，到11月终于见了成效。

效果是什么？Coding Agent从「经常能用」变成了「基本能用」。

听起来进步不大？这是一道质变门槛。

「经常能用」意味着你每次用都得提心吊胆，花大量时间修它犯的低级错误。「基本能用」意味着可以当日常工具，不用完美，但够用了。智能手机改变世界也不是从「不能打电话」变成「能打电话」那一刻，而是从「经常死机」变成「基本稳定」的时候。

三、从Warelay到OpenClaw：三个月火遍全球的「电子宠物」

还是11月。2025年11月24日，一个叫Peter的人在GitHub上提交了一个commit。

项目名叫Warelay。当时没人注意到。

接下来两个月，这个名字经历了一段魔幻的改名之旅：

Warelay → CLAWDIS → CLAWDBOT → Clawdbot → Moltbot → 🦞 OpenClaw

到2026年2月，OpenClaw一炮而红。一个不到三个月的项目，横扫开发者社区。

OpenClaw是一个个人AI助手。很快围绕它冒出了一堆衍生项目：NanoClaw、ZeroClaw等等。人们给这类产品起了个通用名字：Claw。

硅谷的Mac Mini卖断货了。人们买Mac Mini回来，就为了在上面跑自己的Claw。

Drew Breunig开了个玩笑：

「Claw就是新的电子宠物，Mac Mini是完美的鱼缸。」

Willison自己最中意的比喻来自电影《蜘蛛侠2》里的章鱼博士，四只AI驱动的机械爪，只要抑制器芯片不出问题，就安全可控。芯片一坏，后果自负。

四、你的笔记本上跑出的AI，打败了最贵的模型

过去6个月的第二个大趋势：本地模型的崛起。

2026年4月，三款开源模型让Willison眼前一亮：

Gemma 4（Google）：美国公司发布的最强开源模型。26B参数，只需18GB存储空间。画的鹈鹕已经相当不错，虽然自行车还有点歪。

GLM-5.1（智谱）：754B参数、1.51TB的「怪物」级开源模型。不仅画出了非常专业的鹈鹕骑自行车，还在另一个测试里表现惊人。有人甚至提议试试「负鼠骑电动滑板车」。而相比之下别的模型根本做不到。

Qwen3.6-35B（阿里通义千问）：只有20.9GB，能在笔记本上运行。但它画的鹈鹕，居然比Claude Opus 4.7还好。

Willison自己调侃：

「这主要说明，鹈鹕骑自行车这个测试已经超出有效范围了。」

玩笑归玩笑，本地模型的表现已经远远超出了所有人的预期。大多数日常场景，一台笔记本上的开源模型可能就够了。

五、两个大趋势

最后，Willison总结了过去6个月的两大趋势：

Coding Agent从玩具变成了日常工具，催生了个人AI助手这个新品类。本地模型远超预期，对大多数场景已经够用了。

他还坦诚地聊了自己在年底假期的「LLM精神错乱期」，用Coding Agent做了一大堆野心勃勃的项目，比如用Python实现了一个JavaScript解释器（JavaScript跑在Python里，Python跑在Pyodide里，Pyodide跑在WebAssembly里，WebAssembly跑在浏览器里的JavaScript里……）。

很酷，但没任何人需要。后来全被他默默退役了。

Jeff Dean（Google AI掌门人）看到Willison的鹈鹕测试后，发了一组动画：鹈鹕骑自行车、青蛙骑penny-farthing自行车、长颈鹿开小汽车、鸵鸟滑旱冰、乌龟玩滑板、腊肠狗开加长轿车……

也许AI公司确实在暗中关注（训练）鹈鹕测试呢。

对普通人意味着什么？

不需要追最强模型。你笔记本上跑的开源模型，可能已经能解决你80%的需求。
Coding Agent和个人AI助手已经成为日常工具，不是什么远方的承诺，而是「现在就能用」。

对了，如果你想试试自己的模型实力：

你最想用AI画什么动物骑什么交通工具？ 🦛🛵

素材来自Simon Willison在PyCon US 2026的闪电演讲