PyCon US 2026,一个人走上台,只讲了5分钟。
他叫 Simon Willison,Django 框架的联合创始人。过去两年他几乎在博客上跟踪了每一次模型发布和重大技术变化,开发者社区把他当成LLM领域的风向标。
这次他做了一件颇为有挑战的事情(至少我觉得):用5分钟讲完LLM过去6个月的全部变化。
他的开场方式很特别:
「请画一只骑自行车的鹈鹕。」
鹈鹕很难画,自行车也很难画,而且鹈鹕根本不会骑自行车。关键是,没有任何AI公司会专门训练模型来做这么搞笑的事。所以这是一个纯粹的通用能力测试。
过去6个月各大模型的表现,让Willison捕捉到了两个大趋势。

一、「最强模型」王座五次易主
2025年11月之前,AI圈的共识是Claude Sonnet 4.5最强。9月29日发布,好评如潮。
然后等到年底,幺蛾子出现了。
11月13日,OpenAI发布GPT-5.1,夺走王冠。五天后Google推出Gemini 3,又抢了回去。说个细节,Gemini 3画的鹈鹕是这波里最好的,它甚至给鹈鹕的自行车筐里放了一条鱼。
紧接着OpenAI又推出GPT-5.1 Codex Max,再次反超。又过了五天,Anthropic发布Claude Opus 4.5,把王冠拿了回来,并在接下来的两三个月里稳坐钓鱼台。
不到一个月,「最强模型」换了五次主人。三家你追我赶的速度,前所未有。
看上去是模型之间的鹈鹕画图大赛,但Willison说,11月真正的新闻根本不是哪个模型最强。
二、真正的拐点:Coding Agent「跨过了门槛」
「11月真正的新闻是,Coding Agent终于好用了。」
这话需要一点背景。
整个2025年,OpenAI和Anthropic都在做同一件事:Reinforcement Learning from Verifiable Rewards(基于可验证奖励的强化学习)。简单说就是让AI写代码,然后自动验证代码能不能跑通、结果对不对,再用反馈训练模型。大半年默默投入,到11月终于见了成效。
效果是什么?Coding Agent从「经常能用」变成了「基本能用」。
听起来进步不大?这是一道质变门槛。
「经常能用」意味着你每次用都得提心吊胆,花大量时间修它犯的低级错误。「基本能用」意味着可以当日常工具,不用完美,但够用了。智能手机改变世界也不是从「不能打电话」变成「能打电话」那一刻,而是从「经常死机」变成「基本稳定」的时候。
三、从Warelay到OpenClaw:三个月火遍全球的「电子宠物」
还是11月。2025年11月24日,一个叫Peter的人在GitHub上提交了一个commit。
项目名叫Warelay。当时没人注意到。
接下来两个月,这个名字经历了一段魔幻的改名之旅:
Warelay → CLAWDIS → CLAWDBOT → Clawdbot → Moltbot → 🦞 OpenClaw
到2026年2月,OpenClaw一炮而红。一个不到三个月的项目,横扫开发者社区。

OpenClaw是一个个人AI助手。很快围绕它冒出了一堆衍生项目:NanoClaw、ZeroClaw等等。人们给这类产品起了个通用名字:Claw。
硅谷的Mac Mini卖断货了。人们买Mac Mini回来,就为了在上面跑自己的Claw。
Drew Breunig开了个玩笑:
「Claw就是新的电子宠物,Mac Mini是完美的鱼缸。」
Willison自己最中意的比喻来自电影《蜘蛛侠2》里的章鱼博士,四只AI驱动的机械爪,只要抑制器芯片不出问题,就安全可控。芯片一坏,后果自负。
四、你的笔记本上跑出的AI,打败了最贵的模型
过去6个月的第二个大趋势:本地模型的崛起。
2026年4月,三款开源模型让Willison眼前一亮:

Gemma 4(Google):美国公司发布的最强开源模型。26B参数,只需18GB存储空间。画的鹈鹕已经相当不错,虽然自行车还有点歪。
GLM-5.1(智谱):754B参数、1.51TB的「怪物」级开源模型。不仅画出了非常专业的鹈鹕骑自行车,还在另一个测试里表现惊人。有人甚至提议试试「负鼠骑电动滑板车」。而相比之下别的模型根本做不到。

Qwen3.6-35B(阿里通义千问):只有20.9GB,能在笔记本上运行。但它画的鹈鹕,居然比Claude Opus 4.7还好。
Willison自己调侃:
「这主要说明,鹈鹕骑自行车这个测试已经超出有效范围了。」
玩笑归玩笑,本地模型的表现已经远远超出了所有人的预期。大多数日常场景,一台笔记本上的开源模型可能就够了。
五、两个大趋势
最后,Willison总结了过去6个月的两大趋势:
Coding Agent从玩具变成了日常工具,催生了个人AI助手这个新品类。本地模型远超预期,对大多数场景已经够用了。
他还坦诚地聊了自己在年底假期的「LLM精神错乱期」,用Coding Agent做了一大堆野心勃勃的项目,比如用Python实现了一个JavaScript解释器(JavaScript跑在Python里,Python跑在Pyodide里,Pyodide跑在WebAssembly里,WebAssembly跑在浏览器里的JavaScript里……)。
很酷,但没任何人需要。后来全被他默默退役了。
Jeff Dean(Google AI掌门人)看到Willison的鹈鹕测试后,发了一组动画:鹈鹕骑自行车、青蛙骑penny-farthing自行车、长颈鹿开小汽车、鸵鸟滑旱冰、乌龟玩滑板、腊肠狗开加长轿车……
也许AI公司确实在暗中关注(训练)鹈鹕测试呢。
对普通人意味着什么?
不需要追最强模型。你笔记本上跑的开源模型,可能已经能解决你80%的需求。 Coding Agent和个人AI助手已经成为日常工具,不是什么远方的承诺,而是「现在就能用」。
对了,如果你想试试自己的模型实力:
你最想用AI画什么动物骑什么交通工具? 🦛🛵
素材来自Simon Willison在PyCon US 2026的闪电演讲
夜雨聆风