给AI助理配了9个大脑,顺手起名湖北佬
「数字自留地」系列 · 第 5 篇
最近在折腾一个开源 AI Agent 框架叫 Hermes,部署在家里的群晖 NAS 上。名字挺洋气,但每次跟家人说起来都很拗口——”你在搞什么?” “Hermes。” “啥?”
今天给它配多模型路由方案,一口气接了 9 个大模型。老婆在旁边看了一会儿,说:你是湖北人,它又有九个脑子,要不叫它湖北佬算了,头像配个九头鸟。
我拍案叫绝,马上动手。
名字和头像的事一会儿再说,先说说今天踩的最深的一个坑。
我给湖北佬规划了一套模型路由方案:日常对话用免费模型,复杂任务用 DeepSeek,按任务类型自动切换。OpenRouter 上有 29 个免费模型,官网显示每个模型每天 200 次、每分钟 20 次请求,我简单算了一下,理论上每天能免费调用 5800 次,完全够用。
方案配好,开始逐个测试模型可用性。测到第 3 个,报错来了:
Rate limit exceeded: free-models-per-min. HTTP 429
以为是请求太频繁,等了 3 分钟再试,还是一样。又等,还是一样。
折腾了半天,最后翻到 OpenRouter API 文档才找到答案——就藏在一段不起眼的说明里:
If you have purchased less than 10 credits, you’re limited to 50 :free model requests per day.
不是 200 次,是 50 次。官网 Free model list 旁边写的 200 次,是充了钱之后的数字。免费账户每天只有 50 次,全部 29 个模型共享这个额度。似曾相识的套路,忍不住笑了。
充了 $10,额度升到 1000 次/天,问题解决。
额度问题解决之后,回到正题——模型路由方案。
核心思路很简单:不同任务用不同模型,不用每次都靠最贵的。我按任务类型把湖北佬的模型分成三条线:
日常对话和文本任务,默认走 Nemotron 3 Super——NVIDIA 出的免费模型,120B 参数,专门针对 Agent 场景优化,是我测试下来免费模型里体验最稳的。撞上 rate limit 就按顺序降级:GPT-OSS-120B → Llama 3.3 70B → Qwen3 Next 80B,最后兜底是 OpenRouter 自动路由。
编码任务,切到 Qwen3 Coder——480B 参数的 MoE 模型,专门为代码生成优化,免费。
复杂推理,手动切 DeepSeek V3,付费直连,按需使用。
整套方案配下来,日常任务基本不花钱,只有真正需要高质量输出的时候才动付费模型。
方案配好,该给湖北佬换头像了。
第一反应是直接给湖北佬接上生图能力——OpenRouter 的 29 个免费模型里翻了一遍,没有图像生成模型,全是语言模型。只能找网页端工具替代。
先试 fal.ai,新注册有免费 credits,选了 Nano Banana 模型,生出来一张效果不错,有质感,深色背景,蓝黑羽毛,很有气势。仔细一数——十二个头。说好的九头鸟,它给了十二个。一张图把额度用完了,换平台。
【图1:fal.ai 生成的十二头鸟】

换 ideogram.ai,免费额度更多,20 个 credits。prompt 里明确写了 exactly 9 heads,结果生出来的头数每次都不一样:7 个、8 个、11 个,偶尔凑到 9 个,图像要么抽象要么丑,16 张全废。
【图2:ideogram 生成的九头鸟】

生图工具的数数能力,目前看来还不太靠谱。
最后换了思路——让 Claude 分析九头鸟的来历、形象特征,生成初版 prompt,再拿到 Cursor 里调试生成。出来的效果比两个生图网站强多了,分别上传微信和飞书,湖北佬正式上岗。
顺手测了一下湖北佬自己的视觉能力—OpenRouter 上支持视觉的免费模型,实测全被限制了,我这边请求全部 403。视觉任务只能走付费模型或直接用 Cursor。这个发现倒也省事,湖北佬的能力边界算是摸清楚了:文本和代码交给它,图像走 Cursor。
每个工具都有自己的边界,找到边界比强行突破更靠谱。
下一篇,让湖北佬接第一个正式任务。
关注晓城笔记,更新了会第一时间看到。
夜雨聆风