乐于分享
好东西不私藏

我去,真有这种,Openclaw 增强工具,ClawRouter 让 AI Agent 自己选模型、自己付钱,还能把 LLM 成本打下来 90%,爽~~

我去,真有这种,Openclaw 增强工具,ClawRouter 让 AI Agent 自己选模型、自己付钱,还能把 LLM 成本打下来 90%,爽~~

  1. 嗨,我是小华同学,专注解锁高效工作与前沿AI工具!每日精选开源技术、实战技巧,助你省时50%、领先他人一步。👉免费订阅,与10万+技术人共享升级秘籍!

ClawRouter Banner

如果你正在做 AI Agent、AI 编程工具、SaaS 智能助手,或者任何会频繁调用大模型的产品,有一个问题迟早会打到你脸上:

不是模型不够强,而是你把每个请求都当成“最难的问题”来付费了。

一句“帮我格式化 JSON”,打到 Claude Opus。

一次 heartbeat、一次 memory lookup、一次上下文压缩,也打到旗舰模型。

Agent 跑起来以后,最可怕的不是单次请求贵,而是它会不停地想、不停地试、不停地重试。人会心疼账单,Agent 不会。

我这次完整扒了一遍 BlockRunAI/ClawRouter[1] 这个开源项目。它不是普通的 API 代理,也不是简单的“把 OpenAI 换成另一个 base_url”。

它真正想做的是一件更底层的事:

给 autonomous agents 一个能自己运行的 LLM 推理入口。

不用注册账号。

不用贴一堆 API Key。

不用绑定信用卡。

本地判断请求难度,自动选模型;需要付费时,用钱包签名和 USDC 按次结算。

听起来很 Web3,但它的工程问题其实非常朴素:如何让 Agent 用最低成本,稳定地调用合适的大模型。


先给结论

ClawRouter 是一个 MIT 协议开源的本地 LLM Router / Proxy。

它跑在本机,默认监听 8402 端口,对外提供 OpenAI-compatible API。你的应用、OpenClaw、Cursor、continue.dev、VS Code 插件,甚至普通 OpenAI SDK,都可以把它当成一个本地 OpenAI 接口来用。

它的核心卖点是:

  • 55+ 模型:覆盖 OpenAI、Anthropic、Google、xAI、DeepSeek、Moonshot/Kimi、MiniMax、Z.AI、NVIDIA 免费模型等。
  • 免费起步:README 主打 8 个免费 NVIDIA 模型;源码中还维护了更多 free/ 后备、别名和重定向模型。
  • 本地智能路由:规则分类在本地完成,官方文档称路由耗时低于 1ms。
  • 成本优化:用便宜模型处理简单任务,把贵模型留给真正复杂的问题。
  • x402 + USDC 微支付:无账号、无 API Key、非托管钱包,按请求付费。
  • Base + Solana 双链:同一套 mnemonic 派生 EVM 和 Solana 钱包,只接受 USDC。
  • OpenAI 兼容:可以作为任何 OpenAI-compatible client 的本地代理。
  • 面向 Agent:支持 fallback、工具调用检测、视觉模型过滤、上下文感知、session pinning、缓存、去重、用量统计和花费控制。

如果用一句程序员能秒懂的话概括:

ClawRouter = 本地 OpenAI 兼容代理 + 智能模型选择器 + x402 钱包支付层 + Agent 运行时成本控制器。

ClawRouter Savings

它为什么不是“又一个 OpenRouter”

传统 LLM Router 大多是给人类开发者设计的:

先注册账号。

再拿 API Key。

再去后台选模型。

再绑定信用卡或充值。

这套流程对人类没问题,但对 Agent 很别扭。

Agent 不会注册账号,不会填信用卡,不会去网页后台里挑模型。Agent 能做的,是读取配置、发请求、签名、执行工具。

ClawRouter 把问题重新建模了:

钱包就是身份,签名就是认证,USDC 按请求结算,本地路由负责选模型。

官方 README 里有一个对比表,核心意思可以压缩成这样:

维度
OpenRouter / 常规聚合器
ClawRouter
认证
账号 + API Key
钱包签名
支付
信用卡 / 预充值
USDC per-request
路由
多数是手动或黑盒
本地开源规则路由
运行位置
云端中间层
本地 proxy
Agent 友好度
需要人工配置
自动生成钱包、自动路由
成本可见性
不一定逐请求透明
headers、日志、/stats
空余额
通常失败
可回退免费模型

注意,这不是说 ClawRouter 完全不依赖云端。

它不是本地推理引擎,不是 Ollama 替代品。ClawRouter 是本地代理,模型实际执行仍然会把 prompt 发到 BlockRun gateway,再由 gateway 转到对应模型供应商。

所以它解决的是 路由、支付、成本、可靠性、Agent 集成,不是“让模型在你电脑上跑”。

这个边界很重要。


真正痛点:Agent 的 LLM 成本不是线性增长

普通聊天产品里,用户发一句,模型回一句。

Agent 不一样。

一次任务背后可能有:

  • 计划拆解
  • 文件读取
  • 工具调用
  • shell 输出
  • 错误重试
  • 上下文压缩
  • heartbeat
  • memory lookup
  • 多轮自我修复
  • fallback 重跑

如果这些请求全部打到同一个旗舰模型,成本会非常难看。

项目文档里专门举了 OpenClaw 相关问题:有用户遇到 heartbeat + 大上下文 + Opus 组合导致每天数百美元级别开销。

这类问题本质不是“用户不会配置”,而是:

框架层不知道一次请求到底值不值得用贵模型。

Cost Overrun

OpenClaw 很擅长编排 Agent:session、tool dispatch、memory、agent routing。

但推理层的问题是另一套逻辑:

  • 这个请求是简单问答,还是复杂架构设计?
  • 有没有工具调用?
  • 有没有图片?
  • 当前上下文是否超过某些模型窗口?
  • 这个模型是否刚刚 429?
  • 这次请求大概多少钱?
  • 如果钱包没余额,能不能降级到免费模型?
  • 如果 provider 返回空内容,是否应该 fallback?

ClawRouter 的定位就是把这些“推理层现实问题”放到本地 gateway 里解决。

Inference Blind Spots

架构:它夹在你的应用和模型供应商之间

ClawRouter 的运行链路大致是:

Your App / OpenClaw / Cursor / continue.dev        |        vClawRouter local proxy, localhost:8402        |        | 本地完成:路由、缓存、去重、花费控制、签名        vBlockRun gateway, x402 payment        |        vOpenAI / Anthropic / Google / xAI / DeepSeek / Kimi / …
Agentic Proxy Architecture

一次 chat completion 的核心流程可以拆成 8 步:

  1. 1.接收 OpenAI 格式请求,例如 POST /v1/chat/completions
  2. 2.对请求体做 hash,先查 30 秒去重缓存,避免重试导致重复扣费。
  3. 3.如果模型是 blockrun/autoecopremiumfree 等虚拟模型,就进入本地路由。
  4. 4.根据上下文、工具、视觉能力、排除列表等过滤候选模型。
  5. 5.检查余额和花费限制。
  6. 6.收到 gateway 的 402 Payment Required 后,用本地钱包签名。
  7. 7.带 X-PAYMENT header 重试请求。
  8. 8.将响应以 OpenAI-compatible 格式返回给客户端。

对上层应用来说,这仍然像调用 OpenAI。

对底层来说,每次请求都经过了一个“懂模型、懂价格、懂失败语义”的本地决策层。


智能路由:不是“挑最便宜”,而是“挑能完成任务里最便宜的”

很多人一听智能路由,会下意识理解成:

“那不就是把请求发给最便宜模型吗?”

不是。

最便宜模型很可能拒绝复杂任务,也可能工具调用不稳定,还可能上下文窗口不够。ClawRouter 文档里提到他们曾经做过 latency-first 的路由实验,结果用户反馈很快就来了:快模型处理复杂任务会变浅、会拒绝、会不稳定。

所以现在的策略是多目标优化:

成本、速度、质量、工具能力、视觉能力、上下文窗口、失败恢复一起看。

14 Dimension Routing

源码里 src/router/rules.ts 是规则分类器。文档里有的地方称“15 维”,路由配置注释中称“14 weighted dimensions”,实际实现可以理解成:

14 个核心评分维度 + agentic task 额外信号。

它会检测这些东西:

维度
检测什么
tokenCount
请求长短、上下文规模
codePresence
是否有代码、函数、类、import、代码块
reasoningMarkers
是否出现证明、推导、step by step、数学等信号
technicalTerms
算法、架构、分布式、数据库等技术词
creativeMarkers
创作、故事、诗歌、头脑风暴
simpleIndicators
what is、define、translate、你好等简单意图
multiStepPatterns
first…then、步骤编号、多阶段任务
questionComplexity
多个问题、复合问题
imperativeVerbs
build、create、implement、deploy 等命令式动词
constraintCount
限制条件、预算、复杂约束
outputFormat
JSON、YAML、table、schema 等结构化输出
referenceComplexity
“上面的代码”、“文档里”、“附件”等引用
negationComplexity
不要、避免、without、exclude 等约束
domainSpecificity
quantum、FPGA、genomics 等领域词
agenticTask
run、test、fix、debug、edit、deploy 等 Agent 行为

更贴心的是,它的关键词不是只有英文。源码里的 keyword list 覆盖 EN、ZH、JA、RU、DE、ES、PT、KO、AR 等多语言。

也就是说,中文里写“证明这个定理”,也会触发 reasoning 分类。


四种路由画像:free、eco、auto、premium

ClawRouter 暴露了几个虚拟模型 ID,本质上是路由 profile:

Profile
策略
适合场景
blockrun/free
只走免费模型
学习、原型、零成本试用
blockrun/eco
极致省钱
批量任务、低价值请求、成本敏感业务
blockrun/auto
默认均衡
大多数产品和 Agent 的默认选择
blockrun/premium
质量优先
关键任务、复杂推理、生产高价值请求

路由分层通常是:

Tier
典型任务
SIMPLE
问答、翻译、格式化、短摘要
MEDIUM
一般代码、解释、数据抽取
COMPLEX
架构设计、复杂代码、多约束任务
REASONING
数学、证明、严肃推理、多步逻辑

官方 README 给了一个很直观的成本对比:自动路由的 blended average 可做到约 $2.05/M,而直接全量使用 Claude Opus 这类旗舰模型可能是 $25/M 量级,因此得出最高约 92% savings 的说法。

Cost Transparency Nexus

这里的核心不是“便宜模型一定好”,而是:

绝大多数请求不配用最贵模型。

格式化、翻译、短摘要、简单问答、日志提取、JSON 转换,这些任务花旗舰价格,就是在烧钱。


模型体系:55+ 模型,外加免费层和别名系统

ClawRouter 的 models.ts 里维护了大量模型定义、价格、上下文窗口、能力标签、别名和 deprecated redirect。

模型家族包括:

  • OpenAI:GPT-5.x、GPT-4.x、o 系列、Codex 相关模型
  • Anthropic:Claude Haiku、Sonnet、Opus 多版本
  • Google:Gemini 2.5、3.x、Flash、Pro
  • DeepSeek:Chat、Reasoner、V4 Pro
  • Moonshot / Kimi:Kimi K2.5、K2.6、K2.7
  • xAI:Grok 3、Grok 4、Grok 4.3、Grok Build
  • MiniMax:M2.5、M2.7、M3
  • Z.AI:GLM-5、GLM-5.1、GLM-5.2
  • NVIDIA / free:GPT-OSS、Mistral Large、Qwen、Llama、Nemotron、Seed-OSS 等

README 当前主打的 8 个免费模型包括:

免费模型
亮点
nvidia/gpt-oss-120b
默认免费模型,128K 上下文
nvidia/gpt-oss-20b
更轻、更快
nvidia/mistral-large-3-675b
675B 通用旗舰
nvidia/qwen3.5-122b-a10b
新一代 Qwen
nvidia/qwen3-next-80b-a3b-instruct
推理 + 编码,262K 上下文
nvidia/llama-4-maverick
推理型开源模型
nvidia/seed-oss-36b
编码方向
nvidia/nemotron-3-nano-omni-30b-a3b-reasoning
支持 text、image、video、audio 的视觉/多模态免费模型

源码里还维护了更多 free/ catalog entry 和后备模型集合,这说明项目在做一件很工程化的事情:

模型会下线、会变慢、会换价、会被替代,所以 Router 必须维护别名、重定向和 fallback。

例如:

  • 某些 delisted 模型会被自动重定向到新模型。
  • grok-code 这类别名会转到当前更合适的模型。
  • free/qwen3-coder-480b 等旧 ID 会通过后备逻辑保持兼容。
  • OpenClaw picker 只展示 top models,隐藏模型仍然可以直连调用。

这对产品开发者很有价值:你可以暴露一个稳定模型 ID 给业务层,而把供应商模型更新、重定向、价格变化交给 Router。


支付设计:没有 API Key,钱包签名就是认证

ClawRouter 最大的差异点,是它不用传统 API Key。

它使用 x402 协议做微支付。

简化后的流程是:

请求发给 gateway    ↓返回 402 Payment Required,里面带价格和收款信息    ↓本地钱包签名 USDC 支付授权    ↓带 X-PAYMENT header 重试    ↓gateway 验证签名,转发到模型供应商
Cryptographic Auth

支持两条链:

  • Base / EVM:EIP-712 / EIP-3009 风格授权
  • Solana:SLIP-10 Ed25519 派生,SPL Token USDC 转账

需要强调的是:

只接受 USDC。

把 ETH 或 SOL 打进去,并不能支付模型请求。

安全上,项目的 openclaw.security.json 和 wallet.ts 说明了几个关键点:

  • 首次运行生成 BIP-39 mnemonic。
  • 一个 mnemonic 派生 EVM 和 Solana 钱包。
  • 私钥用于本地签名。
  • 网络上传输的是支付签名,不是私钥。
  • ClawRouter 不托管资金,USDC 在你自己的钱包里。
  • 钱包文件需要自己备份,丢了无法找回。

这套机制对 Agent 有一个很实际的好处:

预算可以物理化。

你只往钱包里放 5 美元,Agent 理论上就花不出 500 美元。


成本可视化:每次请求知道花了多少钱

很多 LLM 成本问题不是贵,而是黑。

你不知道这次 auto 最后用了哪个模型,也不知道它为什么贵。

ClawRouter 在响应里加入 debug / cost 信息,例如:

x-clawrouter-profile: autox-clawrouter-tier: MEDIUMx-clawrouter-model: moonshot/kimi-k2.7x-clawrouter-confidence: 0.87x-clawrouter-cost: 0.0034x-clawrouter-savings: 82%

同时,使用记录会写入本地 JSONL 日志,并通过 /stats 聚合查看。

Cost Visibility

对工程团队来说,这很关键。

因为你终于可以回答这些问题:

  • 哪类请求最贵?
  • 哪个 Agent 最烧钱?
  • fallback 到了哪些模型?
  • 简单任务是否误打到贵模型?
  • 某个版本上线后,成本有没有飙?
  • 缓存命中率怎么样?

如果做企业内部 AI 工具,这些数据比“支持多少模型”更重要。


可靠性:fallback 不是摆设

模型供应商会 429,会 5xx,会超时,会返回空内容。

常规问题在 Agent 里会被放大,因为 Agent 往往会自动重试,而重试又会进一步烧钱。

ClawRouter 做了几类处理:

  • fallback chain:每个 tier 都有一组候选模型。
  • 短 429 重试:先等 200ms,再决定是否切下一个模型。
  • per-model cooldown:一个模型被限流,不污染其他模型。
  • 错误分类:401/403、402、429、5xx、provider body error 分开处理。
  • 空响应检测:HTTP 200 但内容空、重复、退化,也会触发 fallback。
  • 上下文窗口过滤:请求太长时先排除窗口不够的模型。
  • 工具调用过滤:有 tools 时,只选支持 tool calling 的模型。
  • 视觉过滤:有图片输入时,只选 vision-capable 模型。
Fallback Chains

这就是它和“随便套一层代理”的区别。

代理只会转发。

Router 要理解失败。


Token 压缩:Agent 场景里的隐藏大头

Agent 的上下文最容易膨胀。

工具输出、文件内容、命令行日志、API response,全都可能被塞回下一轮 prompt。

ClawRouter 有 7 层压缩逻辑:

做什么
Deduplication
去掉重复消息
Whitespace
规整空白字符
Dictionary
用短 code 替换常见短语
Path shortening
缩短重复文件路径
JSON compaction
压缩嵌入 JSON
Observation compression
压缩工具结果,保留关键信息
Dynamic codebook
从当前对话中学习重复片段
7 Layer Compression

最关键的是 observation compression。

工具输出经常 97% 都是噪音,真正有价值的可能只是错误行、状态码、关键 JSON 字段、摘要。

项目文档声称,在典型 Agent workload 中,整体 token 可减少 15-40%;对工具输出,observation compression 最高可减少 97%。

Observation Compression

这类优化对普通聊天不一定明显,但对自动化 Agent 非常实用。

因为贵模型通常按 token 计费,你少发的每一个 token,都是实打实省下来的钱。


Session pinning:别让模型在任务中途乱切

智能路由还有一个副作用:

如果每一轮都重新选模型,长任务中途可能从模型 A 切到模型 B,回答风格、工具调用行为、上下文理解都会变。

ClawRouter 用 session persistence / session pinning 解决这个问题:

Turn 1: 构建 React 组件 → 选中 Claude SonnetTurn 2: 加 dark mode     → 继续使用 Claude SonnetTurn 3: 补测试           → 继续使用 Claude Sonnet

这样能避免 Agent 在一个连续任务中“脑子换人”。

Session Memory

同时项目里还有 session journal,用来提取决策、结果和关键上下文,减少每一轮重复携带完整历史。

这类东西很像 Agent 生产化里的“细活”:不显眼,但决定稳定性。


花费控制:钱包余额之外,还有运行时限额

钱包余额本身是硬上限,但它不够细。

比如你钱包里有 100 美元,但某个 autonomous run 只允许花 0.5 美元。

ClawRouter 支持花费控制,包括:

  • per-request limit
  • hourly limit
  • daily limit
  • session limit
  • rolling window 统计
  • 本地持久化到 ~/.openclaw/blockrun/spending.json

配置里还能用 maxCostPerRun 做 per-session 成本上限,并有两种模式:

模式
行为
graceful
接近预算时自动降级到便宜模型,最后回退免费模型
strict
达到预算后直接返回 429,硬停止

再配合 /exclude,你可以把某些昂贵模型从路由里剔除。

例如:

/exclude add gpt-5.4/exclude add claude-opus/exclude add grok-4

这对自动任务非常有意义。

你可以让 Agent 自己跑,但不能让它无限刷卡。

Production Safety

安装和接入:最小路径很简单

如果你用 OpenClaw,README 推荐一键脚本:

curl -fsSL https://blockrun.ai/ClawRouter-update | bashopenclaw gateway restart

如果你想用 npm:

npm install -g @blockrun/clawrouterclawrouter setupopenclaw gateway restart

注意:README 强调,只 npm install -g 不够,clawrouter setup 会完成 OpenClaw 集成、模型 allowlist、auth profile、wallet 设置等步骤。

如果你不使用 OpenClaw,也可以直接跑本地 proxy:

npx @blockrun/clawrouter

然后让客户端指向:

http://localhost:8402

OpenAI SDK 示例:

from openai import OpenAIclient = OpenAI(    base_url=“http://localhost:8402/v1”,    api_key=“x402”)response = client.chat.completions.create(    model=“blockrun/auto”,    messages=[{“role”: “user”, “content”: “帮我解释一下 B+Tree”}])

continue.dev 配置要注意 apiBase 末尾带 /v1/

models:  – name: ClawRouter Auto    provider: openai    model: blockrun/auto    apiBase: http://localhost:8402/v1/    apiKey: x402    roles:      – chat      – edit      – apply

Cursor 里则可以配置 OpenAI-compatible:

base URL: http://localhost:8402API key: x402model: blockrun/auto
Frictionless Integration

不只是 LLM:它还带了一批 Agent 工具能力

ClawRouter 的主线是 LLM routing,但 plugin manifest 和 skills 里还暴露了不少 x402-gated 工具。

这些能力都通过同一个本地钱包结算,不需要额外 API Key。

1. 图像生成与图像编辑

支持 /cr-imagegen

/cr-imagegen a dog dancing on the beach/cr-imagegen –model dall-e-3 a futuristic city at sunset/cr-imagegen –model banana-pro –size 2048×2048 mountain landscape

支持模型包括:

  • Google Nano Banana / Banana Pro
  • OpenAI DALL-E 3
  • OpenAI GPT Image
  • Flux
  • xAI Grok Imagine
  • Zhipu CogView-4

图像编辑 endpoint:

POST http://localhost:8402/v1/images/image2image

支持 local path、URL、base64 data URI、mask。

2. 视频生成

支持 /videogen,也可以走 HTTP:

curl -X POST http://localhost:8402/v1/videos/generations \  -H “Content-Type: application/json” \  -d '{“model”:”bytedance/seedance-2.0-fast”,”prompt”:”a red apple slowly spinning”,”duration_seconds”:5}'

涉及 ByteDance Seedance、Azure Sora 2、xAI Grok Imagine Video 等。

3. Phone & Voice

通过 Twilio + Bland.ai,支持:

  • 电话号码 carrier / line type 查询
  • SIM-swap / call-forwarding 风险检测
  • 钱包绑定号码租赁
  • AI outbound voice call
  • 呼叫状态、录音、转写查询

这个能力有真实世界副作用,适合明确授权后的自动外呼场景,例如预约确认、客户回访、账号安全验证。

4. 市场与金融数据

manifest 里暴露了:

  • blockrun_stock_price
  • blockrun_stock_history
  • blockrun_crypto_price
  • blockrun_fx_price
  • blockrun_commodity_price

对 Agent 来说,这比临时 scrape 金融网站更稳定。

5. Predexon 预测市场数据

覆盖 Polymarket、Kalshi、Limitless、Opinion、Predict.Fun、dFlow、UMA oracle 等。

能做:

  • 市场搜索
  • 盘口 / 成交 / 持仓
  • smart money
  • 钱包 PnL
  • UMA resolution 状态
  • 跨平台 matching markets

6. Surf 加密数据 API

Surf 是一个 skill-only 集成,覆盖 CEX/DEX、on-chain SQL、钱包标签、新闻、社交 mindshare、VC fund、token analytics 等。

最有意思的是:

POST /v1/surf/onchain/sql

也就是 Agent 可以直接对链上 ClickHouse 表跑 SQL,不需要自己建 indexer。


开发者真正能怎么用?

我觉得它的落地场景主要有 6 类。

场景一:给现有 AI 产品降本

如果你的应用现在固定打 Claude、GPT-4o 或某个旗舰模型,可以把大量简单请求迁到 blockrun/auto 或 blockrun/eco

业务层不需要理解 55+ 模型,只要把模型 ID 改成:

blockrun/auto

剩下交给路由。

场景二:给 Agent 加“成本刹车”

对自动化任务,尤其是会自己重试、自己修复的 Agent,一定要加:

  • session limit
  • daily limit
  • /exclude
  • free fallback
  • /stats

否则 Agent 不是智能体,是自动刷卡器。

场景三:多模型供应商容灾

如果你担心某个 provider 挂掉、429、模型下线,可以让 ClawRouter 做 fallback。

尤其是生产系统里,不要让单一模型成为单点故障。

场景四:统一 OpenAI-compatible 接口

对于内部平台团队,ClawRouter 可以作为一个统一入口:

业务应用 → ClawRouter → 多模型供应商

业务只认一个 base URL,平台层控制路由、价格、日志和安全。

场景五:Web3 / Agent commerce 实验

如果你正在做 Agent 自主购买服务、按次付费 API、机器对机器结算,x402 + USDC 的模型很值得研究。

ClawRouter 是一个比较完整的工程样本。

场景六:把数据 API 变成 Agent 工具

Phone、Predexon、Surf 这类能力说明它不只是模型路由,还在探索“Agent 通过钱包购买外部能力”的模式。

未来如果每个 API 都能被 Agent 按请求购买,Router 就不只是 LLM 入口,而是 Agent 的服务市场入口。


但它也不是银弹

说完优点,也必须说限制。

1. 它不是本地推理

你的 prompt 会通过 HTTPS 发到 BlockRun gateway,再转给模型供应商。

如果你有强隐私、强合规、本地化部署要求,ClawRouter 不是 Ollama、vLLM、LM Studio 的替代品。

2. 你要接受 USDC / x402 支付模型

这套机制很适合 Agent commerce,但不是所有团队都愿意把生产模型调用和链上 USDC 绑定。

传统企业采购、报销、发票、合规流程可能需要额外适配。

3. 免费模型不等于万能

免费模型适合大量日常任务,但未必适合:

  • 严肃工具调用
  • 极难推理
  • 生产关键代码生成
  • 长链路复杂 Agent
  • 高一致性输出

Router 可以帮你省钱,但不能把免费模型变成 Opus。

4. 模型价格和数量变化很快

我在仓库里看到 README、docs、skills、源码之间存在版本演进留下的数字差异,例如免费模型数量、benchmark 模型数量、provider 数等。

这不是开源项目罕见问题,但写生产配置时要以当前 /v1/models、release note、源码配置和实际返回为准。

5. 钱包安全要自己负责

非托管意味着自由,也意味着责任。

项目文档建议把它当 spending wallet,而不是长期资产钱包。生产环境里最好只放预算内金额,并做好备份、权限和主机安全。


我最看好的,不是“省钱”,而是这个架构方向

ClawRouter 最表层的卖点是省钱。

但我觉得更值得关注的是它背后的趋势:

AI Agent 需要自己的基础设施,不只是人类开发者 API 的套壳。

人类开发者可以登录控制台、复制 API Key、挑模型、看账单、手动切换供应商。

Agent 需要的是:

  • 可编程身份
  • 可签名支付
  • 可观测成本
  • 可降级模型
  • 可自动 fallback
  • 可理解工具和上下文
  • 可限制预算
  • 可跨服务调用

ClawRouter 把这些拼到了一起。

它不完美,文档里也有明显的版本演进痕迹;但从工程方向上看,它抓住了 Agent 产品化很核心的一层:

推理调用不是一次 HTTP 请求,而是一次带成本、能力、风险和失败语义的决策。

Engineering Matrix

给程序员的快速上手建议

如果你只是想试试:

npx @blockrun/clawrouter

然后用任意 OpenAI SDK 指到:

http://localhost:8402/v1

模型填:

blockrun/free

先不充值,测试免费模型能覆盖哪些任务。

如果你要做项目集成:

  1. 1.先用 blockrun/auto 跑一周,观察 /stats
  2. 2.把低价值任务切到 blockrun/eco 或 blockrun/free
  3. 3.对关键任务保留 blockrun/premium 或 pin 特定模型。
  4. 4.配 maxCostPerRun,避免 Agent runaway。
  5. 5.对不想触达的贵模型使用 /exclude
  6. 6.如果有工具调用,重点测试 tool calling 的稳定性。
  7. 7.如果涉及图片输入,确认 vision fallback 是否符合预期。
  8. 8.生产前检查钱包备份、余额策略和日志合规。

最小 Python 示例:

from openai import OpenAIclient = OpenAI(    base_url=“http://localhost:8402/v1”,    api_key=“x402”)resp = client.chat.completions.create(    model=“blockrun/auto”,    messages=[        {“role”: “user”, “content”: “用通俗语言解释一下 ClawRouter 的价值”}    ])print(resp.choices[0].message.content)

最后

过去我们聊 LLM 成本,常常只看“哪个模型每百万 token 多少钱”。

但 Agent 时代真正的问题是:

每一次请求,到底该不该用这个模型?

ClawRouter 给出了一个很工程化的答案:

用本地规则快速分类,用 profile 控制策略,用 fallback 保证可用,用钱包限制预算,用日志暴露成本,把贵模型留给真正值得的问题。

这比简单换一个 API 聚合商更有意思。

如果你正在做 AI Agent 或多模型平台,ClawRouter 值得认真拆一遍。

项目地址

https://github.com/BlockRunAI/ClawRouter

推荐阅读

完蛋,程序员抢饭碗,Figma平替,Penpot开源让项目让设计师泪奔,哈哈哈~~~~

我解放啦,彻底起飞!!!OfficeCLI开源,openclaw 直接操作 word、ppt、excel,太丝滑~~~

麻烦,感觉要被封杀,VoxCPM2 开源TTS语音合成,我彻底开始怀疑人生啦!!!!

天塌啦!!!这个开源项目让我失业啦,1300+ Star的开源AI画布,牛到让你怀疑~~~

我去,这个开源项目 wx-cli,让每一个人都能轻松训练出自己的微信 AI 小助理~~~