2 分钟部署,这个插件补上 API 短板
每周用量卡在 29.3%,运行占比只有 2.4%,重置倒计时直接贴在每次 LLM 响应末尾。没有官方 API 对接,硬是靠自己写了个扩展,把监控塞进 Open WebUI。
- Ollama Cloud Pro 缺用量查询 API,只能反复登录网页后台核对
- 自制 Ollama Usage Monitor 扩展,直接追加到 LLM 响应文本末尾
- 提取 Cookie 后配置,全流程不超过 2 分钟,开箱即用
云端用量监控的痛点与解法
做应用落地最怕什么?资源池透明度过低。Ollama Cloud Pro 用户跑 Open WebUI 时,系统根本没开放查询用量的 API 接口。你想看配额剩多少,只能切出去登录官网网页,查完再切回来继续调参。这种手动核对的链路,在自动化流水线里简直是灾难。一个月前这个问题直接卡住了我的部署节奏,索性自己动手,把监控逻辑写成了 Open WebUI 扩展。扩展的核心逻辑很简单:拦截模型响应流,在输出文本的末尾追加云端用量统计。数据展示非常直观,比如每周配额用了 29.3%,1 天后重置;运行额度用了 2.4%,5 小时后重置。说白了,就是把网页后台的静态数据,通过扩展直接推送到每次对话的结尾,不用你再手动刷新页面。对于需要长期跑批量推理或者微调的团队来说,把配额监控嵌进对话流,能大幅降低资源超卖的风险。
响应追加与参数解析
扩展跑起来之后,每次大语言模型返回结果,都会在末尾挂上一段固定格式的监控字符串。这段字符串不是随便拼的,它严格按照云端配额维度切分。实际输出效果如下:
—— ☁ Ollama Usage Monitor ——
| MyAccount: Weekly 29.3% – Reset 1 day • run 2.4% – Reset 5 hours |
这里面的 Weekly 和 run 分别对应云端账户的周配额与运行配额。重置时间精确到天和小时,方便工程团队做任务调度。比如看到 Reset 1 day,你就知道今天可以放开跑实验,明天配额刷新前得控量。这种颗粒度的数据展示,直接省掉了人工写脚本去轮询后台的麻烦。对于需要长期跑批量推理或者微调的团队来说,把配额监控嵌进对话流,能大幅降低资源超卖的风险。

部署配置与获取路径
扩展已经上架 Open WebUI 官方 marketplace,账号登录后直接搜索就能装。如果你习惯走源码部署,或者想自己改解析逻辑,可以直接拉 GitHub 仓库。安装环节不复杂,核心步骤是提取浏览器 Cookie。因为云端用量数据走的是网页鉴权接口,扩展需要拿你的登录态去请求配额信息。仓库里提供了详细的 step by step guide,跟着操作,全程不会超过 2 分钟。配置完成后,重启 Open WebUI 服务,下次调用 LLM 时,监控数据就会自动追加到响应末尾。整个链路没有额外依赖,不占额外算力,纯靠响应流拼接实现。
Ollama Usage Monitor — Repository: https://github.com/FAI-Solutions/open-webui-extensions
留言聊聊
云端配额监控你是习惯写脚本轮询,还是直接嵌进 UI 响应流?你的团队现在主力跑推理用的是哪套方案?
来源:Reddit Ollama|原文:For Ollama + Open WebUI for Cloud Pro Users
夜雨聆风