2 分钟部署,这个插件补上 API 短板-夜雨聆风

2 分钟部署,这个插件补上 API 短板

每周用量卡在 29.3%，运行占比只有 2.4%，重置倒计时直接贴在每次 LLM 响应末尾。没有官方 API 对接，硬是靠自己写了个扩展，把监控塞进 Open WebUI。

Ollama Cloud Pro 缺用量查询 API，只能反复登录网页后台核对
自制 Ollama Usage Monitor 扩展，直接追加到 LLM 响应文本末尾
提取 Cookie 后配置，全流程不超过 2 分钟，开箱即用

云端用量监控的痛点与解法

做应用落地最怕什么？资源池透明度过低。Ollama Cloud Pro 用户跑 Open WebUI 时，系统根本没开放查询用量的 API 接口。你想看配额剩多少，只能切出去登录官网网页，查完再切回来继续调参。这种手动核对的链路，在自动化流水线里简直是灾难。一个月前这个问题直接卡住了我的部署节奏，索性自己动手，把监控逻辑写成了 Open WebUI 扩展。扩展的核心逻辑很简单：拦截模型响应流，在输出文本的末尾追加云端用量统计。数据展示非常直观，比如每周配额用了 29.3%，1 天后重置；运行额度用了 2.4%，5 小时后重置。说白了，就是把网页后台的静态数据，通过扩展直接推送到每次对话的结尾，不用你再手动刷新页面。对于需要长期跑批量推理或者微调的团队来说，把配额监控嵌进对话流，能大幅降低资源超卖的风险。

响应追加与参数解析

扩展跑起来之后，每次大语言模型返回结果，都会在末尾挂上一段固定格式的监控字符串。这段字符串不是随便拼的，它严格按照云端配额维度切分。实际输出效果如下：

—— ☁ Ollama Usage Monitor ——
| MyAccount: Weekly 29.3% – Reset 1 day • run 2.4% – Reset 5 hours |

这里面的 Weekly 和 run 分别对应云端账户的周配额与运行配额。重置时间精确到天和小时，方便工程团队做任务调度。比如看到 Reset 1 day，你就知道今天可以放开跑实验，明天配额刷新前得控量。这种颗粒度的数据展示，直接省掉了人工写脚本去轮询后台的麻烦。对于需要长期跑批量推理或者微调的团队来说，把配额监控嵌进对话流，能大幅降低资源超卖的风险。

部署配置与获取路径

扩展已经上架 Open WebUI 官方 marketplace，账号登录后直接搜索就能装。如果你习惯走源码部署，或者想自己改解析逻辑，可以直接拉 GitHub 仓库。安装环节不复杂，核心步骤是提取浏览器 Cookie。因为云端用量数据走的是网页鉴权接口，扩展需要拿你的登录态去请求配额信息。仓库里提供了详细的 step by step guide，跟着操作，全程不会超过 2 分钟。配置完成后，重启 Open WebUI 服务，下次调用 LLM 时，监控数据就会自动追加到响应末尾。整个链路没有额外依赖，不占额外算力，纯靠响应流拼接实现。

Ollama Usage Monitor — Repository: https://github.com/FAI-Solutions/open-webui-extensions

留言聊聊
云端配额监控你是习惯写脚本轮询，还是直接嵌进 UI 响应流？你的团队现在主力跑推理用的是哪套方案？

来源：Reddit Ollama｜原文：For Ollama + Open WebUI for Cloud Pro Users