别再大海捞针式地翻日志了,让问题自己“跳”出来
你有没有遇到过这种情况:
AI Agent 在生产环境里又出错了。你打开监控面板——响应时间正常,Token 用量正常,HTTP 状态码 200。一切看起来“岁月静好”。
但用户明明投诉了:助手答非所问、工具调用出了错、多轮对话后完全跑偏。
你翻了几百行日志,却根本不知道问题出在哪一步。
这不是你不行,是工具不行。
AI Agent 出问题,传统监控根本抓不到
传统 LLM 监控的思路很简单:记录每次请求的输入、输出、耗时和 Token 数。对于简单的问答机器人,够用。
但 AI Agent 不一样。
一个 Agent 不会只调一次 LLM——它会调用几十次,每一步都依赖上一步的决策。它会调用工具、管理多轮对话状态、追逐一个可能在整个会话过程中不断漂移的目标。
当它出错时,几乎不会抛出一个清晰的错误码。
它只会“顺利完成”所有步骤,然后给你一个完全错误的答案。更可怕的是,第 3 步的一个小错误,可能悄无声息地污染第 4 到第 9 步的所有结果,没有任何警报。
传统监控看的是“单次调用是否成功”,而 Agent 的问题藏在“多步因果链”里。
研究发现,只评估最终输出质量的 Agent,通过测试的比例比完整轨迹评估高出 20%–40%。换句话说——你以为它没问题,其实它一直在犯错。
Latitude:让问题自己“跳”出来
这就是 Latitude 要解决的问题。
大多数工具给你日志,Latitude 给你“问题”(Issues)。
Latitude 是一个开源(MIT 协议) 的 AI Agent 可观测性与质量平台。它的核心逻辑简单直接:自动发现 Agent 的失败模式,聚合成可追踪的“问题”,然后帮你修复它。
它在 2026 年 6 月登上 Product Hunt 后迅速引发关注,目前已有 2.7K 关注者、评分 5.0。用户评价它“上手快、界面清爽、从实验到生产落地非常顺畅”。
它凭什么?
三大杀手锏,专治 Agent“疑难杂症”
1. 基于“问题”的监控,而非“日志”
传统工具给你海量日志,你得自己找规律。Latitude 则自动将相似的失败轨迹聚类成一个“问题” ,附带案例、趋势、影响用户数和生命周期状态。
你不需要再大海捞针——问题自己排好队等你处理。
2. 语义搜索 + 全量追踪
Latitude 支持语义搜索、精确文本搜索和元数据过滤的组合。你可以直接搜“ frustrated users ”或“ tool call failures ”,秒级定位相关会话。
更重要的是,它追踪 100% 的轨迹,不采样、不漏掉任何 cohort【图片描述】。每个用户交互都成为一条完整的 trace,包含 LLM 调用、工具调用、检索步骤、元数据、用户 ID 和会话 ID。
3. 生产到评估的“闭环”
这是 Latitude 最狠的一点。
当你标注了一个生产环境中的失败案例,Latitude 的 GEPA 算法会自动将其转化为可运行的回归测试用例。下次部署前,这个测试会自动运行,确保同样的错误不会再次发生。
你修复了一个问题,就自动多了一道防线。 这才是真正的“越用越聪明”。
更关键的是:它完全兼容 OpenTelemetry,丢进 SDK 或指向现有 OTel 管道就能开始追踪,没有厂商锁定【图片描述】。你可以云端使用,也可以完全自部署。
谁在用?用在哪?
目前已有 Planned、Legalitas、Superlist、Retraced、Virtuous、Figures 等团队在生产环境中使用 Latitude。
典型场景包括:
客户支持 Agent:自动发现“用户反复提问但 Agent 始终答不对”的模式
代码生成 Agent:定位工具调用参数错误导致的隐蔽 bug
多轮对话系统:追踪上下文丢失发生在哪一步
AI Agent 的监控,不是 LLM 监控的“升级版”——它是一个完全不同的问题。
你不能用查 API 日志的思路去查一个会自己决策、调用工具、在多轮对话中追逐目标的 Agent。
Latitude 的开源策略和 MIT 协议意味着你可以完全掌控自己的数据。它不锁定你,不强迫你用 proprietary 格式——你随时可以拿走数据,随时可以自部署。
如果你的 Agent 已经在生产环境里“暗中犯错”,而你还在靠翻日志碰运气——
是时候换一种方式了。
🌐 官网:latitude.so
夜雨聆风