AI Agent 频频“翻车”却找不到原因?这款开源监控工具让你秒变“福尔摩斯”

别再大海捞针式地翻日志了，让问题自己“跳”出来

你有没有遇到过这种情况：

AI Agent 在生产环境里又出错了。你打开监控面板——响应时间正常，Token 用量正常，HTTP 状态码 200。一切看起来“岁月静好”。

但用户明明投诉了：助手答非所问、工具调用出了错、多轮对话后完全跑偏。

你翻了几百行日志，却根本不知道问题出在哪一步。

这不是你不行，是工具不行。

AI Agent 出问题，传统监控根本抓不到

传统 LLM 监控的思路很简单：记录每次请求的输入、输出、耗时和 Token 数。对于简单的问答机器人，够用。

但 AI Agent 不一样。

一个 Agent 不会只调一次 LLM——它会调用几十次，每一步都依赖上一步的决策。它会调用工具、管理多轮对话状态、追逐一个可能在整个会话过程中不断漂移的目标。

当它出错时，几乎不会抛出一个清晰的错误码。

它只会“顺利完成”所有步骤，然后给你一个完全错误的答案。更可怕的是，第 3 步的一个小错误，可能悄无声息地污染第 4 到第 9 步的所有结果，没有任何警报。

传统监控看的是“单次调用是否成功”，而 Agent 的问题藏在“多步因果链”里。

研究发现，只评估最终输出质量的 Agent，通过测试的比例比完整轨迹评估高出 20%–40%。换句话说——你以为它没问题，其实它一直在犯错。

这就是 Latitude 要解决的问题。

大多数工具给你日志，Latitude 给你“问题”（Issues）。

Latitude 是一个开源（MIT 协议） 的 AI Agent 可观测性与质量平台。它的核心逻辑简单直接：自动发现 Agent 的失败模式，聚合成可追踪的“问题”，然后帮你修复它。

它在 2026 年 6 月登上 Product Hunt 后迅速引发关注，目前已有 2.7K 关注者、评分 5.0。用户评价它“上手快、界面清爽、从实验到生产落地非常顺畅”。

它凭什么？

传统工具给你海量日志，你得自己找规律。Latitude 则自动将相似的失败轨迹聚类成一个“问题” ，附带案例、趋势、影响用户数和生命周期状态。

你不需要再大海捞针——问题自己排好队等你处理。

Latitude 支持语义搜索、精确文本搜索和元数据过滤的组合。你可以直接搜“ frustrated users ”或“ tool call failures ”，秒级定位相关会话。

更重要的是，它追踪 100% 的轨迹，不采样、不漏掉任何 cohort【图片描述】。每个用户交互都成为一条完整的 trace，包含 LLM 调用、工具调用、检索步骤、元数据、用户 ID 和会话 ID。

这是 Latitude 最狠的一点。

当你标注了一个生产环境中的失败案例，Latitude 的 GEPA 算法会自动将其转化为可运行的回归测试用例。下次部署前，这个测试会自动运行，确保同样的错误不会再次发生。

你修复了一个问题，就自动多了一道防线。 这才是真正的“越用越聪明”。

更关键的是：它完全兼容 OpenTelemetry，丢进 SDK 或指向现有 OTel 管道就能开始追踪，没有厂商锁定【图片描述】。你可以云端使用，也可以完全自部署。

目前已有 Planned、Legalitas、Superlist、Retraced、Virtuous、Figures 等团队在生产环境中使用 Latitude。

典型场景包括：

AI Agent 的监控，不是 LLM 监控的“升级版”——它是一个完全不同的问题。

你不能用查 API 日志的思路去查一个会自己决策、调用工具、在多轮对话中追逐目标的 Agent。

Latitude 的开源策略和 MIT 协议意味着你可以完全掌控自己的数据。它不锁定你，不强迫你用 proprietary 格式——你随时可以拿走数据，随时可以自部署。

如果你的 Agent 已经在生产环境里“暗中犯错”，而你还在靠翻日志碰运气——

是时候换一种方式了。

🌐 官网：latitude.so