导读:本文是 “数据拾光者” 专栏的第一百二十三篇文章,这个系列聚焦自然语言处理和大模型相关实践。本篇主要学习和调研了目前主流的智能体可观测性和智能体评测相关的产品。
关键词:智能体可观测性、智能体评测、Langfuse、Langsmith
欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。
知乎专栏:数据拾光者
公众号:数据拾光者
01 背景介绍
最近在做一个项目,需要研究下智能体可观测性和智能体评测相关的产品。然后对国内外开源和闭源的产品进行了调研。
02 相关产品整体对比
(上海AI实验室) | 纯评测框架,非运维平台 | (评测专用) |
03 详细介绍下LangSmith项目
LangSmith 是 LangChain 公司推出的商业闭源平台,并非开源软件。它主要解决 LLM 应用(尤其是智能体)在生产环境中的可观测性(Observability)和评测(Evaluation)难题。
3.1 开源状态与协议
LangSmith 不是开源平台。它是一个 SaaS 服务(也提供企业自托管选项),属于专有软件。
关键区分:你能在 GitHub 上找到的 langsmith库只是客户端 SDK(MIT 协议),用于在你的代码中发送追踪数据。真正的服务端平台代码是闭源的,你无法自行部署完整的 LangSmith 平台社区版。
3.2 核心功能:智能体可观测性
对于复杂的 Agent(智能体)应用,LangSmith 提供了类似 APM(应用性能监控)的全链路追踪(Tracing)能力,解决了 Agent 作为“黑盒”的调试难题。
- 思维链可视化
- 作用:
将 Agent 的思考过程(Reasoning)完全展开。你不仅能看到最终答案,还能看到它调用了哪些工具(Tools)、传入参数、中间步骤的 LLM 调用、Token 消耗及耗时。 - 价值:
当 Agent 出错或陷入死循环时,能快速定位是哪个工具调用失败,或者是哪一步的 Prompt 逻辑有问题。
2.生产环境监控
- 作用:
记录生产环境中的每一次会话(Trace),监控延迟、成本和错误率。 - 价值:
提供 Insights 面板,自动聚类相似的错误或低质量回答,帮助团队发现高频问题。
3.3 核心功能:智能体评测 (Evals)
这是 LangSmith 区别于简单日志系统的核心能力,它提供了系统化的质量评估体系。
- LLM-as-a-Judge(模型作为裁判)
- 作用:
利用更强的 LLM(如 GPT-4)自动对历史运行记录(Traces)或测试集进行打分。支持自定义评分标准(如相关性、准确性、安全性)。 - 价值:
无需人工介入,即可批量评估数千次 Agent 运行的质量,量化版本迭代的效果。
2.数据集与回归测试
- 作用:
将生产中的真实对话保存为数据集(Dataset),用于后续的离线评测(Offline Eval)。支持 A/B 测试不同模型或 Prompt 版本。 - 价值:
防止在优化过程中引入“回退”(Regression),确保新版本不会在已知场景下表现更差。
2.人工标注集成
- 作用:
提供标注队列(Annotation Queues),让领域专家对复杂的 Agent 输出进行人工打分或修正,这些标注数据可反哺训练集或评测标准。 - 价值:
结合了自动化评测与人工精标,特别适合对可靠性要求极高的企业场景。
3.4 选型建议
- 适合 LangSmith
:深度使用 LangChain/LangGraph 生态,且需要零配置的深度集成、强大的可视化调试和成熟的评测工作流。能接受 SaaS 服务或购买企业版(自托管)。 - 寻找开源替代
:如果你需要完全自托管、数据不出域或预算有限,可以关注 Langfuse(MIT 协议)或 MLflow(Apache 2.0),它们是 LangSmith 在开源领域的主要竞品。
04 详细介绍下Langfuse项目

langfuse的github项目:https://github.com/langfuse/langfuse/tree/main
26.7K star 2.7K fork
Langfuse是一个专为 LLM(大语言模型)应用打造的开源工程平台,核心定位是解决 AI 应用开发中的“黑盒”问题,提供从调试、分析到迭代的全链路支持。
Langfuse平台的详细拆解:
4.1 核心定位:LLM 应用的全栈“仪表盘”
Langfuse 本质上是一个 LLMOps(大模型运维)平台。它解决了传统软件与 LLM 应用的关键差异:LLM 的交互是非确定性的(同一输入可能产生不同输出),且涉及复杂的多步调用(如 RAG 检索、工具调用)。它通过三大核心模块帮助团队实现工程化闭环:
4.2 三大功能模块深度解析
1. Observability(可观测性):让每一次调用透明化
这是 Langfuse 的基础能力。它能够自动捕获应用中的所有 LLM 调用、外部 API 调用、检索步骤等,并将其串联成完整的 Trace(追踪链)。
- 最低层级透明度
:你可以看到每次 LLM 调用的具体输入(Prompt)、输出、耗时、Token 用量以及模型名称。 - 成本与延迟监控
:自动计算每次调用的预估成本(基于 Token 和模型单价),并监控 P99 延迟等性能指标,帮助优化性价比。 - 生产健康监控
:实时查看错误率、吞吐量等指标,快速定位故障链路。
2. Prompt Management(提示词管理):工程化你的 Prompt
这是区别于普通日志系统的核心功能。它将 Prompt 从代码中解耦出来,进行集中管理。
- 版本控制与标签
:每次修改 Prompt 都会生成新版本(Version),支持打标签(如 production,staging)。应用代码只需引用标签名,无需因修改 Prompt 而重新部署代码。 - 协作与测试
:团队可以在 Web UI 上共同编辑 Prompt,并在内置的 Playground 中直接调试,支持变量插值。 - A/B 测试
:可以轻松创建不同版本的 Prompt,分配给不同用户群,通过评估模块对比效果,数据驱动决策。
3. Evaluation(评估):量化 AI 表现
为了解决“这个回答好不好?”的主观问题,Langfuse 提供了灵活的评估体系。
- 多源评估
:支持自动评估(用另一个 LLM 作为裁判打分)、人工标注(团队内部打分)、终端用户反馈(如 thumbs up/down)以及隐式信号(如点击率)。 - 数据集评估
:针对固定的测试数据集,运行不同模型或 Prompt 版本,批量对比输出质量、准确性和成本,为模型选型提供依据。
4.3 技术架构与部署优势
- 开源与自托管
:代码开源(GitHub),支持 Docker 一键自托管,企业可以将数据完全掌控在内网,满足安全合规要求。 - API-First
:所有功能都提供 API 接口,便于集成到 CI/CD 流水线或自定义工作流中。 - 生态集成
:原生支持 LangChain、LlamaIndex、OpenAI SDK 等主流框架,也支持通过 OpenTelemetry 接入自定义应用。
4.4 典型工作流(从 PoC 到生产)
文档中强调了简化的生命周期管理:
- 开发阶段
:集成 SDK,在本地或测试环境查看 Trace,调试 Prompt。 - 测试阶段
:使用评估功能在数据集上测试 Prompt 和模型,选择最优解。 - 生产阶段
:监控线上流量,收集用户反馈,通过 A/B 测试持续迭代优化。
Langfuse 可以理解为 AI 应用领域的“Datadog + Git + A/B Testing 平台”。如果你正在开发基于 LLM 的聊天机器人、智能体或 RAG 系统,它可以帮助你:
- 省钱
:通过精确的 Token 监控发现资源浪费。 - 提效
:通过可视化的 Trace 快速定位 Bad Case 的原因。 - 迭代
:通过科学的评估和 Prompt 管理,持续提升回答质量。
05 详细对比下Langfuse和 LangSmith
Langfuse 和 LangSmith 是目前 LLMOps 领域最主流的两个可观测性平台。它们虽然功能重叠(Tracing、Evaluation、Monitoring),但底层哲学和适用场景截然不同。
5.1 核心结论
- Langfuse
:胜在开源、自托管、框架无关。适合注重数据隐私、使用混合技术栈(非纯 LangChain)或预算有限的团队。
LangSmith:胜在与 LangChain 生态的深度绑定。如果你是 LangChain/LangGraph 重度用户,且追求开箱即用的评估体验,它是“原厂”首选。
5.2 核心差异速览
5.3 功能深度对比
追踪(Tracing)与可观测性
- Langfuse
:采用 Span/Generation 模型,结构清晰。最大亮点是原生支持 OpenTelemetry,能无缝接入现有的可观测性体系(如 Jaeger),对非 LLM 的普通 API 调用也能很好追踪。 - LangSmith
:采用 Run Tree 模型。在可视化 LangChain LCEL 链路 和 LangGraph Agent 循环 时具有绝对优势,能自动解析每个节点的输入输出,调试体验极佳。
2.评估(Evaluation)能力
- Langfuse
:功能相对基础,支持 LLM-as-a-judge 和人工标注,但需要团队自行搭建更复杂的评估流水线,灵活性高但开箱即用性稍弱。 - LangSmith
:评估是其强项。内置了丰富的评估器(Criteria、Embedding Distance 等),提供了完善的 A/B 测试、数据集管理和自动化评分功能,更适合需要严谨实验的团队。
3.提示词管理(Prompt Management)
- Langfuse
:提供版本控制、A/B 测试和集中化管理。它的 Playground 支持直接基于生产环境的 Trace 数据进行提示词迭代,流程非常顺畅。 - LangSmith
:同样有 Prompt Hub 和 Canvas 功能,能直接在 UI 里调试 Chain。对于纯 LangChain 项目,提示词版本与 Chain 版本结合得更紧密。
5.4 选型决策指南
选择 Langfuse 的情况(✅)
- 数据合规是红线
:金融、医疗或政府项目,数据必须留在内网,需要 100% 自托管。 - 技术栈“大杂烩”
:你的应用同时使用了 OpenAI SDK、Axios 自定义调用、AutoGen 等,需要框架无关的统一观测层。 - 成本敏感
:长期来看,自托管能省下大量 SaaS 订阅费,且云版免费额度较高(每月数万事件免费)。
选择 LangSmith 的情况(✅)
- 全栈 LangChain
:你的 Agent、Chain 全部基于 LangChain/LangGraph 构建,LangSmith 就是你的“原生调试器”,集成体验无与伦比。 - 看重评估与实验
:你需要强大的内置工具来跑通“评测-迭代-发布”的完整闭环,不想自己造轮子。
追求开发效率:不想折腾运维,愿意付费换取官方 SLA 支持和企业级功能。
如果项目涉及金融或数据敏感行业(如本地金融机构),Langfuse 自托管通常是更稳妥的选择,能完全满足网络安全法对数据出境/存储的要求。如果是初创团队快速验证 MVP,直接使用 LangSmith 云服务能极大提升前期开发效率。
小结
06 详细介绍下Coze Loop平台
Coze Loop的github地址如下:https://github.com/coze-dev/coze-loop
5.4K star
Coze Loop 是开源的。它采用 Apache 2.0 协议
Coze Loop(扣子罗盘)是字节跳动推出的 AgentOps 平台,专为解决 AI 智能体“开发黑盒、评测靠猜、运维抓瞎”的痛点。它通过评测(Evaluation)和观测(Observability)两大核心模块,将智能体的开发从“玄学炼丹”转变为“数据驱动的工程化迭代”。
6.1 智能体可观测性:全链路 Trace 与监控
可观测性模块的核心是让智能体的每一次“思考”过程变得透明、可追溯。它不仅仅是日志记录,而是像“飞行记录仪”一样还原完整的决策链路。
1.全链路 Trace 追踪
- 节点级拆解
:自动记录从用户输入到最终输出的每一个环节,包括 Prompt 解析、模型调用(LLM)、工具调用(Tools)、代码执行等。你可以清晰看到是哪个节点耗时过长或报错。 - 中间态捕获
:不仅看结果,还能查看每一步的中间结果和变量状态。例如,能看到模型在调用工具前生成的参数是否正确,这对于调试复杂的工作流至关重要。 - 多框架集成
:提供 Go、Python、Node.js SDK,支持集成 Eino、LangChain 等主流框架,也支持 Coze 平台原生应用的自动上报。
2.性能与成本监控
- 关键指标看板
:实时监控 Token 消耗、响应延迟(Latency)、错误率(Error Rate),支持按模型、应用维度进行拆分统计。 - 异常告警
:基于 Trace 数据设置预警规则,当出现高频错误或性能骤降时快速定位根因,告别被动救火。
3.BadCase 自动回流
这是 Coze Loop 的一大特色。系统支持从线上 Trace 中自动采样,对真实用户对话进行在线评测,筛选出低分(BadCase)对话,并自动回流到评测数据集中。这使得你的测试集能不断吸收真实场景的边界情况,实现越用越聪明的数据飞轮。
6.2 智能体评测:数据驱动的质量度量
评测模块旨在用自动化、标准化的测试取代主观的“感觉良好”,为 Prompt 和模型选择提供科学依据。
1.评测体系架构
评测流程通常遵循“评测集(Dataset)→ 评估器(Evaluator)→ 实验(Experiment)”的闭环:
2.核心评测维度
- 准确性(Accuracy)
:事实一致性、逻辑正确性。 - 简洁性(Conciseness)
:避免冗余废话。 - 合规性(Safety)
:敏感词、偏见、有害内容检测。 - Agent 专项
:工具调用成功率、多步规划合理性(这是区别于普通文本生成的独特能力)。
3.多模型对比与 A/B 测试
支持在同一套评测集上对比不同模型(如 GPT-4 vs DeepSeek)或不同 Prompt 版本的表现,通过数据直观地选出性价比最高的方案,避免盲目追新模型。
6.3 功能全景与定位
为了让你更直观地把握 Coze Loop 的全貌,下表总结了它在智能体生命周期中的角色:
总结
Coze Loop 的智能体可观测性让你能“看得清”智能体内部每一步的执行细节;智能体评测则让你能“测得准”,用数据证明每一次迭代是进步还是倒退。这两者结合,构成了 AI 智能体从“能用”到“好用”的关键基础设施
07 详细介绍下MLflow平台
MLflowgithub地址如下: https://github.com/mlflow/mlflow
25.8K star 5.7K fork
MLflow 是一个开源的项目,其核心代码库(包括你之前关注的智能体可观测性与评测功能)均遵循 Apache License 2.0 协议。
MLflow 已从传统的机器学习生命周期管理平台,全面进化为生成式 AI 与智能体(Agent)的首选可观测性平台。针对你关心的智能体可观测性与评测,MLflow 2.x/3.x 通过 Trace(追踪) 和 GenAI Evaluation(评估) 两大核心模块,解决了智能体“黑盒”调试与量化评估的难题。
7.1 智能体可观测性(Observability):看清每一步决策
传统日志只能记录“发生了什么”,而 MLflow 的 Trace 系统记录了“为什么发生”。它通过自动化的分布式链路追踪,将复杂的智能体工作流可视化。
1.核心概念:Trace 与 Span
- Trace(追踪)
:代表一次完整的用户请求生命周期。例如,用户问“帮我订一张机票”,从接收到请求到最终回复的整个过程就是一个 Trace。 - Span(跨度)
:Trace 中的每一个独立步骤。例如:意图识别 -> 工具调用(查询航班) -> LLM 合成回复。每个 Span 会记录输入、输出、耗时和元数据(如 Token 用量、成本)。
2.实战价值:从“盲猜”到“精准定位”
- 调试工具调用
:当智能体卡住或报错时,你可以在 UI 中直接展开 Trace,看到底是哪个工具(Tool)调用超时,或者是哪一步的 LLM 调用返回了意外格式。 - 成本与性能分析
:自动记录每次 LLM 调用的 Token 消耗和延迟,帮你识别是检索步骤(Retrieval)还是生成步骤(Generation)拖慢了整体速度。 - 多框架支持
:原生支持 LangChain、LlamaIndex、LangGraph 等主流 Agent 框架,通常只需一行 autolog()代码即可开启追踪。
7.2 智能体评测(Evaluation):量化“智能”质量
MLflow 的评估框架(mlflow.genai.evaluate)专为 GenAI 的复杂性设计,不仅看最终答案的对错,更评估推理过程。
1.评测模式:离线与在线
2.内置“法官”(LLM-as-a-Judge)
MLflow 提供了强大的内置评估器,利用 LLM 作为裁判来评估智能体的输出:
- 正确性(Correctness)
:答案是否准确。 - 有据性(Groundedness)
:答案是否严格基于提供的上下文(防幻觉)。 - 安全性(Safety)
:是否包含不当内容。 - 工具使用合理性
:是否调用了该调用的工具,调用参数是否正确。
3.自定义评测逻辑
你可以通过 @scorer装饰器定义业务专属的评测规则。例如,评测一个金融客服智能体:
- 合规性检查
:是否在回答中包含了必要的风险提示语。 - 工具调用链验证
:是否遵循了“先查询余额再转账”的正确流程(通过分析 Trace 中的 Span 顺序实现)。
7.3 典型工作流:从开发到生产
- 开发阶段
:使用 mlflow.genai.evaluate在测试集上跑分,利用 LLM 法官快速筛选出效果最好的 Agent 版本。 - 部署阶段
:将选中的版本注册到 MLflow Model Registry,并部署到生产环境。 - 生产阶段
:开启在线监控,持续收集 Trace 和反馈。如果发现质量下降(如用户差评增多),可触发回滚或重新评估。
7.1 版本注意(MLflow 2.x vs 3.x)
- MLflow 2.x
:评估功能主要在 mlflow.evaluate或 Databricks 特定的 databricks-agentsSDK 中。 - MLflow 3.x
:评估 API 统一迁移至 mlflow.genai命名空间(如 mlflow.genai.evaluate),API 更简洁,且深度集成 Trace 数据。
总结
对于智能体开发,MLflow 的核心价值在于:
- 可观测性
:通过 Trace 把“黑盒”变成“玻璃盒”,让你能回放智能体的整个思考过程。 - 评测
:通过 GenAI Evaluation 提供量化的质量、成本、延迟指标,让“感觉效果不错”变成“数据证明效果更好”。
08 详细介绍下Arize Phoenix项目
Arize Phoenix项目github地址如下:https://github.com/Arize-ai/phoenix
9.6K star
核心 Python 库为 Mulan PSL 2.0(类似 Apache 2.0 的宽松协议),部分客户端组件采用 Apache 2.0。
8.1 核心功能详解
1.智能体可观测性(Agent Observability)
Phoenix 基于 OpenTelemetry 和自研的 OpenInference 标准,能自动追踪智能体执行的完整链路,解决“Agent 内部到底发生了什么”的问题。
- 全链路追踪(Tracing)
:自动记录智能体的每一步推理、工具调用(Function Call)、API 请求。你可以在 UI 上看到完整的树状结构,精确到每个工具的执行耗时、输入输出。 - 框架无感集成
:原生支持主流 Agent 框架,包括 LangGraph、CrewAI、OpenAI Agents SDK、Claude Agent SDK、AutoGen 等。无论你用什么框架,只需几行代码注入 instrumentation 即可接入。 - 检索增强生成(RAG)深度分析
:特别针对 RAG 应用,能可视化检索到的文档片段(Chunks)、计算检索相关性,帮助定位是“没搜到”还是“答错了”。
2. 智能体评测(Agent Evaluation)
这是 Phoenix 的另一大核心,用于量化智能体的表现,支持 LLM-as-a-Judge(用大模型自动打分)模式。
- 自动化评估(Evals)
:提供预置的评估器,衡量回答相关性(Answer Relevance)、检索相关性(Retrieval Relevance)、毒性(Toxicity)等指标。 - 实验对比(Experiments)
:支持 A/B Testing。你可以对比不同模型(如 GPT-4 vs Claude)、不同提示词(Prompt)或不同参数在同一组测试数据集上的表现,通过数据决定最优配置。 - 数据集管理
:支持创建版本化的测试数据集(Dataset),用于回归测试,确保代码更新不会导致智能体性能回退。
8.2 架构与部署
- 自托管优先
:Phoenix 设计为可本地运行(Localhost)、Docker 或 K8s 部署,数据完全掌握在自己手中,适合对数据隐私要求高的企业。 - 多语言支持
:虽然以 Python 生态为主,但通过 OpenTelemetry 的 OTLP 协议,也支持 Node.js(TypeScript)等语言的应用监控。 - UI 界面
:提供 Web UI(默认端口 6006)用于可视化 traces、查看评估报告和进行 Prompt 调优(Playground)。
8.3 快速开始
如果你在成都本地开发,部署体验非常轻量:
# 1. 安装
pip install arize-phoenix
# 2. 启动服务(会启动本地服务器和 UI)
phoenix serve
# 访问 http://localhost:6006# 3. 在你的 Agent 代码中注入监控(以 OpenAI 为例)
from openinference.instrumentation.openai import OpenAIInstrumentor
from phoenix.otel import register
tracer_provider = register(endpoint="http://localhost:4317") # OTLP 端点
OpenAIInstrumentor().instrument(tracer_provider=tracer_provider)
8.4 同类对比
在 LLM 可观测性领域,Phoenix 的定位非常清晰:
- vs LangSmith
:LangSmith 更偏向 LangChain 生态的商业化托管服务;Phoenix 是开源、框架无关、可自建。
总结:如果你需要一款开源、可私有化部署、且能深度监控智能体(Agent)每一步决策的工具,Arize Phoenix 是比较成熟的选择。
09详细介绍下OpenCompass项目
OpenCompass的github如下: https://github.com/open-compass/opencompass
7K star
开源协议:Apache License 2.0
OpenCompass(司南评测体系)是由上海人工智能实验室开源的大模型及智能体全维度评测平台。它不仅是业界公认的权威评测基准,也是目前国内大模型榜单的重要数据来源。
针对你关心的智能体可观测性与评测功能,这里为你详细拆解:
9.1 核心功能:智能体可观测性与评测
你提到的“智能体可观测性”在 OpenCompass 中主要通过全链路评测和工具调用分析来实现。它不仅仅是跑分,更是对智能体决策过程的深度透视。
1.智能体评测(Agent Evaluation)
OpenCompass 将智能体能力作为一级评测维度,重点考察模型在复杂任务中的表现:
- 工具调用能力
:评测模型是否能正确调用外部工具(如计算器、API、数据库),并处理工具返回结果。它支持与 Lagent、LangChain 等智能体框架配合,进行端到端测试。 - 任务规划与推理
:通过多步推理任务(如数学题、代码生成、决策任务),评估智能体的规划能力、步骤正确性以及抗幻觉能力。 - 代码解释器评测
:专门针对“代码即工具”的场景,评估模型生成代码、执行并修正错误的能力(如使用 CIBench 数据集)。
2.可观测性(Observability)
这里的“可观测”指的是通过评测数据反推模型内部状态。OpenCompass 提供了丰富的诊断维度:
- 过程追踪
:不仅看最终答案的对错,还记录智能体每一步的思考(Chain of Thought)、工具选择及中间结果。这为开发者提供了“黑盒”内部的执行轨迹。 - 多维度切片
:支持对同一模型在不同任务类型(如知识问答 vs 工具调用)上的表现进行对比,快速定位智能体的能力短板(例如:是推理逻辑问题,还是工具调用接口理解问题)。 - 鲁棒性测试
:通过注入噪声或对抗性提示词,测试智能体在复杂环境下的稳定性。
9.2 架构与生态
OpenCompass 2.0 构建了“铁三角”生态,方便你快速上手:
9.3 快速开始
如果你在成都本地部署,可以利用其分布式评测能力加速测试(例如使用多张显卡并行评测):
# 1. 安装(支持 pip 一键安装)
pip install opencompass
# 2. 运行智能体相关评测示例# 通常需要配置模型路径和数据集(如工具调用数据集)
opencompass --config path/to/agent_eval_config.py
小结
OpenCompass 是一个Apache2.0 开源的“大模型/智能体体检中心”。它不仅提供分数排名,更通过细粒度的评测维度和过程记录,为你提供了强大的智能体可观测性能力,非常适合用于研发阶段的模型能力诊断与调优。
最新最全的文章请关注我的微信公众号或者知乎专栏:数据拾光者。
码字不易,欢迎小伙伴们关注和分享。
夜雨聆风