AI那些趣事系列123:目前主流的智能体可观测性和智能体评测相关的产品调研

导读：本文是 “数据拾光者” 专栏的第一百二十三篇文章，这个系列聚焦自然语言处理和大模型相关实践。本篇主要学习和调研了目前主流的智能体可观测性和智能体评测相关的产品。
关键词：智能体可观测性、智能体评测、Langfuse、Langsmith
欢迎转载，转载请注明出处以及链接，更多关于自然语言处理、推荐系统优质内容请关注如下频道。
知乎专栏：数据拾光者
公众号：数据拾光者

01 背景介绍

最近在做一个项目，需要研究下智能体可观测性和智能体评测相关的产品。然后对国内外开源和闭源的产品进行了调研。

02 相关产品整体对比

平台	开源情况与协议	推荐等级	部署难度	智能体可观测性	智能体评测
Coze Loop （字节跳动）	Apache 2.0 GitHub 可查，商业友好	★★★★★ (国内首选)	中等偏上	全链路 Trace：可视化展示用户输入、模型调用、工具调用（Tool Call）的全链路 Trace。支持性能统计与异常告警。	系统化评估：支持对 Agent 输出进行多维度（准确性、简洁性、合规性）自动化检测。支持多模型对比。
Langfuse	MIT （核心功能开源）	★★★★★ (国外通用)	极简	图结构追踪：能将 Agent 的执行流（包括多步推理、工具调用）可视化为图结构。支持多轮对话会话追踪。	LLM-as-Judge：支持通过 LLM 自动评分，可自定义评估规则并监控生产环境的质量漂移。
Phoenix (Arize AI)	Apache 2.0 可自托管，隐私性好	★★★☆☆ (数据洞察)	极简	生产监控：提供 LLM 应用的生产监控与 Root Cause 分析，支持 OpenTelemetry 集成，可追溯工具调用链路。	评估与调优：支持基于 LLM 的自动评估（Evals），并提供幻觉检测、数据漂移检测等高级分析。
MLflow	Apache 2.0 Linux 基金会旗下	★★★☆☆ (需二次开发)	简单	基础追踪：通过 OpenTelemetry 记录 LLM 及 Agent 的调用链，但 Agent 专用的可视化能力较弱。	实验管理：支持自定义评估指标和模型对比，更适合作为底层的实验管理底座。
HiAgent（火山引擎）	闭源 / 商业 SaaS			白盒化追踪：提供完善的链路追踪，将大模型调用过程从黑盒变为白盒，真实还原用户使用场景，支持性能与效果监控。	Agent DevOps 流水线：提供体系化、可配置的评测工程流水线，支持多模态多轮次评测。具备过程评测能力，不仅看最终结果，还评估任务规划、中间环节输出质量。
AgentArts（华为云）	部分开源（核心内核计划开源）			全生命周期监控：通过 AgentRun（运行态）与 AgentOps（运营运维态）组件，实现从开发到落地的全流程可管可控、可溯可查。	三维度评估体系：不仅评估最终结果，更关注任务执行过程中的每一步（模型理解、工具调用、多轮交互）是否合理、可控、可诊断。
AI Ping（清程极智）	闭源 / 商业 SaaS			API 运行时观测：对不同厂商、不同模型 API 的延迟、稳定性、吞吐与性价比进行长期、持续观测，提供性能看板定位偶发抖动。	一站式 API 评测：以真实业务场景为导向，对比多家大模型 API 的实际表现，为模型选型和路由策略提供数据决策依据。
AICGS（擎动智能）	闭源 / 商业 SaaS			行为观测与风险预警：依托六层治理模型，实现智能体运行时的行为观测，实时监控行为漂移，提前发现安全与准确性风险。	标准化量化评估：建立 12 大类 30 项可量化质量指标，将抽象的智能转化为可测量、可对比、可审计的标准化体系。
OpenCompass （上海AI实验室）	Apache 2.0 纯评测框架，非运维平台	★★☆☆☆ (评测专用)	中等	弱项：本质是评测框架，不具备生产环境的实时可观测性（如 Trace 链路、延迟监控）。	核心优势：大模型/智能体基准测试。提供数学、代码、工具调用等专项评测集（CompassKit），适合做“入学考试”而非线上监控。

03 详细介绍下LangSmith项目

LangSmith 是 LangChain 公司推出的商业闭源平台，并非开源软件。它主要解决 LLM 应用（尤其是智能体）在生产环境中的可观测性（Observability）和评测（Evaluation）难题。

3.1 开源状态与协议

LangSmith 不是开源平台。它是一个 SaaS 服务（也提供企业自托管选项），属于专有软件。

组件	开源状态	协议	说明
LangSmith 平台	❌ 闭源	商业专有	包含 UI 后台、存储、核心服务，需按量或按席位付费
LangSmith Client SDK	✅ 开源	MIT License	仅限用于连接 LangSmith 服务的客户端库（Python/JS）
LangChain 框架	✅ 开源	MIT License	构建应用的底层框架，与 LangSmith 是分离的

关键区分：你能在 GitHub 上找到的 langsmith库只是客户端 SDK（MIT 协议），用于在你的代码中发送追踪数据。真正的服务端平台代码是闭源的，你无法自行部署完整的 LangSmith 平台社区版。

3.2 核心功能：智能体可观测性

对于复杂的 Agent（智能体）应用，LangSmith 提供了类似 APM（应用性能监控）的全链路追踪（Tracing）能力，解决了 Agent 作为“黑盒”的调试难题。

思维链可视化

作用：
将 Agent 的思考过程（Reasoning）完全展开。你不仅能看到最终答案，还能看到它调用了哪些工具（Tools）、传入参数、中间步骤的 LLM 调用、Token 消耗及耗时。
价值：
当 Agent 出错或陷入死循环时，能快速定位是哪个工具调用失败，或者是哪一步的 Prompt 逻辑有问题。

2.生产环境监控

作用：
记录生产环境中的每一次会话（Trace），监控延迟、成本和错误率。
价值：
提供 Insights 面板，自动聚类相似的错误或低质量回答，帮助团队发现高频问题。

3.3 核心功能：智能体评测 (Evals)

这是 LangSmith 区别于简单日志系统的核心能力，它提供了系统化的质量评估体系。

LLM-as-a-Judge（模型作为裁判）

作用：
利用更强的 LLM（如 GPT-4）自动对历史运行记录（Traces）或测试集进行打分。支持自定义评分标准（如相关性、准确性、安全性）。
价值：
无需人工介入，即可批量评估数千次 Agent 运行的质量，量化版本迭代的效果。

2.数据集与回归测试

作用：
将生产中的真实对话保存为数据集（Dataset），用于后续的离线评测（Offline Eval）。支持 A/B 测试不同模型或 Prompt 版本。
价值：
防止在优化过程中引入“回退”（Regression），确保新版本不会在已知场景下表现更差。

2.人工标注集成

作用：
提供标注队列（Annotation Queues），让领域专家对复杂的 Agent 输出进行人工打分或修正，这些标注数据可反哺训练集或评测标准。
价值：
结合了自动化评测与人工精标，特别适合对可靠性要求极高的企业场景。

3.4 选型建议

适合 LangSmith
：深度使用 LangChain/LangGraph 生态，且需要零配置的深度集成、强大的可视化调试和成熟的评测工作流。能接受 SaaS 服务或购买企业版（自托管）。
寻找开源替代
：如果你需要完全自托管、数据不出域或预算有限，可以关注 Langfuse（MIT 协议）或 MLflow（Apache 2.0），它们是 LangSmith 在开源领域的主要竞品。

04 详细介绍下Langfuse项目

langfuse的github项目：https://github.com/langfuse/langfuse/tree/main
26.7K star 2.7K fork

Langfuse是一个专为 LLM（大语言模型）应用打造的开源工程平台，核心定位是解决 AI 应用开发中的“黑盒”问题，提供从调试、分析到迭代的全链路支持。

Langfuse平台的详细拆解：

4.1 核心定位：LLM 应用的全栈“仪表盘”

Langfuse 本质上是一个 LLMOps（大模型运维）平台。它解决了传统软件与 LLM 应用的关键差异：LLM 的交互是非确定性的（同一输入可能产生不同输出），且涉及复杂的多步调用（如 RAG 检索、工具调用）。它通过三大核心模块帮助团队实现工程化闭环：

核心模块	解决的问题	关键能力
Observability（可观测性）	调用链路不透明、成本与延迟难监控	全链路追踪（Trace）、会话记录、Token 消耗与成本分析、生产健康度监控
Prompt Management（提示词管理）	提示词散落在代码中，难以版本控制和协作	集中化托管、版本控制（Git-like）、在线 Playground 测试、A/B 测试
Evaluation（评估）	输出质量难以量化，依赖人工主观判断	LLM-as-a-Judge 自动评分、人工标注、用户反馈收集、数据集对比测试

4.2 三大功能模块深度解析

1. Observability（可观测性）：让每一次调用透明化
这是 Langfuse 的基础能力。它能够自动捕获应用中的所有 LLM 调用、外部 API 调用、检索步骤等，并将其串联成完整的 Trace（追踪链）。

最低层级透明度
：你可以看到每次 LLM 调用的具体输入（Prompt）、输出、耗时、Token 用量以及模型名称。
成本与延迟监控
：自动计算每次调用的预估成本（基于 Token 和模型单价），并监控 P99 延迟等性能指标，帮助优化性价比。
生产健康监控
：实时查看错误率、吞吐量等指标，快速定位故障链路。

2. Prompt Management（提示词管理）：工程化你的 Prompt
这是区别于普通日志系统的核心功能。它将 Prompt 从代码中解耦出来，进行集中管理。

版本控制与标签
：每次修改 Prompt 都会生成新版本（Version），支持打标签（如 production, staging）。应用代码只需引用标签名，无需因修改 Prompt 而重新部署代码。
协作与测试
：团队可以在 Web UI 上共同编辑 Prompt，并在内置的 Playground 中直接调试，支持变量插值。
A/B 测试
：可以轻松创建不同版本的 Prompt，分配给不同用户群，通过评估模块对比效果，数据驱动决策。

3. Evaluation（评估）：量化 AI 表现
为了解决“这个回答好不好？”的主观问题，Langfuse 提供了灵活的评估体系。

多源评估
：支持自动评估（用另一个 LLM 作为裁判打分）、人工标注（团队内部打分）、终端用户反馈（如 thumbs up/down）以及隐式信号（如点击率）。
数据集评估
：针对固定的测试数据集，运行不同模型或 Prompt 版本，批量对比输出质量、准确性和成本，为模型选型提供依据。

4.3 技术架构与部署优势

开源与自托管
：代码开源（GitHub），支持 Docker 一键自托管，企业可以将数据完全掌控在内网，满足安全合规要求。
API-First
：所有功能都提供 API 接口，便于集成到 CI/CD 流水线或自定义工作流中。
生态集成
：原生支持 LangChain、LlamaIndex、OpenAI SDK 等主流框架，也支持通过 OpenTelemetry 接入自定义应用。

4.4 典型工作流（从 PoC 到生产）

文档中强调了简化的生命周期管理：

开发阶段
：集成 SDK，在本地或测试环境查看 Trace，调试 Prompt。
测试阶段
：使用评估功能在数据集上测试 Prompt 和模型，选择最优解。
生产阶段
：监控线上流量，收集用户反馈，通过 A/B 测试持续迭代优化。

Langfuse 可以理解为 AI 应用领域的“Datadog + Git + A/B Testing 平台”。如果你正在开发基于 LLM 的聊天机器人、智能体或 RAG 系统，它可以帮助你：

省钱
：通过精确的 Token 监控发现资源浪费。
提效
：通过可视化的 Trace 快速定位 Bad Case 的原因。
迭代
：通过科学的评估和 Prompt 管理，持续提升回答质量。

05 详细对比下Langfuse和 LangSmith

Langfuse 和 LangSmith 是目前 LLMOps 领域最主流的两个可观测性平台。它们虽然功能重叠（Tracing、Evaluation、Monitoring），但底层哲学和适用场景截然不同。

5.1 核心结论

Langfuse
：胜在开源、自托管、框架无关。适合注重数据隐私、使用混合技术栈（非纯 LangChain）或预算有限的团队。

LangSmith：胜在与 LangChain 生态的深度绑定。如果你是 LangChain/LangGraph 重度用户，且追求开箱即用的评估体验，它是“原厂”首选。

5.2 核心差异速览

维度	Langfuse	LangSmith
出身/定位	开源通用 LLM 工程平台（MIT License）	LangChain 官方出品的闭源 SaaS（企业版可自托管）
核心优势	数据主权、框架无关、成本透明	与 LangChain 生态无缝集成、评估功能强大
部署模式	云托管或自托管（Docker/K8s，数据完全自控）	主要为云 SaaS（企业版支持私有化，需商业授权）
集成难度	需手动接入 SDK，但支持 OpenAI SDK、LlamaIndex 等	LangChain 用户零配置（环境变量即用），非 LangChain 需适配
定价模型	自托管免费（仅服务器成本）；云版按量付费	按 Trace 量 + 席位费（$39/用户/月起），免费额度有限

5.3 功能深度对比

追踪（Tracing）与可观测性

Langfuse
：采用 Span/Generation 模型，结构清晰。最大亮点是原生支持 OpenTelemetry，能无缝接入现有的可观测性体系（如 Jaeger），对非 LLM 的普通 API 调用也能很好追踪。
LangSmith
：采用 Run Tree 模型。在可视化 LangChain LCEL 链路 和 LangGraph Agent 循环 时具有绝对优势，能自动解析每个节点的输入输出，调试体验极佳。

2.评估（Evaluation）能力

Langfuse
：功能相对基础，支持 LLM-as-a-judge 和人工标注，但需要团队自行搭建更复杂的评估流水线，灵活性高但开箱即用性稍弱。
LangSmith
：评估是其强项。内置了丰富的评估器（Criteria、Embedding Distance 等），提供了完善的 A/B 测试、数据集管理和自动化评分功能，更适合需要严谨实验的团队。

3.提示词管理（Prompt Management）

Langfuse
：提供版本控制、A/B 测试和集中化管理。它的 Playground 支持直接基于生产环境的 Trace 数据进行提示词迭代，流程非常顺畅。
LangSmith
：同样有 Prompt Hub 和 Canvas 功能，能直接在 UI 里调试 Chain。对于纯 LangChain 项目，提示词版本与 Chain 版本结合得更紧密。

5.4 选型决策指南

选择 Langfuse 的情况（✅）

数据合规是红线
：金融、医疗或政府项目，数据必须留在内网，需要 100% 自托管。
技术栈“大杂烩”
：你的应用同时使用了 OpenAI SDK、Axios 自定义调用、AutoGen 等，需要框架无关的统一观测层。
成本敏感
：长期来看，自托管能省下大量 SaaS 订阅费，且云版免费额度较高（每月数万事件免费）。

选择 LangSmith 的情况（✅）

全栈 LangChain
：你的 Agent、Chain 全部基于 LangChain/LangGraph 构建，LangSmith 就是你的“原生调试器”，集成体验无与伦比。
看重评估与实验
：你需要强大的内置工具来跑通“评测-迭代-发布”的完整闭环，不想自己造轮子。

追求开发效率：不想折腾运维，愿意付费换取官方 SLA 支持和企业级功能。

如果项目涉及金融或数据敏感行业（如本地金融机构），Langfuse 自托管通常是更稳妥的选择，能完全满足网络安全法对数据出境/存储的要求。如果是初创团队快速验证 MVP，直接使用 LangSmith 云服务能极大提升前期开发效率。

小结

你的场景	推荐工具	理由
自研框架 / 混合 SDK / 数据敏感	Langfuse	开源可控，不绑定供应商
纯 LangChain 项目 / 重度评估需求	LangSmith	生态原配，评估功能强
PoC 阶段 / 个人开发者	LangSmith	免费额度够用，上手快
生产级部署 / 合规要求高	Langfuse	自托管成本低，数据安全

06 详细介绍下Coze Loop平台

Coze Loop的github地址如下：https://github.com/coze-dev/coze-loop

5.4K star

Coze Loop 是开源的。它采用 Apache 2.0 协议

Coze Loop（扣子罗盘）是字节跳动推出的 AgentOps 平台，专为解决 AI 智能体“开发黑盒、评测靠猜、运维抓瞎”的痛点。它通过评测（Evaluation）和观测（Observability）两大核心模块，将智能体的开发从“玄学炼丹”转变为“数据驱动的工程化迭代”。

6.1 智能体可观测性：全链路 Trace 与监控

可观测性模块的核心是让智能体的每一次“思考”过程变得透明、可追溯。它不仅仅是日志记录，而是像“飞行记录仪”一样还原完整的决策链路。

1.全链路 Trace 追踪

节点级拆解
：自动记录从用户输入到最终输出的每一个环节，包括 Prompt 解析、模型调用（LLM）、工具调用（Tools）、代码执行等。你可以清晰看到是哪个节点耗时过长或报错。
中间态捕获
：不仅看结果，还能查看每一步的中间结果和变量状态。例如，能看到模型在调用工具前生成的参数是否正确，这对于调试复杂的工作流至关重要。
多框架集成
：提供 Go、Python、Node.js SDK，支持集成 Eino、LangChain 等主流框架，也支持 Coze 平台原生应用的自动上报。

2.性能与成本监控

关键指标看板
：实时监控 Token 消耗、响应延迟（Latency）、错误率（Error Rate），支持按模型、应用维度进行拆分统计。
异常告警
：基于 Trace 数据设置预警规则，当出现高频错误或性能骤降时快速定位根因，告别被动救火。

3.BadCase 自动回流

这是 Coze Loop 的一大特色。系统支持从线上 Trace 中自动采样，对真实用户对话进行在线评测，筛选出低分（BadCase）对话，并自动回流到评测数据集中。这使得你的测试集能不断吸收真实场景的边界情况，实现越用越聪明的数据飞轮。

6.2 智能体评测：数据驱动的质量度量

评测模块旨在用自动化、标准化的测试取代主观的“感觉良好”，为 Prompt 和模型选择提供科学依据。

1.评测体系架构

评测流程通常遵循“评测集(Dataset)→ 评估器(Evaluator)→ 实验(Experiment)”的闭环：

组件	功能说明	核心能力
评测集	定义“考题”	支持 CSV 导入或手动创建，包含输入（Input）和期望输出（Reference）。可基于 Trace 回流的数据自动扩充。
评估器	定义“评分标准”	预置准确性、简洁性、合规性等模板；支持自定义 LLM 作为“裁判”进行多维度打分（如是否跑题、工具调用是否正确）。
评测实验	执行“考试”	将特定的 Prompt、模型、数据集组合运行，生成可视化报告（得分率、BadCase 分析）。

2.核心评测维度

准确性(Accuracy)
：事实一致性、逻辑正确性。
简洁性(Conciseness)
：避免冗余废话。
合规性(Safety)
：敏感词、偏见、有害内容检测。
Agent 专项
：工具调用成功率、多步规划合理性（这是区别于普通文本生成的独特能力）。

3.多模型对比与 A/B 测试

支持在同一套评测集上对比不同模型（如 GPT-4 vs DeepSeek）或不同 Prompt 版本的表现，通过数据直观地选出性价比最高的方案，避免盲目追新模型。

6.3 功能全景与定位

为了让你更直观地把握 Coze Loop 的全貌，下表总结了它在智能体生命周期中的角色：

阶段	核心功能	解决的问题
开发	Prompt 调试、多模型对比、版本管理	提升 Prompt 编写效率，管理迭代历史
评测	自动化评测实验、BadCase 分析	量化智能体质量，为迭代提供数据依据
观测	全链路 Trace、性能监控、日志审计	线上问题快速定位，保障稳定性与合规性
调优	基于评测/观测结果的 Prompt 优化	形成“观测-分析-优化”的闭环

总结

Coze Loop 的智能体可观测性让你能“看得清”智能体内部每一步的执行细节；智能体评测则让你能“测得准”，用数据证明每一次迭代是进步还是倒退。这两者结合，构成了 AI 智能体从“能用”到“好用”的关键基础设施

07 详细介绍下MLflow平台

MLflowgithub地址如下： https://github.com/mlflow/mlflow

25.8K star 5.7K fork

MLflow 是一个开源的项目，其核心代码库（包括你之前关注的智能体可观测性与评测功能）均遵循 Apache License 2.0 协议。

MLflow 已从传统的机器学习生命周期管理平台，全面进化为生成式 AI 与智能体（Agent）的首选可观测性平台。针对你关心的智能体可观测性与评测，MLflow 2.x/3.x 通过 Trace（追踪） 和 GenAI Evaluation（评估） 两大核心模块，解决了智能体“黑盒”调试与量化评估的难题。

7.1 智能体可观测性（Observability）：看清每一步决策

传统日志只能记录“发生了什么”，而 MLflow 的 Trace 系统记录了“为什么发生”。它通过自动化的分布式链路追踪，将复杂的智能体工作流可视化。

1.核心概念：Trace 与 Span

Trace（追踪）
：代表一次完整的用户请求生命周期。例如，用户问“帮我订一张机票”，从接收到请求到最终回复的整个过程就是一个 Trace。
Span（跨度）
：Trace 中的每一个独立步骤。例如：意图识别 -> 工具调用（查询航班） -> LLM 合成回复。每个 Span 会记录输入、输出、耗时和元数据（如 Token 用量、成本）。

2.实战价值：从“盲猜”到“精准定位”

调试工具调用
：当智能体卡住或报错时，你可以在 UI 中直接展开 Trace，看到底是哪个工具（Tool）调用超时，或者是哪一步的 LLM 调用返回了意外格式。
成本与性能分析
：自动记录每次 LLM 调用的 Token 消耗和延迟，帮你识别是检索步骤（Retrieval）还是生成步骤（Generation）拖慢了整体速度。
多框架支持
：原生支持 LangChain、LlamaIndex、LangGraph 等主流 Agent 框架，通常只需一行 autolog()代码即可开启追踪。

7.2 智能体评测（Evaluation）：量化“智能”质量

MLflow 的评估框架（mlflow.genai.evaluate）专为 GenAI 的复杂性设计，不仅看最终答案的对错，更评估推理过程。

1.评测模式：离线与在线

模式	应用场景	核心功能
离线评估 (Offline)	开发/回归测试	在标注数据集上批量运行，对比不同 Prompt 或模型版本的效果，确定最佳候选。
在线监控 (Online)	生产环境	对实时用户请求进行采样评估，监控质量漂移（如安全违规、幻觉增多）。

2.内置“法官”（LLM-as-a-Judge）

MLflow 提供了强大的内置评估器，利用 LLM 作为裁判来评估智能体的输出：

正确性(Correctness)
：答案是否准确。
有据性(Groundedness)
：答案是否严格基于提供的上下文（防幻觉）。
安全性(Safety)
：是否包含不当内容。
工具使用合理性
：是否调用了该调用的工具，调用参数是否正确。

3.自定义评测逻辑

你可以通过 @scorer装饰器定义业务专属的评测规则。例如，评测一个金融客服智能体：

合规性检查
：是否在回答中包含了必要的风险提示语。
工具调用链验证
：是否遵循了“先查询余额再转账”的正确流程（通过分析 Trace 中的 Span 顺序实现）。

7.3 典型工作流：从开发到生产

开发阶段
：使用 mlflow.genai.evaluate在测试集上跑分，利用 LLM 法官快速筛选出效果最好的 Agent 版本。
部署阶段
：将选中的版本注册到 MLflow Model Registry，并部署到生产环境。
生产阶段
：开启在线监控，持续收集 Trace 和反馈。如果发现质量下降（如用户差评增多），可触发回滚或重新评估。

7.1 版本注意（MLflow 2.x vs 3.x）

MLflow 2.x
：评估功能主要在 mlflow.evaluate或 Databricks 特定的 databricks-agentsSDK 中。
MLflow 3.x
：评估 API 统一迁移至 mlflow.genai命名空间（如 mlflow.genai.evaluate），API 更简洁，且深度集成 Trace 数据。

总结

对于智能体开发，MLflow 的核心价值在于：

可观测性
：通过 Trace 把“黑盒”变成“玻璃盒”，让你能回放智能体的整个思考过程。
评测
：通过 GenAI Evaluation 提供量化的质量、成本、延迟指标，让“感觉效果不错”变成“数据证明效果更好”。

08 详细介绍下Arize Phoenix项目

Arize Phoenix项目github地址如下：https://github.com/Arize-ai/phoenix

9.6K star

核心 Python 库为 Mulan PSL 2.0（类似 Apache 2.0 的宽松协议），部分客户端组件采用 Apache 2.0。

8.1 核心功能详解

1.智能体可观测性（Agent Observability）

Phoenix 基于 OpenTelemetry 和自研的 OpenInference 标准，能自动追踪智能体执行的完整链路，解决“Agent 内部到底发生了什么”的问题。

全链路追踪（Tracing）
：自动记录智能体的每一步推理、工具调用（Function Call）、API 请求。你可以在 UI 上看到完整的树状结构，精确到每个工具的执行耗时、输入输出。
框架无感集成
：原生支持主流 Agent 框架，包括 LangGraph、CrewAI、OpenAI Agents SDK、Claude Agent SDK、AutoGen 等。无论你用什么框架，只需几行代码注入 instrumentation 即可接入。
检索增强生成（RAG）深度分析
：特别针对 RAG 应用，能可视化检索到的文档片段（Chunks）、计算检索相关性，帮助定位是“没搜到”还是“答错了”。

2. 智能体评测（Agent Evaluation）

这是 Phoenix 的另一大核心，用于量化智能体的表现，支持 LLM-as-a-Judge（用大模型自动打分）模式。

自动化评估（Evals）
：提供预置的评估器，衡量回答相关性（Answer Relevance）、检索相关性（Retrieval Relevance）、毒性（Toxicity）等指标。
实验对比（Experiments）
：支持 A/B Testing。你可以对比不同模型（如 GPT-4 vs Claude）、不同提示词（Prompt）或不同参数在同一组测试数据集上的表现，通过数据决定最优配置。
数据集管理
：支持创建版本化的测试数据集（Dataset），用于回归测试，确保代码更新不会导致智能体性能回退。

8.2 架构与部署

自托管优先
：Phoenix 设计为可本地运行（Localhost）、Docker 或 K8s 部署，数据完全掌握在自己手中，适合对数据隐私要求高的企业。
多语言支持
：虽然以 Python 生态为主，但通过 OpenTelemetry 的 OTLP 协议，也支持 Node.js（TypeScript）等语言的应用监控。
UI 界面
：提供 Web UI（默认端口 6006）用于可视化 traces、查看评估报告和进行 Prompt 调优（Playground）。

8.3 快速开始

如果你在成都本地开发，部署体验非常轻量：

# 1. 安装
pip install arize-phoenix

# 2. 启动服务（会启动本地服务器和 UI）
phoenix serve
# 访问 http://localhost:6006# 3. 在你的 Agent 代码中注入监控（以 OpenAI 为例）
from openinference.instrumentation.openai import OpenAIInstrumentor
from phoenix.otel import register

tracer_provider = register(endpoint="http://localhost:4317") # OTLP 端点
OpenAIInstrumentor().instrument(tracer_provider=tracer_provider)

8.4 同类对比

在 LLM 可观测性领域，Phoenix 的定位非常清晰：

vs LangSmith
：LangSmith 更偏向 LangChain 生态的商业化托管服务；Phoenix 是开源、框架无关、可自建。

总结：如果你需要一款开源、可私有化部署、且能深度监控智能体（Agent）每一步决策的工具，Arize Phoenix 是比较成熟的选择。

09详细介绍下OpenCompass项目

OpenCompass的github如下： https://github.com/open-compass/opencompass

7K star

开源协议：Apache License 2.0

OpenCompass（司南评测体系）是由上海人工智能实验室开源的大模型及智能体全维度评测平台。它不仅是业界公认的权威评测基准，也是目前国内大模型榜单的重要数据来源。

针对你关心的智能体可观测性与评测功能，这里为你详细拆解：

9.1 核心功能：智能体可观测性与评测

你提到的“智能体可观测性”在 OpenCompass 中主要通过全链路评测和工具调用分析来实现。它不仅仅是跑分，更是对智能体决策过程的深度透视。

1.智能体评测（Agent Evaluation）

OpenCompass 将智能体能力作为一级评测维度，重点考察模型在复杂任务中的表现：

工具调用能力
：评测模型是否能正确调用外部工具（如计算器、API、数据库），并处理工具返回结果。它支持与 Lagent、LangChain 等智能体框架配合，进行端到端测试。
任务规划与推理
：通过多步推理任务（如数学题、代码生成、决策任务），评估智能体的规划能力、步骤正确性以及抗幻觉能力。
代码解释器评测
：专门针对“代码即工具”的场景，评估模型生成代码、执行并修正错误的能力（如使用 CIBench 数据集）。

2.可观测性（Observability）

这里的“可观测”指的是通过评测数据反推模型内部状态。OpenCompass 提供了丰富的诊断维度：

过程追踪
：不仅看最终答案的对错，还记录智能体每一步的思考（Chain of Thought）、工具选择及中间结果。这为开发者提供了“黑盒”内部的执行轨迹。
多维度切片
：支持对同一模型在不同任务类型（如知识问答 vs 工具调用）上的表现进行对比，快速定位智能体的能力短板（例如：是推理逻辑问题，还是工具调用接口理解问题）。
鲁棒性测试
：通过注入噪声或对抗性提示词，测试智能体在复杂环境下的稳定性。

9.2 架构与生态

OpenCompass 2.0 构建了“铁三角”生态，方便你快速上手：

模块	名称	功能描述
CompassKit	评测工具链	核心代码库，支持分布式评测、多模态评测、主观评测等。
CompassHub	基准社区	开源社区共建的评测数据集与基准（Hub）。
CompassRank	评测榜单	官方发布的模型能力排行榜（可在官网查看）。

9.3 快速开始

如果你在成都本地部署，可以利用其分布式评测能力加速测试（例如使用多张显卡并行评测）：

# 1. 安装（支持 pip 一键安装）
pip install opencompass

# 2. 运行智能体相关评测示例# 通常需要配置模型路径和数据集（如工具调用数据集）
opencompass --config path/to/agent_eval_config.py

小结

OpenCompass 是一个Apache2.0 开源的“大模型/智能体体检中心”。它不仅提供分数排名，更通过细粒度的评测维度和过程记录，为你提供了强大的智能体可观测性能力，非常适合用于研发阶段的模型能力诊断与调优。

最新最全的文章请关注我的微信公众号或者知乎专栏：数据拾光者。

码字不易，欢迎小伙伴们关注和分享。