一、它是什么？解决什么问题？

AI Agent 上线之后，团队最头疼的不是它能不能跑，而是不知道它在干什么、出了问题找不到根因、更不敢保证它不会输出有害内容。

传统监控工具可以记录日志，却看不懂多步骤 Agent 的推理链；LLM-as-Judge 评估方案虽然精准，但成本高、延迟大，根本无法覆盖 100% 的生产流量。

Galileo 的回答是：把离线评估和生产护栏合并成一套流水线。研发阶段跑出来的评估指标，直接下沉为生产环境的实时防护规则；出了问题，平台自动定位到具体的工具调用失败或推理逻辑断层。目标用户是需要在高风险场景中可信部署 AI 的企业工程团队。

二、它能做什么？

功能	说明
全链路追踪	Graph View / Trace View / Message View 三视角，可视化 Agent 每一步决策路径
Luna-2 评估模型	基于 Llama 3B/8B 微调的自研小模型，$0.02/1M tokens，成本约为 GPT-4o 的 1/250
20+ 开箱评估指标	覆盖 RAG、Agent、安全、Guardrails 五类，可按业务场景自动调优
CLHF 自定义指标	提供 2-5 个示例，几分钟内自动生成专属评估维度
运行时护栏（Protect）	实时拦截提示注入、PII 泄露、幻觉输出，支持策略化干预
Signals 信号检测	自动扫描生产 Traces，发现未知故障模式并给出修复建议
多部署模式	SaaS / VPC 私有云 / On-Premises 本地部署，SOC 2 合规
OpenTelemetry 集成	原生支持 OTel 标准，无需改造现有遥测管道即可接入

三、它是如何做到的？

Galileo 的核心技术逻辑是一条四层管道：

数据层        →  评估引擎        →  Luna-2 蒸馏     →  生产护栏（合成+生产）     （LLM-as-Judge     （L4 GPU 运行，    （实时干预 Agent                  自动调优）         延迟 <200ms）       行为与工具访问）

Luna-2是这套体系的关键。它并非通用大模型，而是专门为”评估 AI 输出质量”这件事微调的紧凑模型——精度 95% F1，延迟低于 200ms，成本降低 97%。这让”覆盖 100% 生产流量做实时评估”从不可能变成可能。

Signals 引擎则负责从海量 Traces 里自动发现规律：什么类型的用户问题最容易触发幻觉？哪个工具调用路径成功率最低？给出的不是报警，而是可操作的修复建议。

护栏层（Protect）做到了目前竞品普遍缺失的一件事：运行时干预。不是事后告警，而是在有害输出到达用户前直接拦截，并根据护栏策略控制 Agent 的下一步行为。

四、它能用到什么场景？

场景	描述
企业知识库问答 Agent	监控 RAG 检索质量，防止幻觉和 PII 泄露
客服 / 销售 Agent	实时护栏防止不当承诺或敏感信息外泄
代码生成 Agent	追踪工具调用链，评估生成代码的安全性
金融合规 Agent	SOC 2 合规 + VPC 部署满足监管要求，全量 Traces 审计
多 Agent 协同系统	可视化跨 Agent 的消息传递与决策路径，定位协作断点

五、为什么值得关注？

运行时保护是稀缺能力：在主流 6 大可观测平台中，Galileo 是目前唯一原生提供运行时干预（而非事后告警）的平台，这在高风险企业场景中是硬门槛。
Luna-2 重新定义评估成本：$0.02/1M tokens 的评估成本，让”全量覆盖”替代”采样”成为标准实践，评估密度质变带来质量保障密度的质变。
私有化部署可行：支持 On-Premises，对数据出境有严格要求的金融、政务客户可以直接落地，不必在数据安全和可观测能力之间做取舍。
从 MLOps 进化而来：2021 年创立、Series B 已融资超 6300 万美元，HuggingFace CEO 等 AI 行业领袖参投，产品成熟度和路线稳定性有保障。

六、基本信息卡

项目	内容
产品名称	Galileo AI
类型	商业平台（闭源）
成立时间	2021 年
总部	美国旧金山
知名投资人	Clement Delangue（HuggingFace CEO）、Ankit Sobti（Postman CTO）、Battery Ventures
部署方式	SaaS / VPC / On-Premises
合规认证	SOC 2
免费套餐	5,000 traces/月，无限用户，无限自定义评估
Pro 版	$100/月（5 万 traces）
官网	galileo.ai

七、竞品分析

Galileo 所在的赛道是AI 可观测性 & 评估，主要竞品包括 LangSmith、Arize AI (Phoenix)、Langfuse、Braintrust、AgentOps。

维度	Galileo	LangSmith	Langfuse	Arize AI	AgentOps
开源	❌	❌	✅ MIT	✅ Phoenix	❌
运行时干预	✅ 唯一支持	❌	❌	❌	❌
专有评估模型	✅ Luna-2	❌	❌	❌	❌
私有化部署	✅ 企业版	❌	✅ 完整	✅ Phoenix	❌
生态绑定	框架无关	LangChain 深绑定	框架无关	框架无关	轻量原生
成本	$0.02/1M tokens（评估）	按用量计费	开源免费	Phoenix 免费	按量

差异化判断：Galileo 的核心优势是”唯一原生支持运行时干预 + 自研低成本评估模型”的一体化闭环；主要短板是闭源商业产品、企业版定价不透明、对数据完全自控有需求的团队仍需考虑 Langfuse 或 Arize Phoenix。

技术负责人小结

对于已经有 AI Agent 上线或近期准备上生产的团队，Galileo 解决的是一个真实且高频的痛点：你不知道你的 Agent 在生产里到底在干什么，出了问题也不知道从哪查。

它的 Luna-2 方案让全量评估覆盖的成本首次降到可接受范围，运行时护栏能力对客服、金融等高风险场景尤为关键。

选型建议：如果预算允许且团队不想自建可观测基础设施，Galileo 是目前功能最完整的商业解决方案；如果有数据主权要求或预算受限，Langfuse（开源自托管）是更务实的选择。可以先用 Galileo 免费套餐（5000 traces/月）跑一个月，看看能不能发现你现有 Agent 里隐藏的问题。