乐于分享
好东西不私藏

Galileo AI:让 AI Agent 在生产环境里"看得见、管得住"

Galileo AI:让 AI Agent 在生产环境里"看得见、管得住"

一句话定位:Galileo 是专为企业级 AI Agent 设计的可观测性与可靠性平台——不只是记录 Agent 做了什么,而是在它犯错之前主动拦住它。


一、它是什么?解决什么问题?

AI Agent 上线之后,团队最头疼的不是它能不能跑,而是不知道它在干什么、出了问题找不到根因、更不敢保证它不会输出有害内容。

传统监控工具可以记录日志,却看不懂多步骤 Agent 的推理链;LLM-as-Judge 评估方案虽然精准,但成本高、延迟大,根本无法覆盖 100% 的生产流量。

Galileo 的回答是:把离线评估生产护栏合并成一套流水线。研发阶段跑出来的评估指标,直接下沉为生产环境的实时防护规则;出了问题,平台自动定位到具体的工具调用失败或推理逻辑断层。目标用户是需要在高风险场景中可信部署 AI 的企业工程团队。


二、它能做什么?

功能
说明
全链路追踪
Graph View / Trace View / Message View 三视角,可视化 Agent 每一步决策路径
Luna-2 评估模型
基于 Llama 3B/8B 微调的自研小模型,$0.02/1M tokens,成本约为 GPT-4o 的 1/250
20+ 开箱评估指标
覆盖 RAG、Agent、安全、Guardrails 五类,可按业务场景自动调优
CLHF 自定义指标
提供 2-5 个示例,几分钟内自动生成专属评估维度
运行时护栏(Protect)
实时拦截提示注入、PII 泄露、幻觉输出,支持策略化干预
Signals 信号检测
自动扫描生产 Traces,发现未知故障模式并给出修复建议
多部署模式
SaaS / VPC 私有云 / On-Premises 本地部署,SOC 2 合规
OpenTelemetry 集成
原生支持 OTel 标准,无需改造现有遥测管道即可接入

三、它是如何做到的?

Galileo 的核心技术逻辑是一条四层管道:

数据层        →  评估引擎        →  Luna-2 蒸馏     →  生产护栏(合成+生产)     (LLM-as-Judge     (L4 GPU 运行,    (实时干预 Agent                  自动调优)         延迟 <200ms)       行为与工具访问)

Luna-2是这套体系的关键。它并非通用大模型,而是专门为”评估 AI 输出质量”这件事微调的紧凑模型——精度 95% F1,延迟低于 200ms,成本降低 97%。这让”覆盖 100% 生产流量做实时评估”从不可能变成可能。

Signals 引擎则负责从海量 Traces 里自动发现规律:什么类型的用户问题最容易触发幻觉?哪个工具调用路径成功率最低?给出的不是报警,而是可操作的修复建议。

护栏层(Protect)做到了目前竞品普遍缺失的一件事:运行时干预。不是事后告警,而是在有害输出到达用户前直接拦截,并根据护栏策略控制 Agent 的下一步行为。


四、它能用到什么场景?

场景
描述
企业知识库问答 Agent
监控 RAG 检索质量,防止幻觉和 PII 泄露
客服 / 销售 Agent
实时护栏防止不当承诺或敏感信息外泄
代码生成 Agent
追踪工具调用链,评估生成代码的安全性
金融合规 Agent
SOC 2 合规 + VPC 部署满足监管要求,全量 Traces 审计
多 Agent 协同系统
可视化跨 Agent 的消息传递与决策路径,定位协作断点

五、为什么值得关注?

  • 运行时保护是稀缺能力:在主流 6 大可观测平台中,Galileo 是目前唯一原生提供运行时干预(而非事后告警)的平台,这在高风险企业场景中是硬门槛。
  • Luna-2 重新定义评估成本:$0.02/1M tokens 的评估成本,让”全量覆盖”替代”采样”成为标准实践,评估密度质变带来质量保障密度的质变。
  • 私有化部署可行:支持 On-Premises,对数据出境有严格要求的金融、政务客户可以直接落地,不必在数据安全和可观测能力之间做取舍。
  • 从 MLOps 进化而来:2021 年创立、Series B 已融资超 6300 万美元,HuggingFace CEO 等 AI 行业领袖参投,产品成熟度和路线稳定性有保障。

六、基本信息卡

项目
内容
产品名称
Galileo AI
类型
商业平台(闭源)
成立时间
2021 年
总部
美国旧金山
知名投资人
Clement Delangue(HuggingFace CEO)、Ankit Sobti(Postman CTO)、Battery Ventures
部署方式
SaaS / VPC / On-Premises
合规认证
SOC 2
免费套餐
5,000 traces/月,无限用户,无限自定义评估
Pro 版
$100/月(5 万 traces)
官网
galileo.ai

七、竞品分析

Galileo 所在的赛道是AI 可观测性 & 评估,主要竞品包括 LangSmith、Arize AI (Phoenix)、Langfuse、Braintrust、AgentOps。

维度
Galileo
LangSmith
Langfuse
Arize AI
AgentOps
开源
✅ MIT
✅ Phoenix
运行时干预
✅ 唯一支持
专有评估模型
✅ Luna-2
私有化部署
✅ 企业版
✅ 完整
✅ Phoenix
生态绑定
框架无关
LangChain 深绑定
框架无关
框架无关
轻量原生
成本
$0.02/1M tokens(评估)
按用量计费
开源免费
Phoenix 免费
按量

差异化判断:Galileo 的核心优势是”唯一原生支持运行时干预 + 自研低成本评估模型”的一体化闭环;主要短板是闭源商业产品、企业版定价不透明、对数据完全自控有需求的团队仍需考虑 Langfuse 或 Arize Phoenix。


技术负责人小结

对于已经有 AI Agent 上线或近期准备上生产的团队,Galileo 解决的是一个真实且高频的痛点:你不知道你的 Agent 在生产里到底在干什么,出了问题也不知道从哪查

它的 Luna-2 方案让全量评估覆盖的成本首次降到可接受范围,运行时护栏能力对客服、金融等高风险场景尤为关键。

选型建议:如果预算允许且团队不想自建可观测基础设施,Galileo 是目前功能最完整的商业解决方案;如果有数据主权要求或预算受限,Langfuse(开源自托管)是更务实的选择。可以先用 Galileo 免费套餐(5000 traces/月)跑一个月,看看能不能发现你现有 Agent 里隐藏的问题。