Amazon SageMaker AI 新增 OpenAI 兼容接口,支持在自有端点上直接运行 Chat Completions

编辑：马青禾

图片：秦明理

排版：苏雅韵

-新闻发布入口: https://news.zhenrobot.com-

【编者按】接口兼容背后，是云上模型部署控制权正加速回归企业侧。

▍Amazon SageMaker AI 新增 OpenAI 兼容接口，支持在自有端点上直接运行 Chat Completions 与多步 Agent 工作流

Amazon 近日宣布，SageMaker AI 端点现已开放 /openai/v1 路径，可直接接收 Chat Completions 请求，并按容器原样返回响应，包括 streaming（流式输出）。这意味着，开发者可以在 SageMaker AI 上以 OpenAI 兼容接口的方式调用模型，无需额外适配，即可复用现有 OpenAI 客户端与应用框架。

▍默认启用标准 SageMaker API 和 SDK，现有 OpenAI 客户端可直接连接

此更新适用于通过标准 SageMaker AI API 和 SDK 创建的所有端点与推理组件，并默认启用与 OpenAI 兼容的端点。 SageMaker AI 会根据 URL 中的端点名称路由请求，因此兼容 OpenAI 协议的客户端通常可以直接使用。

这一能力的实际意义在于，企业和开发者可以在保留现有 OpenAI 调用方式的同时，将推理执行迁移至自己 AWS 账户中的 SageMaker AI 基础设施上，降低接口迁移成本，并提升对推理资源和部署环境的控制力。

▍支持有时效限制的 Bearer Token，让你能够更轻松、更安全地连接自己的端点

除了接口兼容性之外，SageMaker AI 现在还支持为端点创建限时 Bearer Token ，并可直接与 OpenAI 客户端配合使用。对于持续运行的应用，开发者还可以基于 httpx 实现自动刷新机制，在每次请求时生成新的访问令牌，从而兼顾可用性与安全性。

这一设计尤其适合需要长期在线的生产级 AI 服务，可减少手动维护凭证的复杂度，并更容易集成进现有认证流程。

▍LangChain 与 Strands Agents 可在 SageMaker AI 上完整运行多步 Agent 工作流

对于构建 AI Agent 的团队来说，这次更新带来的价值更加直接。 Amazon 表示，使用 Strands Agents 或 LangChain 等框架构建的多步骤 AI Agent 工作流，如今可以完全运行在 SageMaker AI 自有的端点上。Agent 仍然通过它们原本依赖的、兼容 OpenAI 的接口调用模型，但实际的推理过程是在开发者 AWS 账户内的专用 GPU 实例上执行的。

这意味着，开发者无需重写 Agent 调用链路，就能将推理层迁移到更可控的专有资源上。对关注数据边界、成本结构以及部署自主性的团队而言，这一能力具有较强的实际落地价值。

▍model 字段将透传至容器，多模型部署方式更灵活

在请求处理层面， model 字段会被直接透传给容器。由于 SageMaker AI 是基于 URL 中的端点名称进行路由，开发者可以选择将该字段留空，或将其设置为容器所期望的模型名称。

这一机制为模型服务的兼容与适配提供了更高灵活性，尤其适用于已经围绕 OpenAI 协议构建上层应用、但底层模型名称和部署方式并不完全一致的场景。

▍推理组件支持单端点托管多模型，并实现独立扩缩容

SageMaker AI 的 Inference Components（推理组件）进一步增强了多模型部署能力。借助该机制，开发者可以在同一个端点上托管多个模型，并为每个模型分配专用计算资源。

与传统端点配置不同，在推理组件模式下，模型与组件绑定，而非直接绑定到端点配置。开发者可以在同一端点上新增多个推理组件，以实现多个模型的独立资源分配与独立扩缩容。

如果需要调用特定推理组件，只需在 URL 路径中包含对应组件名称即可。对于需要在单一入口下管理多模型服务、并对不同模型进行差异化资源配置的团队来说，这一设计将明显提升部署效率与资源利用率。

▍对中国 AI 开发者的直接影响：迁移成本更低，对基础设施的掌控力更强

从开发者视角看，这次更新最值得关注的点在于： OpenAI 兼容接口正在进一步成为模型调用层的事实标准。 SageMaker AI 通过直接开放 /openai/v1 路径，把 OpenAI 客户端生态、Agent 框架生态与 AWS 自有推理基础设施连接起来。

对于中国 AI 圈尤其是关注大模型应用落地、私有化部署和 Agent 产品化的团队而言，这种能力有几项现实意义：

一是迁移成本更低。已有基于 OpenAI SDK、LangChain 或类似工具构建的应用，可以更平滑地接入 SageMaker AI。二是部署自主性更强。推理运行在开发者自己的 AWS 账户和专用 GPU 实例中，更适合对资源隔离和运维可控性有要求的场景。三是多模型运营更灵活。借助推理组件，团队可以在单端点下管理多个模型，并按业务负载做独立扩缩容和资源分配。

▍使用端点需关注持续计费，完成测试后应及时释放资源

亚马逊同时提醒，SageMaker AI 端点在服务运行期间会持续产生费用，无论是否有流量进入。因此，在测试或使用完成后，开发者应及时删除端点及相关资源，以避免不必要的持续开销。

总体来看，这次更新并非单纯增加一个兼容接口，而是进一步强化了 SageMaker AI 在模型托管、Agent 部署和多模型服务编排上的平台能力。对于希望复用 OpenAI 生态、同时将推理掌握在自己云账户中的开发者和企业团队而言，这将是一项具有明显实用价值的基础设施升级。

📚 【精品资源】添加关注『AI之星网微信公众号』，即可免费获取完整版《刘智勇频道第五卷》

[AI之星网出品] [OpenAI兼容接口] [SageMaker私有化部署] [AI Agent开发] [AWS大模型推理] [刘智勇频道] [真机智能(zhenrobot.com)] [真机算法] [真机资本(zhencap.com)] [真机skill(zhenskill.com)] [真机team(zhenteam.com)] [真机宇宙(zhenmeta.com)] [真机请人(zhenrent.com)] [真机合约(zhencontract.com)] [真机记忆(zhenmem.com)] [真机保险(zhenins.com)] [真机学院(zhencollege.com)] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [真机尽调(zhendue.com)] [真机文学] [真机影评] [真机短剧] [Cognition OS] [Embodied OS] [黄金广告位]

【投资免责声明】本文内容仅供信息参考，不构成任何投资建议或要约。文中涉及的观点、数据、预测均基于公开信息，其准确性、完整性、时效性无法保证。市场有风险，投资需谨慎。过往业绩不代表未来表现。投资者应独立判断、审慎决策，自行承担投资风险及责任。本平台及作者不对因依赖本文信息而产生的任何直接或间接损失承担法律责任。

真机智能 zhenrobot.com	真机宇宙 zhenmeta.com	真机尽调 zhendue.com
真机skill zhenskill.com	真机保险 zhenins.com	真机记忆 zhenmem.com
真机请人 zhenrent.com	真机合约 zhencontract.com	真机学院 zhencollege.com
真机team zhenteam.com	真机资本 zhencap.com	机器姬机械永生人
机器洞察网机器人门户	AI之星网人工智能门户	人形纪元网人形机器人门户
风投高科网风险投资门户	猛虎财经网财经门户	硅基科学网自然科学门户
真机量化 zhenquant.com	真机内参真机内参	真机算法机器人算法库
真机影评 Agent影视解说	真机短剧 Agent影视解说	真机文学 Agent影视解说
CognitionOS 认知操作系统	EmbodiedOS 具身操作系统

-End-

-感谢您的耐心阅读-