

编辑:马青禾
图片:秦明理
排版:苏雅韵
-新闻发布入口: https://news.zhenrobot.com-
|
▍Amazon SageMaker AI 新增 OpenAI 兼容接口,支持在自有端点上直接运行 Chat Completions 与多步 Agent 工作流
Amazon 近日宣布,SageMaker AI 端点现已开放 /openai/v1 路径,可直接接收 Chat Completions 请求,并按容器原样返回响应,包括 streaming(流式输出) 。这意味着,开发者可以在 SageMaker AI 上以 OpenAI 兼容接口 的方式调用模型,无需额外适配,即可复用现有 OpenAI 客户端与应用框架。
▍默认启用标准 SageMaker API 和 SDK,现有 OpenAI 客户端可直接连接
此更新适用于通过标准 SageMaker AI API 和 SDK 创建的所有端点与推理组件,并默认启用与 OpenAI 兼容的端点。 SageMaker AI 会根据 URL 中的端点名称路由请求,因此兼容 OpenAI 协议的客户端通常可以直接使用。
这一能力的实际意义在于,企业和开发者可以在保留现有 OpenAI 调用方式的同时,将推理执行迁移至自己 AWS 账户中的 SageMaker AI 基础设施上,降低接口迁移成本,并提升对推理资源和部署环境的控制力。

▍支持有时效限制的 Bearer Token,让你能够更轻松、更安全地连接自己的端点
除了接口兼容性之外,SageMaker AI 现在还支持为端点创建 限时 Bearer Token ,并可直接与 OpenAI 客户端配合使用。 对于持续运行的应用,开发者还可以基于 httpx 实现自动刷新机制,在每次请求时生成新的访问令牌,从而兼顾可用性与安全性。
这一设计尤其适合需要长期在线的生产级 AI 服务,可减少手动维护凭证的复杂度,并更容易集成进现有认证流程。
▍LangChain 与 Strands Agents 可在 SageMaker AI 上完整运行多步 Agent 工作流
对于构建 AI Agent 的团队来说,这次更新带来的价值更加直接。 Amazon 表示,使用 Strands Agents 或 LangChain 等框架构建的多步骤 AI Agent 工作流,如今可以完全运行在 SageMaker AI 自有的端点上。Agent 仍然通过它们原本依赖的、兼容 OpenAI 的接口调用模型,但实际的推理过程是在开发者 AWS 账户内的专用 GPU 实例上执行的。
这意味着,开发者无需重写 Agent 调用链路,就能将推理层迁移到更可控的专有资源上。对关注数据边界、成本结构以及部署自主性的团队而言,这一能力具有较强的实际落地价值。

▍model 字段将透传至容器,多模型部署方式更灵活
在请求处理层面, model 字段会被直接透传给容器。由于 SageMaker AI 是基于 URL 中的端点名称进行路由,开发者可以选择将该字段留空,或将其设置为容器所期望的模型名称。
这一机制为模型服务的兼容与适配提供了更高灵活性,尤其适用于已经围绕 OpenAI 协议构建上层应用、但底层模型名称和部署方式并不完全一致的场景。
▍推理组件支持单端点托管多模型,并实现独立扩缩容
SageMaker AI 的 Inference Components(推理组件) 进一步增强了多模型部署能力。借助该机制,开发者可以在同一个端点上托管多个模型,并为每个模型分配专用计算资源。

与传统端点配置不同,在推理组件模式下,模型与组件绑定,而非直接绑定到端点配置。开发者可以在同一端点上新增多个推理组件,以实现多个模型的独立资源分配与独立扩缩容。
如果需要调用特定推理组件,只需在 URL 路径中包含对应组件名称即可。对于需要在单一入口下管理多模型服务、并对不同模型进行差异化资源配置的团队来说,这一设计将明显提升部署效率与资源利用率。
▍对中国 AI 开发者的直接影响:迁移成本更低,对基础设施的掌控力更强
从开发者视角看,这次更新最值得关注的点在于: OpenAI 兼容接口正在进一步成为模型调用层的事实标准 。 SageMaker AI 通过直接开放 /openai/v1 路径,把 OpenAI 客户端生态、Agent 框架生态与 AWS 自有推理基础设施连接起来。
对于中国 AI 圈尤其是关注大模型应用落地、私有化部署和 Agent 产品化的团队而言,这种能力有几项现实意义:
一是 迁移成本更低 。已有基于 OpenAI SDK、LangChain 或类似工具构建的应用,可以更平滑地接入 SageMaker AI。 二是 部署自主性更强 。推理运行在开发者自己的 AWS 账户和专用 GPU 实例中,更适合对资源隔离和运维可控性有要求的场景。 三是 多模型运营更灵活 。借助推理组件,团队可以在单端点下管理多个模型,并按业务负载做独立扩缩容和资源分配。
▍使用端点需关注持续计费,完成测试后应及时释放资源
亚马逊同时提醒,SageMaker AI 端点在服务运行期间会持续产生费用,无论是否有流量进入。 因此,在测试或使用完成后,开发者应及时删除端点及相关资源,以避免不必要的持续开销。
总体来看,这次更新并非单纯增加一个兼容接口,而是进一步强化了 SageMaker AI 在模型托管、Agent 部署和多模型服务编排上的平台能力。对于希望复用 OpenAI 生态、同时将推理掌握在自己云账户中的开发者和企业团队而言,这将是一项具有明显实用价值的基础设施升级。

📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》
[AI之星网出品] [OpenAI兼容接口] [SageMaker私有化部署] [AI Agent开发] [AWS大模型推理] [刘智勇频道] [真机智能(zhenrobot.com)] [真机算法] [真机资本(zhencap.com)] [真机skill(zhenskill.com)] [真机team(zhenteam.com)] [真机宇宙(zhenmeta.com)] [真机请人(zhenrent.com)] [真机合约(zhencontract.com)] [真机记忆(zhenmem.com)] [真机保险(zhenins.com)] [真机学院(zhencollege.com)] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [真机尽调(zhendue.com)] [真机文学] [真机影评] [真机短剧] [Cognition OS] [Embodied OS] [黄金广告位]

|
真机智能 zhenrobot.com | 真机宇宙 zhenmeta.com | 真机尽调 zhendue.com |
真机skill zhenskill.com | 真机保险 zhenins.com | 真机记忆 zhenmem.com |
真机请人 zhenrent.com | 真机合约 zhencontract.com | 真机学院 zhencollege.com |
真机team zhenteam.com | 真机资本 zhencap.com | 机器姬 机械永生人 |
机器洞察网 机器人门户 | AI之星网 人工智能门户 | 人形纪元网 人形机器人门户 |
风投高科网 风险投资门户 | 猛虎财经网 财经门户 | 硅基科学网 自然科学门户 |
真机量化 zhenquant.com | 真机内参 真机内参 | 真机算法 机器人算法库 |
真机影评 Agent影视解说 | 真机短剧 Agent影视解说 | 真机文学 Agent影视解说 |
CognitionOS 认知操作系统 | EmbodiedOS 具身操作系统 |
-End-
-感谢您的耐心阅读-
夜雨聆风