

编辑:马青禾
图片:秦明理
排版:苏雅韵
-新闻发布入口: https://news.zhenrobot.com-
|
▍Amazon SageMaker AI 新增 OpenAI 兼容接口,企业可在自有端点上直接运行 Chat Completions 与 Agent 工作流
亚马逊最近为 SageMaker AI 端点新增了 /openai/v1 路径,正式支持与 OpenAI 风格接口兼容。更新之后,SageMaker AI 端点可以直接接收 Chat Completions 请求,并由容器原样返回响应结果,包括流式输出能力。这意味着,开发者能够继续使用现有的 OpenAI 兼容客户端,无需额外适配,就可以接入部署在 SageMaker AI 上的模型服务。
▍标准 API 已全面启用,现有客户端可直接连接
这项 OpenAI 兼容能力现已默认启用,适用于通过标准 SageMaker AI API 和 SDK 创建的所有端点及推理组件。SageMaker AI 会根据 URL 中的端点名称来路由请求,因此只要客户端遵循 OpenAI 接口规范,就可以开箱即用地连接到相应的模型服务。

对开发者而言,这一变化显著降低了模型迁移和推理服务替换成本。尤其是已经围绕 OpenAI 接口构建应用的团队,可以在尽量少改动代码的前提下,将推理运行环境迁移到 SageMaker AI。
▍支持使用有时效限制的 Bearer Token,以安全连接企业自有端点
除了接口兼容性升级,SageMaker AI 还支持为端点创建具有时效限制的 Bearer Token,开发者可直接将其用于 OpenAI 客户端访问。这为企业在自有 AWS 账户中部署模型并向内部应用、安全代理层或外部工作流开放访问,提供了更灵活的认证方式。
对于持续运行的应用,开发者还可以结合 httpx 实现自动刷新 Token 的调用模式,在每次请求时生成新的令牌,以提升长期运行场景下的可用性与安全性。
▍Agent 工作流可以完全运行在企业自有的 GPU 资源上
这次更新的另一项关键价值,在于它在 Agent 框架与 SageMaker AI 端点之间建立了兼容连接。也就是说,如果开发者使用 Strands Agents 或 LangChain 等框架来构建多步骤的 AI Agent 工作流,现在就可以将整个流程直接运行在自己的 SageMaker AI 端点上。

具体而言,Agent 仍然通过原有的 OpenAI 兼容接口调用模型,但实际推理任务将运行在企业 AWS 账户中的专用 GPU 实例上。这一能力对于重视数据控制、成本管理和推理稳定性的团队尤其重要,也让企业在保留现有开发范式的同时,获得更强的基础设施自主权。
▍model 字段会被透明地传递到容器中,使其能够更灵活地适配多模型部署
在请求处理层面, model 字段会被直接透传至容器。由于 SageMaker AI 是基于 URL 中的端点名称进行路由,开发者既可以将该字段留空,也可以将其设置为容器所期望的模型名称。
这一设计提升了现有推理容器与 OpenAI 风格请求结构的兼容性,尤其适合已经在内部定义模型命名规则、或需要与上层应用做字段映射的场景。
▍推理组件支持单端点多模型托管,并可独立扩缩容

借助 inference components(推理组件),开发者还可以在单个 SageMaker AI 端点上托管多个模型,并为每个模型分配独立的计算资源。与传统将模型绑定到端点配置的方式不同,在 inference components 架构中,模型与组件本身关联,而非直接绑定到端点配置。
这意味着,团队可以在同一端点下创建多个推理组件,实现多模型共存,并对不同模型分别进行资源分配与弹性扩缩容。若需要调用某个特定推理组件,只需在 URL 路径中包含对应组件名称即可。
对于希望统一入口、降低运维复杂度,同时又要兼顾多模型服务隔离和资源精细化管理的团队而言,这一机制具备较高实用价值。
▍对开发者与企业的直接影响
从行业视角看,SageMaker AI 此次引入 OpenAI 兼容接口,不只是一次调用方式上的优化,更是一次面向生态兼容性的基础设施升级。它降低了 OpenAI API 生态与 AWS 自有模型托管能力之间的迁移门槛,也让企业更容易在不重写应用层逻辑的前提下,将推理工作负载迁移到自有云资源中。
对中国 AI 圈尤其值得关注的点在于:一方面,OpenAI 兼容接口已经成为 LLM 应用和 Agent 工具链的事实标准;另一方面,SageMaker AI 通过兼容这一标准,把模型部署、专用 GPU 运行、认证控制和多模型托管整合进统一平台。这将直接影响企业级 AI 应用的部署路径,也可能进一步加剧云厂商在模型推理层和开发者入口层的竞争。
▍使用成本仍需关注
需要注意的是,SageMaker AI 端点在处于服务状态期间会持续产生费用,无论是否实际接收流量。因此,在测试或阶段性使用结束后,开发者应及时删除端点及相关资源,以避免产生持续性成本。

📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》
[AI之星网出品] [SageMaker AI OpenAI兼容接口] [Bearer Token认证] [AWS模型托管迁移] [推理容器字段映射] [刘智勇频道] [真机智能(zhenrobot.com)] [真机算法] [真机资本(zhencap.com)] [真机skill(zhenskill.com)] [真机team(zhenteam.com)] [真机宇宙(zhenmeta.com)] [真机请人(zhenrent.com)] [真机合约(zhencontract.com)] [真机记忆(zhenmem.com)] [真机保险(zhenins.com)] [真机学院(zhencollege.com)] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [真机尽调(zhendue.com)] [真机文学] [真机影评] [真机短剧] [Cognition OS] [Embodied OS] [黄金广告位]

|
真机智能 zhenrobot.com | 真机宇宙 zhenmeta.com | 真机尽调 zhendue.com |
真机skill zhenskill.com | 真机保险 zhenins.com | 真机记忆 zhenmem.com |
真机请人 zhenrent.com | 真机合约 zhencontract.com | 真机学院 zhencollege.com |
真机team zhenteam.com | 真机资本 zhencap.com | 机器姬 机械永生人 |
机器洞察网 机器人门户 | AI之星网 人工智能门户 | 人形纪元网 人形机器人门户 |
风投高科网 风险投资门户 | 猛虎财经网 财经门户 | 硅基科学网 自然科学门户 |
真机量化 zhenquant.com | 真机内参 真机内参 | 真机算法 机器人算法库 |
真机影评 Agent影视解说 | 真机短剧 Agent影视解说 | 真机文学 Agent影视解说 |
CognitionOS 认知操作系统 | EmbodiedOS 具身操作系统 |
-End-
-感谢您的耐心阅读-
夜雨聆风