

编辑:马青禾
图片:秦明理
排版:苏雅韵
-新闻发布入口: https://news.zhenrobot.com-
|
▍Amazon SageMaker AI 新增与 OpenAI 兼容的 API,支持在您自有端点上无缝运行 AI Agent 工作流
Amazon 最近更新了 SageMaker AI 端点能力,正式开放 /openai/v1 路径,可直接接收 Chat Completions 请求,并按容器原样返回响应结果,包括流式输出。这意味着,开发者可以使用兼容 OpenAI 的客户端直接访问 SageMaker AI 端点,在自己的 AWS 账户中基于专属 GPU 实例运行推理工作负载,而无需进行额外适配。
▍面向现有生态的低门槛接入
此次更新后,通过标准 SageMaker AI API 和 SDK 创建的所有端点与推理组件,都将默认启用与 OpenAI 兼容的端点。SageMaker AI 会根据 URL 中的端点名称进行请求路由,因此现有的 OpenAI 兼容客户端无需额外配置即可直接使用。

对于开发者而言,这一变化的核心价值在于接口层兼容性显著提升。基于既有 OpenAI API 规范构建的应用、工具链和调用逻辑,可更平滑地迁移到 SageMaker AI 上运行,同时保留企业对底层算力、账户权限和部署环境的控制权。
▍支持 AI Agent 在 SageMaker 端点内以闭环方式运行
如果开发者正在使用 Strands Agents、LangChain 等框架构建多步骤 AI Agent 工作流,现在就可以直接在 SageMaker AI 专用端点上运行整个流程。Agent 仍然通过其原本依赖的 OpenAI 兼容接口调用模型,但实际的推理由用户 AWS 账户中的专用 GPU 实例完成。
这对于需要更强数据控制、推理隔离和资源可预测性的企业场景具有现实意义。尤其是在生产环境中,开发团队无需重写 Agent 调用方式,就能将工作负载迁移到自主管理的推理基础设施上。
▍新增临时 Bearer Token 以实现安全访问
SageMaker AI 现已支持为端点创建有时效限制的 Bearer Token(持有者令牌),并可直接配合 OpenAI 客户端使用。对于持续运行的应用,开发者还可以通过 httpx 实现自动刷新机制,在每次请求时生成新的 Token,以满足长时间在线服务的鉴权需求。

这一机制提升了 OpenAI 兼容调用方式在企业场景中的可用性,也为需要细粒度访问控制的部署方式提供了更灵活的实现路径。
▍model 字段透传至容器,推理组件支持多模型部署
在请求结构上, model 字段会被直接透传到容器。由于 SageMaker AI 是基于 URL 中的端点名称完成路由,因此开发者可以将该字段留空,也可以将其设置为容器所期望的模型名称。
对于采用 inference components(推理组件)的部署方式,SageMaker AI 支持在单个端点上托管多个模型,并为每个模型分配独立计算资源。与传统端点配置不同,推理组件中的模型是与组件本身绑定,而非与整个端点配置绑定。开发者可以在同一端点下创建多个推理组件,从而实现多模型共存,并支持彼此独立的扩缩容和资源分配。
若需调用特定推理组件,只需在 URL 路径中加入对应组件名称即可。这一设计对多模型服务、分层路由以及不同业务负载的隔离部署尤其重要。

▍对开发者和企业部署的直接影响
从产品落地角度看,这次更新最值得关注的并非“新增一个接口”,而是 SageMaker AI 正在进一步对齐事实上的行业调用标准。对于中国 AI 开发者、创业公司和企业团队而言,这意味着:
一是已有基于 OpenAI 接口构建的应用更容易迁移至 AWS 自有托管环境; 二是 Agent、工作流编排和多模型服务可以在 SageMaker 框架内更完整地闭环; 三是在保持 OpenAI 兼容开发体验的同时,企业可获得更强的基础设施控制能力,包括专用 GPU、独立账户资源和更灵活的安全策略。
在当前大模型基础设施竞争持续加剧的背景下,谁能更好承接 OpenAI 生态,就更有机会吸引存量开发者和企业级工作负载。SageMaker AI 此次更新,正是朝这一方向迈出的关键一步。
▍使用与费用提示
需要注意的是,SageMaker AI 端点在服务运行期间会持续产生费用,无论是否实际接收流量。对于测试或短期任务,完成使用后应及时删除端点及相关资源,以避免不必要的持续性开销。

📚 【精品资源】添加关注『AI之星网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》
[AI之星网出品] [SageMaker AI智能体工作流] [OpenAI兼容接口部署] [AWS专用GPU推理] [Bearer Token鉴权机制] [刘智勇频道] [真机智能(zhenrobot.com)] [真机算法] [真机资本(zhencap.com)] [真机skill(zhenskill.com)] [真机team(zhenteam.com)] [真机宇宙(zhenmeta.com)] [真机请人(zhenrent.com)] [真机合约(zhencontract.com)] [真机记忆(zhenmem.com)] [真机保险(zhenins.com)] [真机学院(zhencollege.com)] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [真机尽调(zhendue.com)] [真机文学] [真机影评] [真机短剧] [Cognition OS] [Embodied OS] [黄金广告位]

|
真机智能 zhenrobot.com | 真机宇宙 zhenmeta.com | 真机尽调 zhendue.com |
真机skill zhenskill.com | 真机保险 zhenins.com | 真机记忆 zhenmem.com |
真机请人 zhenrent.com | 真机合约 zhencontract.com | 真机学院 zhencollege.com |
真机team zhenteam.com | 真机资本 zhencap.com | 机器姬 机械永生人 |
机器洞察网 机器人门户 | AI之星网 人工智能门户 | 人形纪元网 人形机器人门户 |
风投高科网 风险投资门户 | 猛虎财经网 财经门户 | 硅基科学网 自然科学门户 |
真机量化 zhenquant.com | 真机内参 真机内参 | 真机算法 机器人算法库 |
真机影评 Agent影视解说 | 真机短剧 Agent影视解说 | 真机文学 Agent影视解说 |
CognitionOS 认知操作系统 | EmbodiedOS 具身操作系统 |
-End-
-感谢您的耐心阅读-
夜雨聆风