OpenAI自3月31日起按容器会话计费(20分钟/容器),记忆层成本不变。公布GPT-5.2等模型价格:输入$10/百万tokens,输出$30/百万tokens。实时API Beta于3月24日停用,Assistants API将于8月26日退役。与美国战事部签订云部署协议,明确禁止用于大规模监控、自动武器等,仅限云部署。 Anthropic (Claude)3月价格:Opus 4.6 ($5/$25),Sonnet 4.6 ($3/$15),Haiku 4.5 ($1/$5)。2月通过AWS Bedrock推出跨区域推理,东南亚、台湾、中东地区请求可路由至全球20余区域,缓存命中成本降90%,延迟减85%。 Google (Gemini)Gemini 3.1 Pro预览版:$2/$12;2.5 Pro:$1.25/$10;Flash:$0.30/$2.50;Flash-Lite:$0.10/$0.40。多数模型有免费额度。 DeepSeekV3.2统一模型:输入$0.28,输出$0.42(百万tokens),缓存命中享90%折扣。 AWS Bedrock跨区域推理服务扩展至东南亚、台湾、中东,数据驻留源区,保障高峰期稳定性。 Azure/其他无价格调整。发布Microsoft Agent Framework RC,支持多模型供应商与图结构工作流,符合A2A/MCP标准。
Anthropic重大故障 :3月2日Claude服务中断约6小时,登录与API部分不可用,引发企业对其可靠性的质疑。
AWS跨区域推理 :扩大覆盖区域,简化多区域部署,保障斋月等高峰期稳定。
合规监控 :OpenAI战事部协议要求严格审计;AWS Bedrock集成CloudWatch/CloudTrail。
vLLM :开源高吞吐引擎,采用PagedAttention+连续批处理,支持NVIDIA/AMD/AWS Neuron/Apple Metal等多硬件,生态工具持续丰富。
LangChain Agent Builder (2月18日更新):新增“Chat”中心代理统一工具访问;对话一键转代理;支持上传CSV/图像;工具注册表简化管理。
Microsoft Agent Framework RC :.NET/Python支持,类型安全函数、图结构工作流(顺序/并行/移交/群聊),兼容Azure OpenAI、Anthropic、AWS Bedrock等。
LlamaIndex (2月17日周报):长时任务文档代理、PostHog LLM分析集成、发票核对代理,探讨LLM编码代理对开源社区的影响。
开源模型排行 :whatllm.org 2月榜单显示GLM-5、Kimi K2.5、MiniMax M2.5位列前三,开源模型在LiveCodeBench/AIME 2025上接近闭源,支持免费自托管与微调。
自托管技巧 :开发者社区讨论推荐GGUF量化减半VRAM,Ollama快速部署,生产环境使用vLLM或TGI。
专用推理芯片 :Nvidia开发整合Groq技术的推理处理器;OpenAI与Cerebras签订数十亿美元采购合同;Meta计划将代理任务转向CPU,GPU专注训练。
Nvidia冷却评论 :黄仁勋称下一代芯片将大幅降低冷却需求,液冷供应商nVent Electric、Vertiv或受益。
HBM4量产 :三星2月开始生产HBM4并向Nvidia供货,SK Hynix同步扩产;Nvidia“Vera Rubin”平台将搭载HBM4,年内推出。
能源瓶颈 :NextEra Energy计划2035年前为数据中心新增15-30 GW发电能力(以天然气为主),凸显电力供应成AI扩张关键制约。
北美 :2025年并购超690亿美元,空置率仅1%。动态包括:SpaceX收购xAI探索太空数据中心;AMD与Meta签1000亿美元MI450供货协议;微软威斯康星州15个数据中心获批,签署4.5 GW电力交易;Meta印第安纳州建1 GW园区;谷歌签150 MW地热协议;Nvidia推5-20 MW小型推理数据中心;AVAIO Digital在阿肯色州规划多阶段园区。
欧洲 :2026-2031年投资预计1760亿欧元,但电网受限。重点项目:Equinix瑞典300 MW园区;Mistral AI与EcoDataCenter瑞典14亿美元AI数据中心(采用Vera Rubin);德国电信与Nvidia慕尼黑10亿欧元中心;CyrusOne、StartCampus/EDP等在爱尔兰、葡萄牙扩张。
亚太 :印度成热点,阿达尼与谷歌千亿美元基建计划,Blackstone注资Neysa部署2万GPU,Yotta大诺伊达部署2万Blackwell Ultra;NTT在泰国、G42与越南合作、CDC澳大利亚、现代韩国均有新项目。
中东与非洲 :以色列Serverfarm建130 MW中心;南非xneelo启动第二中心;Stanlib收购Africa Data Centers。
设施设计趋势 :AFCOM报告显示平均数据中心规模从32 MW升至38 MW,机架功率密度从16 kW升至27 kW,70%预计继续增长。36%已用液冷,28%计划1-2年内采用,40%称现有冷却不足。72%预计AI将增加容量需求,74%计划部署AI能力。25%已建现场发电,38%使用可再生能源。
AFCOM调查 :机架密度持续攀升,液冷从试点走向主流(36%已用,28%计划);现场发电与可再生能源普及加速(25%已建现场发电,38%使用绿电)。
资本与政策 :2025年数据中心并购超690亿美元;各国争夺AI投资,太空、地热、小型核反应堆等成新选项。NextEra Energy强调电网紧迫性。
开源vs闭源 :开源模型性能接近闭源,自托管(vLLM/TGI+量化)成本优势明显,开发者积极探索本地部署。
多代理架构 :LangChain与微软框架推动智能体可组合性,多云兼容成趋势。
可靠性关注 :Anthropic故障引发对闭源模型单点风险的讨论,混合部署(API+自托管)被更多企业考虑。
价格精细化与合规强化 :头部厂商细化计费(如会话级)并收紧军事用途限制,同时通过降价和免费额度争夺开发者。 跨区域与多云成默认选项 :AWS CRIS和微软多提供商框架表明数据驻留与多云协同已成为企业基本要求。 推理与编排层快速演进 :vLLM优化吞吐,LangChain/LlamaIndex降低智能体开发门槛,生态活跃度成选型关键。 硬件与能源瓶颈凸显 :HBM4、专用芯片、新增发电能力反映物理层压力;数据中心向大型化、高密度、液冷转型。 开源与混合架构受青睐 :开源模型性能提升叠加闭源可靠性事件,推动企业采用混合策略以平衡成本与风险。
夜雨聆风