2026年4月,Anthropic宣布企业版定价重构:从"每人每月固定费用含token额度"(此前标准版200/人/月),变为"$20/人/月坐席费 + 按实际token消耗以API标准费率计费",不再包含token额度。Claude、Claude Code、Cowork的用量分别计量、分别收费。
这不是一家公司的定价调整。OpenAI、GitHub Copilot、Windsurf在同一时间窗口内做了类似的转变。整个AI工具行业正在集体告别"固定月费随便用"的视频会员模式,转向"用多少付多少"的水电费模式。
对技术团队来说,这意味着一件事:AI成本管理,从可选变为刚需。
同一个团队,一个人花掉了28%的预算
为什么这个转变如此重要?因为在按量计费下,你的团队会出现巨大的成本方差——而你目前可能完全没有能力看见它。
Vantage对AI编码工具的使用成本做了拆解。在一个10人的假设团队中,花费最高的开发者月消耗$1,200,占团队总支出的28%;排名前两位的开发者合计占了总支出的近一半。剩下的八个人,加起来才花了另一半。
为什么差距这么大?因为AI编码工具的使用模式天然分层。轻度用户用它做自动补全和简单问答,每次交互只消耗几百个token。重度用户让agent读整个代码库、实现功能、跑测试、修bug、再跑测试——一次50轮的agentic session可以消耗100万个input token。Vantage测算,这样一次session在Claude Opus上花费约0.60。
在固定月费模式下,这个差异被"无限量"掩盖了——公司付同样的钱,不管谁用多少。但在按量计费下,它直接反映在账单上。而大多数团队今天只能看到一个总数,无法回答"这$1,200是谁花的,花在了什么上面,值不值"。

不是个案,是结构性转变
有人可能觉得:这只是Anthropic一家的策略调整。
看数据:Anthropic 官方披露,其营收 run rate 已从 2025 年底约 90 亿美元,上升至 2026 年 4 月的超过 300 亿美元;年化消费超过 100 万美元的企业客户也从 2 月的 500 多家增加到 4 月的 1000 多家,不到两个月翻倍。
Anthropic: 新版 Claude Enterprise 采用 seat fee + usage-based pricing——seat 费用只覆盖平台访问权限(含 Claude 网页/桌面/移动端、Claude Code 和 Cowork),不包含任何使用量;所有 token 消耗按标准 API rates 另行计费,无 per-seat 用量上限。
OpenAI: 2026 年 4 月 2 日起,Codex 从按消息计费切换为按 token 计费(credits 仍为结算单位,但按 input / cached input / output tokens 分别计量),先适用于 Plus、Pro、Business 和新 Enterprise;4 月 23 日起扩展至既有 Enterprise,并覆盖 Edu、Health、Gov、Teachers。
GitHub Copilot: 2026 年 6 月 1 日起转向 usage-based billing——premium request units 被 GitHub AI Credits 取代,按 input / output / cached tokens 和各模型公布费率消耗;原有的低成本模型 fallback 机制取消,改由 credits 余量和管理员预算控制。现有年付 Pro / Pro+ 保留到期但不再自动续订,到期后降为 Free 或可提前转月付。
Windsurf: 2026 年 3 月从月度 credit 池切换为每日 / 每周配额制,配额按各模型 token 消耗扣减;超出部分按模型 API list price 计费。企业版(Enterprise)另行引入 ACU(Agent Compute Unit)——本地 agent 的 ACU 基于推理 token 消耗,云端 agent 和代码审查的 ACU 则额外包含计算资源与基础设施成本。
这不是巧合。当AI工具的边际成本(每次调用都消耗真实的GPU算力)远高于传统SaaS(服务器成本几乎固定),厂商不可能永远用固定月费吸收无限用量。补贴期结束了。
"按量付费不是更公平吗?"
是的,从经济学角度看,消费制确实更公平——用得多付得多,用得少付得少。
但"公平"和"可控"是两回事。
水电费也是按量付费,很公平。但你家里有电表、有账单明细、有历史对比,你知道空调开一晚大概多少钱。AI工具的消费制目前缺少这些基础设施:
你不知道谁在消耗。 大多数团队能看到AI工具的总账单,但无法回答"哪个项目花了多少""哪个工程师的使用模式最贵""上周的异常峰值是什么原因"。
你无法预测下个月的账单。 传统云资源可以通过预留实例锁定成本。AI工具的消耗取决于工程师的使用习惯、项目复杂度、甚至一次失败的重试循环——一个agent卡在retry loop,在prompt caching失效的情况下,可以在几小时内将token消耗放大10-20倍。这不是假设:2026年3月,大量Claude Code用户报告配额在几十分钟内被耗尽。$200/月的Max用户,单个提示就消耗了每日配额的10-20%。Anthropic承认"人们消耗用量的速度远超预期"。3月底,两个缓存bug同时触发,导致大量用户两天内耗尽了整月配额。
你缺少"单位经济学"度量。花$1,200/月的工程师是浪费还是高效?如果他merge了38个PR,cost-per-PR只有$31.58,可能是团队里最高效的人。但如果没有这个度量,你只看到一个"花钱最多的人"。
这就是为什么"按量付费"不等于"问题解决了"。它只是把问题从"厂商的定价策略"转移到了"你的成本治理能力"。
而这里有一个管理者必须面对的悖论:当你开始追踪每个工程师的AI消耗,会不会反过来抑制使用?工程师怕花钱,于是不敢用agent做复杂重构,省了token费,丢了生产力。最高效的工程师往往就是消费最高的那个。管理者需要的不是"限制消费",而是"区分高效的高消费和浪费的高消费"——这正是单位经济学要解决的问题。
技术团队现在该做什么
不需要立刻采购昂贵的FinOps平台。但有三件事应该马上开始:
第一,建立可见性。 知道钱花在哪里。按团队、按项目、按用途拆分AI工具支出。大多数AI工具的API已经提供了usage数据,问题是没人在看。LiteLLM、Langfuse、Helicone这类开源工具可以零成本起步。
第二,定义"单位经济学"。 不要只看总花费,要看"每个业务产出花了多少"。对开发团队来说,cost-per-PR-merged是一个好的起点。对客服团队,cost-per-resolved-ticket。有了分母,你才能区分"高效的高消费"和"浪费的高消费"。
第三,设置guardrails。 不是限制使用,而是防止失控。Session长度上限(防止agent无限循环)、异常消费告警(单次session超过阈值时通知)、重试策略审计(确保retry逻辑不会在LLM场景下产生乘法级成本)、模型选择指引(同一个agentic session,Opus花0.60——大多数日常任务不需要最贵的模型)。GitHub Copilot新计费模式已经内置了四级预算控制(企业、组织、成本中心、用户),这是行业方向,如果你用的工具还没有这些功能,就用外部工具补上。
最后
AI工具的"会员时代"——固定月费、随便用、不用想成本——已经结束。我们正在进入"水电费时代":按量计费、差异巨大、需要主动管理。
这不是坏事。但它要求每个技术团队建立一项新能力:像管理云支出一样管理AI支出。
在已建立FinOps实践的组织中,管理AI支出的比例两年内从31%跃升至98%。如果你的团队还没开始,现在是时候了。
References
[1] Implicator, "Anthropic shifts enterprise billing to usage-based pricing," April 2026. https://www.implicator.ai/anthropic-shifts-enterprise-billing-to-per-token-pricing-the-flat-fee-era-is-over/
[2] Anthropic, "Higher usage limits for Claude and a compute deal with SpaceX," May 6, 2026. https://www.anthropic.com/news/higher-limits-spacex
[3] Vantage, "Your Most Expensive Developer Might Be Your Most Efficient," April 24, 2026. https://www.vantage.sh/blog/agentic-coding-efficiency
[4] Vantage, "The Hidden Cost Driver in Agentic Coding: It's Not the Per-Token Price," April 15, 2026. https://www.vantage.sh/blog/agentic-coding-costs
[5] Vantage, "AI Costs Are Cloud Costs Now," April 29, 2026. https://www.vantage.sh/blog/ai-costs-vs-cloud-costs
[6] FinOps Foundation, State of FinOps 2026, February 19, 2026. https://data.finops.org/
[7] OpenAI, "Codex now offers pay-as-you-go pricing for teams," April 2, 2026. https://openai.com/index/codex-flexible-pricing-for-teams/
[8] GitHub Blog, "GitHub Copilot is moving to usage-based billing," April 27, 2026. https://github.blog/news-insights/company-news/github-copilot-is-moving-to-usage-based-billing/
[9] Anthropic, "Manage costs effectively — Claude Code Docs." https://code.claude.com/docs/en/costs
[10] VentureBeat, "Anthropic says it hit a $30 billion revenue run rate after 'crazy' 80x growth," May 2026. https://venturebeat.com/technology/anthropic-says-it-hit-a-30-billion-revenue-run-rate-after-crazy-80x-growth
[11] The Register, "Anthropic admits Claude Code quotas running out too fast," March 31, 2026. https://www.theregister.com/2026/03/31/anthropic_claude_code_limits/
[12] DEV Community, "Anthropic's Caching Bug Turned Claude Code Into a Token Furnace," April 5, 2026. https://dev.to/gabrielanhaia/anthropics-caching-bug-turned-claude-code-into-a-token-furnace-heres-what-actually-happened-4a1o
[13] Tian Pan, "The FinOps Math of LLM Retry Policies," April 28, 2026. https://tianpan.co/blog/2026-04-28-retries-arent-free-llm-finops-math
夜雨聆风