智能体AI(Agentic AI)正将全球人工智能产业从”成本叙事”推向”利润叙事”的新阶段。本报告基于高盛最新研究及全球权威数据源(高盛5月5日发布报告),系统解析Token经济学的结构性拐点、产业链价值重构及社会经济影响。

核心发现:
- Token消耗爆发:预计到2030年,全球Token消耗量将较2026年增长24倍,达到每月约120千万亿个;2040年企业端代理峰值采用时将进一步扩大至55倍。
- 成本-价格剪刀差:主流大模型Token定价年降幅从约40%趋于稳定甚至小幅回升,而底层算力成本仍以每年60%-70%的速度下降,行业毛利率拐点将在未来3-12个月内到来。
- 资本开支激增:2026年全球五大超大规模云厂商资本开支预计达6,000-6,900亿美元,其中约4,500亿美元直接投向AI基础设施,为史上最大规模协调基础设施投资。
- 企业采用加速:88%的组织已在至少一个职能中使用AI,62%正在试验AI代理,但仅6%实现真正的高绩效AI转型,ROI分化显著。
- 能源挑战凸显:全球数据中心电力消耗预计从2024年的415 TWh翻倍至2030年的945-980 TWh,AI优化服务器电力占比将从21%升至44%。
一、Token经济学拐点:从成本驱动到利润扩张
1.1 推理成本的结构性坍塌
AI推理成本正经历商业史上最快的价格重构。根据 primary pricing records 的追踪数据,2023年3月GPT-4发布时,混合推理成本约为37.50美元/百万Token;至2025年8月,成本效率前沿已降至0.14美元/百万Token,累计降幅达99.7%。这一降幅远超传统数字产品的成本曲线,其驱动因素包括:
时间段 | 驱动因素 | 百万Token价格 | 累计降幅 |
2023.03-2023.12 | GPT-4发布,竞争有限 | $30-$60 | 基准 |
2024.01-2024.09 | GPT-4o、Claude 3、Gemini入场 | $5-$15 | ~75% |
2024.10-2025.03 | MoE架构、开源模型压力 | $0.50-$3 | ~95% |
2025.04-2025.08 | DeepSeek冲击、GPT-5 Nano、商品化 | $0.02-$0.55 | 99.7% |
数据来源:NavyaAI成本追踪报告
DeepSeek-R1的颠覆性影响:2025年1月,DeepSeek以前沿级推理模型定价0.55美元/百万输入Token入市,较OpenAI o1的15美元/百万Token低90%-95% 。其V3模型采用Mixture-of-Experts架构,每次仅激活6710亿参数中的370亿,总训练成本仅560万美元,约为同等西方模型的十分之一。这一事件并非补贴性定价,而是结构性效率提升,迫使超过60%的前沿模型发布采用MoE架构。

1.2 价格稳定与成本下降的”剪刀差”
高盛的推断价格与成本曲线显示,行业正经历关键转折:
•Token定价端:主流大模型Token定价已从每年约40%的降幅趋于稳定,部分场景甚至出现小幅回升。当前市场形成五档定价体系(0-150美元/百万Token),实现精准价格歧视。
•算力成本端:英伟达、AMD、谷歌TPU及Trainium等芯片驱动的每Token全成本仍在以每年60%-70%的速度持续下降。
这一”剪刀差”意味着:若Token定价稳定在高于Token成本的水平,智能体AI采用率的提升将带来正向利润扩张,而非仅仅是收入增长。OpenAI的推理总支出从2024年的37-38亿美元升至2025年的88-90亿美元,增幅约2.4倍,完美演绎了杰文斯悖论——单位成本下降280倍,但总支出因需求爆发而大幅上升。
1.3 自我强化的经济飞轮
智能体AI可能形成独特的经济飞轮效应:
1.更低成本 → 催生更丰富、更复杂的代理
2.更复杂代理 → 通过更长上下文、更多循环、更多验证消耗更多Token
3.更高利用率 → 改善AI基础设施经济性
4.更好基础设施 → 支持提供商持续投入模型质量和分发能力
Salesforce的披露为这一飞轮提供了实证:2026财年Q4,其Agentforce处理了19万亿Token(同比增长5倍)和24亿个智能体工作单元(环比增长57%),Agentforce年化收入达8亿美元,覆盖29,000笔交易。Anthropic的年化收入从2025年底的90亿美元飙升至2026年4月的300亿美元,八周内增长160亿美元,超过1,000家客户年消费超100万美元。
二、Token需求爆发:消费端与企业端的双轮驱动
2.1 消费端代理:从”按需”到”常驻”的12倍跃升
高盛估计,到2030年消费端AI代理可将全球Token消耗量提升12倍,每月新增约60千万亿个Token。消费端代理分为两类:
(1)按需型代理:如OpenAI Operator、Claude Code等浏览器端代理,由用户发起任务后自主规划、执行并返回结果。
(2)常驻型代理:持续在后台运行的邮件监控、日程管理或数字生活助手。
Token消耗强度对比:
应用类型 | 单次/日Token消耗量 | 相对强度 |
普通LLM聊天机器人 | ~1,000/次会话 | 1x |
嵌入式Copilot | >5,000/天 | 5x |
常驻型代理 | >100,000/天 | 100x |
高盛预计,到2030年每日AI查询量将从2025年的约50亿次增至约230亿次,其中最多30%将流向代理应用。搜索引擎查询份额预计将从2025年的68%降至2030年的36%,LLM原生应用份额则从12%升至31%。

2.2 企业端代理:工作流复杂度的Token乘数效应
企业端AI代理将成为最大的Token乘数。高盛预计: - 2030年:推动全球Token消耗量增长24倍 - 2040年(峰值采用):进一步增至55倍,企业端工作负载占全球Token总使用量70%以上
企业端代理的Token强度高于消费端,原因在于: - 工作流复杂性:监控任务、检索上下文、推理异常、验证输出、更新系统、持续上报 - 多模态输入:语音、图像、文档、屏幕活动、应用数据、日志及结构化系统记录
不同职业代理的Token消耗量化测算:
代理类型 | 日Token消耗量 | API成本/天 | 与人工对比 | 采用优先级 |
编程代理 | ~700万 | ~$13 | 远低于人工 | 最高 |
呼叫中心代理 | ~200万 | ~$92(实时语音) | 语音自动化不具竞争力 | 中等 |
数据录入代理 | ~2,500万 | ~$60 | 低于人工 | 中高 |
注:编程代理成本最低解释了为何软件开发领域代理采用速度最快;呼叫中心若依赖实时语音处理,成本高达92美元/天,使全面语音自动化在经济上仍不具竞争力。
2.3 企业采用曲线:S型扩散与峰值预测
高盛认为企业端智能体AI最可能遵循S型曲线: - 峰值采用率:约35%-40%的知识工作者 - 达峰时间:约15年 - 对比历史:快于历史技术扩散的中位数29年
当前企业采用处于快速爬坡期: - 88%的组织在至少一个职能中使用AI(较上年的78%提升)[27] - 72%的企业至少有一个AI工作负载在生产环境(2024年为55%,2020年为20%)- 62%的组织正在试验AI代理,23%在至少一个职能中积极扩展 - 仅6%的组织是真正的AI高绩效者(超过5%的EBIT可归因于AI)
三、全球AI基础设施:万亿美元级资本开支与供给约束
3.1 超大规模云厂商的资本开支竞赛
2026年标志着AI基础设施投资进入史无前例的阶段。全球五大超大规模云厂商(Amazon、Microsoft、Google、Meta、Oracle)资本开支预计达6,020亿美元,同比增长36%,其中约75%(4,500亿美元)直接投向AI基础设施。
2026年各厂商资本开支预测:
厂商 | 2025年资本开支 | 2026年预测 | 同比增长 | 核心投向 |
Amazon | ~$1,310亿 | ~$2,000亿 | +53% | AWS AI、Trainium/Inferentia |
Google/Alphabet | ~$910亿 | ~$1,750-1,850亿 | +92-103% | TPU v6、Gemini基础设施 |
Microsoft | ~$950亿 | ~$1,200亿+ | +26%+ | Azure AI、OpenAI合作 |
Meta | ~$660-720亿 | ~$1,150-1,350亿 | +74-88% | Llama训练、AI广告 |
Oracle | ~$150亿 | ~$500亿 | +233% | OCI云基础设施 |
合计 | ~$3,980亿 | ~$6,600-6,900亿 | +66-73% | ~75% AI相关 |
数据来源:各公司财报指引、Goldman Sachs、UBS、Moody’s综合
Goldman Sachs预测,2025-2027年超大规模云厂商总资本开支将达1.15万亿美元,较2022-2024年的4,770亿美元翻倍有余。Moody’s估计,到2030年至少需要3万亿美元的AI基础设施投资。

3.2 云业务增长与收入可见性
巨额资本开支的可持续性取决于云业务的收入增长:
•AWS:2026年Q1收入376亿美元,同比增长28%,为13个季度以来最快增速;AI年化收入运行率超150亿美元
•Google Cloud:2026年Q1收入约200亿美元,同比增长63%;积压订单环比近乎翻倍至约4,600亿美元
•Microsoft Azure:指引恒定货币增长37-38%,其中约16个百分点直接归因于AI服务,意味着AI贡献近一半Azure增长
资本密集度(资本开支/收入)已达到45%-57%的历史性高位。为资助这一建设,超大规模云厂商2025年在债务市场融资1,080亿美元,预计未来几年总债务发行将达1.5万亿美元。
3.3 算力供给的结构性约束
尽管投资巨大,算力供给仍面临三重硬约束:
(1)能源瓶颈全球数据中心电力消耗预计从2024年的415 TWh(占全球1.5%)增至2030年的945-980 TWh(接近3%)。AI优化服务器的电力消耗将从2025年的93 TWh增至2030年的432 TWh,增长近5倍,占数据中心总电力的比例从21%升至44%。
在美国,数据中心电力消耗预计从2023年的4.4%升至2030年的7.8%。单个大模型训练(如GPT-4)消耗超过50 GWh电力,相当于纽约市年用电量的近0.1% 。
(2)资本壁垒单座万卡级智算数据中心投资超100亿元人民币,先进AI芯片单次流片成本超1亿美元,需数百亿美元持续投入。
(3)技术与生态壁垒先进制程、HBM高带宽内存等核心技术门槛极高。微软Azure、英伟达CUDA等生态形成强大客户锁定效应,开发者切换成本极高。
四、Token经济产业链:五大环节的价值闭环
4.1 上游:算力基建与核心硬件
上游作为产业链”技术底座”,核心为AI芯片设计制造与算力基础设施。
全球竞争格局: - 英伟达:凭借GPU芯片与CUDA生态形成垄断,2025财年数据中心营收1,152亿美元,占总营收88.3%,全球AI加速芯片市场份额超80%,高端市场达90%以上 - AMD、Google TPU、Amazon Trainium:作为第二梯队快速追赶 - 中国厂商:华为昇腾、寒武纪、海光、壁仞等产品逐步落地,国产AI芯片单Token训练成本较进口芯片低20%,毛利率超45%
关键趋势:定制ASIC已处理40%的推理工作负载,Together AI等新兴厂商年收入从3,000万美元增至3亿美元仅用一年。

4.2 中游:智算中心与模型服务
中游涵盖数据中心运营与模型即服务(MaaS),是算力转化为标准化Token服务的关键枢纽。
市场增长: - 摩根士丹利预测,2024-2029年中国AI云市场年复合增长率达72% - 全球云基础设施服务支出:2025年Q3达1,026亿美元,同比增长25%,连续五个季度增速超20% - AWS、Azure、Google Cloud三巨头占全球云基础设施支出的66%,合计同比增长29%
模型竞争格局: - 国际:OpenAI、Anthropic、Google DeepMind(Gemini) - 中国:阿里云”通义千问”、字节跳动”豆包”、DeepSeek - 2026年3月,OpenRouter平台前十模型中中国品牌占比超半数 - 国产开源模型成本优势显著:Minimax M2.5测试成本仅为海外头部模型的1/40
4.3 下游:AI应用与智能体
下游是Token需求的核心来源,AI正从辅助工具向独立”数字员工”跨越。
落地形态与成效: - 金融:银行智能客服人工替代率达65% - 软件开发:Cursor年化收入达20亿美元,GitHub Copilot付费席位达470万,Claude Code六个月内年化收入约10亿美元 - 智能座舱:中科创达智能座舱大模型上车超50万辆 - 创意工具:万兴科技海外用户增长超200%
Agentic AI市场规模: - 2026年全球市场:约76-79亿美元- 2030年预测:471-1,400亿美元(因统计口径差异) - 2034年预测:2,360亿美元,CAGR超40% - 麦肯锡估计Agentic AI可解锁的年经济价值达2.3万亿美元
五、中国市场:全球AI算力增长的核心引擎
5.1 算力规模的跨越式增长
中国算力发展呈现”政府顶层设计+市场创新活力”双轮驱动特征。
核心数据: - 智能算力规模:截至2026年1月达1,590 EFLOPS(每秒百亿亿次浮点运算),位居全球前列 - 增长轨迹:2023年416.7 → 2024年725.3(+74.1%)→ 2025年1,037.3(+43%)→ 2026年1,590+ EFLOPS - 万卡集群:已建成42个万卡级智算集群 - 全球占比:截至2025年6月,中国计算设备算力总规模达962 EFLOPS,全球占比约21%;其中智能算力782 EFLOPS,同比增长96%,占我国算力比重达81%
AI服务器市场: - 2024年中国AI服务器市场规模134亿美元,同比增长56%,远超全球平均水平 - 2025年预计中国AI算力市场规模达259亿美元,同比增长36.2% - 2025-2031年复合增长率预计维持28%-32%,2031年市场规模有望突破1.2万亿美元

5.2 全国一体化算力网
“东数西算”工程已形成覆盖东中西部的8大枢纽节点、10个数据中心集群,其中8大枢纽节点智算规模占全国总量80%以上。“十五五”规划建议推进”全国一体化算力网”,强调智能算力统筹与高效协同。
5.3 国产替代与生态建设
国产AI芯片在推理场景已实现英伟达中低端产品替代,单Token训练成本低20%,毛利率超45%。但在先进制程、HBM内存等”卡脖子”环节仍需突破。中国市场形成阿里与字节”两强争霸”格局:阿里凭借全栈闭环优势领跑,字节依托2C生态与资本投入快速抢占份额。
六、企业AI转型:成本管理与商业模式重构
6.1 Token全链路成本结构
企业易陷入”重GPU硬件、轻全链路管理”的误区。实际Token成本中:
成本类别 | 占比 | 说明 |
GPU及加速器硬件 | 50% | 折旧、维护、能耗 |
网络与冷却设施 | 20% | 高速互联、液冷系统 |
软件栈与平台维护 | 15% | 编排、监控、安全 |
人工与支持服务 | 10% | 运维、优化、治理 |
其他杂项 | 5% | 合规、保险等 |
全链路精细化管理是成本可控的关键。

6.2 三种Token消费模式
模式 | 资本投入 | 计费方式 | 适用对象 | 单位成本 |
SaaS模式 | 低 | 固定订阅费 | 中小企业、试点项目 | 最高 |
API模式 | 中 | 按Token计费 | 中型企业、灵活扩缩容 | 中等 |
AI工厂模式 | 高 | 自建集群 | 日消耗>100亿Token的大型企业 | 仅为SaaS的15% |
6.3 ROI分化与价值捕获
企业AI代理的ROI呈现显著分化:
职能领域 | 中位回报周期 | 12个月内正ROI比例 | 单位任务成本降幅 |
SDR/外呼 | 3.4个月 | 62% | 55-78% |
客户服务 | 4.7个月 | 54% | 40-70% |
数据分析 | 5.8个月 | 47% | 35-60% |
软件工程 | 6.2个月 | 44% | 25-50% |
供应链 | 7.6个月 | 36% | 20-40% |
财务运营 | 8.9个月 | 33% | 18-35% |
法律合规 | 11.2个月 | 19% | 10-25% |
数据来源:BCG与Forrester 2026年综合数据
整体而言,AI代理平均ROI达3.5倍(12-18个月,IDC),麦肯锡报告AI投资平均ROI达5.8倍(14个月)。但仅25%的AI计划实现预期ROI,16%达到企业级规模,22%在12个月时报告负ROI(通常与范围蔓延、缺失评估或责任不清相关,而非模型能力不足)。
七、社会经济影响:劳动力重构与分配体系变革
7.1 劳动力市场K型极化
Token经济触发技能偏向型技术变革,就业市场分化加剧:
•高技能岗位:借助AI实现效率跃升,工资溢价扩大。PwC全球AI就业晴雨表显示,AI技能薪资溢价从2024年的25%翻倍至2025年的56% [8]
•中技能标准化岗位:被AI替代,需求结构性下降、工资增长停滞
•低技能重复性岗位:大规模被替代,需求下降15%,就业压力陡增
关键数据: - AI暴露职业的就业增速是非暴露职业的3.5倍 - 66%的企业正在减少入门级招聘(IDC) - 90%的组织将在2026年前面临关键AI技能短缺(IDC) - 40%的雇主预期在AI代理可自动化的任务领域裁员(世界经济论坛)- 47%的员工担心AI在五年内替代其岗位(PwC)

7.2 “幽灵GDP”与收入分配失衡
AI带来的产出增长未有效转化为劳动者工资收入,形成”幽灵GDP”现象:
指标 | 传统经济 | Token经济 |
GDP增速 | 3.0% | 5.5% |
劳动收入增速 | 2.5% | 0.8% |
资本收入增速 | 3.5% | 8.0% |
劳动收入占比 | 60% | 45% |
劳动收入在国民收入中的占比从60%降至45%,财富高度集中于科技巨头与算力资源所有者,可能抑制内需增长。
7.3 创造性破坏与技能鸿沟
Token经济催生21%的全新岗位类型,AI训练师、提示词工程师等岗位需求爆发,其中AI训练师需求增速达112.4%。但传统劳动者难以快速适应AI工具与Token经济规则,技能转换与再就业压力巨大。
工作自动化潜力: - 44%的美国工作可由AI代理以当前能力执行(McKinsey) - 30%的美国总工作小时可在2030年前自动化(McKinsey) - 软件工程师每周节省9.4小时,客户服务代表每周节省6.7小时
八、核心挑战与分主体应对策略
8.1四大核心挑战
1.技术产业层面:能源瓶颈凸显、核心技术突破难,行业同质化价格战抑制创新,生态标准碎片化
2.宏观社会层面:劳动力分化加剧、收入差距扩大,幽灵GDP引发宏观经济不稳定
3.地缘政治层面:算力供应链碎片化,技术脱钩与数字鸿沟扩大
4.治理监管层面:全球治理体系缺失,数据隐私、算力垄断等问题缺乏统一规则

8.2分主体应对策略
国家层面: - 加大核心技术研发投入,攻克芯片、HBM内存等”卡脖子”技术 - 完善社会保障,建立AI替代岗位劳动者技能培训机制 - 构建算力监管规则,推动绿色低碳转型 - 参与全球算力治理,反对技术脱钩
产业层面: - 打造开放共赢生态,推动国产软硬件开源社区建设 - 组建产业联盟,实现上下游协同创新 - 引导行业从价格战转向差异化创新,培育细分赛道核心竞争力
企业层面: - 建立精细化Token成本管理体系,通过智能路由、预算硬约束等优化成本 - 依据自身规模选择适配的Token消费模式,避免盲目跟风 - 加强员工AI技能培训,创新激励机制,将Token预算纳入绩效考核
【总结】
智能体AI正引领全球AI产业穿越”推理经济不确定性”的迷雾,迈向”Token增量以具吸引力边际利润落袋”的新阶段。这一转型的底层逻辑是Token经济学的结构性拐点:成本下降速度(60%-70%/年)显著快于价格下降速度(趋于稳定),为产业链各环节打开了可观的利润空间。
需求侧,消费端代理将从”按需调用”进化为”常驻后台”,带来12倍的Token消耗跃升;企业端代理凭借更复杂的工作流和多模态输入,将成为最大的Token乘数,2030年增长24倍、2040年增长55倍。供给侧,全球五大超大规模云厂商2026年资本开支将突破6,000亿美元,但其中能源约束(2030年数据中心电力需求翻倍至945-980 TWh)、资本壁垒和技术生态锁定构成了三重硬约束。

中国市场在全球算力竞赛中表现亮眼,智能算力规模突破1,590 EFLOPS,42个万卡级智算集群支撑起全球21%的算力份额。国产替代在推理场景已取得突破,但在先进制程和HBM等关键环节仍面临”卡脖子”风险。
企业层面,AI代理的ROI分化显著——SDR和客户服务领域可在3-5个月内实现正回报,而法律合规领域则需11个月以上。三种Token消费模式(SaaS、API、AI工厂)为不同规模企业提供了差异化路径,但全链路成本管理(GPU仅占50%)仍是大多数企业的管理盲区。
社会层面,Token经济正在重塑劳动力市场结构:高技能岗位薪资溢价扩大至56%,而低技能重复性岗位需求下降15%。“幽灵GDP”现象警示我们,若AI带来的产出增长无法有效转化为劳动收入,将可能加剧收入分配失衡并抑制内需。

展望未来3-12个月,行业毛利率拐点的到来将验证AI基础设施投资的可持续性。然而,这一转型并非没有风险:商品化程度较高的纯文本聊天机器人仍面临定价压力,地缘政治导致的算力供应链碎片化可能推高全球成本,而能源瓶颈将成为制约AI规模化的终极约束。
理解Token经济的运行规律——从成本曲线的剪刀差到需求爆发的杰文斯悖论,从产业链的价值闭环到劳动力市场的K型极化——正是把握AI时代价值创造与分配的核心密码。唯有在技术创新、产业政策、社会保障与国际合作中寻求动态平衡,才能让Token经济的发展成果惠及更广泛群体,推动全球经济向包容、可持续的方向迈进。
报告编制说明:本报告基于高盛2026年5月深度研究,并整合IEA、Gartner、IDC、McKinsey、BCG、中国工信部、中国信通院等权威数据源,数据截至2026年5月。
(声明:本文仅用于友好交流,文章所述观点及数据均不可作为任何投资依据,也不可视为作者推荐投资的依据。读者应独立思考,审慎决策,对自身投资负责,作者不承担任何责任。文章引用均出自网络公开资料,侵删。)

滙兆資本主要从事公司股权投资经营管理, 资产管理, 投资管理等业务。始终坚持“一切从长期出发” 的经营理念,和“ 客户第一”的价值观, 以坚定的步伐,风控的原则, 开放的心态, 合规的意识, 创新的思维, 专业的服务, 长期的努力, 与合作伙伴携手同行, 共同奋斗, 做正确的事情。
我们在浙江、江苏、河南、安徽等地区有数十亿规模产业基金,专注新材料、智能制造、高端装备、新能源、半导体、生物医药和医疗器械等,热烈欢迎硬核科技企业自荐项目, 从落地到Pre-IPO轮,助力企业全周期,快速决策, 一起向合作共赢的美好未来前行。
滙兆资本将向优秀的资管机构学习风险管理,全球资产配置, ESG责任投资, 投顾服务, 金融科技等方面的先进经验及最佳实践,打造长期资金,资本市场与实体经济良性循环的市场生态。
夜雨聆风