

前言:一个即将发生的结构性拐点
过去三年,市场谈AI必谈"算力军备竞赛",谈"资本开支黑洞",仿佛AI就是一场越陷越深的烧钱游戏。但高盛这份报告给出的核心判断,可能会让很多人的认知刷新:Agentic AI(智能体AI)的爆发,撞上Token经济学的历史性拐点,AI产业正在从"赔本赚吆喝"转向"有利可图的正向循环"。
报告里最抓人的一句话大概是这个逻辑:Leading LLM token prices have now started to stabilize — but underlying compute cost per token continues to fall significantly faster. 翻译成人话就是:卖Token的价格不再跌了,但生产Token的成本还在暴跌。中间的差价,就是利润。高盛认为,这个利润拐点就在2026年上半年。
更刺激的是数字。高盛测算,到2030年全球Token消费量可能达到每月120 quadrillion(120千万亿),是2026年水平的24倍。其中企业智能体是更大的增量,到2040年可能带来55倍的Token需求增长。这不是小打小闹的聊天机器人能比的,这是整个计算范式从"人找信息"转向"代理自动干活"的质变。
报告的另一个反直觉之处在于,它认为AI不会简单替代人类工作,而是会像历史上电报、电话、互联网那样扩大知识工作的总盘子。比如呼叫中心,AI替代了一部分人工,但企业反而可以服务更多以前"挂掉电话"的潜在客户——总需求扩大了,而不是萎缩了。


研报核心内容问答
Q1:什么是Agentic AI(智能体AI),它和现在的ChatGPT有什么区别?
现在的ChatGPT本质上还是"你问我答"的聊天模式,属于episodic( episodic/session-based)使用。你打开窗口,提个问题,得到答案,关掉窗口,一天可能也就消耗一千多个Token。
但智能体AI是完全不同的物种。高盛把它分成两类:On-Demand Agents(按需代理)和Always-On Agents(常驻代理)。按需代理像是一个能帮你订机票、购物的私人助理,你发起任务,它去规划、执行、返回结果。常驻代理则更狠,它像是一个后台持续运行的数字员工,不断Monitor(监控)你的邮箱、日程、待办事项,Detect Trigger(检测触发条件),然后Reason(推理)、Execute(执行)、Update State(更新状态),形成一个永不停歇的循环。
这种常驻模式的Token消耗是惊人的。一个LLM聊天机器人一次会话大概1,000 Token,一个嵌入式Copilot一天可能超过5,000 Token,而一个常驻代理一天可以轻松突破100,000 Token。高盛直言:"The single largest token step-up is likely to come as agents move from user-initiated tasks to persistent background activity." 真正的Token爆炸,来自" always-on"。
图表10:按需代理(上)是用户发起、离散执行的;常驻代理(下)是近连续、 proactive、代表用户工作的循环体。两者的Token计算模型完全不同。
图表13:常驻代理(如邮件监控、生活助理、日程管理)的Token消耗强度最高,每天超过10万Token;按需代理(如旅行、购物)每次会话超过1万Token;而普通LLM聊天机器人仅约1,000 Token/会话。
Q2:为什么说2026年上半年是Token经济学的拐点?
这个判断建立在两条曲线的交叉上。
第一条曲线是Token价格。过去两年,主流LLM的API价格经历了断崖式下跌,从2023年初的每百万Token超过1美元,跌到2024年的几毛钱。但高盛观察到,价格下跌趋势已经明显放缓,甚至在部分场景出现上涨。市场开始从"野蛮降价抢客户"转向"稳定定价求利润"。
第二条曲线是Token成本。这是指超大规模云厂商和模型厂商生产Token的底层算力成本。得益于Nvidia、AMD、Google TPU、Trainium等芯片的持续迭代,年化算力成本下降幅度仍高达60%-70%。也就是说,卖Token的价格不动了,但做Token的成本还在腰斩再腰斩。
当价格线高于成本线,利润率就从负转正。高盛把这个拐点框定在2026年上半年(1H26),并且认为这将是一个"positive gross margin inflection"——正向毛利率拐点。这意味着过去那种"每多卖一个Token就多亏一点"的窘境结束了,AI基础设施的投入终于可以自我造血,而不是纯靠资本输血。
报告里还提到一个"经济飞轮"效应:更低的计算成本 → 支持更复杂、更丰富的智能体 → 消耗更多Token(更长上下文、更多循环、更多验证、更多监控) → 基础设施利用率提高 → 更好的经济性 → 厂商有能力继续投资模型质量和分发。这和市场上流行的"AI越用越亏"叙事完全相反。
Q3:消费者智能体到底能带来多大的Token增量?
高盛测算,到2030年全球每天大概有230亿次AI查询,比2025年的约50亿次增长近5倍。其中大约30%会流向智能体,覆盖搜索、购物、旅行、邮件和个人生产力等场景。
这30%的智能体查询,将带来每月约60 quadrillion Token的增量,相当于让全球Token消费总量比2026年水平翻12倍。注意,这只是消费者端。
高盛特别强调,消费者AI的进化路径是从" episodic chats(偶发性聊天)"转向"utility beyond traditional search(超越传统搜索的实用工具)"。换句话说,AI不再是你想起来才去用的搜索引擎替代品,而是像微信、支付宝一样嵌入日常流程的基础设施。当智能体从"用户发起"进化到"常驻后台",Token需求会出现阶跃式跃升。
图表8:随着计算成本/定价动态的规模效应,单次查询成本(含牛市/熊市情景)预计将大幅下降。基准情景下,2025年约0.075美元/次,到2030年降至约0.018美元/次。
Q4:企业智能体为什么是更大的Token消耗者?
如果说消费者智能体是"锦上添花",企业智能体就是"真刀真枪"。高盛的测算显示,到2030年企业智能体可能贡献超过70%的总Token使用量,到2040年峰值渗透率约37%的知识工作者采用率下,Token消费总量将达到当前的55倍(约278 quadrillion Token/月)。
企业智能体之所以更"吃Token",是因为它的工作流远比聊天复杂。一个真正的企业代理需要:持续监控任务、检索上下文、推理异常情况、验证输出、更新系统记录、升级问题——这些动作需要在整个工作日内反复循环。而且企业场景涉及大量多模态输入:语音、图像、文档、屏幕活动、应用数据、日志、结构化系统记录,这些都会显著推高Token强度。
高盛为了验证这个数字,甚至自己用伪代码搭建了模拟代理(simulated agents),拆解了程序员、客服代表、数据录入员等高频岗位的工作流。结果发现一个程序员代理一天可能消耗700万Token,但API成本仅约13美元;而一个呼叫中心代理一天消耗约200万Token,成本却高达92美元(因为涉及实时语音和多模态处理)。数据录入代理更夸张,一天2,500万Token,成本约60美元。
这里有个有趣的张力:Token数量和API成本并不总是同步。文本密集型工作(如编程)Token虽多但单价低,语音/多模态工作Token相对少但单价高。所以高盛认为,企业智能体的采纳不会均匀铺开,而是会先从高价值、纯文本、工具生态成熟的场景(如软件开发)突破,语音客服这类场景可能还要等成本再降一降。
图表5:并非所有智能体目前都比人工便宜。编程代理每天成本仅13.39美元,远低于人工的300美元;呼叫中心代理每天92.90美元,已接近人工的90美元;数据录入代理每天59.68美元,低于人工的80美元。红色菱形代表Token强度。
图表26:Token强度(左)和API日成本(右)并不总是同向变动。数据录入员Token消耗最高(约2,500万/天),但客服代表的API成本最高(约75美元/天),因为涉及实时语音等高单价模态。
Q5:企业采用智能体AI的速度会有多快?历史能给我们什么启示?
高盛做了一件很有意思的事:他们搬出了经济史学家Comin和Hobijn的数据库,研究了1800-2000年间161个国家、101种技术的扩散曲线,试图找到Agentic AI的历史对标。
结论之一是:技术的峰值采用率可以比前人想象的更高。新通信技术(邮件、电报、电话、电视)并非简单互相替代,而是共同扩大了通信/信息的总市场。同理,智能体AI不会1:1替代人类劳动力,而是会创造更多以前因成本过高而被压抑的需求——就像呼叫中心,AI接手基础咨询后,企业反而能服务更多客户,总产出扩大。
结论之二是:扩散速度在加快。铁路和蒸汽船用了100多年才达到峰值渗透,有线电视、ATM、新手术技术用了不到20年。互联网从诞生到75%渗透率用了约36年。考虑到Agentic AI是非实物商品,且不受物理 household 数量限制,高盛认为15年达到峰值渗透是一个合理的基准假设,比历史中位数(29年)快得多。
当然,企业端的实际障碍不是技术,而是组织信任:数据治理、安全边界、确定性vs非确定性控制、审计、变更管理。目前70-90%的企业在"实验"智能体,但只有不到四分之一在"规模化部署"。高盛认为曲线会是S型:先慢(试点期),再快(临界点后的网络效应和ROI验证),最后趋缓(长尾企业跟进)。
图表16:不同技术的峰值采用受现实世界约束的程度不同。邮件包裹(左上)和电报(右上)的扩散几乎不受物理 household 数量限制;收音机(左下)和电话(右下)则明显受人均保有量约束。Agentic AI更接近前者。
Q6:这对软件行业的TAM(总可及市场)意味着什么?
高盛认为,Agentic AI将显著扩大软件TAM,而且是以一种结构性的方式。
传统SaaS按席位(seat)收费,本质上是在卖"工具使用权"。但智能体经济下,软件厂商可以转向按成果、按生产力、按工作量单位(units of work)收费。如果AI交付一个自动化工作流的成本持续下降,而这项工作本身对应的人力替代价值或生产力增益仍然很大,软件公司就能在"下降的AI成本"和"巨大的任务价值"之间赚取差价。
高盛的模型显示,到2030年,Agent TAM将从接近零增长到约3.2万亿美元,而传统SaaS TAM可能从3万亿美元萎缩到约2万亿美元,但两者相加的总软件市场从3万亿膨胀到5.2万亿以上。也就是说,Agentic AI不是简单蚕食旧市场,而是创造了一个远大于旧市场的新增量。
已经有信号在验证这个趋势:Sierra(客户体验)、Serval(IT服务台)等初创公司的合同金额明显向上突破;Avenir的调研显示企业愿意为通用智能代理支付每年2,400美元(作为参照,Microsoft 365 E5 tier年费约680美元)。Coding工具的ARPU已经涨了25倍。
图表23:软件TAM将持续增长,由新兴的智能体TAM驱动。浅蓝色是传统SaaS TAM,深蓝色是Agent TAM。到2030年,Agent TAM将显著超越SaaS TAM,总市场规模突破5万亿美元。
Q7:高盛具体看好哪些股票?逻辑是什么?
报告给出了三个板块的具体标的,逻辑都很清晰:
半导体:这是"卖铲子"的底层逻辑。Token需求爆炸+利润率拐点,意味着云厂商和模型厂商有能力和动力继续砸钱买芯片。Broadcom(AVGO,目标价480美元)是定制芯片(ASIC)龙头,Google和更多超大规模厂商都在找它做成本优化的专属芯片。Nvidia(NVDA,目标价250美元)依然是高性能通用GPU的霸主,训练和推理两端都领先。AMD(AMD,目标价450美元)的数据中心GPU(MI450/MI5XX系列)正在放量,同时在x86服务器CPU市场的份额提升也能带动CPU attach rate。
互联网/超大规模云厂商:它们是Token经济的直接受益者。Alphabet(GOOGL,目标价450美元)的全栈能力(搜索多模态+云业务)正在发力,云业务Q1同比增长63%,积压订单近翻倍。Amazon(AMZN,目标价325美元)的AWS收入重新加速,AI工作负载和自研芯片(Trainium、Graviton) momentum 强劲,积压订单高达3,640亿美元。Meta(META,目标价830美元)的核心广告业务继续跑赢行业,AI驱动的广告创建、定向、归因正在变现,未来还有智能体电商、SMB工具等新场景。
软件与IT服务:Microsoft(MSFT,目标价610美元)的Copilot反馈在改善,E7升级周期可能推动Microsoft 365进一步加速。高盛认为最可能的场景是Copilot与领域专属代理共存,互相拉动使用。Cloudflare(NET,目标价250美元)凭借网络架构优势和边缘计算能力,有望在AI推理工作负载中拿到超比例份额。Accenture(ACN,目标价300美元)则受益于企业从AI试点转向规模化部署,集成、工作流重设计、治理、变更管理的需求会爆发。
Q8:报告提到了哪些风险?有什么需要注意的反面叙事?
高盛并没有盲目乐观。报告明确指出了几个关键风险:
第一,竞争可能迫使Token价格下降速度快于成本下降速度,尤其是在文本类这种相对同质化的场景。如果价格战重启,利润率拐点就会推迟甚至消失。
第二,企业采纳的不均匀性。不是所有工作流都值得自动化。呼叫中心代理目前就比人工贵,全语音自动化在成本和运营复杂度上都还不过关。很多客服场景可能先转向"文本优先"的自动化,语音只是辅助。
第三,组织和文化障碍。技术已经ready,但企业的数据治理、安全边界、审计要求、变更管理都是硬骨头。没有这些基础,智能体很难从"试点玩具"变成"生产工具"。
第四,资本开支的可持续性。虽然报告认为利润率拐点会让Capex更可持续,但如果Token需求增长不及预期,或者宏观经济下行导致企业IT预算收缩,整个飞轮可能减速。
但高盛的核心结论是:即使考虑这些风险,价格与成本的整体趋势仍有显著改善空间。加速器效率、模型优化、路由、缓存、利用率提升都在持续进行。关键投资结论不是"每个Token都赚钱",而是"智能体AI的边际经济学正在改善,同时Token volumes在加速"。这个组合,让整个Agent Economy可能比简单外推今天的聊天机器人使用量要大得多、也持久得多。
总结
这份报告的核心价值,在于它用扎实的自下而上建模(pseudo-code模拟代理、芯片benchmark定价、历史技术扩散数据),论证了一个市场尚未充分定价的拐点:AI产业正在从"成本中心"转变为"利润中心"。
Token价格触底+算力成本暴跌,意味着超大规模云厂商和模型厂商的毛利率即将在2026年上半年转正;而Agentic AI从聊天机器人进化到常驻后台的自主代理,将带来Token需求的24倍(消费者)到55倍(企业)增长。
这不是简单的"AI需求故事",而是一个需求爆发与利润率扩张同时发生的罕见组合。对于投资者而言,关键不是争论AI有没有泡沫,而是认清一个事实:当边际经济学转正时,整个价值链的Capex可持续性、软件定价权、芯片需求弹性,都会被重新估值。
研报原文:
《高盛-解读智能体经济:人工智能应用与利润率即将迎来拐点-Decoding the Agentic Economy The Coming Inflection in AI Usage and Margins-20260505【41页】》

免责声明:"本文仅供学习分析逻辑和思路,不构成投资建议,切勿对号入座"
关注我们公众号,获取更新最新机构调研
夜雨聆风