高盛重磅研究:AI智能体迎来历史性的利润率拐点

研报封面：Decoding the Agentic Economy —— 智能体经济的解码时刻

前言：一个即将发生的结构性拐点

过去三年，市场谈AI必谈"算力军备竞赛"，谈"资本开支黑洞"，仿佛AI就是一场越陷越深的烧钱游戏。但高盛这份报告给出的核心判断，可能会让很多人的认知刷新：Agentic AI（智能体AI）的爆发，撞上Token经济学的历史性拐点，AI产业正在从"赔本赚吆喝"转向"有利可图的正向循环"。

报告里最抓人的一句话大概是这个逻辑：Leading LLM token prices have now started to stabilize — but underlying compute cost per token continues to fall significantly faster. 翻译成人话就是：卖Token的价格不再跌了，但生产Token的成本还在暴跌。中间的差价，就是利润。高盛认为，这个利润拐点就在2026年上半年。

更刺激的是数字。高盛测算，到2030年全球Token消费量可能达到每月120 quadrillion（120千万亿），是2026年水平的24倍。其中企业智能体是更大的增量，到2040年可能带来55倍的Token需求增长。这不是小打小闹的聊天机器人能比的，这是整个计算范式从"人找信息"转向"代理自动干活"的质变。

报告的另一个反直觉之处在于，它认为AI不会简单替代人类工作，而是会像历史上电报、电话、互联网那样扩大知识工作的总盘子。比如呼叫中心，AI替代了一部分人工，但企业反而可以服务更多以前"挂掉电话"的潜在客户——总需求扩大了，而不是萎缩了。

图表1：Token经济学正在迎来拐点。蓝色粗线是主流LLM Token价格，已经趋于平稳；而Nvidia、AMD、Google TPU、Trainium的底层计算成本（彩色细线）仍在快速下降。红色虚线框标注的正是2026年上半年利润率转正的关键窗口。

图表2：到2030年，消费者和企业智能体可能推动全球Token消费增长24倍以上。浅色区域是企业智能体，中色是消费者智能体，深色是非智能体工作负载。注意2026年上半年的红色标记——Token经济学在此处由负转正。

研报核心内容问答

Q1：什么是Agentic AI（智能体AI），它和现在的ChatGPT有什么区别？

现在的ChatGPT本质上还是"你问我答"的聊天模式，属于episodic（ episodic/session-based）使用。你打开窗口，提个问题，得到答案，关掉窗口，一天可能也就消耗一千多个Token。

但智能体AI是完全不同的物种。高盛把它分成两类：On-Demand Agents（按需代理）和Always-On Agents（常驻代理）。按需代理像是一个能帮你订机票、购物的私人助理，你发起任务，它去规划、执行、返回结果。常驻代理则更狠，它像是一个后台持续运行的数字员工，不断Monitor（监控）你的邮箱、日程、待办事项，Detect Trigger（检测触发条件），然后Reason（推理）、Execute（执行）、Update State（更新状态），形成一个永不停歇的循环。

这种常驻模式的Token消耗是惊人的。一个LLM聊天机器人一次会话大概1,000 Token，一个嵌入式Copilot一天可能超过5,000 Token，而一个常驻代理一天可以轻松突破100,000 Token。高盛直言："The single largest token step-up is likely to come as agents move from user-initiated tasks to persistent background activity." 真正的Token爆炸，来自" always-on"。

图表10：按需代理（上）是用户发起、离散执行的；常驻代理（下）是近连续、 proactive、代表用户工作的循环体。两者的Token计算模型完全不同。图表13：常驻代理（如邮件监控、生活助理、日程管理）的Token消耗强度最高，每天超过10万Token；按需代理（如旅行、购物）每次会话超过1万Token；而普通LLM聊天机器人仅约1,000 Token/会话。

Q2：为什么说2026年上半年是Token经济学的拐点？

这个判断建立在两条曲线的交叉上。

第一条曲线是Token价格。过去两年，主流LLM的API价格经历了断崖式下跌，从2023年初的每百万Token超过1美元，跌到2024年的几毛钱。但高盛观察到，价格下跌趋势已经明显放缓，甚至在部分场景出现上涨。市场开始从"野蛮降价抢客户"转向"稳定定价求利润"。

第二条曲线是Token成本。这是指超大规模云厂商和模型厂商生产Token的底层算力成本。得益于Nvidia、AMD、Google TPU、Trainium等芯片的持续迭代，年化算力成本下降幅度仍高达60%-70%。也就是说，卖Token的价格不动了，但做Token的成本还在腰斩再腰斩。

当价格线高于成本线，利润率就从负转正。高盛把这个拐点框定在2026年上半年（1H26），并且认为这将是一个"positive gross margin inflection"——正向毛利率拐点。这意味着过去那种"每多卖一个Token就多亏一点"的窘境结束了，AI基础设施的投入终于可以自我造血，而不是纯靠资本输血。

报告里还提到一个"经济飞轮"效应：更低的计算成本 → 支持更复杂、更丰富的智能体 → 消耗更多Token（更长上下文、更多循环、更多验证、更多监控） → 基础设施利用率提高 → 更好的经济性 → 厂商有能力继续投资模型质量和分发。这和市场上流行的"AI越用越亏"叙事完全相反。

Q3：消费者智能体到底能带来多大的Token增量？

高盛测算，到2030年全球每天大概有230亿次AI查询，比2025年的约50亿次增长近5倍。其中大约30%会流向智能体，覆盖搜索、购物、旅行、邮件和个人生产力等场景。

这30%的智能体查询，将带来每月约60 quadrillion Token的增量，相当于让全球Token消费总量比2026年水平翻12倍。注意，这只是消费者端。

高盛特别强调，消费者AI的进化路径是从" episodic chats（偶发性聊天）"转向"utility beyond traditional search（超越传统搜索的实用工具）"。换句话说，AI不再是你想起来才去用的搜索引擎替代品，而是像微信、支付宝一样嵌入日常流程的基础设施。当智能体从"用户发起"进化到"常驻后台"，Token需求会出现阶跃式跃升。

图表8：随着计算成本/定价动态的规模效应，单次查询成本（含牛市/熊市情景）预计将大幅下降。基准情景下，2025年约0.075美元/次，到2030年降至约0.018美元/次。

Q4：企业智能体为什么是更大的Token消耗者？

如果说消费者智能体是"锦上添花"，企业智能体就是"真刀真枪"。高盛的测算显示，到2030年企业智能体可能贡献超过70%的总Token使用量，到2040年峰值渗透率约37%的知识工作者采用率下，Token消费总量将达到当前的55倍（约278 quadrillion Token/月）。

企业智能体之所以更"吃Token"，是因为它的工作流远比聊天复杂。一个真正的企业代理需要：持续监控任务、检索上下文、推理异常情况、验证输出、更新系统记录、升级问题——这些动作需要在整个工作日内反复循环。而且企业场景涉及大量多模态输入：语音、图像、文档、屏幕活动、应用数据、日志、结构化系统记录，这些都会显著推高Token强度。

高盛为了验证这个数字，甚至自己用伪代码搭建了模拟代理（simulated agents），拆解了程序员、客服代表、数据录入员等高频岗位的工作流。结果发现一个程序员代理一天可能消耗700万Token，但API成本仅约13美元；而一个呼叫中心代理一天消耗约200万Token，成本却高达92美元（因为涉及实时语音和多模态处理）。数据录入代理更夸张，一天2,500万Token，成本约60美元。

这里有个有趣的张力：Token数量和API成本并不总是同步。文本密集型工作（如编程）Token虽多但单价低，语音/多模态工作Token相对少但单价高。所以高盛认为，企业智能体的采纳不会均匀铺开，而是会先从高价值、纯文本、工具生态成熟的场景（如软件开发）突破，语音客服这类场景可能还要等成本再降一降。

图表5：并非所有智能体目前都比人工便宜。编程代理每天成本仅13.39美元，远低于人工的300美元；呼叫中心代理每天92.90美元，已接近人工的90美元；数据录入代理每天59.68美元，低于人工的80美元。红色菱形代表Token强度。图表26：Token强度（左）和API日成本（右）并不总是同向变动。数据录入员Token消耗最高（约2,500万/天），但客服代表的API成本最高（约75美元/天），因为涉及实时语音等高单价模态。

Q5：企业采用智能体AI的速度会有多快？历史能给我们什么启示？

高盛做了一件很有意思的事：他们搬出了经济史学家Comin和Hobijn的数据库，研究了1800-2000年间161个国家、101种技术的扩散曲线，试图找到Agentic AI的历史对标。

结论之一是：技术的峰值采用率可以比前人想象的更高。新通信技术（邮件、电报、电话、电视）并非简单互相替代，而是共同扩大了通信/信息的总市场。同理，智能体AI不会1:1替代人类劳动力，而是会创造更多以前因成本过高而被压抑的需求——就像呼叫中心，AI接手基础咨询后，企业反而能服务更多客户，总产出扩大。

结论之二是：扩散速度在加快。铁路和蒸汽船用了100多年才达到峰值渗透，有线电视、ATM、新手术技术用了不到20年。互联网从诞生到75%渗透率用了约36年。考虑到Agentic AI是非实物商品，且不受物理 household 数量限制，高盛认为15年达到峰值渗透是一个合理的基准假设，比历史中位数（29年）快得多。

当然，企业端的实际障碍不是技术，而是组织信任：数据治理、安全边界、确定性vs非确定性控制、审计、变更管理。目前70-90%的企业在"实验"智能体，但只有不到四分之一在"规模化部署"。高盛认为曲线会是S型：先慢（试点期），再快（临界点后的网络效应和ROI验证），最后趋缓（长尾企业跟进）。

图表16：不同技术的峰值采用受现实世界约束的程度不同。邮件包裹（左上）和电报（右上）的扩散几乎不受物理 household 数量限制；收音机（左下）和电话（右下）则明显受人均保有量约束。Agentic AI更接近前者。

Q6：这对软件行业的TAM（总可及市场）意味着什么？

高盛认为，Agentic AI将显著扩大软件TAM，而且是以一种结构性的方式。

传统SaaS按席位（seat）收费，本质上是在卖"工具使用权"。但智能体经济下，软件厂商可以转向按成果、按生产力、按工作量单位（units of work）收费。如果AI交付一个自动化工作流的成本持续下降，而这项工作本身对应的人力替代价值或生产力增益仍然很大，软件公司就能在"下降的AI成本"和"巨大的任务价值"之间赚取差价。

高盛的模型显示，到2030年，Agent TAM将从接近零增长到约3.2万亿美元，而传统SaaS TAM可能从3万亿美元萎缩到约2万亿美元，但两者相加的总软件市场从3万亿膨胀到5.2万亿以上。也就是说，Agentic AI不是简单蚕食旧市场，而是创造了一个远大于旧市场的新增量。

已经有信号在验证这个趋势：Sierra（客户体验）、Serval（IT服务台）等初创公司的合同金额明显向上突破；Avenir的调研显示企业愿意为通用智能代理支付每年2,400美元（作为参照，Microsoft 365 E5 tier年费约680美元）。Coding工具的ARPU已经涨了25倍。

图表23：软件TAM将持续增长，由新兴的智能体TAM驱动。浅蓝色是传统SaaS TAM，深蓝色是Agent TAM。到2030年，Agent TAM将显著超越SaaS TAM，总市场规模突破5万亿美元。

Q7：高盛具体看好哪些股票？逻辑是什么？

报告给出了三个板块的具体标的，逻辑都很清晰：

半导体：这是"卖铲子"的底层逻辑。Token需求爆炸+利润率拐点，意味着云厂商和模型厂商有能力和动力继续砸钱买芯片。Broadcom（AVGO，目标价480美元）是定制芯片（ASIC）龙头，Google和更多超大规模厂商都在找它做成本优化的专属芯片。Nvidia（NVDA，目标价250美元）依然是高性能通用GPU的霸主，训练和推理两端都领先。AMD（AMD，目标价450美元）的数据中心GPU（MI450/MI5XX系列）正在放量，同时在x86服务器CPU市场的份额提升也能带动CPU attach rate。

互联网/超大规模云厂商：它们是Token经济的直接受益者。Alphabet（GOOGL，目标价450美元）的全栈能力（搜索多模态+云业务）正在发力，云业务Q1同比增长63%，积压订单近翻倍。Amazon（AMZN，目标价325美元）的AWS收入重新加速，AI工作负载和自研芯片（Trainium、Graviton） momentum 强劲，积压订单高达3,640亿美元。Meta（META，目标价830美元）的核心广告业务继续跑赢行业，AI驱动的广告创建、定向、归因正在变现，未来还有智能体电商、SMB工具等新场景。

软件与IT服务：Microsoft（MSFT，目标价610美元）的Copilot反馈在改善，E7升级周期可能推动Microsoft 365进一步加速。高盛认为最可能的场景是Copilot与领域专属代理共存，互相拉动使用。Cloudflare（NET，目标价250美元）凭借网络架构优势和边缘计算能力，有望在AI推理工作负载中拿到超比例份额。Accenture（ACN，目标价300美元）则受益于企业从AI试点转向规模化部署，集成、工作流重设计、治理、变更管理的需求会爆发。

Q8：报告提到了哪些风险？有什么需要注意的反面叙事？

高盛并没有盲目乐观。报告明确指出了几个关键风险：

第一，竞争可能迫使Token价格下降速度快于成本下降速度，尤其是在文本类这种相对同质化的场景。如果价格战重启，利润率拐点就会推迟甚至消失。

第二，企业采纳的不均匀性。不是所有工作流都值得自动化。呼叫中心代理目前就比人工贵，全语音自动化在成本和运营复杂度上都还不过关。很多客服场景可能先转向"文本优先"的自动化，语音只是辅助。

第三，组织和文化障碍。技术已经ready，但企业的数据治理、安全边界、审计要求、变更管理都是硬骨头。没有这些基础，智能体很难从"试点玩具"变成"生产工具"。

第四，资本开支的可持续性。虽然报告认为利润率拐点会让Capex更可持续，但如果Token需求增长不及预期，或者宏观经济下行导致企业IT预算收缩，整个飞轮可能减速。

但高盛的核心结论是：即使考虑这些风险，价格与成本的整体趋势仍有显著改善空间。加速器效率、模型优化、路由、缓存、利用率提升都在持续进行。关键投资结论不是"每个Token都赚钱"，而是"智能体AI的边际经济学正在改善，同时Token volumes在加速"。这个组合，让整个Agent Economy可能比简单外推今天的聊天机器人使用量要大得多、也持久得多。

总结

这份报告的核心价值，在于它用扎实的自下而上建模（pseudo-code模拟代理、芯片benchmark定价、历史技术扩散数据），论证了一个市场尚未充分定价的拐点：AI产业正在从"成本中心"转变为"利润中心"。

Token价格触底+算力成本暴跌，意味着超大规模云厂商和模型厂商的毛利率即将在2026年上半年转正；而Agentic AI从聊天机器人进化到常驻后台的自主代理，将带来Token需求的24倍（消费者）到55倍（企业）增长。

这不是简单的"AI需求故事"，而是一个需求爆发与利润率扩张同时发生的罕见组合。对于投资者而言，关键不是争论AI有没有泡沫，而是认清一个事实：当边际经济学转正时，整个价值链的Capex可持续性、软件定价权、芯片需求弹性，都会被重新估值。

研报原文：

《高盛-解读智能体经济：人工智能应用与利润率即将迎来拐点-Decoding the Agentic Economy The Coming Inflection in AI Usage and Margins-20260505【41页】》

如果认同文中的观点，欢迎点亮「在看」标记你的态度，或分享给志同道合的朋友。好的内容值得被传播，而你的每一次推荐，都在帮我们筛选同频的读者。

免责声明："本文仅供学习分析逻辑和思路，不构成投资建议，切勿对号入座"

关注我们公众号，获取更新最新机构调研