
- 后台回复“JPM” + 关注领JP Morgan AI Trend Research 2026报告完整版
4年1200倍,Token消耗量还要往上涨
距离初代Chatgpt发布至今已经4年了。在24年初,整个行业的日均Token消耗量仅约 1,000亿;而到今天,仅仅是一家豆包大模型,日均Token使用量就突破了120万亿。
另外,在这4年时间,AI领域跑出了3家万亿美元级的公司。OpenAI最新估值约8520亿美元,Anthropic新一轮融资估值,也在向 1 万亿美元靠近。英伟达市值达到 5.21 万亿美元,相比低点已经翻了十几倍。现在是全球市值最高的上市公司,也是人类历史上第一家突破5万亿美元市值的公司。
无论是Token消耗量的指数级增长,还是头部AI公司的估值膨胀;无不证明,AI正在从“模型工具”演化成“持续运行的智能系统”。AI系统将慢慢嵌入整个人类社会,而系统已经存在的技术栈也因为AI的到来将被重新定义。
在ChatGPT诞生初期,人们关注的是模型参数、训练规模和Benchmark成绩;但随着大模型在顶端的能力逐渐趋同,推理的价格开始往下降,AI逐渐进入企业生产环境。越来越多的Agent、AI Native应用和Physical AI开始持续运行,行业竞争的焦点也开始从“训练模型”转向“运营推理世界”。
AI未来怎么变?看这四个超级趋势
未来AI产业最重要的驱动力将不再是训练,而是持续增长的推理需求。围绕这一变化,整个AI生态正在经历一次深刻重构:从数据架构、基础设施到应用形态,从人机交互方式到智能体协作模式,都将发生根本性的变化。
总结来看,未来2~5年,AI产业的发展与变革围绕这4个超级趋势展开:
趋势一:上下文驱动架构 (Context-driven Architecture) :AI开始需要长期记忆、上下文管理以及工具调用能力,Context Engineering将成为新的核心竞争力。
趋势二:推理需求驱动AI基础设施建设(Inference-driven AI Buildout) :AI推理需求将远超训练需求,并持续推动算力、电力、数据中心和边缘基础设施进入新的扩张周期。
趋势三:意图即新界面 (Intent is the New Interface):App时代正在走向终点,Agent将逐渐成为新的入口,人机交互范式也将随之改变。
趋势四:AI驱动的模拟仿真 (AI-powered Simulation):AI将开始在虚拟环境中进行自我训练、自我演化,并推动机器人、自动驾驶和Physical AI进入新的发展阶段。
表面上看,这四个趋势只是各自独立对应数据架构、基础设施、人机交互和智能体演化,但它们最终将会融合一体。AI正在从“模型时代”走向“系统时代”,从单次调用的工具,演化为持续运行的智能网络。
AI上下文驱动架构——
AI竞争正在从模型能力转向环境能力
AI带来的工作流变化,以及生活习惯的改变。首当其冲的就是软件开发行业。今天 80% 软件工程师的核心技能,已经被模型替代了,还留着的原因是模型偶尔犯蠢,需要人来盯着。但 “盯着” 这件事本身,可能很快也不需要了。
硅谷出现了所谓的 “AI native 组织”——让每个部门梳理工作流、把能被 AI 介入的部分线上化、写成 skills。但本质上就是在人肉蒸馏自己:你把你的能力变成机器的 skill,公司拿到了你的 skill,实际上就已经完成AI化了,越来越多的活,工程师也再也不需要“盯着”,用AI监督AI就行了。因此是否要裁员,已经演变成了一个道义的问题。
METR 是加州一家专门评估 AI 编码能力的研究机构。他们去年提出了一个指标:衡量 AI agent 能以 50% 成功率完成多长的任务(按人类专家的完成时间算)。2025 年 3 月首次发布时,Claude 3.7 Sonnet 的这个数字还是 50 分钟;到了 2025 年底,Claude Opus 4.6 已经做到了 14.5 小时。过去两年,这个指标的翻倍周期,从 7 个月压缩到了 4 个月。一旦 agent 的可靠性再上一个台阶。Token 消耗就不是每年加 50% 的问题,而是一夜之间上一个数量级。
但当Agent开始处理更长、更复杂的任务时,真正的瓶颈也随之暴露出来:模型本身只是“大脑”,但一个大脑要想完成复杂工作,必须知道自己身处什么环境、掌握哪些资料、拥有怎样的权限、可以调用哪些工具、过去做过什么、下一步应该交给谁。
也就是说,未来AI竞争的核心,不只是模型参数和Benchmark,而是上下文驱动型架构(Context-driven architectures)。
过去的AI交互很简单:用户输入一句Prompt,模型返回一个答案。那时,大家关心的是Prompt怎么写得更好。但Agent时代不同。一个Agent要完成真实业务任务,需要长期记忆、实时状态、企业知识库、工具调用结果、代码库上下文、权限边界,以及与其他Agent的协作记录。
这也是为什么,Prompt Engineering正在升级为Context Engineering。
Prompt工程解决的是“怎么问”;Context工程解决的是“让模型在正确的时间看到正确的信息”。它不只是把上下文窗口拉长,而是要在Token成本、响应延迟、输出质量和安全边界之间做动态取舍。因为更长的上下文并不天然等于更好的结果。上下文越长,成本越高,噪音越多,模型越容易被无关信息干扰。真正重要的,是用最少但最高质量的上下文,帮助模型完成任务。
为了实现这一点,企业AI系统的底层架构会发生变化。
知识图谱和语义层会成为企业AI的“事实底座”。它们帮助Agent理解公司内部的客户、合同、产品、账户、权限、流程之间的关系,减少幻觉,并让AI的输出更加可追溯、可治理。
新的AI原生数据格式也会出现。传统的数据格式更适合结构化表格,而AI需要处理的是文档、图片、音频、视频、Embedding和工具调用记录。未来的数据基础设施,不只是为了BI和报表服务,而是为了训练、检索、推理和Agent工作流服务。
软件开发也会从“AI帮忙写代码”,进入“AI理解整个开发环境”的阶段。真正有价值的Agent,不仅仅只是写一个函数,而是能够理解代码库结构、团队规范、测试流程、部署环境和历史问题。它需要的不只是模型能力,而是一整套围绕代码库、组织流程和工程规范构建的上下文系统。
同时,Agent之间也会逐渐形成协议层。MCP、A2A、ACP等协议,本质上是在解决Agent如何连接工具、调用数据、协同任务和交换状态的问题。就像互联网需要HTTP和TCP/IP一样,AI世界也需要属于自己的连接协议。未来大量Token消耗,可能并不是来自人和AI的对话,而是来自AI与AI之间的持续通信。
推理需求驱动AI基础设施建设
黄仁勋在GTC 2026上给出了一个极具冲击力的判断:过去两年,AI推理计算需求增长了约100万倍。这个数字背后,反映的不是一次短期热潮,而是AI使用方式的根本变化。
人类使用AI,23年只是简单的一问一答;而26年,部分人已经开始用上OpenClaw这种桌面级的全自动Agent了。
过去,用户打开ChatGPT,输入一个问题,模型生成一段回答,整个过程就结束了。Token消耗是间断的、低频的、相对可控的。但今天,越来越多AI应用开始持续运行:自动写代码、自动分析数据、自动生成报告、自动完成任务、自动调用工具、自动与其他Agent协作。
一个原本需要人类数小时完成的工作,现在可能交给AI持续运行数十分钟甚至数小时。用户看到的是“任务完成了”,但系统背后其实发生了大量推理:任务拆解、上下文读取、模型调用、工具调用、结果检查、多轮修正,以及多个Agent之间的协同。
这意味着,Token正在从“对话消耗”变成“系统消耗”。尤其在复杂任务中,一个AI系统为了完成一次分析,可能需要多轮调用模型,反复拆解任务和验证结果,还要调用不同工具、数据库和子模型。原本一次低频对话只需要几千Token,但一旦进入Agent工作流,Token消耗很容易扩展到十万、百万,甚至更高。
这正是为什么推理需求会成为未来AI基础设施建设的最大驱动力。训练模型更像是建造一座发电厂,成本巨大,但频率有限;而推理则像电力输送和消费,每一次应用调用、每一次Agent执行、每一个终端设备运行,都在持续消耗算力。模型大部分只训练一次,但推理会发生数十亿、数万亿次。因此,AI基础设施不会因为大模型训练告一段落而放缓,反而会因为推理需求的爆发进入更长周期的建设阶段。训练也是。
未来AI基建创新将不再只围绕GPU展开,而会同时扩展到电力、数据中心、芯片、网络、冷却、存储和边缘节点等多个环节。2025年,全球AI基础设施CapEx已经超过4000亿美元,2026年的预测规模进一步超过6000亿美元。这说明AI基础设施建设并没有进入尾声,而是刚刚进入由推理需求驱动的新阶段。
在这个阶段,电力会成为最底层的约束。高密度GPU集群需要稳定而巨大的电力供应,数据中心必须靠近能源、网络和用户。冷却系统也会发生升级,液冷、浸没式冷却和更高效的热管理将成为AI数据中心的标配。网络和存储同样会变得更加重要,因为推理不是单点计算,而是大规模、多并发、低延迟的实时服务。
与此同时,推理基础设施本身也会越来越“云原生化”。过去,很多AI系统的部署方式仍然偏实验室和工程项目制;但当推理进入生产环境后,企业需要的是可扩容、可监控、可调度、可容灾、可计费的系统能力。Kubernetes、vLLM、llm-d等工具开始成为推理部署的重要基础。它们解决的不只是“模型能不能跑”,而是“模型如何在高并发、低成本、低延迟的环境里持续稳定运行”。
这也意味着,推理优化本身会成为一个巨大的市场。KV Cache、Paged Attention、Continuous Batching、模型压缩、混合专家模型、缓存复用、动态路由,这些技术的核心目标都是一样的:用更低的成本、更短的延迟,完成更多Token的推理。未来五年,仅AI推理优化市场就有可能成长为千亿美元级别的新赛道。
在这个过程中,异构算力也会变得越来越重要。
未来不会是所有任务都交给同一种GPU处理。不同任务会匹配不同芯片、不同模型、不同推理框架和不同部署位置。复杂推理可能仍然依赖高端GPU,大量轻量级任务则可能转向边缘设备、专用推理芯片或更低成本的区域节点。真正有价值的不只是拥有算力,而是能够根据任务类型、成本结构、延迟要求和合规边界,动态选择最合适的算力资源。
这也解释了为什么“AI at the Edge”会成为越来越重要的趋势。
AI Agent、AI眼镜、机器人、自动驾驶、智能工厂和Physical AI都对延迟极其敏感。很多场景不能把所有请求都送到远端云中心再返回结果。推理必须越来越靠近用户、靠近设备、靠近数据产生的地方。未来的AI基础设施,将从集中式云计算,走向云端、区域节点和边缘推理共同组成的分布式网络。
GoodVision AI所布局的Edge AI Factory和智能调度系统,正是在这个趋势下形成的基础设施能力。其核心并不是简单提供算力,而是让不同任务能够在合适的模型、合适的节点和合适的成本结构下完成推理。随着Token消耗持续增长,企业真正需要的不只是更多GPU,而是更高效、更低延迟、更可控的推理网络。
更长远地看,量子计算也可能成为AI基础设施的一部分。它并不会在短期内替代GPU或传统计算,但在模拟、优化、密码学和复杂科学计算等领域,量子计算有机会与AI形成互补。未来,量子系统甚至可能生成经典计算难以模拟的数据,为AI训练和推理提供新的输入。
所以,推理需求驱动的AI基建扩张,不是一轮简单的GPU采购周期,而是一场围绕“持续智能消费”展开的系统性重构。
AI意图带来全新的人机交互
过去二十年,互联网产品的基本交互方式几乎没有变过。用户想完成一件事,需要先打开某个App,再在页面中搜索、点击、填写、跳转、确认。无论是订机票、买东西、查资料,还是处理工作任务,本质上都是人在不同软件之间不断切换,并手动完成一连串操作。
办公也是如此。文档在Word里,表格在Excel里,沟通在Slack或Teams里,会议在Zoom里,项目管理在Notion、Jira或飞书里。人类的工作,很大一部分时间都耗费在不同系统之间来回切换、复制信息、整理上下文。
截止今天,AI对于外部世界的理解已经逐渐从单调的文本、图片和视频扩展到了多模态。
对于欧美市场而言,由于欧美的互联网普及较早,大部分人习惯使用浏览器进行交互,所以浏览器会是最先被重构的入口之一。过去的浏览器只是一个页面入口,用户通过它访问网页;未来,浏览器会变成任务执行入口。Agentic Browser不只是帮用户打开网页,而是理解用户要完成什么任务,并跨网站完成检索、比较、填写和执行。
在这种模式下,浏览器不再只是信息窗口,而更像是一个可以行动的Agent。用户不再需要在搜索引擎、电商网站、支付页面和邮件系统之间反复跳转,而是由Agent把这些步骤串成一个完整工作流。
商业化部分也会有个革新性的改变。例如企业端的舆情分析,主要是让人类员工解读新闻、评论和社交文本并执行应对动作;未来,AI会同时理解图片、视频、音频、直播、短视频评论和社交互动。品牌情绪、用户反馈、产品风险和市场趋势,不再只藏在文字里,也会出现在表情、语气、画面和传播路径中。这会让企业的市场感知能力大幅提升。AI不只是看消费者说了什么,还能理解消费者如何表达、在哪些场景表达、情绪如何扩散,以及风险是否正在形成。
但本质上,目前绝大部分的产品经理对于AI的交互设计还只是停留在“用户说,AI执行”这一层面。本质还是用户与一个AI App在前端交互,AI在后台调用系统内已有的App去做执行。
但不妨做一个更大胆的设想:未来AI时代的用户界面会越来越“生成式”。不同用户、不同任务、不同场景,可能会看到完全不同的页面和操作路径。也就是说,AI能够根据用户的意图实时生成最合适的界面。
例如,一个销售人员打开CRM时,系统不一定展示标准表格,而是直接生成今天最值得跟进的客户、推荐沟通话术、历史互动摘要和下一步动作;一个投资人打开研究平台时,系统也不一定展示传统Dashboard,而是根据他的关注方向生成市场异动、公司对比和风险提示。
这就是Generative User Experience的核心:界面从静态入口,变成动态生成的任务环境。
未来的AI不是一个独立App,而是会嵌入所有入口。App不会马上消失,但App之间的切换会变得越来越不重要。真正重要的,不再是用户打开了哪个软件,而是用户表达了什么意图,以及哪个Agent能够最好地完成这个意图。这也会进一步推动Token消耗增长。因为在“意图即界面”的世界里,用户一句简单的指令,背后可能对应的是大量搜索、推理、调用、验证和执行。前台交互变得越来越轻,后台推理却变得越来越重。
AI驱动仿真,测试与训练将在虚拟世界中完成
根据公开报道,特斯拉在去年正式披露了一个名为“世界模拟器”的神经网络系统,旨在为其自动驾驶和机器人项目打造一个无限逼真的虚拟训练场。目标是为FSD和Optimus机器人构建一个高度逼真的虚拟训练场。它可以基于真实世界数据生成连续、多视角的驾驶场景,让AI在短时间内经历大量现实道路中罕见但关键的长尾情境。
这类系统的价值,在于AI获得一个可以无限试错的环境。从而让AI训练,从“等待现实发生”,转向“主动生成现实”。
真实道路数据当然重要,但真实世界有一个天然限制:很多关键场景太少见。比如极端天气下的视野遮挡、复杂路口中车辆的抽象行为、突然横穿马路的行人、施工区域中的临时路障,甚至其他车辆做出的反常动作。这些场景对安全至关重要,却很难依靠真实路测高频采集。
在模拟器里,系统可以反复重现同一个极端场景,并修改天气、速度、行人行为、车辆动作和道路条件,让模型尝试不同应对方式。它也可以主动创造现实中极端罕见的对抗性场景,专门测试模型在边界条件下是否稳定。特斯拉称,通过这一套“世界模拟器”,其AI系统能在一天之内学习相当于人类500年驾驶时长的经验。
更重要的是,这种仿真能力不会只服务于汽车。特斯拉的思路是让汽车和人形机器人共享同一套对物理世界的理解能力。汽车只是一个载体,Optimus机器人是另一个载体,背后真正重要的是一套能够理解空间、物体、动作和因果关系的通用物理世界模型。
要想AI嵌入物理世界,需要一个足够安全的系统;不能等到真实事故发生之后才学习。一个机器人,也不能在真实工厂或家庭环境中通过大量失败动作来试错。虚拟仿真让AI可以先在低风险环境中经历失败、识别风险、优化策略,再进入真实世界执行任务。
这也解释了为什么AI仿真会成为Physical AI发展的关键基础设施。未来机器人、无人机、自动驾驶、智能工厂和智慧楼宇,都需要在虚拟环境中完成大量训练和测试。AI必须先在虚拟世界里理解现实,才能更安全、更高效地进入现实。
仿真的价值还会从物理世界扩展到商业世界。
在产品和市场研究领域,企业会开始使用“合成用户”模拟真实用户反馈。过去,产品测试依赖问卷、访谈和A/B测试;未来,企业可以构建不同年龄、地域、收入、消费习惯和情绪偏好的虚拟用户群体,让它们与产品原型、广告素材、价格方案和交互流程进行模拟互动。
这类合成用户不会完全替代真实用户,但可以大幅提高早期验证效率。产品正式上线前,企业可以先在虚拟用户群体中测试多个版本,观察哪些功能最容易被理解,哪些页面可能导致流失,哪些广告表达会引发误解,哪些定价策略更容易被接受。
而且,用户仿真会从简单文本反馈,走向多模态、可交互、可群体模拟。未来企业不只是模拟一个用户写下评价,而是模拟一群用户如何观看视频、浏览页面、讨论品牌、表达情绪,并在社交网络中扩散观点。这会改变市场研究、UX研究、广告验证和产品迭代的方式。
网络安全也是AI仿真的重要方向。企业安全的传统做法一般依赖定期扫描、漏洞检测和渗透测试。但在AI时代,云服务、SaaS系统、API接口、供应链、员工终端、Agent权限、数据流动路径,任何一个环节都可能成为新的风险入口。因此,网络安全服务会从“定期体检”的工作流程,转向利用AI去做“持续攻防”的压力测试。
企业可以构建自己的数字孪生环境,模拟攻击者如何从一个低权限账号进入系统,如何利用配置错误、过度授权、供应链漏洞或SaaS集成风险,最终触达核心数据,提前发现真实攻击可能走过的路径。这类压力测试不仅仅在于发现漏洞,更能帮助企业理解完整风险链条:哪个权限配置最危险,哪个系统暴露面最大,哪个员工行为最容易被利用,哪条攻击路径最可能造成实质损失。
文章参考
JPMorganChase, 2026 Emerging Technology Trends
OpenAI, OpenAI raises $122 billion to accelerate the next phase of AI
TechNode / China Daily / KrASIA, ByteDance Doubao daily token usage reports
Reuters / Axios / Investopedia, Anthropic valuation and IPO reports
WSJ / Yahoo Finance / CompaniesMarketCap, Nvidia market capitalization reports
METR, Task-Completion Time Horizons of Frontier AI Models
arXiv, Measuring AI Ability to Complete Long Tasks
NVIDIA GTC 2026 official updates and related coverage
Tesla / WallstreetCN, Tesla World Simulator and FSD/Optimus simulation coverage
Microsoft Project Solara / VisionClaw, AI wearable and agent-first interface references
OpenClaw official website and related AI Agent materials
END
点击公众号,关注我们
夜雨聆风