告别“组织性失忆”:2026年AI基础设施如何重塑业务场景-夜雨聆风

告别“组织性失忆”:2026年AI基础设施如何重塑业务场景

久谦资本致力于与最优秀的创业者同行，赋能时代变革者。如果你渴望站在资本与创新的交汇点，亲手助推下一个行业巨头的诞生，欢迎点击下面的招聘链接！久谦资本 | Analyst招聘（上海）

2024年，我们沉迷于参数规模与跑分，认为“模型即产品”就是这场革命的终局。那是第一代AI基础设施解锁智能“大脑”的黄金时代。可当这些“天才”走出实验室、试图处理复杂的业务逻辑时， AI常患有“组织性失忆” ，甚至在监控系统显示一切正常时，悄然发生着高达78%的不可见失败等一系列尴尬的现实随之而来。我们曾以为规模能解决一切，但事实是，冻结的权重正限制AI像人类一样在交互中持续进化。如今，算力重心正从大规模训练向真实的推理与物理世界交互发生根本性偏移。2026年，AI基础设施将如何构建起支撑现实世界的“神经系统” ？让我们透过五大前沿方向，看清这场正在发生的范式转移

【读书笔记】

1. AI基础设施正经历从“规模驱动”向“现实交互驱动”的结构性范式转移，2024年的核心是基础模型和训练技术（如Anthropic、Fal AI等投资案例），但如今企业正从POC迈向大规模生产部署，原有围绕规模优化的设施已无法支撑扎根业务场景的需求

2. 记忆与上下文管理将取代模型本身，成为企业AI竞争的差异化核心，基础的通过外部数据增强模型回答的检索增强生成（RAG）已无法满足复合系统需求；AI正面临“组织性失忆”，开发者需通过即插即用的语义层来维护长期记忆并避免幻觉

3. 必须打破模型权重“冻结”的限制，实现生产环境中的持续学习，静态部署的模型无法真正获得新技能，且随上下文增长，KV cache成本线性上升，极其昂贵；新型架构如TTT-E2E正尝试在推理过程中将知识压缩进权重

4. 仅靠人类标注数据已不足以支撑AI处理复杂的、具有连锁后果的任务，随着AI从模式识别转向自主决策，通过交互和反馈的强化学习（RL）变得不可或缺，它能让AI Agent在无需承担现实试错的风险的情况下，通过模拟环境积累经验

5. 世界模型是机器智能的新底层，就像大语言模型（LLM）之于文本，世界模型通过视频、传感器等数据模拟现实，解决了Physical AI（如具身机器人）面临的数据稀缺问题；Waymo等公司已证明通过生成无限合成训练环境可模拟高成本边缘场景

本文编译自2026年3月30日发布于Bessemer Venture Partners的专栏，原链接：

https://www.bvp.com/atlas/ai-infrastructure-roadmap-five-frontiers-for-2026

以下是原文的全文翻译，enjoy!

注：正文中标蓝部分为读书笔记的对应原文。

【正文】

第一代AI基础设施公司解锁了智能的“大脑”。下一代则将把这些智能引擎释放到现实世界中。

第一代AI是为一个“模型即产品”的世界而构建的，在那个阶段，进步意味着更大的参数规模、更多的数据以及更亮眼的基准测试成绩。AI基础设施也映射了这一现实，推动了基础模型、算力容量、训练技术和数据运营领域巨头的崛起。这也是我们2024年《AI Infrastructure Roadmap》的核心关注点，并推动了我们对Anthropic、Fal AI、Supermaven（后被Cursor收购）以及VAPI等公司的投资，当时AI基础设施革命正全面展开。

但如今，格局已经发生了变化。大型实验室不再只是追逐基准测试的提升，而是开始设计能够与现实世界交互的AI；企业也正在从POC（概念验证）阶段迈向生产部署阶段。带领我们走到今天的那套核心是围绕规模和效率进行优化基础设施，已经无法支撑下一阶段的发展。现在真正需要的是：让AI能够扎根于业务场景、现实经验以及持续学习中的基础设施。

新一波AI基础设施工具正在为AI进入现实世界铺路。我们识别出了定义下一阶段发展的五大前沿方向，每一个方向都在解决模型规模扩张之外必须攻克的结构性限制。

下一代AI基础设施的五大前沿方向

1.“Harness（驾驭层）”基础设施

随着AI部署从单一模型转向复合系统，专门用于“驾驭”模型、释放其全部潜力的基础设施变得比以往任何时候都更加重要。

以记忆和上下文管理为例。大多数企业AI系统都存在“组织性失忆”。虽然基础的RAG（Retrieval-Augmented Generation，检索增强生成）解决了模型与数据源之间的连接问题，但复合型AI系统如今需要更复杂的记忆基础设施。企业掌握着大量从专有文档到CRM记录的历史数据和组织知，AI系统必须能够访问这些内容，才能避免幻觉，并保持对企业特定现实的准确理解。

可靠的AI部署不仅依赖模型本身的能力，更取决于对知识检索、跨会话上下文管理以及规划等组件的协调。当模型逐渐商品化后，差异化竞争将转移到记忆与上下文层。过去开发者需要从零搭建的定制化向量数据库和检索系统的内容，如今正逐渐成为独立的基础设施类别。无论是创业公司还是Big Tech，都开始提供即插即用的语义层，用于跨会话维护对话上下文、用户偏好以及长期记忆。

新型评估与可观测性则是另一个关键基础设施挑战，这是过去软件开发范式中并不存在的问题。

以将对话式AI Agent投入生产环境的团队为例。传统监控主要跟踪完成率、延迟、错误代码以及点赞或点踩反馈。但对话式AI的失败方式完全不同。当聊天机器人自信地给出错误答案、逐渐偏离用户真实问题，或者误解请求却输出了一个“看起来合理”的结果时，用户往往不会做出反应。没有投诉，没有点踩，也没有错误信号。仪表盘上一切正常，但AI已经悄然失败了。

据估计，78%的AI失败是不可见的，AI出了错，但没有人发现。既不是用户，也不是传统监控系统，甚至连情绪分析都捕捉不到。这些失败主要集中于以下几类重复模式：

·自信陷阱（The confidence trap）：AI自信地给出错误答案，而用户接受了它；

·漂移（The drift）：AI逐渐回答了另一个问题，而不是最初被问的问题；

·静默错配（The silent mismatch）：AI误解了需求，但输出足够合理，以至于用户没有进一步追问；

·即使使用更强大的模型，这些模式在93%的案例中依然存在，因为它们源于交互机制，即模型如何呈现结果，以及用户如何表达意图，而不是能力缺口。

新的基础设施正在解决这一问题。像Bigspin.ai这样的平台不仅提供部署前测试，还能对生产环境中的模型输出进行实时监控，并与黄金数据集及用户反馈进行比对。我们也正在从传统分析走向语义指标，像Braintrust和Judgment Labs这样的新平台，以及LLM-as-a-judge等技术，正在推动高质量评估和指标定义的发展。

以上这些例子说明了AI Harness基础设施不断演进的需求。

2. 持续学习系统

当前的AI模型面临冻结的权重使其在部署后无法真正学习的根本限制。虽然像上下文压缩这样的上下文管理策略非常强大，许多大型实验室将其用于长时间运行的Agent，但上下文学习只能实现表层适应，即通过机械记忆进行调整，而无法真正获得新技能。而且随着上下文不断增长，KV cache的成本会线性上升，变得极其昂贵。从技术和经济两个角度来看，构建一个能够记住一切并在多年使用中持续进化的AI系统都是不可行的。

这正是持续学习发挥作用的地方。它使AI能够在不同任务中随着时间积累知识和技能，在保持原有能力的同时获得新能力。与传统“一次训练、静态部署”的模型不同，持续学习系统会在生产环境中持续演化，每一次交互都会让它变得更聪明，同时避免灾难性遗忘。研究人员和实践者正在通过预训练和后训练阶段的创新来推进这一方向。

架构层面的探索正在从根本上重新定义模型如何学习：

·Learning Machine正在构建能够在推理过程中持续学习的模型，就像人类一样。通过新的架构和训练范式，模型将掌握“如何学习”这一元能力，从而在部署后适应不同用户和企业；

·Core Automation正在从根本上重构Transformer架构，通过新的注意力机制让记忆自然涌现；

·Stanford和Nvidia提出的TTT-E2E使用滑动窗口Transformer，在测试阶段通过对上下文进行next-token prediction持续学习，并将上下文压缩进权重中。在训练阶段，模型学习如何在推理过程中更好地更新自身权重，使整个方法实现端到端。

在更短期、更适合生产落地的方向上，也有新的解决方案正在出现：

·Cartridges方法将长上下文存储在离线训练一次的小型KV cache中，然后在推理过程中跨不同用户请求重复使用；

·Sublinear Systems以及各大基础模型实验室正在通过新技术竞相解决上下文限制问题。

我们看到持续学习的解决方案光谱非常广泛：既有高风险、可能彻底重塑整个领域的架构级登月计划，也有能逐步优化现有Transformer的生产级技术。我们非常期待与这一光谱上的创业者交流。

持续学习的生产部署还需要当前标准ML工作流中尚不存在的新治理机制。Rollback机制可以在更新引发性能回退时恢复到稳定检查点，这要求对权重、数据和超参数进行完整的谱系追踪。隔离技术则允许在不影响核心能力的前提下进行安全实验。此外，除了“大海捞针（needle-in-the-haystack）”测试之外，建立新的基准测试来衡量持续学习系统相较于上下文学习的表现，也将至关重要。

3. 强化学习平台

由于数据质量从根本上决定了AI能力，机器学习中“垃圾进，垃圾出”的老原则从未像今天这样重要。像Mercor、Turing和micro1这样的数据平台，在AI革命第一波浪潮中发挥了关键作用，它们通过调动人类专业知识来创建高质量数据集。

但我们认为，随着AI系统从模式识别走向自主决策，一个关键限制已经出现：仅靠人类生成的标注数据，已经不足以支撑生产级AI。它无法教会AI系统如何处理复杂、多步骤、具有延迟后果和连锁决策的任务。

这正是强化学习（RL）变得不可或缺的地方。AI必须通过交互而不是静态数据集来学习，从而让AI真正建立在“经验”之上。利用RL技术栈，已经成为AI基础设施工具中的核心组成部分，使Agent能够在无需承担现实世界试错成本和风险的情况下学习复杂行为。

这一新兴技术栈中的平台包括：

4. 推理拐点

模型部署和推理优化，是我们2024年路线图中的关键基础设施层，当时Fal、Together、Baseten和Fireworks等厂商率先构建了高效的服务方案。那时，大规模模型训练消耗了AI技术栈中绝大多数的算力资源。

如今，我们正在见证算力重心发生根本性转移。随着AI Agent和应用从原型走向大规模生产部署，推理工作负载如今在算力需求和经济重要性上，已经能够与训练相抗衡，甚至在许多情况下超过训练。

正如NVIDIA的Jensen Huang在GTC 2026主题演讲中所说：终于，AI已经能够真正创造生产价值，因此推理的拐点已经到来。

这一拐点反映了持续运行AI系统的成本和性能，已经和最初构建它们的投入同样重要。

新一代基础设施创业公司正在通过对推理栈进行专业化优化来解决这一生产需求。像TensorMesh这样的公司利用LMCache消除重复计算；RadixArk正在推进基于SGLang的多轮对话路由与调度；Inferact则不断突破vLLM在高吞吐服务中的性能边界。Gimlet Labs，甚至像NVIDIA这样的超大规模云厂商，也在推动专门面向复杂Agent系统的异构推理创新。

这些创新将前沿系统研究转化为可量化的生产收益：更快的响应速度和更低的成本。

我们也看到推理在新型部署场景中的创新，其中边缘端和端侧部署是一个重要例子。随着AI渗透到经济从机器人到消费电子的各个领域，AI部署必须真正贴近用户，而这并不总是在云端完成的。

像WebAI、FemtoAI、PolarGrid、Aizip Mirai和OpenInfer这样的公司，正在挑战消费设备中端侧AI部署的极限。像Perceptron这样的模型厂商在端侧创新方面也同样重要，尤其对于Physical AI而言。正如我们在智能机器人研究中所指出的，我们预计这一领域还会有更多发展。

边缘AI对于国防等行业也至关重要，例如在通信被干扰或中断的情况下。像TurbineOne、Dominion Dynamics、Picogrid和Breaker这样的公司，正在为作战人员提供基础设施工具，使他们即使在最严苛的环境中也能利用AI的力量。

5. 世界模型

模型层是AI基础设施栈中最具活力、竞争最激烈的层级之一。虽然LLM已经统治了语言智能领域，但世界模型这种新的模型类别正在为物理世界提供智能能力。

当AI从屏幕走向现实世界时，一个新问题出现了：如果AI没有“身体”，它如何建立对物理规律和现实世界的直觉？

世界模型提供了解决方案。本质上，它们是基于现实世界数据（视频、传感器、GPS等）训练的AI系统，能够学习在当前状态和某个动作下，世界将如何演化。它们不是描述现实，而是在模拟现实。

围绕这一新兴研究，目前已经形成了三大主要架构范式。实践中，公司们也开始探索融合这些路径的混合方案：

·视频式世界模型（Video-based world models）

像Reka和Decart这样的公司，将问题视为视频生成任务，直接在像素空间中预测未来帧。由于它们逐步生成输出，因此能够实时运行并动态响应新输入，非常适合交互式环境。虽然它们在长时间范围内维持物理一致性方面仍有挑战，但视觉效果非常出色。

·显式3D表示模型（Explicit 3D representation models）

像World Labs这样的公司采取了不同路径，构建持久化的3D场景表示，以更低的推理成本实现强空间一致性。目前这些环境还是预生成和静态的，但World Labs已经表示，实时交互能力已在其路线图中。

·潜在预测模型（Latent predictive models）

基于AMI Labs开创的JEPA（Joint Embedding Predictive Architectures，联合嵌入预测架构），这种方法完全避免像素生成，而是在压缩后的潜在空间中预测未来状态。这种方式计算效率显著更高，也规避了许多视觉层面的失败模式，但可解释性较弱。

虽然每一种范式都取得了重要进展，但关键缺口仍然存在，即这些问题如何被解决，将决定世界模型更广泛商业化的路径。

世界模型的商业机会极其广阔。我们最近分享了对机器人领域世界模型的看法，因为这一领域是最早、最明显的应用场景之一。通过生成无限的合成训练环境，世界模型解决了几十年来限制Physical AI发展的数据稀缺问题。

Waymo和Wayve利用世界模型模拟现实测试中极难且成本极高的边缘场景的自动驾驶场景已经证明了这一点。相同的核心能力还能够拓展到更多领域，例如国防、医疗、工业运营以及企业规划中的高风险仿真。

世界模型并不是某个垂直行业专属的工具：它们是机器智能的新底层，就像LLM之于文本推理一样。那些更早基于其构建能力的行业，将在部署真正能在现实世界中工作的Agent方面获得巨大先发优势。

为AI进入并体验现实世界构建基础设施

第一代AI基础设施公司构建了模型、算力集群以及训练管道等智能的引擎，它们证明了AI的能力；而下一代必须构建的是神经系统与驾驭层，让AI能够感知、记忆、适应，并在现实世界中持续运行。

这些前沿方向不仅仅是对现有基础设施的渐进式优化。那些在这些领域创业的公司，不只是提升延迟表现或降低成本；它们正在解决那些将“惊艳Demo”与“能够持续创造价值的可靠系统”区分开的根本问题。

我们相信，2026年将成为AI基础设施重心彻底转移的一年，它将重新定义今年以及未来AI原生运营的样貌。

长按 & 扫码

获取更多报告

免费产品试用

现在微信的推送机制改了，后台很多读者反馈说看不到更新，有时候还需要点到公众号主页才能看到更新的文章，大家可以点击公众号主页右上角“…”设为星标。我们每周二三五日下午四点半会准时发文。有感兴趣的问题也都欢迎直接联系我们或者在文末留言，期待和各位的交流。

【更多内容，点击下方关注】

* * *

关于久谦资本

成立于2009年，服务于关注新兴领域的企业与一线投资机构；我们相信科学与技术能够改变专业服务；希望带给市场多一分理性、少一分似是而非；我们认为与众不同的研究与分析，是我们荣誉的唯一来源。