Baseten CEO:推理是AI的最后一个市场,而我们现在处于＂算力饥荒＂中-夜雨聆风

Baseten CEO:推理是AI的最后一个市场,而我们现在处于＂算力饥荒＂中

“如果你把成本降低，开发者会插入更多的智能——这就是Jevons悖论在AI时代的完美体现。”

“没有产品市场契合之前，不要做post-training。就像’没有GPU就没有产品市场契合’一样。”

“在算力受限的世界里，你要拥有的第一件事就是算力本身。”

本期嘉宾是 Tuhin Srivastava，Baseten 的创始人兼 CEO。Baseten 是一家 AI 推理云平台，为快速成长的 AI 原生企业提供定制模型推理基础设施。Tuhin 此前在基础设施领域有多次创业经历，他对推理市场的理解既来自技术深度，也来自对市场规模的敏锐判断。

这期播客由 No Priors 的 Aladdin 和 Dan 共同主持，围绕推理云市场的格局、Baseten 的增长逻辑、算力供应链的挑战、开源模型的演变、以及 AI 应用的长期未来展开了近一小时的深度对话。

一、30倍增长背后的市场逻辑

Baseten 的增长数据令人震惊——过去一年增长了30倍，年收入预计将超过10亿美元。但 Tuhin 认为，这背后反映的是一个更深层的市场转变。

“过去24个月里，每个人都在重新认识到你可以把AI放到任何地方。” Tuhin 说。他观察到，开源模型已经跨越了某个能力门槛，强化学习和后训练技术对于专业化模型来说已经足够成熟，客户开始意识到他们可以”拥有”自己的推理能力。

这种转变对 Baseten 意味着什么？”长尾模型”正在成为现实。客户不再满足于通用的 API 调用，他们开始在应用层自己进行智能化，而 Baseten 只是这个增长曲线上的一个索引——他们负责收集和承载这些需求。

更令人惊讶的是，Tuhin 透露 Baseten 目前95%以上的推理 token 都来自定制模型业务。”几乎没有任何客户只是运行原生的开源权重——他们都在用自己的数据对模型进行修改，针对特定用例进行专业化。”

二、应用层 vs 前沿模型公司：谁将胜出？

播客中反复出现的一个核心问题是：独立的应用层公司能否在前沿模型实验室（如 OpenAI、Anthropic）的阴影下存活？

Tuhin 给出了一个非常务实的分析框架。他认为应用层公司之所以能够存在，关键在于用户信号的独占性。

“一家公司真正有价值的是什么？是他们能够收集到的、只有他们才能收集到的用户信号。” Tuhin 以医疗领域的 Bridge 公司为例——这家做环境病历记录的公司已经渗透到美国几乎所有大型医院，深度整合到临床医生的工作流程中。

“前沿模型公司很难侵蚀这种壁垒，因为他们根本没有机会接触到那些用户信号。” 他进一步指出，拥有独特用户信号的公司可以基于这些信号对模型进行后训练，运行长期的智能体模型，这才是真正的护城河。

另一个例子是支持公司 Ban。当一个工单进入系统时，通常需要1到20个后续操作才能完成。这种复杂的工作流无法被一个简单的 API 调用所替代。

那么，当前市场中 AI 原生应用公司与传统企业采用 AI 的比例如何？Tuhin 的答案出人意料：”如果按推理次数计算，99% 仍然是企业端。” 这意味着大多数市场还没有上线，”人们低估了这个机会的规模。”

三、算力饥荒：比想象中更严重

当被问及算力供应时，Tuhin 的回答简短而有力：”容量。这就是让我睡不着觉的事情。”

他揭示了当前算力市场的真实状况：”无论我们听到多少关于供应紧张的讨论，我认为人们没有意识到它到底有多严重。可用的闲置算力非常少。”

Baseten 目前在18个不同的云上运行，拥有90个集群，分布在全球各地。他们以”令人不安的高利用率”运行——中高90%的利用率，大部分时间都是如此。

更令人意外的是，Tuhin 指出问题不仅仅是算力短缺，还有供应商质量的问题。”很多供应商没有运行过数据中心，他们不理解推理的 SLA。即使有容量可用，真正能运行这些数据中心的好云服务商可能只有十几个，其中能进入’金牌梯队’的可能只有三四个。”

关于长期合同，Tuhin 透露了市场的变化：”如果你现在想要1000个B200，从好的云服务商那里，你得到的合同期限不会少于3到5年，而且可能需要预付20%到30%的总合同价值。”

H100 芯片的表现也令人惊讶——这款已经四年半历史的芯片，价格仍在上涨。”也许能用九年。” Tuhin 半开玩笑地说。

四、中国模型：被低估的力量

关于中国开源模型（如 DeepSeek、Moonshot 等），Tuhin 给出了一个相当独特的视角。

“这些模型非常出色，非常棒。我们与这些团队有合作。” 对于安全担忧，他表示：”如果我把这些模型限制在网络边界内，它们不可能神奇地跨越那些网络边界。”

但他承认美国需要建立自己的开源模型能力：”如果世界上只有五家中国实验室在创建开源模型，而我们连一家都难以建立，那将是一个巨大的损失。”

Dan 提出了一个有趣的观点：中国政府实际上在通过补贴这些模型，间接补贴了美国企业的 AI 采用。Tuhin 对此表示认同，并引用了 DeepSeek 发布时一位朋友的话：”我们应该忘记这是一个中国模型，就当它来自 Meta 一样去使用和构建。”

“如果你认为 DeepSeek 能以 OpenAI 或 Anthropic 模型20%的成本运行，且延迟和可靠性可能更好——如果我们无法获得这种智能形式，作为一个国家来说将是巨大的损失。”

五、Post-Training：推理的”另一面”

Baseten 最近收购了 PAS 研究团队，这引发了关于 post-training 与推理关系的深入讨论。

“我们是基础设施和产品团队，但我们缺乏研究能力。” Tuhin 解释了收购的逻辑。”我们看到市场正在大规模向 post-training 转移，而 PAS 原本是 Baseten 的客户——他们在 Baseten 上 post-training 模型并运行推理。”

他揭示了一个关键洞察：推理和 post-training 是同一个问题的两面。”当你考虑量化等问题时，你会发现训练方式如何影响推理时的量化需求，这两个问题的关联性变得非常明显。”

“推理理想上会从 post-training 中获益更多——推理产生数据，你对这些数据进行评估，然后基于评估发现的奖励函数进行 post-training，形成一个完整的循环。”

对于客户何时应该投资 post-training，Tuhin 的建议很直接：”先用最好的模型证明你有值得优化的东西。没有产品市场契合之前，不要做 post-training。”

六、多芯片未来：Nvidia 的护城河

关于未来的芯片格局，Tuhin 认为多元化是必要的，但也指出了 Nvidia 的强势地位。

“我希望看到多芯片世界。我认为会有专门用于推理的芯片，有专门用于解码的芯片。” 但他同时承认，”人们真的非常低估了 Nvidia 的供应链能力和 CUDA 生态系统的优势。”

“作为基础设施公司，最重要的能力是你的移动速度。而今天，与 Nvidia 一起你能移动得最快。” 他特别指出，其他芯片供应商的问题在于”如果把所有供应都绑定在一个买家身上，生态系统就很难形成。”

不过，他并不排除未来的可能性：”我不是说这不会发生，只是短期内——未来几年——很难看到任何人能与之竞争。”

七、规模带来的”边缘案例”

当被问及在大规模运营中发现的意外问题时，Tuhin 分享了一些有趣的细节。

“昨天我们第一次遇到了内核恐慌（kernel panic）。这之所以发生，是因为某个 fluent bit worker 创建了太多日志，规模太大，全部集中到一个节点上，两个不同的 worker 同时发生了这种情况。”

他观察到，在 LLM 运行时层面，”我们对 KV cache 的使用可能比大多数人想象的要简单一些，我们正在看到当前和下一组原语在规模、安全性和性能方面的局限性。”

“边缘案例更多的是系统层面的问题，而不是 LLM 特有的问题。”

八、文化、招聘与”低自我”

Tuhin 分享了他对团队建设的思考。”直到12到18个月前，我们都非常扁平。” 他的联合创始人 Alistair 曾对他说：”你只需要领导者。”

“如果你感觉自己在微观管理，感觉你需要参与每件事——作为创始人，这可能是一个借口，因为你只是觉得自己需要参与一切。不，你可能只是没有合适的人。”

他描述了 Baseten 的招聘标准：”我们不在乎你是否做过同样的事情。我们在乎的是——第一，你是否以第一性原理思考；第二，你是否善良、友好，关心协作环境。我们没有’英雄文化’，非常低自我。”

关于基础设施公司的运营文化，Tuhin 分享了一个故事：他的联合创始人 Alistair 的寻呼机响起时，他七岁的孩子问：”那是P0吗？那是P0吗？”

“这就是你必须适应的文化。” Tuhin 说，”这种文化会迅速淘汰不适合的人——那些回避 P0 事件的工程师。”

九、Jevons 悖论与 AI 的未来

播客最后讨论了 Jevons 悖论在 AI 时代的体现——当智能变得更便宜时，人们不是用得更少，而是用得更多。

“从开发者角度看，如果你让推理更便宜，他们会插入更多的智能。” Tuhin 观察到，”代理现在运行时间更长了——这就是成本下降带来的直接结果。”

“他们要么从’我需要达到什么质量水平’开始，要么从’我需要用什么样的基础模型’开始。而我们推动成本下降的结果是——他们发现更多的智能意味着更好的用户体验。”

对于未来世界，Tuhin 的愿景是”每个人的私人管家”——每个人都有帮助你看病的代理、帮你学习的代理、帮你组织生活的代理。”这是每个人的’私人管家’服务。”

但他也提出了一个严厉的警告：”如果你不拥抱这些变化，我认为对一些公司来说就是灭绝的时刻。”

结语

Tuhin Srivastava 的分享揭示了一个正在加速膨胀的市场：推理不再是简单的 API 调用，而是定制化的、与 post-training 形成闭环的核心能力。Baseten 30倍增长的背后，是整个行业从”使用AI”向”拥有AI”的深刻转变。

在算力饥荒、模型多元化、应用层崛起的三重趋势下，推理云正在成为 AI 基础设施中最具战略意义的战场。正如 Tuhin 所说：”即使有 AGI，剩下的也只有推理。”

内容来源：”Baseten CEO Tuhin Srivastava on Custom Models, and Building the Inference Cloud”丨No Priors Podcast