乐于分享
好东西不私藏

Baseten CEO:推理是AI的最后一个市场,而我们现在处于"算力饥荒"中

Baseten CEO:推理是AI的最后一个市场,而我们现在处于"算力饥荒"中

“如果你把成本降低,开发者会插入更多的智能——这就是Jevons悖论在AI时代的完美体现。”

“没有产品市场契合之前,不要做post-training。就像’没有GPU就没有产品市场契合’一样。”

“在算力受限的世界里,你要拥有的第一件事就是算力本身。”

本期嘉宾是 Tuhin Srivastava,Baseten 的创始人兼 CEO。Baseten 是一家 AI 推理云平台,为快速成长的 AI 原生企业提供定制模型推理基础设施。Tuhin 此前在基础设施领域有多次创业经历,他对推理市场的理解既来自技术深度,也来自对市场规模的敏锐判断。

这期播客由 No Priors 的 Aladdin 和 Dan 共同主持,围绕推理云市场的格局、Baseten 的增长逻辑、算力供应链的挑战、开源模型的演变、以及 AI 应用的长期未来展开了近一小时的深度对话。


一、30倍增长背后的市场逻辑

Baseten 的增长数据令人震惊——过去一年增长了30倍,年收入预计将超过10亿美元。但 Tuhin 认为,这背后反映的是一个更深层的市场转变。

“过去24个月里,每个人都在重新认识到你可以把AI放到任何地方。” Tuhin 说。他观察到,开源模型已经跨越了某个能力门槛,强化学习和后训练技术对于专业化模型来说已经足够成熟,客户开始意识到他们可以”拥有”自己的推理能力。

这种转变对 Baseten 意味着什么?”长尾模型”正在成为现实。客户不再满足于通用的 API 调用,他们开始在应用层自己进行智能化,而 Baseten 只是这个增长曲线上的一个索引——他们负责收集和承载这些需求。

更令人惊讶的是,Tuhin 透露 Baseten 目前95%以上的推理 token 都来自定制模型业务。”几乎没有任何客户只是运行原生的开源权重——他们都在用自己的数据对模型进行修改,针对特定用例进行专业化。”

二、应用层 vs 前沿模型公司:谁将胜出?

播客中反复出现的一个核心问题是:独立的应用层公司能否在前沿模型实验室(如 OpenAI、Anthropic)的阴影下存活?

Tuhin 给出了一个非常务实的分析框架。他认为应用层公司之所以能够存在,关键在于用户信号的独占性。

“一家公司真正有价值的是什么?是他们能够收集到的、只有他们才能收集到的用户信号。” Tuhin 以医疗领域的 Bridge 公司为例——这家做环境病历记录的公司已经渗透到美国几乎所有大型医院,深度整合到临床医生的工作流程中。

“前沿模型公司很难侵蚀这种壁垒,因为他们根本没有机会接触到那些用户信号。” 他进一步指出,拥有独特用户信号的公司可以基于这些信号对模型进行后训练,运行长期的智能体模型,这才是真正的护城河。

另一个例子是支持公司 Ban。当一个工单进入系统时,通常需要1到20个后续操作才能完成。这种复杂的工作流无法被一个简单的 API 调用所替代。

那么,当前市场中 AI 原生应用公司与传统企业采用 AI 的比例如何?Tuhin 的答案出人意料:”如果按推理次数计算,99% 仍然是企业端。” 这意味着大多数市场还没有上线,”人们低估了这个机会的规模。”

三、算力饥荒:比想象中更严重

当被问及算力供应时,Tuhin 的回答简短而有力:”容量。这就是让我睡不着觉的事情。”

他揭示了当前算力市场的真实状况:”无论我们听到多少关于供应紧张的讨论,我认为人们没有意识到它到底有多严重。可用的闲置算力非常少。”

Baseten 目前在18个不同的云上运行,拥有90个集群,分布在全球各地。他们以”令人不安的高利用率”运行——中高90%的利用率,大部分时间都是如此。

更令人意外的是,Tuhin 指出问题不仅仅是算力短缺,还有供应商质量的问题。”很多供应商没有运行过数据中心,他们不理解推理的 SLA。即使有容量可用,真正能运行这些数据中心的好云服务商可能只有十几个,其中能进入’金牌梯队’的可能只有三四个。”

关于长期合同,Tuhin 透露了市场的变化:”如果你现在想要1000个B200,从好的云服务商那里,你得到的合同期限不会少于3到5年,而且可能需要预付20%到30%的总合同价值。”

H100 芯片的表现也令人惊讶——这款已经四年半历史的芯片,价格仍在上涨。”也许能用九年。” Tuhin 半开玩笑地说。

四、中国模型:被低估的力量

关于中国开源模型(如 DeepSeek、Moonshot 等),Tuhin 给出了一个相当独特的视角。

“这些模型非常出色,非常棒。我们与这些团队有合作。” 对于安全担忧,他表示:”如果我把这些模型限制在网络边界内,它们不可能神奇地跨越那些网络边界。”

但他承认美国需要建立自己的开源模型能力:”如果世界上只有五家中国实验室在创建开源模型,而我们连一家都难以建立,那将是一个巨大的损失。”

Dan 提出了一个有趣的观点:中国政府实际上在通过补贴这些模型,间接补贴了美国企业的 AI 采用。Tuhin 对此表示认同,并引用了 DeepSeek 发布时一位朋友的话:”我们应该忘记这是一个中国模型,就当它来自 Meta 一样去使用和构建。”

“如果你认为 DeepSeek 能以 OpenAI 或 Anthropic 模型20%的成本运行,且延迟和可靠性可能更好——如果我们无法获得这种智能形式,作为一个国家来说将是巨大的损失。”

五、Post-Training:推理的”另一面”

Baseten 最近收购了 PAS 研究团队,这引发了关于 post-training 与推理关系的深入讨论。

“我们是基础设施和产品团队,但我们缺乏研究能力。” Tuhin 解释了收购的逻辑。”我们看到市场正在大规模向 post-training 转移,而 PAS 原本是 Baseten 的客户——他们在 Baseten 上 post-training 模型并运行推理。”

他揭示了一个关键洞察:推理和 post-training 是同一个问题的两面。”当你考虑量化等问题时,你会发现训练方式如何影响推理时的量化需求,这两个问题的关联性变得非常明显。”

“推理理想上会从 post-training 中获益更多——推理产生数据,你对这些数据进行评估,然后基于评估发现的奖励函数进行 post-training,形成一个完整的循环。”

对于客户何时应该投资 post-training,Tuhin 的建议很直接:”先用最好的模型证明你有值得优化的东西。没有产品市场契合之前,不要做 post-training。”

六、多芯片未来:Nvidia 的护城河

关于未来的芯片格局,Tuhin 认为多元化是必要的,但也指出了 Nvidia 的强势地位。

“我希望看到多芯片世界。我认为会有专门用于推理的芯片,有专门用于解码的芯片。” 但他同时承认,”人们真的非常低估了 Nvidia 的供应链能力和 CUDA 生态系统的优势。”

“作为基础设施公司,最重要的能力是你的移动速度。而今天,与 Nvidia 一起你能移动得最快。” 他特别指出,其他芯片供应商的问题在于”如果把所有供应都绑定在一个买家身上,生态系统就很难形成。”

不过,他并不排除未来的可能性:”我不是说这不会发生,只是短期内——未来几年——很难看到任何人能与之竞争。”

七、规模带来的”边缘案例”

当被问及在大规模运营中发现的意外问题时,Tuhin 分享了一些有趣的细节。

“昨天我们第一次遇到了内核恐慌(kernel panic)。这之所以发生,是因为某个 fluent bit worker 创建了太多日志,规模太大,全部集中到一个节点上,两个不同的 worker 同时发生了这种情况。”

他观察到,在 LLM 运行时层面,”我们对 KV cache 的使用可能比大多数人想象的要简单一些,我们正在看到当前和下一组原语在规模、安全性和性能方面的局限性。”

“边缘案例更多的是系统层面的问题,而不是 LLM 特有的问题。”

八、文化、招聘与”低自我”

Tuhin 分享了他对团队建设的思考。”直到12到18个月前,我们都非常扁平。” 他的联合创始人 Alistair 曾对他说:”你只需要领导者。”

“如果你感觉自己在微观管理,感觉你需要参与每件事——作为创始人,这可能是一个借口,因为你只是觉得自己需要参与一切。不,你可能只是没有合适的人。”

他描述了 Baseten 的招聘标准:”我们不在乎你是否做过同样的事情。我们在乎的是——第一,你是否以第一性原理思考;第二,你是否善良、友好,关心协作环境。我们没有’英雄文化’,非常低自我。”

关于基础设施公司的运营文化,Tuhin 分享了一个故事:他的联合创始人 Alistair 的寻呼机响起时,他七岁的孩子问:”那是P0吗?那是P0吗?”

“这就是你必须适应的文化。” Tuhin 说,”这种文化会迅速淘汰不适合的人——那些回避 P0 事件的工程师。”

九、Jevons 悖论与 AI 的未来

播客最后讨论了 Jevons 悖论在 AI 时代的体现——当智能变得更便宜时,人们不是用得更少,而是用得更多。

“从开发者角度看,如果你让推理更便宜,他们会插入更多的智能。” Tuhin 观察到,”代理现在运行时间更长了——这就是成本下降带来的直接结果。”

“他们要么从’我需要达到什么质量水平’开始,要么从’我需要用什么样的基础模型’开始。而我们推动成本下降的结果是——他们发现更多的智能意味着更好的用户体验。”

对于未来世界,Tuhin 的愿景是”每个人的私人管家”——每个人都有帮助你看病的代理、帮你学习的代理、帮你组织生活的代理。”这是每个人的’私人管家’服务。”

但他也提出了一个严厉的警告:”如果你不拥抱这些变化,我认为对一些公司来说就是灭绝的时刻。”

结语

Tuhin Srivastava 的分享揭示了一个正在加速膨胀的市场:推理不再是简单的 API 调用,而是定制化的、与 post-training 形成闭环的核心能力。Baseten 30倍增长的背后,是整个行业从”使用AI”向”拥有AI”的深刻转变。

在算力饥荒、模型多元化、应用层崛起的三重趋势下,推理云正在成为 AI 基础设施中最具战略意义的战场。正如 Tuhin 所说:”即使有 AGI,剩下的也只有推理。”


内容来源:”Baseten CEO Tuhin Srivastava on Custom Models, and Building the Inference Cloud”丨No Priors Podcast