重新思考 AI TCO:为何每 Token 成本才是唯一重要的指标

传统数据中心过去主要用于数据的存储、检索与处理。但在生成式 AI 与代理式 AI 时代,这些设施已演变为 AI Token 工厂。随着 AI 推理成为其核心工作负载,它们的主要产出已转变为以 Token 形式制造的智能。
这一转变也需要对包括总体拥有成本(TCO)在内的 AI 基础设施的经济效益评估方式相应地进行调整。然而,在评估 AI 基础设施时,企业仍过于关注芯片峰值规格、计算成本,或每美元所能获得的浮点运算性能,即每美元 FLOPS。
关键区别在于:
-
算力成本是企业为 AI 基础设施所支付的费用,无论是从云服务提供商租用,还是在本地自建部署。
-
每美元 FLOPS 衡量的是企业每投入一美元所获得的原始算力,但原始算力并不等同于现实世界中的 Token 产出。
-
每 Token 成本指的是企业生成并交付每一个 Token 的综合成本,通常以每百万 Token 成本来表示。
前两者仅是投入指标。但当业务围绕产出运转时,只针对投入优化,本质上是一种根本性的错配。
每 Token 成本决定了企业能否实现 AI 的规模化盈利。它是唯一能够直接综合反映硬件性能、软件优化、生态系统支持以及实际利用率的 TCO 指标,而 NVIDIA 在这一指标上实现了行业最低的每 Token 成本。
以上为摘要内容,点击“阅读原文”或扫描下方二维码阅读完整内容:

扫描下方海报二维码,探索涵盖物理 AI、代理式 AI、推理、AI 工厂等主题的精彩会议,在 NVIDIA On-Demand 平台点播观看。

夜雨聆风