第一笔糊涂账：Agent不是聊一次天

大多数人算token成本的思路是：一句话进去，一句话出来，能花几个钱？

但Agent不是聊天，是自主推理。

拿”处理一封邮件”来说，Agent不是直接给你回一封邮件。它要经历五步：读取邮件内容，判断优先级，检索记忆看有没有相关背景，生成回复草稿，写入记忆系统。五步，五次API调用。

一个简单任务，token消耗是普通聊天的5到10倍。

如果你一天处理20封邮件，就是100次调用。一个月下来，光邮件就是3000次。

第二笔糊涂账：上下文越来越胖

更隐蔽的成本是上下文膨胀。

Agent每次调用API，都要带上完整的对话历史和记忆文件。你第1轮对话只带了几千token，第10轮可能就带了几万token，第50轮可能已经二十万token。

这不只是”多带了一点行李”的问题，这是指数增长。

我来算一笔账：假设基础上下文1万token，每轮新增2000token的返回结果，10轮工具调用下来，累计输入token是22万。不是10万，是22万。因为每轮都要重复加载之前所有的上下文。

这就是Agentic Loop的O(N方)增长——你没看错，是N的平方。

这是社区里一个真实案例。

有人设置了一个定时任务，每小时自动处理邮件，然后去睡觉了。第二天早上醒来，API账单多了1100元。

原因是Agent在某个邮件上陷入了循环推理，反复调用API尝试解决一个它解决不了的问题。一整晚，几千次无效调用，全部计费。

没有预算上限，没有异常熔断，Agent就像一个没有刹车的车，油门踩到底冲了一整夜。

踩完坑，我做了三件事，把周成本从47块压到了8块。

第一，设日预算上限。

这是保命操作。每天最多花5块钱，超了就停。就算Agent跑飞了，最多亏5块，不会亏500块。

第二，分级用模型。

不是每个任务都需要最强的模型。写代码、复杂推理用贵的模型，查天气、简单格式化用最便宜的模型。80%的简单任务走便宜模型，成本直接降80%。

这跟用人的逻辑一样：核心决策让总监做，日常执行让实习生做。没有人会让总监去贴发票。

第三，砍定时任务频率。

从每小时检查一次邮件改成每天三次。从每5分钟心跳检测改成每小时一次。光是降频这一招，token消耗就少了60%。

优化前：周成本47元，月成本约200元。

优化后：周成本8元，月成本约30元。

省下的不是170块钱，而是对成本结构从”失控”到”可控”的掌控感。

AI Agent的真正成本，从来不是API的单价，而是你不知道钱花在了哪里。

知道钱花在哪，才能决定省在哪。这才是成本控制的第一性原理。