我在金融行业做了二十年,一直有一个习惯:按岗位分工,不让高价值的人做低价值的事。一个资深策略顾问,你不会让他去整理会议室的椅子。但在 AI 系统里,我居然默认让最贵的模型,处理所有请求。这个错误,我在职场里绝对不会犯。但在 AI 系统里,我犯了整整一个月。后来我拆出来三个池子:高速池——用来处理那些需要快、不需要深度推理的事情。查询、翻译、格式化、简单摘要。模型是 Claude Haiku 或 Gemini Flash,响应快,成本低,够用。智能池——用来处理需要推理、判断、规划的事情。复杂任务分析、代码架构、策略权衡。模型是 Claude Sonnet 或 GPT-Codex,能力强,按需用。人文池——用来处理写作、创意、叙事类的事情。书稿续写、文风统一、情感判断。Gemini3或者GPT 4o模型是擅长语言质感的那类,不一定是最贵的,但一定是最顺手的。把请求按性质分流之后,三月的账单,从 $380 降到了$95。同样的工作量。不到三分之一的成本。