

使用Few-Shot 举例子约束 使用模型温度参数约束 使用上下文长度约束 设置重试机制 设置工具调用拦截器捕获工具调用结果,捕获错误 使用上下文长度压缩约束,保证模型上下文不越界 使用精简的提示词要求模型不要太多废话,节省token ....


并行预取,将 I/O 密集型操作提前到模块加载的"死时间"中并行执行,让Agent运行时环境启动足够快,要做到这些必须对系统和框架的运行原理了解的足够清楚 
Feature Flag,最开始我以为就是简单的Feature开关,后来我发现他简直把框架原理运用到了极致,ClaudeCode的技术栈是:TypeScript + React Ink + Bun,它过JS构建时死代码消除的原理来保证Agent运行时环境特性功能在打包的时候物理消除。 
"On Distribution" 哲学设计理念,AI Agent 行为是不确定的,它会根据用户的输入来具体做相关的事,这个过程模型可能会调用工具,调用读的工具系统磁盘的文件,调用可执行的工具去写文件,或者去调用外部系统的工具,所以在AI Agent设计理念上意味着工具的 description 字段不能只描述"这个工具做什么",还必须引导"模型应该在什么情况下使用这个工具"。

不管是从上下文的四层裁切(snip → microcompact → collapse → autocompact)还是错误恢复策略,总是从最轻量(信息损失最小)的手段开始,逐步升级到更重量级的手段。不仅是性能优化,更是信息保留策略——每一级都在"用最少的代价换最大的空间"。 用户在使用Agent系统的时候,错误不立即暴露给消费者。它们被暂时扣留,只有在所有恢复手段耗尽后才被释放。这个模式解决了一个现实问题:SDK 消费者(Desktop、Cowork)会在看到错误时终止会话——如果恢复成功,过早暴露错误就是一次不必要的中断。 开源社区有很多Harnes Skills文件输出内容该多长才合适,例如PRD文档,他们做了一个非常有意思信息收集,越长的文档反而拒绝率越高,瓶颈虽然在开发这个步骤好像消失了,但是却忽略了review的时间,这个设计太有意思了 
如果你有一组工具要执行,为了提高执行效率你会怎么做?如果默认,我想你会默认一个一个串行执行,而Claude在顺序保证和并行效率之间,选择一个简单的中间方案,既节省了时间,又降低了和模型交互的频率变相也节省了token,顾名思义贪心流水线合并分区策略 工具执行权限体系设计,纵深防御安全设计体系 200K上下文竞技场 提示词工程作为控制平面 Token的节省,Claude也是煞费苦心,例如有些Agent他认为不需要注入Claude.MD(Agents.md)从而节省token,虽然现在都是放飞的时代的时代,但是我相信在不久的将来,AI Agent应用的Token优化也是一个大的课题,毕竟都是真金白银 
夜雨聆风