AI开始自己设计推理策略了:AutoTTS砍掉69.5% Token,成本仅$39.90

如果你还在手动调参优化LLM的推理过程，可能需要停下来想一想——AI已经可以自己设计推理策略了，而且比你调得更好。

Meta、Google和几所大学联合发布的AutoTTS框架，把寻找最优「test-time scaling」（TTS）策略这件事本身变成了一项AI可以自动完成的任务。结果很震撼：在Qwen3模型上，AutoTTS自动发现的策略相比人工设计的SC@64减少了约69.5%的token消耗，同时保持了准确率不变。

更关键的是，整个发现过程只花了$39.90和160分钟。

发生了什么？

Test-time scaling（TTS）是指在推理阶段给LLM额外的算力来生成多条推理路径、评估中间步骤，从而提升回答质量。这是过去一年里业界公认能有效提升模型性能的方法。

但问题在于——TTS策略一直靠手工设计。工程师需要凭直觉决定：模型什么时候应该分支探索新路径？什么时候应该深入已有路径？什么时候应该剪枝放弃？这些「宽度-深度控制」参数全靠猜。

手工设计的问题很明显：人类直觉能探索的策略空间极其有限，大量可能更优的方案从未被发现。

AutoTTS的突破在于，它将策略设计本身变成了一个算法搜索问题。不再是人类编写规则，而是人类搭建「发现环境」，由explorer agent（论文中使用的是Claude Code）作为自主代理，迭代式地提出、测试、改进TTS控制器。

为了方便这个搜索过程在算力上可行，研究者构建了「离线回放环境」——提前收集数千条推理轨迹，explorer agent在离线数据上评估控制器表现，无需每次都调用基础模型生成新token。

AI找到的策略长什么样？

AutoTTS发现的最优控制器被命名为Confidence Momentum Controller（CMC）。它的设计方式完全超出人类直觉：

趋势停止而非瞬时停止：传统策略检测到置信度达到某个阈值就停止推理。CMC发现瞬时置信度可能因波动而产生误导，转而追踪置信度的指数移动平均线（EMA），仅在整体置信度高且趋势不下滑时才停止。

耦合宽度-深度控制：人工策略通常把「拓宽」（开新分支）和「深入」（发展现有分支）作为独立决策。CMC发现两者之间存在闭环反馈——当现有分支的置信度停滞或下降时，自动触发新分支的生成。

对齐感知的深度分配：不给所有推理分支分配相同的算力预算，而是动态识别哪些分支与当前领先答案一致，给它们优先的算力「爆发」，集中验证共识的正确性。

这些机制没有一个是人类工程师会手工设计的。但它们有效。

这为什么重要？

AutoTTS的意义不在于多省了几个百分点，而在于方法论的本质转变：

从手动到自动：过去半年来，test-time scaling被视为LLM应用层的核心竞争力之一——谁能更好地分配推理算力，谁就能用更少的成本获得更好的结果。AutoTTS意味着这种竞争优势可能很快被自动化工具抹平。

策略定制门槛归零：完整发现流程成本仅$39.90。任何小团队都可以在自己的模型和任务上重复这一流程，找到针对自己场景的最优策略。不再需要专门的推理优化团队。

AI开始自我优化推理：这可能是最有趣的含义——当explorer agent自主发现人类从未想过的策略时，我们正在进入一个「AI改进AI推理方式」的正反馈循环。AutoTTS的论文标题已经说明了这一点："LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling"。

局限与值得关注的方向

当然，AutoTTS并非万能药。目前的实验主要在Qwen3（0.6B至8B）和DeepSeek-R1蒸馏版上进行，更大的模型和更广泛的任务有待验证。

此外，explorer agent使用了Claude Code，这意味着Anthropic在「AI研究AI」这个新兴领域占据了一个有趣的位置。如果未来大量TTS策略通过Claude Code发现，Anthropic的生态影响可能超出模型本身。

最后，一个开放问题：当每个团队都能自动发现最优推理策略后，test-time scaling还会是差异化竞争点吗？还是说，竞争的重点将从「谁设计得更好」转移到「谁的数据和模型更好」？

AutoTTS的代码和CMC控制器已开源在GitHub上（github.com/zhengkid/AutoTTS），可作为现有TTS控制器的即插即用替代品。对于正在为推理成本头疼的团队来说，这可能是一周内最值得花30分钟了解的研究。