如果你还在手动调参优化LLM的推理过程,可能需要停下来想一想——AI已经可以自己设计推理策略了,而且比你调得更好。
Meta、Google和几所大学联合发布的AutoTTS框架,把寻找最优「test-time scaling」(TTS)策略这件事本身变成了一项AI可以自动完成的任务。结果很震撼:在Qwen3模型上,AutoTTS自动发现的策略相比人工设计的SC@64减少了约69.5%的token消耗,同时保持了准确率不变。
更关键的是,整个发现过程只花了$39.90和160分钟。
发生了什么?
Test-time scaling(TTS)是指在推理阶段给LLM额外的算力来生成多条推理路径、评估中间步骤,从而提升回答质量。这是过去一年里业界公认能有效提升模型性能的方法。
但问题在于——TTS策略一直靠手工设计。工程师需要凭直觉决定:模型什么时候应该分支探索新路径?什么时候应该深入已有路径?什么时候应该剪枝放弃?这些「宽度-深度控制」参数全靠猜。
手工设计的问题很明显:人类直觉能探索的策略空间极其有限,大量可能更优的方案从未被发现。
AutoTTS的突破在于,它将策略设计本身变成了一个算法搜索问题。不再是人类编写规则,而是人类搭建「发现环境」,由explorer agent(论文中使用的是Claude Code)作为自主代理,迭代式地提出、测试、改进TTS控制器。
为了方便这个搜索过程在算力上可行,研究者构建了「离线回放环境」——提前收集数千条推理轨迹,explorer agent在离线数据上评估控制器表现,无需每次都调用基础模型生成新token。
AI找到的策略长什么样?
AutoTTS发现的最优控制器被命名为Confidence Momentum Controller(CMC)。它的设计方式完全超出人类直觉:
趋势停止而非瞬时停止:传统策略检测到置信度达到某个阈值就停止推理。CMC发现瞬时置信度可能因波动而产生误导,转而追踪置信度的指数移动平均线(EMA),仅在整体置信度高且趋势不下滑时才停止。
耦合宽度-深度控制:人工策略通常把「拓宽」(开新分支)和「深入」(发展现有分支)作为独立决策。CMC发现两者之间存在闭环反馈——当现有分支的置信度停滞或下降时,自动触发新分支的生成。
对齐感知的深度分配:不给所有推理分支分配相同的算力预算,而是动态识别哪些分支与当前领先答案一致,给它们优先的算力「爆发」,集中验证共识的正确性。
这些机制没有一个是人类工程师会手工设计的。但它们有效。
这为什么重要?
AutoTTS的意义不在于多省了几个百分点,而在于方法论的本质转变:
从手动到自动:过去半年来,test-time scaling被视为LLM应用层的核心竞争力之一——谁能更好地分配推理算力,谁就能用更少的成本获得更好的结果。AutoTTS意味着这种竞争优势可能很快被自动化工具抹平。
策略定制门槛归零:完整发现流程成本仅$39.90。任何小团队都可以在自己的模型和任务上重复这一流程,找到针对自己场景的最优策略。不再需要专门的推理优化团队。
AI开始自我优化推理:这可能是最有趣的含义——当explorer agent自主发现人类从未想过的策略时,我们正在进入一个「AI改进AI推理方式」的正反馈循环。AutoTTS的论文标题已经说明了这一点:"LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling"。
局限与值得关注的方向
当然,AutoTTS并非万能药。目前的实验主要在Qwen3(0.6B至8B)和DeepSeek-R1蒸馏版上进行,更大的模型和更广泛的任务有待验证。
此外,explorer agent使用了Claude Code,这意味着Anthropic在「AI研究AI」这个新兴领域占据了一个有趣的位置。如果未来大量TTS策略通过Claude Code发现,Anthropic的生态影响可能超出模型本身。
最后,一个开放问题:当每个团队都能自动发现最优推理策略后,test-time scaling还会是差异化竞争点吗?还是说,竞争的重点将从「谁设计得更好」转移到「谁的数据和模型更好」?
AutoTTS的代码和CMC控制器已开源在GitHub上(github.com/zhengkid/AutoTTS),可作为现有TTS控制器的即插即用替代品。对于正在为推理成本头疼的团队来说,这可能是一周内最值得花30分钟了解的研究。
夜雨聆风