KDD 2026 | 中科院软件所提出 TuneAgent:强化学习智能体自动调优 Linux 内核

📌 一句话总结：

本文提出 TuneAgent，将 Linux kernel tuning 建模为受约束的 RL 交互问题，通过规则奖励和两阶段训练自动生成可编译、可启动的内核配置，最高带来 5.6% 整体性能提升。

🔍 背景问题：

Linux 内核调优长期依赖专家经验，自动化方法仍难以同时保证性能、合法性与泛化性：

1️⃣ 内核配置空间超过 18,000 个选项，存在复杂依赖、层级和互斥约束，错误组合可能导致编译失败或系统崩溃；

2️⃣ 性能反馈稀疏且昂贵，每次评估都可能涉及重编译、部署和 benchmark，难以直接用于高效搜索；

3️⃣ 配置收益高度依赖 workload，同一组参数可能提升 Nginx 却损害 Redis，跨场景迁移能力有限。

💡 方法简介：

TuneAgent 将内核调优形式化为 MDP，把当前配置、workload 特征和运行性能作为 state，把启用、关闭或赋值配置项作为 action，并在约束环境中迭代优化 tuning policy；

方法将复杂 kernel space 划分为功能相关的 configuration groups，动作进一步分解为 group selection 与 configuration assignment，从而降低探索难度并显式保持依赖一致性；

奖励函数由三部分组成：format reward 约束、<tool_call>、的结构化输出，answer reward 检查 Bool、Menu、Choice、Value 四类配置语义，performance reward 用 LLM-as-a-Judge 近似性能增益；

训练采用两阶段 GRPO：先在 warm-up 阶段学习格式与配置正确性，再在 exploration 阶段引入性能奖励，让 agent 从“会合法修改”逐步转向“会有效优化”。

📊 实验结果：

在 UnixBench 上，TuneAgent-7B 达到最高 overall score 662.2，相比默认 heuristic 配置 627.2 提升 35.0，相比 Qwen2.5-7B-Instruct 619.6 提升 42.6；

对比强基线时，TuneAgent-7B 超过 GPT-4o 的 632.9、DeepSeek-R1 的 650.5 和 AutoOS 的 638.8，说明领域化 RL 比单纯 prompt 或通用推理模型更适合受约束系统优化；

配置有效性方面，TuneAgent-7B 整体 validity 达到 93.8%，显著高于 Qwen-7B 的 58.4%；完整奖励相比只用 format reward 或 format + performance reward，同时提升性能与可部署性；

真实应用泛化实验显示，TuneAgent 在 Nginx 上最高提升 51.8%，在 PostgreSQL 上稳定提升 8.6%–9.4%，在高度优化的 Redis 上仍有 1.5%–3.8% 增益，体现出跨 workload 的实用鲁棒性。

📂 项目主页：

https://github.com/LHY-24/TuneAgent

📄 论文原文：

https://arxiv.org/abs/2508.12551

✨ 一句话点评：

TuneAgent 用“约束内核空间—规则强化学习”的关系揭示了 OS 自动调优的本质：真正能优化系统的不是会写配置的 LLM，而是能在合法空间中持续试错、验证并对齐性能目标的 agent——这意味着未来系统优化应当从“专家经验调参”走向“可部署的强化学习内核智能体”。