小米出了个 AI 编程工具,长任务跑了 200 步还不翻车

小米 6 月 10 日悄悄开源了一个 AI 编程工具 MiMo Code，没有发布会，只在 X 上发了一条推。但它在超长多步骤任务中（200+ 步）的胜率超过 65%，碾压 Claude Code。我花了一天时间体验，这篇文章告诉你它到底强在哪、值不值得切换、以及怎么用。

一、它解决了 AI 编程最痛的问题

用过 Claude Code、Cursor、Copilot 的人都知道一个共同的崩溃时刻：写到一半，AI 失忆了。

你花了半小时给它讲清楚项目架构、代码规范、它之前自己做过的决策……结果上下文窗口一满，它全忘了。你不得不重新解释，重新来过。

这就像你雇了个程序员，每天上班前格式化一次大脑。

MiMo Code 的核心解法：给 AI 配一个真正的持久化记忆系统。

它不是靠压缩上下文来续命，而是用了一个四层记忆架构：

\u2022 项目记忆（MEMORY.md）—— 永久保存项目规则、架构决策，相当于项目文档
\u2022 会话检查点（checkpoint.md）—— 自动保存当前工作状态，相当于游戏存档
\u2022 临时笔记（notes.md）—— Agent 的草稿纸
\u2022 任务进度（tasks/）—— 每个子任务的执行日志

最关键的设计：它有一个独立的检查点写入子 Agent。

打个比方——主 Agent 是施工队，负责盖房子；子 Agent 是建筑师，实时更新蓝图。当施工队迷路了，看一眼蓝图就能找到方向。

这个设计直接击中了长任务场景的痛点。200 步以上的复杂任务，其他工具早就上下文爆了，MiMo Code 还能稳稳地记住第三步我为什么要做这个决定。

此外还有两个自我进化机制：

\u2022 /dream —— 每 7 天左右自动扫描历史会话，提炼值得记住的知识到长期记忆，清理冗余
\u2022 /distill —— 从最近的工作中发现重复流程，自动打包成可复用的技能

▲ MiMo Code 运行在终端中，直接读写文件、执行命令、管理 Git

二、跑分对比：不只是说说而已

\u26a0\ufe0f 以下数据来自小米内部测试，尚未被第三方独立验证，实际体验可能有差异。

小米公布了三组基准测试结果：

基准	MiMo Code	Claude Code
SWE-bench Verified	82%	79%
SWE-bench Pro	62%	55%
Terminal Bench 2	73%	69%

小米还在内测期间组织了 576 名开发者，在 474 个真实项目上进行 A/B 测试，由不知道工具归属的评判者对比打分。结果：

\u2022 200 步以内：两者差距不明显
\u2022 200 步以上：MiMo Code 胜率超过 65%

不过有一个值得注意的细节：小米全程只跟 Claude Code 做了对比，没有跟 OpenAI Codex 或 Google Gemini CLI 比。在 Terminal-Bench 2.0 官方排行榜上，OpenAI Codex CLI + GPT-5.5 得分 82.2%，比 MiMo Code 自报的 73% 高出不少。选谁做对手，本身就是一门学问。

三、5 分钟上手指南

安装（一行命令）：

macOS / Linux：curl -fsSL https://mimo.xiaomi.com/install | bash
Windows：npm install -g @mimo-ai/cli

首次启动输入 mimocode，自动引导配置。内置 MiMo Auto 通道——免费限时使用 MiMo-V2.5 模型（百万 token 上下文窗口），不需要注册，零配置直接开干。

如果你之前在用 Claude Code，它还能一键导入你的 MCP 服务器、自定义技能和 API 配置，迁移成本几乎为零。

三种模式，按 Tab 切换：

模式	用途	适合场景
build	默认模式，全工具权限	日常开发
plan	只读分析模式	读代码、做方案设计
compose	规范驱动开发	从需求到代码全自动化

compose 模式值得一试——输入需求描述后，它会自动走完设计、规划、编码、测试的完整流程。复杂项目中可能需要几轮人工介入，但整体比手动操作省不少时间。

▲ 同级别模型对比，MiMo-V2.5-Pro 比 Claude Sonnet 4.6 便宜 60% 以上

四、价格：便宜得有点离谱

MiMo Code 默认绑定 MiMo-V2.5（免费限时）。如果需要更强的 Pro 版，定价如下：

模型	输入/百万token	输出/百万token
MiMo-V2.5	$0.40	$2.00
MiMo-V2.5-Pro	$1.00	$3.00
Claude Sonnet 4.6	$3.00	$15.00
GPT-5.4	$2.50	$15.00

同级别对比，MiMo-V2.5-Pro 比 Claude Sonnet 4.6 便宜 60% 以上。而且 MiMo-V2.5 是稀疏 MoE 架构（总参数 3100 亿，推理时只激活 150 亿），小米声称同等任务下 token 消耗比 Claude Opus 少 40%-60%。

如果你不想用小米的模型，它也支持 DeepSeek、Kimi、智谱 GLM，以及任何 OpenAI 兼容 API。

五、它不适合谁？

客观说几个局限：

1. 目前还是 V0.1.0 —— 早期版本，可能有 bug，不建议直接用于生产环境的关键项目
2. 终端工具，没有 GUI —— 习惯了 Cursor 可视化界面的同学需要适应。相比 Cursor 的优势在于长任务记忆，劣势在于没有图形界面
3. 跑分是自测的 —— 还没有被第三方大规模验证，建议自己跑跑看再做判断
4. 生态还在建设中 —— 插件、社区规模跟 Claude Code 比还有差距

六、背景补充

MiMo Code 的团队负责人罗福利（Fuli Luo），此前是 DeepSeek R1 项目的核心成员。小米从 2025 年 4 月发布 MiMo-7B 推理模型开始布局 AI，到今年 3 月推出万亿参数的 MiMo-V2-Pro，再到 4 月的 V2.5 旗舰系列，节奏很快。

一个 DeepSeek 核心成员带队、小米全力投入的 AI 编程工具——这个组合本身就值得关注。

七、我的体验感受

实际用下来，最明显的体感差异就是它记得住事。

我让它重构一个中型项目的模块结构，大概跑了 150 多步。之前用 Claude Code 到 80 步左右就开始犯糊涂，反复问我之前做过的决定。MiMo Code 全程没掉链子，最后还主动检查了自己之前的决策是否一致。

compose 模式我也试了一下，输入需求后它确实跑完了从设计到测试的流程，但中间有几个地方需要我介入调整，不是完全无人值守的。

建议：如果你的日常是简单的代码补全，Cursor + Claude 就够了。但如果你经常需要处理复杂的、多步骤的工程任务，MiMo Code 值得一试。

如果你受够了 AI 编程工具的金鱼记忆，MiMo Code 是目前最值得关注的解决方案。开源、免费、长任务不翻车——先试试再说。

参考资料：
\u2022 VentureBeat: Xiaomi's new open source agentic AI coding harness MiMo Code
\u2022 小米 MiMo 官方博客
\u2022 GitHub - XiaomiMiMo/MiMo-Code

* 本文数据基于厂商公开信息和第三方报道，实际使用体验可能因场景而异