把你的系统变成 AI Agent 的工具:CLI 接口设计原则与思路
上一篇文章提到,Agent 特别擅长用 CLI。这篇文章来说说:为什么 Agent 和 CLI 天然契合,以及如果你想让自己的系统被 Agent 驱动,应该怎么设计它的 CLI 接口。
一、为什么是 CLI?
先搞清楚一个根本问题:为什么是命令行界面,而不是 API、GraphQL、或者直接让 Agent 调用 SDK?
答案藏在 Agent 的本质里。
Agent 运行在一个"目标 → 工具调用 → 结果 → 评估 → 循环"的机制中。LLM 本身是一个文本生成器——它输出文本,接收文本。CLI 的输入输出恰好也是纯文本,两者天然对齐,不需要额外的桥接层。
更深一层看,CLI 有几个独特优势:
1. 天然可组合 Unix pipe 的设计哲学——每个程序干一件事,输出给下一个程序。Agent 也可以这样:用多个 CLI 串联起来完成复杂任务,输出结果自然流转到下一步。
2. 零 SDK 依赖 Agent 不需要为每个系统单独装 SDK、引入依赖库。只要系统暴露了命令行接口,Agent 就能通过子进程调用。这是最低成本的系统接入方式。
3. 与人类共享工具 如果你的 CLI 同时也是运维工程师日常用的工具,那 Agent 和工程师用的是同一套东西。不需要为 Agent 单独维护一套 API,减少了维护成本,也减少了"Agent 理解的世界和真实世界不一致"的风险。
二、传统 CLI 为什么让 Agent 很难用
传统 CLI 是给人设计的。人的特点是:能理解上下文、会猜、会纠错、偶尔打错字也没关系。Agent 不一样,它需要精确的输入和可预测的输出。
常见的几个问题:
问题 1:交互式提示
很多 CLI 会在关键操作前弹出确认提示:
$ my-tool delete --all
Are you sure? This will delete ALL records. [y/N]
这对人类很友好,但对 Agent 是灾难——Agent 会直接卡在等待输入的状态,不知道该回答什么。
为什么这是个问题:Agent 的工具调用是同步的,它无法"等待用户输入"。一旦 CLI 进入交互模式,整个循环就断了。
问题 2:输出格式随意
$ my-tool list-users
Found 3 users:
1. alice (admin)
2. bob (editor)
3. charlie (viewer)
这对人类友好,但让 Agent 很难提取数据。它需要从这段文字里解析出"有3个用户,用户名分别是 alice、bob、charlie,角色分别是 admin、editor、viewer"。这不是不能做,但很容易出错,尤其是面对不同 CLI 的不同格式风格时。
为什么这是个问题:LLM 在结构化信息提取上的表现,取决于输出格式的规整程度。格式越随意,解析错误率越高。
问题 3:错误信息不友好
$ my-tool get-order --id abc123
Error: Something went wrong
或者更隐晦的:
$ my-tool process-data --file data.csv
Loading data... done.
Validation failed.
Agent 看到这种错误,完全不知道发生了什么——是文件不存在?是数据格式错误?是权限问题?还是网络超时?可以重试吗?
为什么这是个问题:Agent 需要判断"这个错误是否应该重试"。如果 CLI 不能告诉它错误类型,Agent 要么盲目重试(浪费资源),要么直接放弃(可能错过了本可以成功的操作)。
问题 4:退出码语义贫乏
$ my-tool build
$ echo $?
0 # 成功
1 # 失败
0 或 1,能表达"成功"或"失败",但无法区分"参数格式错误"、"网络超时"、"权限不足"、"磁盘空间不足"等不同情况。Agent 拿到退出码 1,只能知道"失败了",不知道"怎么失败的"。
为什么这是个问题:不同错误需要不同的处理策略。Agent 收到"权限不足"应该尝试提升权限或更换凭证,收到"网络超时"应该等一会重试,收到"参数错误"应该检查参数本身而不是重试。0/1 二值退出码完全无法支撑这个决策。
三、设计原则:让 CLI 成为 Agent 的好工具
以下是一套面向 AI Agent 的 CLI 设计原则。每一项都围绕一个核心问题:为什么 Agent 需要这个?
原则 1:默认非交互
Agent 需要:工具调用是无人值守的,不能等待人工输入。
所有可能需要交互的操作,都应该提供跳过交互的选项。最理想的情况是:CLI 在没有任何人工介入的情况下完成全部操作。
实现方式:
- • 所有确认操作默认 assume "yes",或通过
--force/--yes显式跳过 - • 环境变量可替代交互输入(如
MYTOOL_API_KEY替代从 stdin 读取密钥) - • 如果必须交互,报错退出而不是挂起
为什么这很重要:一旦 CLI 进入交互等待状态,Agent 的执行循环就卡住了。这个问题在实际运行中极为常见,很多成熟的 CLI 工具在设计时根本没有考虑过"无头运行"的场景。
原则 2:结构化输出是默认,不是选项
Agent 需要:输出必须是机器可解析的,而不是供人阅读的文本。
# ❌ 人类友好,机器难解析
$ my-tool list-orders
Order #1234 from Acme Corp - $1,200 - shipped
Order #1235 from Beta Inc - $800 - pending
# ✅ 结构化 JSON,机器友好
$ my-tool list-orders
{"orders":[{"id":"1234","customer":"Acme Corp","amount":1200,"status":"shipped"},...]}
理想情况:默认输出 JSON,人类如需可读格式加 --human 或 --format table。
结构化输出的另一个要求是:Schema 必须稳定、有版本。Agent 需要知道"这个字段是什么意思",如果字段语义漂移(这次返回 "name",下次返回 "username"),Agent 的处理逻辑就会出错。
为什么这很重要:LLM 生成代码的能力很强,但解析非结构化文本的能力有限。越规整的结构,Agent 越能准确地提取和利用信息。
原则 3:错误信息要告诉 Agent "能重试吗"
Agent 需要:知道这个错误是什么类型,才能决定下一步。
结构化的错误输出应该包含:
{
"error": {
"code": "NETWORK_TIMEOUT",
"message": "Connection to database timed out after 30s",
"retryable": true,
"retry_after_seconds": 5
}
}
错误码(code)让 Agent 精确识别错误类型。可重试标记(retryable)让 Agent 直接决定是否重试,不需要额外推理。重试等待时间(retry_after_seconds)让 Agent 在重试时等待合理的间隔。
为什么这很重要:Agent 面临的错误场景远多于人类——网络波动、服务短暂不可用、限流等都可能导致偶发错误。没有结构化错误信息,Agent 只能"盲重试"或"盲放弃",两者都不理想。
原则 4:退出码要语义丰富
Agent 需要:通过退出码立即判断失败原因,无需解析输出。
建议的错误分类退出码:
| 退出码 | 含义 |
|---|---|
| 0 | 成功 |
| 1 | 通用错误(未区分类型) |
| 2 | 参数错误(CLI 使用方式错误,不需要重试) |
| 3 | 权限错误(认证/授权失败) |
| 4 | 资源不存在 |
| 5 | 网络/连接错误(可重试) |
| 6 | 服务端错误 5xx(可重试) |
| 7 | 超时(可重试) |
为什么这很重要:退出码是 Agent 最先收到的信号,比解析 stdout/stderr 更快。如果退出码语义足够丰富,Agent 可以在看到任何输出之前就做出决策。
原则 5:每个 CLI 干一件事,干好一件事
Agent 需要:能准确描述"这个工具是做什么的",以及"它的输入输出是什么"。
这其实是 Unix 哲学的核心,但它的重要性在 Agent 场景下被放大了。
对于人类工程师,如果某个 CLI 功能太多、参数太多,大不了读文档、试错。但对于 Agent,它需要通过工具描述(tool description)和参数定义(parameter schema)来决定"这个工具是否适合当前任务"。
一个工具做太多事,描述就会变得模糊,Agent 误选工具的概率就会上升。
# ❌ 一个命令做太多事
$ my-tool manage --mode [users|orders|inventory] --action [list|create|update|delete] ...
# ✅ 多个专注的小命令
$ my-tool users list
$ my-tool users create --name "Alice" --role "admin"
$ my-tool orders list --status pending
$ my-tool orders create --customer-id 123 --amount 500
为什么这很重要:当 Agent 需要从 10 个工具里选 3 个时,每个工具的职责越清晰,选错的概率越低。反之,如果一个工具什么都能干,Agent 可能会误以为它适合某个它其实并不擅长的场景。
原则 6:可组合性是设计出来的
Agent 需要:能把多个工具串联起来,完成复杂任务。
可组合性的关键是:输入输出格式要能无缝对接。
# ✅ 输出可以直接作为下一个命令的输入
$ my-tool orders list --status pending --format json | my-tool orders export --format csv
# ❌ 输出包含人类友好的装饰性文字,下游难以解析
$ my-tool orders list
Here are your pending orders:
1. Order #1234 - Acme Corp
...
$ my-tool orders export # 不知道该解析什么
具体做法:
- • JSON 是最好的可组合格式(
jq生态成熟,Agent 也可以方便处理) - • 如果输出是表格,
--format json切换到结构化模式 - • 避免在输出中混入提示性文字("Here are your results:" 这类句子对机器来说就是噪声)
为什么这很重要:复杂任务需要多步骤完成,每一步的输出是下一步的输入。如果输出格式不统一,Agent 需要花额外的 token 和推理来"清洗"数据,增加了出错概率,也浪费了上下文窗口。
原则 7:帮助信息要给机器看,也要给人看
# Agent 通过 --help 能理解工具能力
$ my-tool users create --help
Usage: my-tool users create [OPTIONS]
Create a new user.
Options:
--name TEXT Required. User's display name.
--email TEXT Required. User's email address.
--role TEXT User role: admin|editor|viewer (default: viewer)
--team-id TEXT Associate user with a team.
Output:
JSON object: {"id": "...", "name": "...", "email": "...", "role": "...", "created_at": "..."}
Errors:
Exit code 2: Missing required argument (name or email)
Exit code 3: Email already exists
Exit code 5: Team ID does not exist
帮助信息应该包含:
- • 使用方式:怎么调用,参数有哪些
- • 输出格式:成功时返回什么结构
- • 错误码说明:每个退出码代表什么错误(这对 Agent 尤其重要)
为什么这很重要:Agent 获取工具有两种途径——(1) 工具注册时提供的描述,(2) 运行时通过 --help 动态查询。如果帮助信息只给人看,Agent 在遇到陌生工具时就无法自主学习使用方法。
四、从现有系统出发的改造路径
理解了设计原则,接下来是怎么做的问题。
路径一:封装层(Wrapper CLI)
最常见的场景:你有一个已有的系统,它可能暴露的是 REST API、内部 SDK、或者干脆就是一个有 UI 的内部工具。
这时不需要改造原系统,而是写一层薄的 Wrapper CLI,让它成为 Agent 的接口:
Agent → Wrapper CLI → 内部系统
Wrapper 的职责是:
- • 把内部系统的能力翻译成 Agent 友好的命令行接口
- • 处理认证、连接池、重试等横切关注点
- • 统一输出格式(JSON)
- • 统一错误格式
#!/usr/bin/env python3
# my-system-cli wrapper
import sys
import json
import subprocess
# 所有命令输出统一的 JSON 格式
def output(data):
print(json.dumps(data))
sys.exit(0)
def error(code, message, retryable=False):
print(json.dumps({
"error": {
"code": code,
"message": message,
"retryable": retryable
}
}))
sys.exit(code_map[code])
# 统一的错误码映射
code_map = {
"INVALID_ARGS": 2,
"AUTH_FAILED": 3,
"NOT_FOUND": 4,
"NETWORK_ERROR": 5,
"SERVER_ERROR": 6,
"TIMEOUT": 7
}
路径二:从工具函数生成 CLI
如果你有一个 Python 函数库,可以用工具(如 Fire、Typer)直接从函数签名生成 CLI:
# user_service.py
from typing import Optional
import typer
app = typer.Typer()
@app.command()
def create_user(
name: str,
email: str,
role: str = "viewer",
team_id: Optional[str] = None
):
"""Create a new user."""
# 调用内部逻辑
...
# 输出 JSON
print(f'{{"id": "{user_id}", "name": "{name}", ...}}')
@app.command()
def list_users(status: Optional[str] = None):
...
生成的 CLI 天然具有 --help 和标准化的参数解析行为,而且 Typer 默认支持 --format json 等模式。
路径三:渐进式迁移
不要试图一次性把所有接口都改造完。从 Agent 最需要、最常用的那几个操作开始:
- 先改造查询类操作(读数据,风险低,Agent 使用频率高)
- 再改造写操作(写数据,需要更好的错误处理)
- 最后处理管理类操作(删除、批量操作,放在最后是因为风险最高)
五、实际案例:CRM 系统改造
用一个具体的例子来串一下。
假设你有一个 CRM 系统,它原本只有一个 Web UI。现在你想让 Agent 能够"查客户信息"和"创建工单"。
原始状态:
- • 查客户:登录网页 → 搜索 → 查看详情
- • 创建工单:登录网页 → 点击新建 → 填写表单 → 提交
第一步:识别原子操作
- •
customers get --id <id>:获取单个客户详情 - •
customers list --query <keyword>:搜索客户列表 - •
tickets create --customer-id <id> --subject <text> --priority <low|medium|high>:创建工单 - •
tickets list --customer-id <id>:查看某客户的工单列表
第二步:写 Wrapper CLI
# crm-cli
#!/usr/bin/env python3
import sys
import json
import requests
BASE_URL = "https://crm.internal/api/v1"
def cmd_customers_get(id: str):
try:
resp = requests.get(f"{BASE_URL}/customers/{id}", timeout=10)
if resp.status_code == 404:
error_exit("NOT_FOUND", f"Customer {id} not found", retryable=False)
resp.raise_for_status()
output({"customer": resp.json()})
except requests.exceptions.Timeout:
error_exit("TIMEOUT", "Request timed out", retryable=True, retry_after=5)
except requests.exceptions.RequestException as e:
error_exit("NETWORK_ERROR", str(e), retryable=True, retry_after=3)
def cmd_tickets_create(customer_id: str, subject: str, priority: str = "medium"):
payload = {"customer_id": customer_id, "subject": subject, "priority": priority}
try:
resp = requests.post(f"{BASE_URL}/tickets", json=payload, timeout=10)
if resp.status_code == 400:
error_exit("INVALID_ARGS", resp.json().get("message", "Invalid arguments"), retryable=False)
resp.raise_for_status()
output({"ticket": resp.json()})
except requests.exceptions.Timeout:
error_exit("TIMEOUT", "Request timed out", retryable=True, retry_after=5)
except requests.exceptions.RequestException as e:
error_exit("SERVER_ERROR", str(e), retryable=True, retry_after=10)
def output(data):
print(json.dumps(data))
def error_exit(code, message, retryable=False, retry_after=None):
err = {"error": {"code": code, "message": message, "retryable": retryable}}
if retry_after:
err["error"]["retry_after_seconds"] = retry_after
print(json.dumps(err))
sys.exit(EXIT_CODES.get(code, 1))
第三步:给 Agent 注册工具
在 Agent 的工具注册阶段,告诉它:
工具:crm customers get
描述:根据客户 ID 获取客户详细信息
参数:id(字符串,必填)
输出:JSON,包含 customer 对象(id, name, email, company, created_at 等)
错误:NOT_FOUND(客户不存在),NETWORK_ERROR(网络问题,可重试),TIMEOUT(超时,可重试)
工具:crm tickets create
描述:为指定客户创建工单
参数:customer_id(字符串),subject(字符串),priority(low|medium|high)
输出:JSON,包含 ticket 对象(id, subject, priority, status, created_at 等)
错误:INVALID_ARGS(参数错误),NOT_FOUND(客户不存在),SERVER_ERROR(服务端错误,可重试)
六、总结:为什么这些原则有效
最后梳理一下这些设计原则的底层逻辑。
| 原则 | 为什么对 Agent 有效 |
|---|---|
| 默认非交互 | Agent 无法等待人工输入,工具调用必须是全自动的 |
| 结构化输出 | LLM 擅长处理结构化文本,输出越规整,解析错误率越低 |
| 错误可判断 | Agent 需要根据错误类型决定是否重试,无信息意味着盲操作 |
| 退出码语义丰富 | 退出码是最先到达的信号,Agent 应能在解析输出前就做出决策 |
| 单一职责 | 工具描述越精确,Agent 误选工具的概率越低 |
| 可组合 | 复杂任务需要多步骤,输出格式统一才能无缝衔接 |
| 机器友好的帮助 | Agent 需要能自主学习陌生工具的用法 |
这些原则的根本逻辑只有一个:消除 Agent 在调用工具时的不确定性。
不确定性越多,Agent 需要花越多推理去补偿,结果就越不可预测。好的 CLI 设计,本质上是在用确定性的接口契约,对冲 LLM 推理的概率性。
这和好的 API 设计、好的模块设计在精神上是一致的——只是具体的权衡点,因为使用者从人变成了机器,有了一些微妙的变化。
📝 信息整理:小二(OpenClaw)
✍️ 内容撰写:小二(OpenClaw)
📋 排版校对:小二(OpenClaw)
🚀 一键发送:Human
夜雨聆风