人用软件有操作系统,AI 用软件有什么?聊聊 MCP-夜雨聆风

人用软件有操作系统,AI 用软件有什么?聊聊 MCP

你教过父母用智能手机吗？点这个图标打开微信，滑一下翻页，长按可以删除——这些”规矩”，其实就是手机操作系统定下来的人机交互规范。

现在，AI 大模型也要”用软件”了。那问题来了：谁来给 AI 定规矩？

一、先讲个故事：从”人用软件”说起

回到 1984 年。

苹果发布了 Macintosh，第一次把”图形界面”带给普通人。在此之前，人和电脑打交道靠的是命令行——你得记住一堆指令，打错一个字母，电脑就跟你翻脸。

图形界面的伟大之处，在于它定了一套人和软件之间的交互规范：

• 窗口（Window）：每个程序住在一个框里
• 图标（Icon）：点一下就能打开
• 菜单（Menu）：功能都藏在顶部栏里
• 指针（Pointer）：鼠标就是你的手

这就是著名的 WIMP 范式。从 Mac 到 Windows，从 iOS 到 Android，三十多年来，全世界几十亿人都在遵循这一套”规矩”和软件打交道。

人用软件，需要一套交互规范。

这件事太成功了，以至于我们都忘了它的存在。

二、AI 也要”用软件”了，但它遇到了大麻烦

2024 年以来，大模型（LLM）的能力突飞猛进。它不再只是”聊天机器人”，它开始做事了：

• 帮你查航班、订酒店
• 自动读取数据库、生成报表
• 操作你的代码仓库、提交 PR
• 连接企业内部系统、处理审批流

这些事情的本质是什么？AI 在”用软件”。

但问题来了。

人用软件有标准，AI 用软件全靠”硬编码”

当你让 ChatGPT 帮你查天气时，背后发生的事情大概是这样的：

开发者 A：写了一个天气查询的"插件"，定义了入参、返回格式开发者 B：写了一个航班查询的"插件"，用了完全不同的协议开发者 C：写了一个数据库查询的"插件"，又是另一套玩法

每一个工具、每一个接口，都是定制开发、一对一对接。

这就好比——回到了命令行时代。每个软件都有自己的一套指令，想用哪个就得单独学一遍。

更要命的是，不同的大模型平台（OpenAI、Anthropic、Google、百度、阿里……），各自定义了自己的”插件规范”。一个工具想同时被 ChatGPT 和 Claude 调用？对不起，得写两遍。

这就是 MCP 要解决的问题。

三、MCP 是什么？一句话说清楚

MCP（Model Context Protocol，模型上下文协议）是一套让 AI 大模型调用外部工具和数据的标准协议。

换个说法：

• 操作系统给人定了”怎么用软件”的规矩
• MCP 给 AI 定了”怎么用软件”的规矩

就这么简单。

它由 Anthropic（Claude 的母公司）在 2024 年底提出，迅速获得了整个行业的响应。不是因为 Anthropic 有多大面子，而是因为这个问题太痛了，大家都在等一个标准答案。

四、一个类比，彻底理解 MCP

我们把 AI 用软件的过程，类比成你去一家餐厅吃饭：

角色	在餐厅里	在 MCP 体系里
你（顾客）	想吃什么说什么	AI 大模型（LLM）
服务员	听你说话，去后厨下单	MCP Client（宿主应用）
菜单	告诉你有什么菜	工具列表（Tools）
后厨	真正做菜的地方	MCP Server（工具服务）
上菜规矩	先上凉菜再上热菜	MCP 协议（通信规范）

以前的做法是什么样的？

没有菜单，没有标准流程。你（AI）想吃宫保鸡丁，得自己跑去后厨，找到做川菜的师傅，用川菜师傅能听懂的方言下单。想再来个寿司？得跑到另一个后厨，换成日语。

MCP 做了什么？

统一了菜单格式、下单流程、上菜规范。不管后厨是做川菜还是日料，你只需要看同一本菜单，用同一种方式下单。

五、MCP 的技术架构（深入但不枯燥版）

好，我们来扒一下 MCP 的技术底子。放心，我尽量说人话。

5.1 三个核心角色

┌─────────────┐     MCP 协议     ┌─────────────┐│  MCP Host    │ ◄──────────────► │  MCP Server  ││  (宿主应用)   │                  │  (工具服务)    ││             │                  │             ││  内含        │                  │  提供        ││  MCP Client │                  │  · Tools    ││  + LLM      │                  │  · Resources│└─────────────┘                  │  · Prompts  │                                 └─────────────┘

① MCP Host（宿主）

就是你和 AI 打交道的那个”壳”。比如 Claude Desktop、Cursor、各种 AI IDE、你公司内部的 AI 助手 App。宿主里面住着一个 LLM，还有一个 MCP Client。

② MCP Client（客户端）

宿主里的”外交官”。它的职责是：

• 和 MCP Server 建立连接
• 把 Server 提供的能力（工具列表）汇报给 LLM
• LLM 决定要调哪个工具时，Client 去执行

③ MCP Server（服务端）

这就是”后厨”。每一个 MCP Server 封装了一种或一类能力。比如：

• 一个 MCP Server 专门对接 GitHub
• 一个 MCP Server 专门查数据库
• 一个 MCP Server 专门操作文件系统
• 一个 MCP Server 专门调用某个企业内部 API

5.2 三种能力类型

MCP Server 能向 AI 提供三种东西：

🔧 Tools（工具）

“我能帮你做什么”

这是最核心的能力。比如 search_code（搜索代码）、run_sql（执行 SQL）、send_email（发邮件）。每个 Tool 都有名字、描述、输入参数的 JSON Schema。

AI 看到工具列表，就知道自己”能干什么”，并根据用户的意图决定”要不要干”。

📄 Resources（资源）

“我这里有什么数据可以给你看”

比如一个文件的内容、一条数据库记录、一段日志。Resources 是只读的上下文信息，AI 可以读取但不能修改。

💬 Prompts（提示模板）

“遇到这种情况，建议你这样问我”

Server 可以预设一些提示词模板，帮助 AI 更好地使用自己的能力。比如”当用户问代码问题时，建议先搜索相关文件，再阅读内容”。

5.3 通信机制

MCP 基于 JSON-RPC 2.0 协议通信。这是一个极其成熟、极其简单的远程调用协议。

两种传输方式：

方式	说明	适用场景
stdio	通过标准输入输出通信	本地工具，如操作文件系统
HTTP + SSE	通过 HTTP 请求 + 服务端推送事件	远程服务，如云端 API

一次典型的调用流程长这样：

用户："帮我查一下项目里有没有用到 lodash"① Host 把消息 + 工具列表发给 LLM② LLM 思考后决定调用 search_code 工具，参数是 "lodash"③ MCP Client 把调用请求发给对应的 MCP Server④ MCP Server 执行搜索，返回结果⑤ MCP Client 把结果交还给 LLM⑥ LLM 组织语言，回复用户整个过程，用户只看到一句流畅的回答。

5.4 安全与权限

MCP 在设计上考虑了安全边界：

• 最小权限原则：Server 只暴露必要的能力
• 人机确认（Human-in-the-loop）：敏感操作（如删除文件、执行命令）可以配置为需要用户确认
• 隔离性：每个 MCP Server 是独立进程，一个 Server 挂了不影响其他的
• 无状态倾向：协议本身是轻量的，Server 不需要保存用户的对话历史

六、为什么 MCP 能成？（不只是”又一个协议”）

技术世界不缺协议，缺的是大家都愿意用的协议。MCP 能脱颖而出，有几个关键原因：

6.1 USB 时刻

还记得 USB 出现之前吗？打印机用并口，鼠标用 PS/2 口，手机充电线每家不同。USB 一统天下后，一切都简单了。

MCP 就是 AI 工具调用的”USB 接口”。一次开发，处处可用——写一个 MCP Server，所有支持 MCP 的 AI 平台都能直接调用。

6.2 生态正在爆发

截至目前，已经有大量的 MCP Server 涌现：

• 开发类：GitHub、GitLab、文件系统、Docker、各种数据库
• 办公类：Google Drive、Slack、Notion、飞书
• 数据类：PostgreSQL、MySQL、Elasticsearch
• 专业类：Figma（设计）、Stripe（支付）、Puppeteer（浏览器自动化）

更关键的是，开发一个 MCP Server 的门槛极低。用 Python 或 TypeScript，几十行代码就能包装一个现有的 API 为 MCP 服务。

6.3 多方押注

• Anthropic 提出并开源了 MCP 规范和 SDK
• OpenAI 在 2025 年 3 月宣布支持 MCP
• Cursor、Windsurf 等 AI IDE 率先集成
• 国内的通义、文心等平台也在跟进

当所有大玩家都往一个方向走的时候，标准就真的成了标准。

七、MCP 改变了什么？

对普通用户

以前：AI 只能聊天，干不了实事以后：AI 能直接帮你操作各种软件和服务，像一个什么都会的全能助理

对开发者

以前：给每个 AI 平台单独写插件，疲于奔命以后：写一个 MCP Server，所有平台通吃

对企业

以前：AI 落地要做大量定制集成，成本高、周期长以后：内部系统包装成 MCP Server，AI 助手即插即用

对整个行业

以前：每家 AI 公司自建生态，形成信息孤岛以后：一个开放的、可互操作的 AI 工具生态正在形成

八、一个更大的图景

让我们把视角拉远。

1970 年代，人和计算机的交互规范是命令行——你得说计算机的语言。

1984 年，图形界面出现——计算机开始说人的语言。窗口、图标、鼠标，让每个人都能用电脑。

2007 年，iPhone 发布——触摸屏让交互更自然。滑动、捏合、点按，三岁小孩都能玩。

2024-2025 年，MCP 出现——这次不是定义人怎么用软件，而是定义 AI 怎么用软件。

每一次交互规范的变革，都带来了一次技术生态的大爆发。图形界面带来了桌面软件产业，触摸屏带来了移动 App 生态。

MCP 带来的，将是 AI 应用生态的大爆发。

当 AI 能够标准化地调用任何工具、访问任何数据，我们距离真正的”AI 助理”——一个能帮你干活、替你跑腿、为你决策的数字伙伴——就只剩最后一公里了。

九、总结

时代	交互对象	交互规范	意义
桌面时代	人 ↔ 电脑	GUI（图形界面）	让普通人能用电脑
移动时代	人 ↔ 手机	触摸界面	让所有人随时随地用软件
AI 时代	AI ↔ 软件	MCP	让 AI 能标准化地使用一切软件

MCP 不是一个复杂的技术概念，它就是 AI 时代的”操作系统交互规范”。

人需要窗口和鼠标来用软件，AI 需要 MCP 来用软件。

就这么简单，但又这么重要。

参考资料：

• Anthropic MCP 官方规范：https://modelcontextprotocol.io
• MCP GitHub 仓库：https://github.com/modelcontextprotocol

💡 一句话记住 MCP：人用软件靠操作系统，AI 用软件靠 MCP。