乐于分享
好东西不私藏

人用软件有操作系统,AI 用软件有什么?聊聊 MCP

人用软件有操作系统,AI 用软件有什么?聊聊 MCP

你教过父母用智能手机吗?点这个图标打开微信,滑一下翻页,长按可以删除——这些”规矩”,其实就是手机操作系统定下来的人机交互规范

现在,AI 大模型也要”用软件”了。那问题来了:谁来给 AI 定规矩?


一、先讲个故事:从”人用软件”说起

回到 1984 年。

苹果发布了 Macintosh,第一次把”图形界面”带给普通人。在此之前,人和电脑打交道靠的是命令行——你得记住一堆指令,打错一个字母,电脑就跟你翻脸。

图形界面的伟大之处,在于它定了一套人和软件之间的交互规范

  • • 窗口(Window):每个程序住在一个框里
  • • 图标(Icon):点一下就能打开
  • • 菜单(Menu):功能都藏在顶部栏里
  • • 指针(Pointer):鼠标就是你的手

这就是著名的 WIMP 范式。从 Mac 到 Windows,从 iOS 到 Android,三十多年来,全世界几十亿人都在遵循这一套”规矩”和软件打交道。

人用软件,需要一套交互规范。

这件事太成功了,以至于我们都忘了它的存在。


二、AI 也要”用软件”了,但它遇到了大麻烦

2024 年以来,大模型(LLM)的能力突飞猛进。它不再只是”聊天机器人”,它开始做事了:

  • • 帮你查航班、订酒店
  • • 自动读取数据库、生成报表
  • • 操作你的代码仓库、提交 PR
  • • 连接企业内部系统、处理审批流

这些事情的本质是什么?AI 在”用软件”。

但问题来了。

人用软件有标准,AI 用软件全靠”硬编码”

当你让 ChatGPT 帮你查天气时,背后发生的事情大概是这样的:

开发者 A:写了一个天气查询的"插件",定义了入参、返回格式开发者 B:写了一个航班查询的"插件",用了完全不同的协议开发者 C:写了一个数据库查询的"插件",又是另一套玩法

每一个工具、每一个接口,都是定制开发、一对一对接

这就好比——回到了命令行时代。每个软件都有自己的一套指令,想用哪个就得单独学一遍。

更要命的是,不同的大模型平台(OpenAI、Anthropic、Google、百度、阿里……),各自定义了自己的”插件规范”。一个工具想同时被 ChatGPT 和 Claude 调用?对不起,得写两遍。

这就是 MCP 要解决的问题。


三、MCP 是什么?一句话说清楚

MCP(Model Context Protocol,模型上下文协议)是一套让 AI 大模型调用外部工具和数据的标准协议。

换个说法:

  • • 操作系统给人定了”怎么用软件”的规矩
  • • MCP 给 AI 定了”怎么用软件”的规矩

就这么简单。

它由 Anthropic(Claude 的母公司)在 2024 年底提出,迅速获得了整个行业的响应。不是因为 Anthropic 有多大面子,而是因为这个问题太痛了,大家都在等一个标准答案


四、一个类比,彻底理解 MCP

我们把 AI 用软件的过程,类比成你去一家餐厅吃饭

角色
在餐厅里
在 MCP 体系里
你(顾客)
想吃什么说什么
AI 大模型(LLM)
服务员
听你说话,去后厨下单
MCP Client(宿主应用)
菜单
告诉你有什么菜
工具列表(Tools)
后厨
真正做菜的地方
MCP Server(工具服务)
上菜规矩
先上凉菜再上热菜
MCP 协议(通信规范)

以前的做法是什么样的?

没有菜单,没有标准流程。你(AI)想吃宫保鸡丁,得自己跑去后厨,找到做川菜的师傅,用川菜师傅能听懂的方言下单。想再来个寿司?得跑到另一个后厨,换成日语。

MCP 做了什么?

统一了菜单格式、下单流程、上菜规范。不管后厨是做川菜还是日料,你只需要看同一本菜单,用同一种方式下单。


五、MCP 的技术架构(深入但不枯燥版)

好,我们来扒一下 MCP 的技术底子。放心,我尽量说人话。

5.1 三个核心角色

┌─────────────┐     MCP 协议     ┌─────────────┐│  MCP Host    │ ◄──────────────► │  MCP Server  ││  (宿主应用)   │                  │  (工具服务)    ││             │                  │             ││  内含        │                  │  提供        ││  MCP Client │                  │  · Tools    ││  + LLM      │                  │  · Resources│└─────────────┘                  │  · Prompts  │                                 └─────────────┘

① MCP Host(宿主)

就是你和 AI 打交道的那个”壳”。比如 Claude Desktop、Cursor、各种 AI IDE、你公司内部的 AI 助手 App。宿主里面住着一个 LLM,还有一个 MCP Client。

② MCP Client(客户端)

宿主里的”外交官”。它的职责是:

  • • 和 MCP Server 建立连接
  • • 把 Server 提供的能力(工具列表)汇报给 LLM
  • • LLM 决定要调哪个工具时,Client 去执行

③ MCP Server(服务端)

这就是”后厨”。每一个 MCP Server 封装了一种或一类能力。比如:

  • • 一个 MCP Server 专门对接 GitHub
  • • 一个 MCP Server 专门查数据库
  • • 一个 MCP Server 专门操作文件系统
  • • 一个 MCP Server 专门调用某个企业内部 API

5.2 三种能力类型

MCP Server 能向 AI 提供三种东西:

🔧 Tools(工具)

“我能帮你做什么”

这是最核心的能力。比如 search_code(搜索代码)、run_sql(执行 SQL)、send_email(发邮件)。每个 Tool 都有名字、描述、输入参数的 JSON Schema。

AI 看到工具列表,就知道自己”能干什么”,并根据用户的意图决定”要不要干”。

📄 Resources(资源)

“我这里有什么数据可以给你看”

比如一个文件的内容、一条数据库记录、一段日志。Resources 是只读的上下文信息,AI 可以读取但不能修改。

💬 Prompts(提示模板)

“遇到这种情况,建议你这样问我”

Server 可以预设一些提示词模板,帮助 AI 更好地使用自己的能力。比如”当用户问代码问题时,建议先搜索相关文件,再阅读内容”。

5.3 通信机制

MCP 基于 JSON-RPC 2.0 协议通信。这是一个极其成熟、极其简单的远程调用协议。

两种传输方式:

方式
说明
适用场景
stdio
通过标准输入输出通信
本地工具,如操作文件系统
HTTP + SSE
通过 HTTP 请求 + 服务端推送事件
远程服务,如云端 API

一次典型的调用流程长这样:

用户:"帮我查一下项目里有没有用到 lodash"① Host 把消息 + 工具列表发给 LLM② LLM 思考后决定调用 search_code 工具,参数是 "lodash"③ MCP Client 把调用请求发给对应的 MCP Server④ MCP Server 执行搜索,返回结果⑤ MCP Client 把结果交还给 LLM⑥ LLM 组织语言,回复用户整个过程,用户只看到一句流畅的回答。

5.4 安全与权限

MCP 在设计上考虑了安全边界:

  • • 最小权限原则:Server 只暴露必要的能力
  • • 人机确认(Human-in-the-loop):敏感操作(如删除文件、执行命令)可以配置为需要用户确认
  • • 隔离性:每个 MCP Server 是独立进程,一个 Server 挂了不影响其他的
  • • 无状态倾向:协议本身是轻量的,Server 不需要保存用户的对话历史

六、为什么 MCP 能成?(不只是”又一个协议”)

技术世界不缺协议,缺的是大家都愿意用的协议。MCP 能脱颖而出,有几个关键原因:

6.1 USB 时刻

还记得 USB 出现之前吗?打印机用并口,鼠标用 PS/2 口,手机充电线每家不同。USB 一统天下后,一切都简单了。

MCP 就是 AI 工具调用的”USB 接口”。一次开发,处处可用——写一个 MCP Server,所有支持 MCP 的 AI 平台都能直接调用。

6.2 生态正在爆发

截至目前,已经有大量的 MCP Server 涌现:

  • • 开发类:GitHub、GitLab、文件系统、Docker、各种数据库
  • • 办公类:Google Drive、Slack、Notion、飞书
  • • 数据类:PostgreSQL、MySQL、Elasticsearch
  • • 专业类:Figma(设计)、Stripe(支付)、Puppeteer(浏览器自动化)

更关键的是,开发一个 MCP Server 的门槛极低。用 Python 或 TypeScript,几十行代码就能包装一个现有的 API 为 MCP 服务。

6.3 多方押注

  • • Anthropic 提出并开源了 MCP 规范和 SDK
  • • OpenAI 在 2025 年 3 月宣布支持 MCP
  • • Cursor、Windsurf 等 AI IDE 率先集成
  • • 国内的通义、文心等平台也在跟进

当所有大玩家都往一个方向走的时候,标准就真的成了标准。


七、MCP 改变了什么?

对普通用户

以前:AI 只能聊天,干不了实事以后:AI 能直接帮你操作各种软件和服务,像一个什么都会的全能助理

对开发者

以前:给每个 AI 平台单独写插件,疲于奔命以后:写一个 MCP Server,所有平台通吃

对企业

以前:AI 落地要做大量定制集成,成本高、周期长以后:内部系统包装成 MCP Server,AI 助手即插即用

对整个行业

以前:每家 AI 公司自建生态,形成信息孤岛以后:一个开放的、可互操作的 AI 工具生态正在形成


八、一个更大的图景

让我们把视角拉远。

1970 年代,人和计算机的交互规范是命令行——你得说计算机的语言。

1984 年,图形界面出现——计算机开始说人的语言。窗口、图标、鼠标,让每个人都能用电脑。

2007 年,iPhone 发布——触摸屏让交互更自然。滑动、捏合、点按,三岁小孩都能玩。

2024-2025 年,MCP 出现——这次不是定义人怎么用软件,而是定义 AI 怎么用软件。

每一次交互规范的变革,都带来了一次技术生态的大爆发。图形界面带来了桌面软件产业,触摸屏带来了移动 App 生态。

MCP 带来的,将是 AI 应用生态的大爆发

当 AI 能够标准化地调用任何工具、访问任何数据,我们距离真正的”AI 助理”——一个能帮你干活、替你跑腿、为你决策的数字伙伴——就只剩最后一公里了。


九、总结

时代
交互对象
交互规范
意义
桌面时代
人 ↔ 电脑
GUI(图形界面)
让普通人能用电脑
移动时代
人 ↔ 手机
触摸界面
让所有人随时随地用软件
AI 时代
AI ↔ 软件
MCP
让 AI 能标准化地使用一切软件

MCP 不是一个复杂的技术概念,它就是 AI 时代的”操作系统交互规范”。

人需要窗口和鼠标来用软件,AI 需要 MCP 来用软件。

就这么简单,但又这么重要。


参考资料:

  • • Anthropic MCP 官方规范:https://modelcontextprotocol.io
  • • MCP GitHub 仓库:https://github.com/modelcontextprotocol

💡 一句话记住 MCP:人用软件靠操作系统,AI 用软件靠 MCP。