✨ 公众号记得加星标,第一时间看推送不会错过。
你在手机上订机票,通常需要经历三步:打开携程App → 搜索航班 → 填写信息并支付。如果AI Agent成为主流,你只需要说一句话:"帮我订明天上海飞广州最便宜的航班",剩下的全部自动完成。这不是科幻——支撑这一切的技术链条已经成型:Function Calling让大模型学会"动手",MCP协议让工具接入标准化,Agentic Loop让AI学会"像人一样思考和执行"。理解这套技术,就是理解为什么App时代可能真的要结束了。
📌 本文要点
▸ 大模型从"会说话"进化到"会做事":Function Calling 是核心技术突破
▸ MCP协议:AI时代的"USB接口"——让任何工具被任何模型调用
▸ Agentic Loop:"规划-执行-反思"循环让AI自主完成多步复杂任务
▸ 从技术原理到App终结:为什么Agent取代App是工程问题而非科学问题
⏱ 预计阅读 8 分钟
— — —
一、从"会说话"到"会做事":Function Calling 如何改变一切
ChatGPT刚诞生时,它做的事情很简单:接收一段文字,返回一段文字。无论你问它什么,它的"回答"本质上都是文字输出。它不能帮你查天气、不能帮你发邮件、不能帮你订机票——因为它被困在"文本生成"的壳里。
转折点出现在2023年7月。OpenAI发布Function Calling(函数调用)功能,让GPT-4不仅生成文字,还能生成结构化的指令——告诉外部系统去执行特定操作。
原理并不复杂。当用户问"北京今天天气怎么样"时,大模型不是直接回答"北京今天晴,25度"(因为模型不知道实时天气),而是生成一段JSON格式的指令:
{ "function": "get_weather", "arguments": { "city": "北京" } }
系统收到这段指令后,调用天气API获取实时数据,再把结果返回给大模型。大模型基于真实数据生成自然语言回答:"北京今天晴朗,最高温度25°C,适合出行。"
这就是Function Calling的核心价值:它让大模型从"只会回答问题"进化到"能调用工具完成任务"。GPT-4、Claude、Qwen等主流大模型如今都支持这一能力。但Function Calling只是第一步——它解决的是"单次调用"问题。当你需要AI订机票时,流程是这样的:查航班 → 筛选低价 → 填写乘客信息 → 支付。这需要多次工具调用、中间状态维护、以及根据上一步结果决定下一步动作。Function Calling的"无状态"特性无法胜任这种复杂任务。
于是,MCP协议应运而生。
Function Calling是"你问我答,答完即忘"。MCP是"我们建立了一个持久连接,我知道你能做什么,你可以随时调用我的推理能力"。这是从"一次性对话"到"长期协作"的质变。
二、MCP:AI时代的"USB接口"
MCP(Model Context Protocol,模型上下文协议)由Anthropic于2024年底开源,目标是成为AI工具接入的标准化协议——就像USB统一了外设接口,MCP要统一AI调用外部工具的方式。
为什么需要MCP?在MCP出现之前,每家大模型的Function Calling格式不同。OpenAI有自己的函数调用格式,Claude有另一种,Qwen又不一样。开发者每接入一个模型,就要重写一遍工具适配代码。这就像每个品牌手机都有不同的充电口——用起来非常痛苦。
MCP用四层架构解决了这个问题:
协议层:基于JSON-RPC 2.0标准,定义了请求、响应、通知三种消息类型——这是AI和工具之间沟通的"语言规则"。
传输层:支持两种通信方式——stdio(本地进程通信,适合文件操作、数据库查询等本地工具)和HTTP+SSE(远程通信,适合云端API调用)。
能力层:这是MCP的核心,定义了四种能力——Tools(可执行的工具函数,如查询数据库、发邮件)、Resources(只读的数据源,如文件内容、数据库快照)、Prompts(预定义的交互模板)、Sampling(允许工具反向调用AI模型的推理能力)。其中Sampling是最被低估的特性:它让工具不只是被动执行,还能"请求AI帮忙"——比如数据库查询工具遇到复杂条件时,可以请AI帮忙生成SQL。
会话层:管理连接状态、能力协商和生命周期。这是MCP和Function Calling最本质的区别——Function Calling每次调用都是独立的、无状态的,而MCP建立的是一个持久连接,可以维护数据库连接、工作目录、API限流计数器等状态。
MCP解决的五个核心痛点:
▸ 上下文窗口浪费——工具描述存在Server端,节省70%以上Token消耗
▸ 状态缺失——会话层维护持久状态,支持多轮复杂交互
▸ 安全风险——工具在独立进程执行,可设权限沙箱
▸ 平台碎片化——一次开发,Claude、Qwen、OpenAI通用
▸ 格式不兼容——统一JSON-RPC 2.0通信标准
截至2026年初,MCP已被LangChain、LlamaIndex等主流AI开发框架支持。Anthropic官方数据显示,已有超过10,000个公共MCP服务器可供使用。MCP正在成为AI Agent工具接入的事实标准。
理解MCP最简单的方式:它是AI世界的"USB-C"。之前每个AI模型和工具之间都需要定制接口,现在统一用MCP一个协议就行。OpenAI正在开发自己的Agent标准(Agents SDK),但MCP的先发优势已经很难撼动。
三、Agentic Loop:让AI像人一样思考和执行
有了Function Calling和MCP,AI有了"手"(调用工具)和"标准接口"(MCP)。但要完成复杂的多步任务,AI还需要一个"大脑的运行模式"——这就是Agentic Loop。
Agentic Loop的本质是一个"规划-执行-反思"的迭代循环:
规划阶段:AI接收用户指令,将复杂任务分解为可执行的子步骤。比如"帮我订明天最便宜的机票",AI会拆解为:确定出发城市和日期 → 查询航班列表 → 筛选最低价 → 检查时间是否合理 → 执行预订。
执行阶段:AI通过Function Calling或MCP调用对应工具。查航班时调用search_flights工具,筛选价格时在内存中对比,预订时调用book_flight工具并传入乘客信息。
反思阶段:AI检查执行结果是否符合预期。如果查到的最低价航班是凌晨3点的红眼航班,AI应该反问用户"这个时间您可以接受吗?"。如果预订失败因为支付超时,AI会自动重试或切换备选方案。
这个循环会一直持续,直到任务完成或遇到不可恢复的错误。关键是:整个过程不需要人工介入。这就是AI Agent和Chatbot的本质区别——Chatbot回答问题,Agent完成任务。
完整的技术架构可以概括为一个公式:AI Agent = LLM(推理引擎)+ Tools(工具集,通过MCP接入)+ Memory(记忆系统,管理上下文和状态)+ Planning(规划能力,Agentic Loop)。
现实中的效果已经非常惊人。OpenAI的Agent技术报告显示,在客服场景中,60%-80%的工单可以由AI Agent自主处理,无需人工介入。在企业内部,Agent可以自动完成数据报表生成、邮件分类回复、会议纪要整理等任务。这些场景原本需要用户打开对应的App或软件来完成。
这就是"AI Agent吃掉App"的技术原理。当AI能直接调用后端API完成任务时,用户面前的App界面就变成了多余的中间层。你不再需要打开外卖App浏览菜单——AI知道你的口味偏好,直接帮你下单;你不再需要打开打车App等车——AI知道你的日程,提前帮你叫好车。
"Agent取代App"不是一个时间点,而是一个渐变过程。最先被取代的,是那些"信息获取+简单操作"类App(查天气、查快递、设闹钟)。然后是"标准化交易"类App(点外卖、打车、订票)。最难被取代的,是那些依赖复杂交互和视觉体验的App(视频剪辑、游戏、社交)。App不会在一夜之间消失,但大量App的用户打开频率会持续下降——这才是真正的危机。
— END —
你现在日常使用手机时,有哪些App的操作你觉得完全可以让AI Agent代替?哪些App是你觉得AI无法取代的?欢迎分享你的想法。
声明:本文基于公开技术资料分析,不构成任何投资建议。MCP协议和AI Agent技术仍在快速发展中,文中涉及的框架和工具可能随时间更新。
📚 延伸阅读
★ 《苹果的反击:Apple Intelligence 能否守住「手机时代的最后堡垒」?》
★ 《AI公司的硬件执念:OpenAI、谷歌、Meta为何都在赌物理世界的入口》
⭐ 记得加星标!第一时间获取「词元早知道」的深度分析推送
撰文 | 词元早知道
专注AI大模型、前沿科技与数字经济趋势
夜雨聆风