AI代理(agent)的概念,目标受众是非技术背景但日常使用AI工具的人群。此篇文章分为三个部分:从理解大语言模型(LLM)、到AI工作流,最后理解AI代理,均通过贴近生活的例子来剖析,力求简明易懂,消除诸如“rag”“react”等术语的复杂感。
在第一级学习环节,介绍大语言模型(LLM)的基本功能和架构。主流聊天机器人(如ChatGPT、Google Gemini、Claude)都是基于LLM构建的,能生成和编辑文本。示例:用户输入一个请求(如写一封咖啡聊天邀请邮件),LLM根据训练数据输出文本。例如,向ChatGPT请求写一封礼貌的邮件,模型能做出优秀的文本生成。这揭示两个LLM的核心特征:
训练于大量公开数据,缺乏对私人或专有信息的访问权限(如用户日程或公司内部数据)。 被动响应,必须等待用户输入后才产生输出。
由此引入第二级——AI工作流(AI workflows)。举例解释,如果对模型预设规则:每次询问与个人事件相关的问题时,先查询Google日历再回应,那么模型即可正确回答“我的咖啡聊天什么时候?”这时,LLM不再孤立工作,而是受控于预先设定的路径(此即“控制逻辑”)。
但当问题变成“那天的天气如何?”时,模型仍会失败——因为预设路径只调用日历数据,未包括天气接口。进一步扩展工作流,第三方接口如天气API加入,同时可让文本转语音等,这依旧是多步骤的AI工作流,但关键点是:人仍旧是决策者,设定流程和规则,AI仅执行。
重点解释了“检索增强生成(RAG,Retrieval Augmented Generation)”的含义。RAG即AI模型回答前进行检索查询的技术流程,属于AI工作流的范畴,如访问日历或天气服务以补充信息。
现实案例:作者使用make.com构建了多步骤AI工作流,包含以下步骤:
此范例体现AI工作流的典型特征:预设明确、顺序固定、人工负责迭代优化(如修改提示词以获得更满意结果)。
进入第三级——AI代理(AI agents)的概念剖析。继续以发布社交媒体内容为例,当前工作流中:
人类是决策者:制定收集、摘要、发布的逻辑顺序。 人类执行具体操作:查找新闻、撰写提示词、判断结果好坏。
核心区别在于:若将“决策”的职责由人类转给LLM,该系统即成为AI代理。AI代理必须同时具备:
推理能力:自己判断信息收集与处理的最优方案。 执行能力:借助外部工具自主完成任务。
示例中的推理过程:
这体现了代理对工具选择的自主判断。
介绍AI代理的核心框架之一——React框架,其本质是AI代理必须完成:
Reasoning(推理) Acting(执行)
此外,AI代理的第三大特征是自主迭代优化。不同于人类手动修改提示,AI代理能够自动:
评估输出(如草拟的LinkedIn帖子) 自我批评,调用其他LLM模块进行改进 循环迭代直到满足预定义标准(如符合LinkedIn最佳实践)
此过程极大提升效率和输出质量。
介绍AI代理的真实案例——Andrew创建的AI视觉代理演示:
任务:在视频中识别关键词“滑雪者(skier)”。 方法:AI先推理滑雪者的定义(“滑雪板上快速滑行的人”)。 执行:AI扫描视频片段,标记可能包含滑雪者的片段,建立索引。 输出:返回包含滑雪者的相关视频剪辑。
对比传统方法,AI代理免除了人工标注和筛选,使视频搜索更高效。虽技术复杂,但前端UI让用户体验简洁、直观。
总结今日三个层级的简化模型如下:
本质区别在于:AI代理不仅执行,还具备决策和自主改进能力。
关键洞见总结
大语言模型(LLM)是AI系统的基础,但仅能被动处理一般文本任务。 AI工作流通过人为设计路径,扩展LLM能力,整合外部数据和工具,但决策权仍属人类。 AI代理具备自主推理、行动和自我迭代,能替代人类在复杂工作流中的决策角色,实现更智能自动化。 React框架是实现AI代理的典型构架,强调Reasoning(推理)和Acting(行动)的循环。 检索增强生成(RAG)是AI工作流中常见的步骤,但RAG本身不是AI代理,而只是辅助路径。 实际案例和工具(如make.com、Perplexity、Claude)证明AI代理和工作流的强大应用价值。 
此文章对非技术人员的AI代理理解和入门极具指导意义,剖析清晰,易于实践。
夜雨聆风