AI Agent的技术栈在常规栈之上,增加了一套独特的“认知与行动”闭环架构,通常被概括为 Agent = LLM(大脑) + 驾驭系统(Harness)。其核心包含四大模块:
感知模块(Perception - 眼睛和耳朵):
常规软件只能接收特定格式的输入(如表单、点击)。AI Agent则通过自然语言处理(NLP)、计算机视觉(CV)等多模态技术,像人一样“感知”环境,理解模糊的自然语言指令或图片信息。
规划模块(Planning - 大脑的思考):
这是AI Agent的灵魂。常规软件执行的是程序员写好的 if-else 逻辑。AI Agent则依靠LLM进行任务拆解和动态规划(如ReAct框架:边思考边行动),将一个模糊的目标(如“帮我策划一次旅行”)拆解为查天气、订机票、定酒店等一系列子任务,并根据实时反馈调整计划。
记忆模块(Memory - 经验与海马体):
常规软件的“记忆”就是数据库里的冷数据。AI Agent拥有短期记忆(记住当前的对话上下文)和长期记忆(通过向量数据库存储历史经验、用户偏好),能够像人一样从过去的交互中学习和成长。
工具调用(Tool Use - 双手):
常规软件的功能是封闭在系统内的。AI Agent具备“双手”,可以通过标准化的API、MCP(模型上下文协议)等去调用外部工具(如搜索引擎、计算器、企业内部的CRM系统),甚至操作其他传统软件来完成物理或数字世界的任务。
总结来说,常规软件技术栈是在搭建一个精密的“自动化流水线”,而AI Agent技术栈则是在培养一个有大脑、有记忆、有双手的“数字员工”。前者需要人类事无巨细地编写每一步操作手册,后者只需要人类下达一个目标,它就能自主思考并调用各种工具去达成结果。
夜雨聆风