
“Skill” 和“ Agent”
其实在做这篇文章之前,我也不知道这两个词是什么意思。虽然早就听说过,但面对这些专业名词还是新生抵触🤯。但当了解过后,其实并没有想象中的复杂!

下面我将会用大量的“类比”,帮助你轻松的了解并学会合理科学的使用他们。


Skill
定制化“工具箱”
Skill就像是给AI装了一个“翻译”或“排版”的插件,它只擅长你培训它的一件事情。
什么是Skill?
Skill本质上是一组经过精心编写、调试并打包好的Prompt。你可以把它理解为AI的“快速反应按键”。当你面对具有高度重复性、模式固定的指令要求时,Skill能让你跳过冗长的铺垫,直接进入执行环节。
优点:
高一致性: 输出质量通常非常稳定。
极速响应: 路径短,不需要复杂的逻辑推理,直接调用预设框架。
低成本: 不需要消耗过多token“思考”怎么做,因为它已经“背熟”了流程。
缺点:
缺乏灵活性: 它是死板的。如果任务稍微偏离了预设范围,Skill就会失效或给出驴唇不对马嘴的回答。
单点作业: 只能解决“点”上的问题,无法处理需要多步决策的“面”。


Agent
自主能力的“员工”
Agent是那种你交代完任务就可以去喝咖啡,等它拿结果给你的“数字合伙人”。

什么是Agent?如果说Skill是工具,那么Agent(智能体)就是一个拥有大脑、眼睛、手、记忆等多维的“员工”。它以大模型为核心,具备感知、规划、记忆和工具使用的能力。
你可以给它一个模糊的目标(例如:“帮我策划并执行一场直播”,它会自己思考:第一步做什么,需要调用什么工具,遇到问题怎么修正......)
优点:
自主规划:能拆解复杂任务,不需要你一步步下指令。
多模态与多模型调用: Agent可以根据需要,调用GPT写代码 / 调用image画图,一会儿去联网搜索。(前提是调用了相应的AIPI)
处理模糊性: 能够应对非标准化的任务,具有一定的“解决问题”的韧性。
缺点:
不可控性: 既然有自主性,就可能“走偏”,甚至陷入逻辑死循环。
高成本: 因为它在不断地“思考-尝试-反馈”,Token消耗大。
所以我们清楚在什么情况下选择Skill还是Agent处理问题非常重要,毕竟已总不想高高兴兴交给AI。回来一看把自己💰消耗个精光,还产出了一堆破烂儿。

Skill or Agent
如何选择?
1. 什么时候选 Skill?
长期且固定的工作流: 比如你每天都要把会议按照某种格式整理成会议纪要。
标准化交付: 输出的格式、语调、内容结构有严格且明确的要求,不需要AI自由发挥。
2. 什么时候选 Agent?
任务逻辑复杂: 涉及多个步骤,且下一步的操作取决于上一步的结果。
需要调用外部能力: 比如需要查天气、翻看本地文件、发邮件、生成图表等多模态协同。
探索性任务: 你只有一个模糊的目标,并没有现成的SOP(标准作业程序)。
PS
这里顺便解释一下什么是“多模态”?
简单来讲就是不同的感官系统(例如:听觉、触觉、味觉......)放到AI上来讲,就是图片/音频/视频/文本......
“多模态协同”就是人类通过听觉、触觉、味觉......多个维度感受世界;放在AI上来讲就是某个媒体通过文本、音频、视频等多个维度协同让用户在接受信息的同时有更好的体验。
But
不要“杀鸡用牛刀”: 如果只是一个简单的翻译或润色,强行套用Agent框架(增加各种反思、工具链)只会让简单问题复杂化,白白浪费钱和时间。
容错率极低的场景: 在涉及财务结算、精密指令执行时,也尽量慎用Agent。

夜雨聆风