上次聊了LLM、Prompt、上下文窗口和Token,今天咱们往深走一层。
如果说交互层是"你怎么跟AI说话",那能力层就是"AI到底能干什么"。
这四个词,你搞懂了,至少能发现自己手里的AI还有多少功能压根没用过。

一、多模态
专业定义
多模态(Multimodal)指AI模型能够同时接收、处理和关联多种类型的数据输入——包括文本、图像、音频、视频等——并在不同模态之间建立语义映射的能力。其技术基础是将不同模态的数据通过各自的编码器转化为统一的向量表示,使模型能在同一语义空间中对跨模态信息进行理解和推理。
以前的AI只能读文字,你给它发张图片它不认识。
多模态的AI不一样——你给它一张菜的照片,它能告诉你这是什么菜、大概怎么做的;你给它一段音频,它能转成文字还能总结要点;你给它一个PDF里的表格截图,它能帮你提取数据填进Excel。
它不是"文字AI + 图片AI"拼在一起,而是真的理解了不同信息之间的关系。
比如你问"这个红框里的数字是多少",它能先看懂图里红框在哪,再把那个数字读出来——这叫跨模态关联,是多模态最值钱的地方。
我们现在用的大部分AI其实都支持多模态了——上传图片、发文件、传语音,它不是只能聊天的。
但我们很多人都还停留在纯打字模式。
下次遇到需要"看图说话"的事,别自己盯着看了,丢给AI试试。
二、工具调用
专业定义
工具调用(Tool Use / Function Calling)指大语言模型在接收到用户请求后,能够自主判断是否需要借助外部工具来完成该请求,并生成符合工具接口规范的结构化调用指令。可调用的工具包括但不限于搜索引擎、计算器、代码解释器、数据库查询接口、第三方API等。
AI不是全知全能的。
它训练数据的截止日期是固定的,它不会算复杂的数学,它也不知道你公司内部的排班表。
但工具调用让它能"找人帮忙"。
你问"今天深圳天气怎么样",它知道自己不知道,于是自动调搜索引擎去查,把结果拿回来告诉你。
你让它算一个复杂的公式,它调计算器算完再回答。
你让它把你公司的请假记录汇总一下,它调数据库去查。
关键是——这些操作是它自己判断、自己决定要不要做的,不需要你说"请联网搜索"或"请调用计算器"。
你只管像对人说话一样提需求,它自己判断该找谁帮忙。
这是区分"玩具AI"和"工具AI"的分水岭。
不会调用工具的AI就像一个被锁在房间里的人,只能凭记忆回答你,记忆到哪它就停在哪。会调用工具的AI等于拿到了房间的钥匙,能走出去查、去算、去操作。
你选AI产品的时候,如果它不支持工具调用,它的能力天花板就是训练数据截止的那一天。支持工具调用的AI,理论上可以实时获取信息、操作外部系统,天花板高得多。
三、推理
专业定义
推理(Reasoning)指模型在生成最终回答之前,进行多步骤逻辑推导的过程。其核心实现机制是思维链(Chain-of-Thought),即模型将复杂问题拆解为一系列中间推理步骤,逐步求解后再汇总为最终答案。
以前的AI回答问题,你感觉它像在"猜"——看到问题直接蹦答案,速度快但经常出错,尤其涉及多步逻辑的时候。
推理型的AI不一样。你问它"小明有3个苹果,给了小红2个,又买了5个,现在有几个",以前的AI可能直接蒙一个数。推理型AI会在脑子里过一遍:3-2=1,1+5=6,答案是6。
这就像考试时老师要求你"写出解题过程"——写过程的时候你会检查自己的思路,减少粗心错误。推理型AI就是被训练成先打草稿、再写答案。
现在很多AI产品有个"深度思考"或"慢思考"模式,点开之后你会看到它把思考过程一行行展示出来——这就是显式推理。不过,不是所有模型都有推理能力,只有推理增强型模型(比如OpenAI的o1系列、DeepSeek-R1等)才具备。普通的对话模型,你不要求它"一步步想",它大概率还是直接蹦答案。
当然,推理也不是万能的。
它能降低错误率,但不能消除错误。
四、幻觉
专业定义
幻觉(Hallucination)指大语言模型生成的内容在事实上不正确、与给定输入不一致、或缺乏可验证依据,但模型以高度流畅和自信的方式呈现这些内容。幻觉的产生根源在于语言模型的本质是一个概率分布预测器——它基于训练数据中的统计模式生成最可能的下一个token,而非基于对事实的"认知"。当模型被问到超出其训练覆盖范围或需要精确事实核验的问题时,它可能"编织"出看起来合理但实际错误的内容。幻觉是当前所有大语言模型的固有问题,无法完全消除,只能通过检索增强生成(RAG)、事实核查机制、推理增强等方法降低发生率。
你有没有遇到过AI一本正经地胡说八道?
它不是故意的。它不是在骗你。
它的工作原理是预测下一个字该说什么,预测的依据是它见过的海量文本里的统计规律。当它遇到自己不确定的问题时,它不会说"我不知道",而是基于统计规律"编"一个最像正确答案的回答。
比如你问它"某本书第87页写了什么",它可能给你一段看起来非常合理、风格也对的内容——但如果你真的翻开那本书的第87页,你会发现根本不是那样。
它没见过那本书的每一页,但它见过太多类似的文字,所以它能"仿写"出让你信以为真的内容。
更危险的是,幻觉往往伴随着极高的自信。
它不会用"可能""也许"这种词,而是斩钉截铁地告诉你一个错误的事实,还附上看起来很专业的解释。
这是每一个用AI的人都必须知道的事:AI会编,而且编得像真的一样。
怎么办?三条原则:
第一,涉及事实性信息——数据、日期、人名、引用——要么自己核实,要么让AI用工具调用去查而不是凭记忆说。
第二,别被AI的自信骗了。它说"我确定"不代表它真的确定,它只是统计学上认为这个回答"最像正确答案"。
第三,关键决策依赖AI输出之前,做交叉验证。换个方式问一遍,看看答案是否一致;或者让另一个AI核查第一个AI的答案。
这不是"AI不好用",这是你必须知道的"正确用法"。
写在最后
这四个词懂了吧?
多模态让它有了眼睛和耳朵——不只是读文字,能看图、听音、理解文件。
工具调用让它有了手和脚——不困在训练数据里,能出去查、出去算、出去操作。
推理让它有了"先想再说"的习惯——不是猜答案,是推答案。
幻觉是必须标注的"小心地滑"——能力再强,该核实的还是得核实。
你手里的AI,大概率这四个能力都有了。
但如果你只用它聊天,你只用了它的十分之一。

END

下一篇预告:咱们往架构层走——聊聊预训练、微调、RAG和Agent。这几个词你可能在职场里听到过,但一直没搞懂它们到底是什么意思。下次给你拆明白。
夜雨聆风