普通人的AI奇遇记

小明盯着PPT空白页,光标一闪一闪。
老板上周说的话还在耳边:
下个月内部分享,你来讲AI术语,大家都要听懂。
他当时点了头。
回到工位才反应过来——他自己也没懂过。
于是,他开始了一场48小时的自我补课。
这是他的故事,也是你需要知道的一切。
AI到底是什么东西?

LLM
(大语言模型,Large Language Model)
LLM就像一个读过海量书籍的人。读过的不是几本、几千本,而是互联网上几乎所有公开的文字——新闻、论文、小说、代码、聊天记录。
读完之后,它学会了一件事:给定一段话,预测下一个词最可能是什么。就这一件事,反复做,做到极致,就成了你现在用的 ChatGPT、Claude、文心一言。
是不是有点像是萝卜纸巾猫,全靠蒙,但总能蒙对的。
训练(Training)
训练,不是人教它一句一句背。而是把海量文本喂给它,让它不断猜下一个词是什么,猜错了就调整内部参数,猜对了就强化,如此循环几千亿次。
就像一个孩子学说话——没人逐字教,但听得多了,自然就会了。只不过这个孩子,用了几千块顶级显卡,跑了几个月。
参数(Parameters)
参数,是模型内部的数字权重,决定它对每个词、每种语境的理解偏好。参数越多,模型能记住的模式越复杂。GPT-4 据说有上千亿个参数。
你可以把参数理解成大脑里的神经连接——连接越多,处理越精细。
推理(Inference)
训练完,模型就能用了。用的过程叫推理:模型接收你的输入,经过内部计算,输出回答。
训练是学习阶段,推理是应用阶段。训练要烧很多钱,推理相对便宜——这也是为什么你能用几块钱的会员费,调用一个训练成本上亿的模型。
幻觉(Hallucination)
这不是说模型会产生幻觉,而是说它有时会一本正经地胡说八道。它给你编一个不存在的论文引用,给你写一段错误的历史,语气笃定,格式完美,就是内容是假的。
因为它的本质是预测下一个词,不是查证事实。它不知道自己不知道。
使用AI时,涉及事实、数据、法律条文,务必自行核实。
你怎么跟AI说话,决定了它有多好用
小明第一次认真用AI写方案,输入了六个字:帮我写个方案。
AI回了一大段。措辞流畅,逻辑清晰,和他要的东西毫无关系。
旁边的同事老陈凑过来看了一眼,笑了:你这叫白纸问路。你都不知道去哪,它怎么带你走?
提示词(Prompt)
提示词,就是你发给AI的那段话。它不是搜索词,更像是你给新来实习生下达的任务说明。
你说帮我写个方案,实习生不知道你是做什么行业的,不知道方案给谁看,不知道要多长——他只能猜。
小明重新写了一段:背景是什么、受众是谁、目的是什么、大概多少字、语气要正式还是活泼。AI给出的结果,和第一次判若云泥。
系统提示(System Prompt)
系统提示,是在你开口之前,产品方就已经悄悄塞给AI的一段指令。它规定了AI的角色、语气、能做什么、不能做什么。
你用某个客服机器人,它总是彬彬有礼、只聊产品相关话题——那不是AI天生如此,是系统提示在约束它。
上下文窗口(Context Window)
用了几天,小明发现AI开始忘事了——明明前面说过的信息,它好像没记住。
AI不是真的在记忆,它只是在处理一个窗口里的文字。窗口有上限,超出上限的内容,AI就看不到了——就像一张纸写满了,前面的字被推出去了。
Token(词元)
这个窗口的大小,用Token来衡量。Token是AI处理文字的基本单位。中文里一个汉字约等于1-2个Token。
早期的模型窗口只有几千Token,现在的主流模型已经扩展到几十万甚至更多,可以一次处理一整本书。可以预见,未来的Token经济会火起来,算力在未来会成为一个国家的核心竞争力(重仓人工智能与算力相关的股票就对了,不构成投资建议,需谨慎)。
让AI变得更专业

小明的老板提出了一个新需求:能不能让AI直接读我们公司的内部文件,回答客户问题?
RAG(检索增强生成,Retrieval-Augmented Generation)
想象你要参加一场开卷考试。考前你把所有资料整理好放在桌上,考试时先翻资料找到相关段落,再结合自己的理解写出答案。
RAG就是给AI做了同样的事:先从外部知识库里检索出相关内容,再把这些内容塞进提示词,让AI基于真实资料来回答。
目前常用的ima、notebokklm都支持知识库,包括很多在线的AI,如秘塔、KIMI都支持这些功能了。
向量数据库(Vector Database)
普通数据库靠关键词匹配查找。向量数据库存的是数字坐标——每段文字都被转换成一串数字,代表它在语义空间里的位置。
意思相近的句子,坐标距离就近。用户提问时,系统先把问题转成坐标,然后找距离最近的内容取出来交给AI。这就是语义检索,比关键词匹配精准得多。这与我们检索文献很像,有时候需要先去查叙词表,找到相近的词语,才能最全面地掌握文献。
Fine-tuning(微调)
在已有大模型的基础上,用特定领域的数据继续训练,让模型的行为更贴近特定场景,这叫微调。
例如,一个名校毕业的通才,入职后参加了三个月的岗前培训。他原有的知识没有消失,但说话的方式、处理问题的习惯,都变得更符合这家公司的要求了。
多模态(Multimodal)
多模态,就是AI能同时处理多种类型信息的能力——文字、图片、音频、视频。
你可以给它一张产品图,让它写文案;给它一段录音,让它整理成文字。模态就是信息的类型,多模态就是多种类型都能处理。
目前市面上有很多种类型的大模型,他们在处理不同任务的时候表现是不一样的,需要用户自己选择。
AI开始连接世界

MCP(模型上下文协议,model Context Protocol)
MCP由Anthropic公司提出,是AI连接外部工具的统一标准。
全世界的充电器曾经五花八门,后来统一了USB-C接口。MCP做的事情类似——让不同的AI模型和不同的外部工具,能够用同一种方式握手、交换信息。
工具调用
(Tool Use / Function Calling)
AI在回答过程中,主动调用外部工具获取信息,再整合进回答。比如:你问今天上海天气怎么样,AI调用天气API查询,再告诉你结果。
这让AI从只会说话变成会查资料、会计算、会联网。
API(应用程序接口,Application Programming Interface)
想象一家餐厅。你不需要走进厨房,只需要告诉服务员你要什么,服务员把需求传进去,厨房做好了再端出来。API就是这个服务员——两个系统之间的标准化通道。
你用的很多APP里内置的AI功能,背后都是在调用OpenAI或其他厂商的API,按Token计费。这些厂商都是cook,在烧你Token。
CLI
(命令行界面,Command Line Interface)
CLI是通过在黑色窗口里打字输入指令来操作程序的方式,区别于点击图标的图形界面。
Claude Code、各类AI开发工具,很多都通过CLI使用。普通用户不需要掌握,但看到这个词,知道它是一种操作方式即可。但事实上,目前的自然语言编程已经发展到了可怕的地步,只要你能用白话能把需求讲给AI,他大概率能够为你实现。因此可以多尝试使用原生的CLI,这是符合底层代码的语言。
AI开始自己干活

分享会前一天,小明的老板突然说:我听说现在有AI能自己完成一整个任务,不用人盯着?
Agent(智能体)
普通AI:你问一句,它答一句,然后停下来等你。
Agent不一样。你给它一个目标,它会自己拆解步骤、调用工具、执行操作,一路推进,直到任务完成。
打个比方:普通AI是前台,你说什么它做什么。Agent是项目经理,你说帮我把这份报告发给客户,它会自己找文件、写邮件、点发送。
OpenClaw、Manus、Coze这类产品,本质上都是Agent框架。国内目前腾讯的workbuddy、Qclaw等也很快实现了这些功能,但有待进一步完善。
工作流(Workflow)
如果任务流程是固定的,每次都走同一条路,这叫工作流。
比如:收到订单→检查库存→生成发货单→通知物流。每一步都是预先设计好的,AI按图索骥,稳定可靠。工作流是Agent的简化版,适合流程标准化的场景。
这也意味着,程序性的工作很容易被AI取代,阿西莫格鲁的奥拓的研究诚不欺我。
多智能体(Multi-Agent)
更复杂的任务,需要多个Agent协同——一个负责搜索,一个负责写作,一个负责审核,像一个AI团队。
认清市场,选对工具
分享会上,有人问小明:市面上这么多AI,到底有什么区别?
小明说:先分清两层——基础模型和应用产品。
基础模型是发动机:
· GPT-4o(OpenAI)——综合能力强,生态最成熟
· Claude(Anthropic)——安全性高,长文本处理见长(本人沉迷claude,强烈推荐)
· Gemini(Google)——深度整合搜索,多模态能力强
· Llama(Meta,开源)——可私有化部署,企业定制首选
· 文心一言(百度)——中文理解强,国内业务对接顺畅
还有通义千问、KIMI、GLM等等国产大模型,不一一列举了。
应用产品是整车:
ChatGPT、Claude.ai、各类AI写作工具……
很多你用的AI产品,底层调用的是上述基础模型的API。选哪个?看使用场景和预算,没有绝对的好坏。
分享会结束,同事们鼓掌。老板说:讲得很清楚。
小明笑了笑:
这些术语,本质上是一条完整的链路——
LLM(基础)→ 提示词(沟通方式)→ RAG + 微调(让它更专业)→ MCP + 工具调用(让它连接世界)→ Agent(让它自主行动)
理解了这条链路,你就理解了AI正在发生的一切。
他不是AI专家,他只是把这些术语真正搞懂了。而搞懂,已经足够。
上述内容大部分由Claude完成,我只是做了些补充,最近几天才开始正式迈入AI应用大军,我有些焦虑也有些亢奋。
焦虑很多之前的技能被取代,亢奋能够很快实现之前觉得不可能实现的任务,有很多想法想要去验证。
比如:蒸馏一位教育学专家的所有文献,形成xx-skill,将年度期刊文献的文献计量与可视化分析自动化,手搓爬虫工具,迅速获取大量研究有关的信息和资源.…..
你最想深入了解哪个环节?评论区告诉我,下期专门讲它。

—END—

范在学习

夜雨聆风