AI成长系列1:大模型背后的魔法与现实
什么是大模型?一篇标准新手说明书
不讲参数、不讲算法、不讲 Transformer只回答一个问题:那个会聊天的 AI,到底是什么?
「任何足够先进的技术,初看都与魔法无异。」—— 阿瑟·克拉克
AI 不是魔法,但它的工作原理确实出乎很多人意料——既比你想象的简单,又比你想象的深刻。读完这篇,你会对它祛魅,也会对它重新刮目相看。
“大模型”全称叫大语言模型,英文 Large Language Model,缩写 LLM。三个字,三层意思。
「语言」,意思是它擅长处理文字。你跟它说话,它跟你说话,它读你的文档,它写你要的内容。它的世界,是由文字构成的。
「模型」,意思是它本质上是一个数学公式——一个超级复杂、人类肉眼看不懂,但计算机可以一步步算出来的公式。你给它一段输入,它按公式算一遍,吐出一段输出。仅此而已。
「大」,意思是这个公式特别大。大到什么程度?我们用一个比喻说清楚。
「小学时候我们学过方程:y = 2x + 1。你给一个 x,它给你一个 y。大模型的本质,就是一个超级复杂版本的这个方程——中间那个”2x+1″,被换成了有几千亿个参数的庞然大物。」
参数,可以理解成大脑里神经元之间的”连接强度”。参数越多,模型理论上越聪明。
这个公式经过”训练”之后,就能对你的输入给出合理的输出。那它是怎么训练出来的,又怎么”聪明”起来的?
如果你只想记住一句话,请记住这句:
「大模型做的事情,本质上只有一件——预测下一个字,最可能是什么。」
是的,就这么朴素。一个字一个字地往后猜,猜完一个再接着猜,整段话就出来了。
想象一个填字游戏。给你一句话的开头,让你猜下一个字——
大模型在内部对每个候选字算出一个概率,然后挑出最高的那个——
⚡ 关键理解
选完「好」,它把「好」接在后面,再用同样方式猜下一个字。你跟它聊一万句话,它做的事情其实就是这一件事,做一万次。
因为它读过的中文太多了——多到我们活了几十年的人类一辈子都看不完。这个过程叫「训练」:
但广博不等于精准。理解这一点,才能避开 AI 最大的坑。
很多人发现,AI 会编出完全不存在的书名、作者、法律条文。让它引用法条,它能给你”《民法典》第 9527 条”。这种现象有个学名,叫幻觉(Hallucination)。原因有三——
它的目标是生成一段读起来流畅的文字,而不是”输出真相”。”第 9527 条”和”第 1024 条”读起来一样通顺,它没有能力区分哪个真实存在。
训练完成后发生的事,它一概不知。问它昨天的新闻,它要么坦白”不知道”,要么一本正经瞎编一个。
它的训练目标是输出一段完整的回答,不是”输出真相”。所以哪怕不会,它也会硬编一个像模像样的答案,绝不冷场。
⚡ 记住这个比喻
把 AI 当作一位学识渊博但不够严谨的助手,而不是百科全书,更不是搜索引擎。它的输出,需要你来把关。
基于上面的原理,可以推出一份特别清晰的使用指南——什么情景大胆用,什么情景必须小心。
·写:邮件初稿、工作周报、公众号文章、各类文案、自我介绍
·改:润色文章、压缩长文、改写成不同风格、中英互译
·读:长 PDF 提炼要点、外文资料概览、合同核心条款提取
·想:头脑风暴、列大纲、当辩论陪练、帮你预演对方的反驳
·查精确事实:法条编号、判例、历史细节、人物履历——是幻觉重灾区
·做关键决策:医疗诊断、法律意见、投资建议——它给思路,不替你拍板
·查时效信息:今天的新闻、最新政策、当下股价——除非已开联网功能
·处理隐私数据:客户信息、薪资数据、未公开合同——三星已用真金白银交过这学费
🧠大模型是一个超级大的数学公式,专门做一件事:预测下一个字最可能是什么。
📚它”聪明”是因为读完了人类几乎所有公开的文字;它”蠢”是因为它在猜字,不是在查证。
⚖️把它当学识渊博但不够严谨的助手——大胆让它写、改、读、想;精确事实和关键决策,自己来拍板。
它不是来取代你的,是来扩展你的。会用 AI 的人,只会成为更强的人。
搞懂了大模型是什么下一步是选对大模型
DeepSeek、豆包、通义、Kimi、文心——五个名字,五种个性,适合五种不同的你。下一篇,我们一次说清楚——
点击关注,下篇不迷路
你平时最常用哪个 AI?或者最搞不清楚哪两个的区别?欢迎评论区告诉我,我在下一篇重点讲。👇 评论区聊聊,说不定帮到别人
夜雨聆风