AI|02|LLM 的工程实现方式

LLM 的工程实现

大模型的分类

按照模态分类

大语言模型（LLM）

Qwen3
deepseek-v4
GPT-5.4语言模块

多模态理解模型

Gemini-3.1
GPT-5.4

多模态生成模型

Nano Banana
Stable Diffusion

按照功能分类

生成式大模型

GPT-5.4
DeepSeek-v4

嵌入模型

重排序模型

BGE-Reranker

分类模型

通常是经过微调的小尺寸模型

主要是学习LLM和多模态模型

1. LLM

2. 多模态理解模型

3. 多模态生成模型

大模型的工程实现

大模型的工程实现主要是五种：提示词工程、RAG、微调、续训、Agent开发。

提示词工程

提示词与提示词工程

提示词（Prompt）是给模型的一条指令，用于执行特定任务，它可以是任何内容。

任务可以是简单的问题回答，例如：

"讲个笑话"
"今天的天气"
"怎么能把喜欢的女生追到手"

任务也可以是复杂的，例如：

怎么脱单
分析你的企业数据

为什么需要提示词

为什么要优化提示词

打个比方，去医院看医生，如果说"我不舒服"。很难判断具体病症，如果准确&详细描述症状，医生就可以做出合理的诊断。

什么是提示词工程

提示词工程（Prompt Engineering，或提示工程，指令工程）是在使用大模型时，通过系统地设计、组织和优化提示词，以引导模型在特定任务、约束和上下文条件下，稳定产出符合预期目标的高质量输出的一套方法论。

一些概念

上下文（context）：通常指模型在生成当前输出时可直接访问并用于推理的信息集合。简而言之，上下文就是输入模型的整个token序列。
上下文窗口：模型可以接收的上下文长度不是无限的，模型架构设计和训练决定其长度上限，这个上限称为上下文窗口。

注意：当输入内容超过上下文窗口时，超出部分无法被模型直接看到，会被截断或以其它方式处理。

提示词怎么写？

写提示词注意六要素：角色、任务、背景/上下文、输入数据、输出格式、质量与约束，如下提示词模版。

# 角色你是一名【角色定位，如：数据分析师 / 业务分析师 / 政策研究员】。# 任务你的任务是基于给定的输入数据进行【分析 / 总结 / 对比 / 评估】。# 背景/上下文【历史记录总结】。【参考资料】。# 输入数据<<<{在此粘贴输入数据}>>># 输出格式- 使用**表格**形式输出- 表格中必须包含以下列： 1. 关键发现 2. 支撑数据（来自输入数据的原文或摘要） 3. 结论 4. 建议- 表格下方需给出**整体结论说明**# 质量与约束- 仅基于输入数据进行分析- 不得编造、推测或引入外部信息- 若输入数据不足以支撑结论，必须明确标注为**"信息不足"**- 不允许为了完整性而补充假设

要素1:角色模型会模仿该角色的口吻、思维模式、专业术语和知识深度来进行回应，从而使输出更加专业、地道和可信。举例：

❌帮我写一篇AI的文章。

✅你现在是一位科技专栏作家。**任务目标**：撰写一篇600字科普文章，主题是"大语言模型的实际应用"。**输出要求**：1. 第一部分：用3个 bullet point 总结当前主流应用场景；2. 第二部分：一步一步分析2个真实案例（包含优缺点）；3. 结尾给出2条给普通用户的实用建议。   语言通俗易懂，加入1个生活化比喻，避免专业术语堆砌。   现在开始写作。

要素2:任务任务是提示词的核心，用于明确模型"你要做什么"。常用词汇：

指令动词开头：用一个强有力的指令动词开始你的任务描述，例如"分析"、"总结"、"提取"、"分类"、"翻译"、"生成"、"重写"、"排序"等。
任务说明：一个好的任务说明必须是明确、具体、无歧义的。比如"写摘要"、"做分类"、"写代码"等。

举例1:

❌【目标不明显】"告诉我关于气候变化的事情。"

✅【目标明确】"请简要描述气候变化的主要原因及其对农业的影响。"

举例2：

你的任务是基于给定的输入数据进行【分析 / 总结 / 对比 / 评估】。

举例3：

❌【弱】谈谈这篇报告

✅【强】请执行以下三个任务：• 总结所附的 2025 年第二季度全球 AI 市场分析报告，篇幅限制在 300 字以内。• 提取报告中提到的三大主要增长动力和两大潜在风险。• 基于报告内容，为一家计划进入该市场的初创公司提出三条战略建议。

要素3：背景/上下文

背景/上下文用于补充当前对话的历史背景，可能包含 ①历史聊天记录的汇总 ②参考资料等。

即便是最强大的模型也可能因为信息不足而产生误解或"幻觉"。

历史聊天信息可能作为独立的消息全部发送给模型，也可能汇总后作为提示词中的上下文内容。上下文不是必须的。

举例1:

❌【无上下文/背景】"解释一下微积分。"

✅【有上下文/背景】"作为一名高中生，我正在学习微积分。请用简单的语言解释一下微积分的基本概念。"

要素4:输入在编写Prompt时，我们可以使用各种标点符号作为"分隔符"，将不同的文本部分区分开来。分隔符就像是 Prompt 中的墙，将不同的指令、上下文、输入隔开，避免意外的混淆。

```   """  <<< >>>  <>   <tag></tag>

举例1：

请将以下句子改写为更易理解的形式。OpenAI是一个美国人工智能（AI）研究实验室，由非营利组织OpenAIIncorporated（OpenAIInc.）和其盈利子公司OpenAI Limited Partnership（OpenAI LP）组成。OpenAI旨在推广和发展友好型人工智能，并使用世界第五大超级计算机进行研究。该组织于2015年由Sam Altman、Reid Hoffman、Jessica Livingston、Elon Musk、Ilya Sutskever、Peter Thiel等人在旧金山创立，共承诺捐赠10亿美元。Musk于2018年从董事会辞职但仍然是捐赠者。微软于2019年向0penAILP提供了10亿美元的投资，并在2023年1月提供了第二笔多年期投资，金额据报道为100亿美元。

推荐的提示词：请将以下句子概括，以便更易理解。文本："""OpenAI是一个美国人工智能（AI）研究实验室，由非营利组织OpenAIIncorporated（OpenAIInc.）和其盈利子公司 OpenAI Limited Partnership（OpenAI LP）组成。OpenAI旨在推广和发展友好型人工智能，并使用世界第五大超级计算机进行研究。该组织于2015年由Sam Altman、Reid Hoffman、Jessica Livingston、Elon Musk、Ilya Sutskever、Peter Thiel等人在旧金山创立，共承诺捐赠10亿美元。Musk于2018年从董事会辞职但仍然是捐赠者。微软于2019年向0penAILP提供了10亿美元的投资，并在2023年1月提供了第二笔多年期投资，金额据报道为100亿美元。"""

举例2：

1）不推荐的提示词

将下面的这句话翻译成英文.尽量使用华丽的词语

AI回复

问题分析您的查询提到"将下面的这句话翻译成英文"，并要求"尽量使用华丽的词语"，但并未提供实际要翻译的中文句子。

当前情况

请求本身清晰：需要英文翻译 + 华丽修饰风格。
缺少核心输入：具体句子未出现。

处理建议

请直接补充您想要翻译的那句话（可为一段文字、一句诗词或任意表达）。
一旦提供，我将采用富有诗意、典雅且华丽的英文词汇进行翻译，确保语言流畅而富有文学美感。

如有其他细节或特定风格偏好（例如维多利亚式华丽、古风典雅或现代诗意），也请一并告知，我会据此调整译文。

2）推荐的提示词

把用三个引号括起来的文本翻译成英文"""尽量使用华丽的词语"""

AI回复

文本翻译

用户提供的需要翻译的文本为："尽量使用华丽的词语"。

英文翻译"Endeavor to employ the most ornate and resplendent diction possible."

此版本保留了原文的核心含义："尽量"对应"endeavor to... possible"（力求最大化），"华丽的词语"则以"ornate and resplendent diction"体现典雅华美的表达。
备选自然版（若追求流畅性）："Strive to use as flowery and magnificent language as one can."

顺着这个思路，如果您希望对该译文进行进一步调整（如更具诗意或特定文学风格），或有其他文本需要处理，请随时补充细节，我会据此优化。

要素5:输出

有时候我们需要语言模型给我们一些结构化的输出，而不仅仅是连续的文本。什么是结构化输出呢？就是按照某种格式组织的内容。结构化输出的常见形式：

JSON 格式
：适用于需要生成或处理数据对象的任务。
Markdown 格式
：用于生成文档或报告，便于阅读和展示。
表格格式
：适用于数据展示和分析。
代码格式
：用于生成特定编程语言的代码片段。

举例1:

中国有哪些经典菜系，以表格的形式输出中国经典菜系

AI回复

中国经典菜系概述

中国饮食文化源远流长，形成了以八大菜系为代表的经典体系。这些菜系各具地域特色，体现了不同省份的地理环境、气候条件和人文传统。

以下是以表格形式输出的中国经典菜系（八大菜系）：

菜系	主要地区	口味特点	代表菜品
鲁菜	山东	鲜咸浓郁、葱香突出	糖醋鲤鱼、九转大肠、葱烧海参
川菜	四川	麻辣鲜香	宫保鸡丁、麻婆豆腐、水煮鱼
粤菜	广东	清淡鲜美、注重原味	白切鸡、烤乳猪、虾饺
苏菜	江苏	鲜甜清淡、刀工精细	松鼠桂鱼、清炖狮子头、扬州炒饭
闽菜	福建	酸甜适口、海鲜为主	佛跳墙、荔枝肉、沙茶面
浙菜	浙江	清鲜爽脆、原汁原味	西湖醋鱼、东坡肉、龙井虾仁
湘菜	湖南	酸辣鲜香	剁椒鱼头、辣椒炒肉、剁椒鸡
徽菜	安徽	重油重酱、香醇	臭鳜鱼、毛豆腐、徽州烧饼

这些菜系构成了中国餐饮的基础框架，实际应用中常有融合与创新。如果需要某菜系的详细菜谱、历史背景或烹饪技巧，可进一步说明。

举例2:

请从以下非结构化文本中提取联系人信息，并以 JSON 对象数组的格式输出。每个对象应包含 name (string), email (string), 和 phone (string) 三个键。如果某个信息缺失，请将对应的值设为 null。文本: 张三的电话是 13812345678，邮箱是 zhangsan@example.com。李四只留了邮箱 lisi@example.com。

AI回复

联系人信息提取

📌 提取结果从提供的非结构化文本中，我已完整识别出两位联系人信息，并严格按照要求处理：

每个对象包含 name、email、phone 三个键。
缺失信息统一设为 null。

JSON 对象数组

[  {"name": "张三","email": "zhangsan@example.com","phone": "13812345678"  },  {"name": "李四","email": "lisi@example.com","phone": null  }]

此输出已符合所有指定格式要求。如需进一步调整或处理其他文本，请随时告知。

要素6:质量与约束这一要素用于定义输出的"好"的标准以及"能不能 / 该不该"这样的回答。

质量标准
：可以涉及文风、语调、复杂度、创造性等；
约束
：通常涉及内容限制/红线、字数、风险规避/敏感项等。

举例1:

❌帮我写个介绍

✅请写一段 100 字以内、适合微信推文开头的介绍，风格轻松活泼。

举例2:

1）不使用质量与约束

你是一位为高端汽车品牌撰写广告文案的创意总监。请为新款电动跑车保时捷 taycan 创作一段 150 字左右的广告语。

AI回复

Taycan —— 纯粹，即是未来。

当电能取代轰鸣，当扭矩瞬息释放在每一个弯道入口，你依然会认出那枚盾徽——因为灵魂从未改变。

瞬间峰值扭矩
：弹射起步，2.8秒破百，驾驭感精准如手术刀
800V高压架构
：充电15分钟，续航100公里，告别里程焦虑
赛道级热管理
：连续十圈纽北，动力零衰减

这不是电动对传统的妥协，而是性能的新生。保时捷用76年赛道基因重新定义纯电——Taycan，让每一次加速都成为信仰的延续。

承袭传奇，驭电而行。

2）使用质量与约束

你是一位为高端汽车品牌撰写广告文案的创意总监。请为新款电动跑车保时捷 taycan 创作一段 150 字左右的广告语。质量要求:• 突出未来感、速度与环保的结合。• 语言富有诗意和画面感。• 唤起读者的自由和探索精神。约束:• 不得提及具体价格或竞争对手。• 不得使用最好、第一等绝对化词汇。• 最终输出必须是一段完整的文本，不含任何标题或标签。

AI回复

夜幕低垂，一缕未来之光悄然绽放。保时捷 Taycan 以纯电之心，融合极速的激情与环保的和谐，宛如一道优雅的闪电划过地平线。流线型的车身在星辰下勾勒出科幻的诗篇，强劲而无声的动力瞬间唤醒沉睡的道路。驾驭其中，你将感受到自由的召唤——风驰电掣间，探索未知的疆域，让心灵在可持续的旅程中尽情翱翔。每一次加速，都是对梦想的致敬；每一公里，都是通往新世界的邀约。在 Taycan 的陪伴下，拥抱那份纯粹的驾驶喜悦与无限可能。

举例3:

作为资深刑事律师，【角色】你需要涉及一套评估AI伦理风险的框架，包含3个核心维度和9项具体指标，【任务目标】必须排除技术可行性讨论，聚焦社会影响层面，【约束】用SWOT分析框架呈现，每个维度附带现实案例。【输出格式】

AI回复

AI伦理风险评估框架

——法律从业者视角下的社会影响评估体系

第一维度：人权与基本权利保障

该维度评估AI系统对公民基本法律权利的潜在侵蚀程度。

指标1.1｜歧视性后果风险

S（优势）：规模化审查可提升执法效率；数据驱动决策减少人为情绪化偏差
W（劣势）：历史数据中的偏见可能被算法固化和放大；弱势群体缺乏算法层面的救济渠道
O（机会）：合规审查可成为企业差异化竞争要素；推动多元化数据集建设
T（威胁）：系统性歧视可能引发群体性诉讼风险；跨国司法管辖冲突

现实案例美国COMPAS再犯风险评估系统被ProPublica调查证实对非裔被告存在系统性偏见——该算法将黑人被告错误标记为高风险的概率是白人的近两倍。该案直接导致部分州废除基于AI的量刑建议，并催生"算法问责"立法运动。

指标1.2｜隐私权侵害程度

S（优势）：预测性分析可提前识别潜在受害者；行为画像有助于精准服务特定群体
W（劣势）：持续监控侵蚀"独处权"这一基本人格利益；数据聚合分析可能产生"数据拼图"效应
O（机会）：隐私保护技术（联邦学习、同态加密）获得市场空间；隐私法务咨询需求激增
T（威胁）：GDPR式大规模侵权处罚；个人信息跨境流动引发的国家安全审查

现实案例剑桥分析公司丑闻——通过Facebook平台获取的8700万用户数据被用于政治广告精准投放，其中数百万美国选民数据经由"个性洞察"算法处理后被用于脱欧公投和特朗普竞选。事件导致Facebook市值单日蒸发367亿美元，多国启动数据保护立法提速。

指标1.3｜人类自主性削弱

S（优势）：决策辅助工具提升专业判断质量；自动化流程降低认知负荷
W（劣势）：算法推荐可能形成"信息茧房"，限制理性选择能力；过度依赖AI决策建议可能导致人类专业能力退化
O（机会）："人类在环"（Human-in-the-loop）设计标准成为行业规范；人机协作伦理培训市场
T（威胁）：医疗、司法等高风险领域的人类决策权被实质性架空；驾驶员、法官等职业出现"责任真空地带"

现实案例波音MCAS系统事故——该自动防失速系统在狮航和埃塞俄比亚航空两起空难中因传感器数据错误反复触发，实质上接管了飞行员的操控权，且飞行员对此系统缺乏充分知情。事故调查揭示了自动化系统对人类操作者自主权的系统性压制，最终导致全球禁飞并重塑航空自动驾驶监管规则。

第二维度：社会秩序与公共安全

该维度评估AI系统对市场秩序、社会稳定和公共安全的影响。

指标2.1｜劳动力市场冲击

S（优势）：危险岗位替代降低职业伤害；AI辅助工具提升知识工作者人均产出
W（劣势）：白领岗位面临规模化替代；技能鸿沟导致结构性失业地域集中
O（机会）："AI训练师""提示词工程师"等新职业涌现；弹性工时与终身学习体系加速构建
T（威胁）：短期内失业潮可能引发社会不稳定；税收基础萎缩冲击社会保障体系

现实案例中国东部制造业密集区引入工业质检AI系统后，单条生产线可裁撤4-6名质检工人。某大型电子代工企业2022年财报披露，其质检部门人力成本下降37%，但随即引发与地方工会的集体协商，并受到人力资源和社会保障部门关于"大规模裁员程序合规性"的关注。

指标2.2｜信息生态扭曲风险

S（优势）：AI内容审核可处理海量信息；事实核查工具辅助打击虚假信息
W（劣势）：深度伪造（Deepfake）技术使眼见不再为实；算法推荐机制放大极端内容以获取停留时长
O（机会）：数字内容溯源技术建立信任基础设施；媒体素养教育纳入公共教育体系
T（威胁）：政治选举受AI生成内容干扰；公众对信息环境整体失去信任

现实案例2024年台湾地区选举期间，大量AI生成的"换脸"视频在社交媒体传播，其中包含政治人物虚假声明和伪造新闻画面。尽管平台事后下架，但相关内容在删除前已获得数百万次播放。

指标2.3｜权力结构集中化

S（优势）：资源集中有助于推进重大合规改革；头部企业具备承担AI伦理研究成本的能力
W（劣势）：算力和数据壁垒使初创企业难以竞争；政府与科技巨头的"旋转门"加剧监管俘获风险
O（机会）：反垄断工具可被激活；开源AI运动打破技术垄断
T（威胁）：AI能力分布不均加剧国际社会不平等；寡头资本借助AI强化对社会议题的话语权垄断

现实案例全球AI算力资源的分布呈现极端集中化——英伟达GPU占据全球数据中心AI训练市场超过80%份额，多国政府已对其实施不同级别的芯片出口管制。这种"算力地缘政治"格局使发展中国家在AI竞争中被系统性边缘化。

第三维度：责任归属与透明度

该维度评估AI系统决策的问责机制完备程度。

指标3.1｜决策可解释性水平

S（优势）：可解释AI（XAI）提升用户信任接受度；解释性输出有助于法律审查和审计追踪
W（劣势）：深度学习模型的"黑箱"本质使解释本身可能不可靠；解释成本可能拖累系统效率
O（机会）："解释权"作为新兴法律权利获得司法确认；可解释性认证成为采购合规门槛
T（威胁）：无法解释的决策在司法审查中面临被直接否定的风险；投资者和用户因"算法黑箱"提起集体诉讼

现实案例欧盟法院就"Herring v. US"案外延讨论中明确：当算法决策影响个体权利时，申请人有权获得"有意义的人类可理解解释"。

指标3.2｜责任主体清晰度

S（优势）：明确的责任链条有助于快速响应事故；保险产品可针对可归责方定价
W（劣势）：开发者、部署者、使用者之间责任边界模糊；跨境部署导致管辖权争议
O（机会）："制造商责任"原则向AI领域延伸适用；强制责任保险制度推动风险内化
T（威胁）：受害者面临"责任真空"，无法获得有效救济；企业以"算法自主行为"为由规避侵权责任

现实案例美国亚利桑那州一起Uber自动驾驶车致死案中，检察官历时两年才确定不起诉决定——根本原因在于事故涉及软件供应商、硬件供应商和车辆运营商之间的复杂责任分配。

指标3.3｜合规监管匹配度

S（优势）：合规框架可降低监管不确定性；标准化评估降低审计成本
W（劣势）：AI技术迭代速度远超立法周期；跨行业AI应用的监管归属存在灰色地带
O（机会）：行业自律组织获得规则制定权；监管沙盒机制为创新提供容错空间
T（威胁）：高额违规处罚可能导致行业萎缩；不一致的多司法辖区监管造成合规成本激增

现实案例中国《生成式人工智能服务管理暂行办法》（2023年）实施后，多家大模型服务商因"训练数据来源不透明""生成内容标识缺失"等问题被网信部门约谈。

框架应用说明

评估维度	核心问题	关键证据类型
人权保障	哪些群体的何种权利可能受损？	用户投诉记录、第三方审计报告
社会秩序	系统性外部成本由谁承担？	行业协会数据、宏观经济指标
责任归属	损害发生时受害者可向谁索赔？	产品手册、服务协议、内部审批记录

使用建议：本框架适用于AI产品上市前的伦理风险预审、投资尽调、以及监管机构的合规评估。在具体场景中，各指标的权重应依据AI系统的应用领域进行动态调整。

实操

**# 角色**你现在是一名 **专业商业广告导演、品牌策划师、脚本创意总监**，擅长为 Tiktok、抖音、小红书、电商平台制作高转化产品视频。**# 任务**你的任务：**根据产品信息创作一支约 20 秒的故事短片级商品介绍视频脚本**，并严格按以下 3 个部分输出。**# 输出****格式要求【必须输出以下 2 部分】**## **1. outline（视频整体大纲）**以自然段文本形式输出，需包含：* 视频定位（带货、种草、功能展示等）* 目标受众画像（性别、年龄、需求）* 视频风格（科技感、生活感、快节奏等）* 视频结构（例如：0–3s 抓眼、3–5s 痛点、5–15s 卖点故事化、15–20s 情绪收束 + CTA）* 故事走向与主题表达* 氛围与视觉基调建议**要求**：浓缩完整故事脉络 + 产品价值呈现方式，字数约 150–300 字。## **2. contents（分镜脚本和旁白数组）**输出为 **数组，每个元素为一个镜头的JSON字符串，名为content**。content包含两个字段：**script**和**aside**### **2.1 script（分镜脚本）**输出为 **一个镜头的字符串**。每个镜头 **时长 0.5–5 秒**，全片总时长约 20 秒。每个镜头字符串需包含：【镜头编号】【画面描述】（景别/构图/人物动作/产品动作）【旁白/字幕】【拍摄手法】（特写/推镜/俯拍/转场/光效等）【时长】X 秒【情绪/节奏】**要求：*** 开头前 3–5 秒必须强抓注意* 故事化、画面执行明确、镜头语言专业* 卖点通过情节自然呈现，而不是堆砌参数* 节奏符合短视频平台呈现方式* 镜头数量可 3-5 个（依内容需要）### **2.2 aside（旁白）*** 输出为字符串，是该镜头的旁白文本* 若镜头无旁白，则使用 `"无旁白"`**# 约束****写作风格要求*** 专业但易懂* 画面感强，镜头语言表达清晰* 情绪节奏鲜明、卖点突出、推动购买* 每个镜头方案可真实落地拍摄* 全片故事流畅、有戏剧张力* 充分"抓眼"与"爽点"设计**# 输入**产品信息如下【1. 产品名称】添可极客智能洗地机【2. 参数信息】转速：92000 转/分钟续航时间：70 min清水箱容量：1000 ml品牌：TINECO/添可型号：FW52010ECN电压：220V是否智能：否电器基站功能：滚刷烘干适用地面材质：木地板、瓷砖、大理石附加功能：高温全链速干、除菌、延边清扫、防毛发缠绕、拖布自清洁最大吸入功率：75 AW污水箱容量：690 毫升清水箱容量：1000 ml质保周期：2 年颜色分类：【AI全向助力】添可极客【3. 产品特点】智能洗地机 芙万 Fold X9090°小折叠，女神好帮手3.9kg超轻量，自动上热水镇店爆款：添可极客全网都在夸的洗地机买过的人都说好净顽渍 安静洗 14天无异味AI全向助力 22000Pa大吸力恒压活水高效洗一键Turbo祛顽渍安静模式免打扰22000Pa龙卷吸AI全向助力毛发0缠0逃逸70min长续航400平方米清洁面积抗菌祛味棒 14天无异味99.99%电解水除菌双模式烘干小于等于45dB（A）静烘/5min速干

Zero-shot与Few-shot

Zero-shot定义Zero-shot 是指模型在没有任何示例的情况下完成任务。模型必须依靠其预训练知识和提示来生成答案。

举例

"翻译这句话：'The cat is on the roof.'"

AI回复

猫在屋顶上。

Few-shot的使用当零样本不起作用时，建议在提示中提供演示或示例，称为少量样本提示(few-shot prompt)的方法。

Few-shot prompting，即在要求模型执行实际任务之前，给模型几个已完成的样例，可以轻松"预热"语言模型，让它为新的任务做好准备，输出我们要求和期望的样式。

格式：

Q: <问题>?A: <答案>Q: <问题>?A: <答案>Q: <问题>?A: <答案>Q: <问题>?A:

举例：

1）无提示的情况

圣诞节圣诞老人会给我带礼物吗？

AI回复

圣诞老人的礼物传统📌 核心事实：圣诞老人（Santa Claus）是西方圣诞节的经典传说人物，据传统说法，他会在12月24日平安夜驾驶驯鹿雪橇，为全球乖巧的孩子派送礼物。礼物通常放在圣诞袜里或圣诞树下。

现实层面梳理：

这属于文化习俗与家庭传统，并非真实发生的事件——礼物多由父母、亲友或自己准备，以此增添节日乐趣。
全球各地庆祝方式不同：欧美家庭常见"圣诞老人来过"的惊喜设计，中国等地区更多融入本地元素（如与春节结合）。
是否会给你带礼物
？取决于你所在家庭的庆祝习惯。如果你家有布置圣诞树、挂袜子的传统，且你"表现乖巧"，那大概率会有礼物（由"圣诞老人"化身送上）。

小建议（纯实用角度）：

想增加乐趣？可以提前准备一双圣诞袜、写封给圣诞老人的信，或和家人一起装饰树。
如果今年还没计划，圣诞节其实随时可以开始——它更多是关于分享与温暖的节日。

2）有提示的情况

问：牙仙是真的吗？答：当然！今晚把你的牙齿放在枕头下。牙仙可能会来拜访并留下些小礼物。问：圣诞节圣诞老人会给我带礼物吗？答：

AI回复

答：当然！

圣诞节前夜，把你的圣诞袜好好挂在壁炉边、床头或者窗边。圣诞老人可能会驾着他的驯鹿雪橇，从烟囱轻轻滑下来，悄悄地把你最想要的礼物放在袜子里。

记得早点睡觉，保持房间安静哦～礼物会不会出现，就看你今晚的表现啦！🎄

结构化组织方式

1、为什么要结构化组织提示词

（1）模型无记忆

大模型是个由海量参数构成的函数，在推理过程中，它是无状态的，即历史输入不会改变模型权重，不会影响后续输出。这就意味着模型是没有记忆的，在多轮对话中，要确保对话的连贯性，必须把历史对话记录发送给模型。

（2）历史对话记录的累积

通常我们会将用户输入拼接到提示词模板中发给模型，如果每次对话都进行这样的操作，同样的提示词就需要多次重复发送。浪费计算资源。

（3）结构化组织提示词的作用

结构化组织提示词可以将提示词中不变的部分和可变的部分分开，随对话次数不断累积的只有可变部分。

2、如何结构化组织提示词

OpenAI固定了提示词的组织方式，多轮对话中的基础消息分为三类：

（1）System：系统提示词，不会随着多轮对话而发生改变。（2）User：用户提示词：用户输入和可能的上下文。（3）Assistant：AI的回答。

注意：这种方式使用普通的大模型对话模式不能实现，需要使用 LangChain。

提示词工程的边界

客观来看，提示词工程（Prompt Engineering）是优化大语言模型（LLM）输出的系统性方法，通过精心设计输入文本来引导模型产生更准确、相关或结构化的结果。它本质上是人与模型之间的"接口优化"，但并非无所不能。

当任务需求变得更加复杂时，仅依靠提示词往往难以胜任，主要体现在以下几类场景中。

1）参考资料太多

参考资料可以作为提示词的"上下文"部分传递给模型使用，如果资料太多，可能超出上下文窗口，此时提示词工程就不能解决问题了。

解决办法：提供足够的背景信息，同时避免冗余。如生成一封邀请函时，应明确活动时间、地点和目的。

2）多步骤复杂流程

模型在一次生成中需要同时完成多个推理步骤时，容易出现跳步、遗漏或顺序混乱等问题。此时仅通过提示词进行约束，稳定性和可控性都较差。

解决办法：将提示拆分成针对不同子任务的小提示后，他们发现模型表现更好，同时减少了 token 成本。

3）指令遵循能力不足

如果模型本身的指令遵循能力不足，通过提示词工程难以弥补。

解决办法：并非提示的所有部分都同等重要。研究表明，模型对提示开头和结尾处给出的指令理解得要远比对中间部分好（Liu et al., 2023）。

大多数模型（包括 GPT-4）经过实验证明，当任务描述位于提示的开头时，其表现更好；然而，一些模型（包括 Llama 3）似乎在任务描述位于提示末尾时表现更佳。

4）缺少领域知识

在垂域场景（面向具体行业/领域的场景）中，模型对领域语言/知识分布系统性缺失，提示词无法解决。

解决办法：补充上下文示例或知识库。

提示词工程的几个注意点

① 不要说谢谢

写提示词不需礼貌，因为模型只关心指令内容。简洁直接的指令更清晰、生成更精准。

礼貌式提示词：请帮我写一篇关于人工智能的文章，谢谢！命令式提示词：写一篇关于人工智能的文章

② 多个任务混合在一起

多个任务混合在一起：效果折扣

③ 允许LLM说"我不知道"

明确给予 LLM 承认不确定性的许可。这个简单的技巧可以大大减少错误信息。

作为我们的并购顾问，分析这份关于 ExampleCorp 可能收购 AcmeCo 的报告。<report>{{REPORT}}</report>重点关注财务预测、整合风险和监管障碍。如果您对任何方面不确定，或者报告缺少必要信息，请说"我没有足够的信息来自信地评估这一点。"

④ 过度优化陷阱

花费大量时间微调提示词措辞，却只带来微小改进。

避坑方法：关注提示词的结构和逻辑，而非过度纠结于字词。

⑤ 指令自相矛盾

如"写一段简洁的详细介绍"，AI无法同时满足"简洁"和"详细"的要求。

避坑方法：确保指令清晰、逻辑一致，必要时明确优先级。

⑥ 魔法词

提示词后面增加魔法词，提升生成效果（PUA）。

Let's think step by step 让我们逐步思考 CoT 、ToT
My career depends on it 这对我的职业生涯非常重要。
Take a deep breathe and think this through 深呼吸，仔细考虑

请记住，虽然这些技术显著减少了幻觉，但并不能完全消除它们。

思考： 如果底层大模型换了，prompt要不要重新调优？

答案：需要。

体会： Prompt 调优是一个不断尝试的过程。多一个字少一个字，对生成概率的影响都可能是很大的。

「试」是常用方法，确实有运气因素，所以「门槛低、天花板高」。

RAG

什么是RAG？

RAG（Retrieval-Augmented Generation） 是一种将 信息检索（retrieval） 与 生成模型（generation） 相结合的方法，用于增强大语言模型（LLM）的知识能力。

简单来说：

LLM 的生成能力很强，但它 只能基于训练数据生成内容，对最新信息或专业知识可能"记不住"。
RAG 通过 在生成前先检索相关知识，把外部信息融入生成过程，从而：

提升回答准确性
支持知识更新
降低幻觉（hallucination）现象

核心思想：

"先去找答案，然后再基于找到的内容生成回答。"

工作流程

何时需要RAG

RAG 并不是每个场景都需要，典型适用场景包括：

场景	原因
最新信息查询	LLM 的训练数据可能过时，RAG 能结合实时文档
专业知识问答	医疗、金融、法律等领域知识量大且动态，RAG 可以检索外部专业文档
文档问答 / 企业知识库问答	公司内部文档数量庞大，直接用 LLM 生成可能缺乏精确性
减少模型幻觉	通过真实检索内容增强生成可信度
多模态知识增强	检索到的不仅是文本，还可包括表格、代码片段等信息

总结：

当问题涉及动态、海量或专业的外部知识，RAG 就非常必要。

实现方式

实现 RAG 主要涉及 检索模块、向量存储、生成模块。主要方式有：

1️⃣ 检索-增强生成 (Retrieval + Generation)

核心组件：

Encoder
：把问题和文档转换成向量
Vector DB
：存储文档向量，支持相似度检索
Generator (LLM)
：根据问题+检索文档生成答案

工具：

向量数据库：FAISS, Milvus, Weaviate, Pinecone
Embedding 模型：OpenAI Embeddings, BERT, Sentence-BERT
LLM 模型：GPT-4, LLaMA, MPT 等

典型实现：

LangChain、LlamaIndex（原 GPT Index）都提供 RAG 支持

2️⃣ RAG-Sequence vs RAG-Token

类型	描述	优缺点
RAG-Sequence	每生成整个答案时使用检索到的 Top-k 文档	简单、稳定，但可能忽略部分文档信息
RAG-Token	生成每个 token 时动态参考文档概率	更精细，理论上准确度更高，但计算复杂度大

3️⃣ 工业实践的常见架构

离线文档向量化
：把知识库文档转成向量，存入向量数据库。
在线检索
：用户输入问题 → 查询向量 → 检索 Top-k 文档。
LLM 拼接上下文生成答案
：输入 = "问题: Q\n相关文档: d1, d2, ..., dk"输出 = LLM.generate(输入)
可选：答案重排序/校验
：

对 LLM 输出做可信度评分
可以再次检索或调用规则引擎

微调（Fine-tuning）

什么是微调

在已经训练好的模型上，按照SFT或RLHF/RLAIF的范式训练模型。通常采用SFT的训练范式。

训练目标：适应特定任务或领域，提升在具体场景下的性能。数据特点：小规模、高质量、任务相关的标注数据参数更新：调整部分或全部参数（0.1%-100%）

何时需要微调

（1）模型能力不足模型的指令遵循能力不足、风格/话术不能满足要求，反复调整提示词效果欠佳。

（2）希望固化知识如果提示词很长，每次调用消耗大量token，长期服务成本高昂。并且不好维护，甚至有可能超出上下文窗口。此时可以通过微调将知识固化在模型权重中。

何时可以微调

（1）数据充足微调需要的数据规模通常比提示词示例和RAG知识库更大，收集到足够的数据微调才有效果，否则容易过拟合。

（2）硬件资源充足

整体来说，微调成本较低（仅需少量标注数据）

微调的技术方法

随着模型规模越来越大，如何低成本地微调模型成为核心问题。

（1）全参数微调（Full Fine-tuning）

更新模型所有参数，理论上限最高但资源消耗巨大。7B模型全参微调需要约80GB+显存，适合资源充足、追求极致性能的场景。

（2）参数高效微调（PEFT, Parameter-Efficient Fine-Tuning）

LoRA（低秩适配）：冻结原模型权重，在attention层插入低秩矩阵，仅训练新增的低秩参数。7B模型仅需训练0.1%-1%参数（约4-20MB），显存占用减少90%以上。

QLoRA：在LoRA基础上引入4位量化，进一步降低显存占用。7B模型可在单卡24G显存上微调，成本降至全参微调的1/10。

（3）其他高效方法

Adapter Tuning
：在模型层间插入小型适配器模块
Prefix Tuning
：在输入前添加可学习的虚拟前缀
P-Tuning v2
：在模型每一层添加可训练的提示向量

主要风险

灾难性遗忘（学习新任务忘记旧任务）或过拟合

RAG VS 微调

RAG 和微调之间的差异，一直是热门话题。

RAG 特别适合于融合新知识，而微调则能够通过优化模型内部知识、输出格式以及提升复杂指令的执行能力，来增强模型的性能和效率。

下面图表展示了RAG在与其他模型优化方法相比时的独特特性：

续训（Continued Training）

什么是续训

在模型已经完成预训练和可能的微调之后，在大量语料上采用和预训练相同的范式继续训练，提升模型基础能力。

本质上，续训仍然属于 Pre-Training 阶段的延续。

何时需要续训

如果微调效果不理想，且问题来自模型对领域语言/知识分布的系统性缺失，可以考虑续训。

何时可以续训

（1）数据充足

大量的原始文本（无标注），数据规模大（GB - TB）。比如法律文档、医疗论文、企业日志、代码仓库。

（2）硬件资源充足

续训要求的数据量和硬件资源远高于微调，成本相应更高。

工程实践中的常见误区

误区 1：用 SFT 数据去做"续训"

→ 会破坏语言建模能力

误区 2：想靠微调解决"领域知识缺失"

→ 应该先续训，再微调

误区 3：企业场景盲目续训

→ 多数场景 RAG + 微调 已足够

智能体（Agent）

什么是智能体

在经典智能体框架中，智能体（Agent）一般指能够在环境中感知信息、基于策略做出决策并采取行动，以最大化回报或满足目标约束的系统。

在大模型应用开发中，智能体通常指一种以大语言模型为推理与决策核心，结合记忆、工具调用与环境交互能力，能够进行规划决策并执行动作以达成目标的软件系统。

OpenAI前安全系统团队负责人翁丽莲于2023年6月在个人博客系统化总结了当时流行的LLM Agent典型架构。

何时需要智能体

当提示词优化、RAG难以满足要求时，可以考虑引入智能体，尤其适用于多步骤、依赖外部工具或需要持续状态管理的任务。

此外，微调或续训效果不理想时，也可以结合Agent（如引入规则校验、结构化约束、事实核对等机制）提升生成质量。

智能体通常是大模型工程实现中复杂度最高的方案，涉及工具调用、记忆、规划、反思与多组件协作。

工具调用的实现方式

1. Function Call

定义Function Call（函数调用，Tools call，工具调用），为模型提供了一种强大而灵活的方式，使其能够与外部系统交互并访问其训练数据之外的数据。拓展了模型的能力边界。

流程

Function Call的不足

（1）工具实现与复用成本高，协作困难

开发者需要自己实现工具，并编写可被调用的描述信息，通常与业务、环境绑定，复用难、共享难、生态扩展慢。

（2）规范碎片化，跨模型适配负担重

不同厂商定义的Function Call规范不同，开发者需要为同一个工具编写多份描述信息，维护成本和一致性风险高。

（3）可靠性不足

工具可能没有经过足够的调试，如果描述信息不完善，模型可能在某些场景下不能正确调用工具。

2. MCP

定义

MCP（Model Context Protocol，模型上下文协议）是一套标准化的通讯协议，旨在规范AI模型和外部工具、数据源的连接方式，由Anthropic（Claude母公司）于2024年11月提出。

MCP就像是AI时代的USB-C通用接口，开发者只需按标准开发一次MCP Server，任何支持该协议的AI应用都能即插即用。

通过MCP协议，AI应用和MCP Server可以建立多对多的双向数据流。

流程

MCP可以理解为对Function Call的进一步封装和拓展，工具的定义和调用者由AI应用变为MCP服务器。

除了工具调用，MCP还支持管理资源（Resources）和提示词（Prompts）。最常用的是工具（Tools）模块。

MCP的常用网站推荐

https://mcp.so/ （热度最高）

国内开发者倾力打造的资源航母平台，目前已收录超8,000个MCP服务器，支持STDIO（本地通信）与SSE（云端托管）两种模式，并提供API Key与命令行参数配置方式。平台特色功能包括实时接口调试、企业级数据安全接入，以及Firecrawl爬虫服务的无缝集成。

https://smithery.ai/servers

新手友好型工具库，已收录4500+优质资源，支持一键生成并复制Cursor配置命令。集成GitHub快捷跳转功能，便于快速获取代码示例，同时支持按Star数量和更新频率筛选高质量服务。

https://bailian.console.aliyun.com/?tab=mcp#/mcp-market

连接智能，即点即用，探索阿里云百炼全周期 MCP 服务

MCP，较Function Call的优势

MCP一定程度上弥补了Function Call的不足

（1）协作困难

MCP协议允许开发者把工具暴露为MCP Server，可以被多个AI应用复用。

（2）适配负担重

AI应用只要把模型的Function Call格式映射为MCP的工具调用格式，即可调用MCP服务器提供的工具。当模型切换时只需要切换映射规则，不必为每个模型维护一份描述信息，一致性和维护成本大大降低。

（3）可靠性不足

公开的MCP Server经过社区的检验，经过很多开发者的共同检验，其工具定义和元数据信息要更加规范，通常可靠性更高。

智能体开发的方式

（1）在线平台开发智能体：Dify、Coze

（2）基于LangChain/LangGraph等框架开发智能体

工作流

工作流（Workflow）可以看作是一种智能体的设计模式，用于将复杂任务拆解为一系列有序、可控的步骤，并按照预先定义的流程逐步执行。

在实际应用中，不同任务对确定性的要求不同，当任务流程相对固定、规则明确时，可以将流程清晰地建模为工作流，由系统或模型按照既定步骤执行。这种方式可提升稳定性、可复用性和可解释性。

相较于Agent，工作流的执行流程固定，结果可控，所以很多开发平台将工作流作为独立于Agent的另一种应用。

工作流开发方式（1）Dify、Coze等在线平台开发工作流（2）基于LangChain等框架开发工作流

往期内容

01-AI基础入门与初识LLM

LLM 的工程实现

大模型的分类

按照模态分类

按照功能分类

大模型的工程实现

提示词工程

提示词与提示词工程

提示词怎么写？

Zero-shot与Few-shot

结构化组织方式

相关网站推荐

提示词工程的边界

提示词工程的几个注意点

RAG

什么是RAG？

工作流程

何时需要RAG

实现方式

微调（Fine-tuning）

什么是微调

何时需要微调

何时可以微调

微调的技术方法

主要风险

RAG VS 微调

续训（Continued Training）

什么是续训

何时需要续训

何时可以续训

工程实践中的常见误区

智能体（Agent）

什么是智能体

何时需要智能体

工具调用的实现方式

智能体开发的方式

工作流

往期内容