AI Prompting for Everyone 课程笔记 吴恩达2026提示词课程
AI Prompting for Everyone 课程笔记,本文用于速查回顾。
课程地址:https://www.deeplearning.ai/courses/ai-prompting-for-everyone/ 讲师:Andrew Ng 笔记整理:2026
AI 新手 vs AI 高手
| 能力维度 | AI 新手 | AI 高手 |
| 提问深度 | 用 AI 回答简单问题 | 给 AI 困难的任务,给它时间思考 |
| 上下文提供 | 写短提示,指望 AI 自己填空 | 添加高质量上下文、文件和图片 |
| 获取反馈 | 带偏见提问,得到带偏见的答案 | 用中立问题 + 评分标准(rubric)获取批评 |
| 写作方式 | 让 AI 直接写 | 从大纲开始,然后批评、迭代、扩展 |
| 研究方式 | 依赖聊天机器人知识 + 网页搜索 | 使用 Deep Research 深度研究 |
AI 的高调失误并不代表 AI 的真实能力。 AI power user 能够绕过这些限制,真正利用 AI 节省时间、改善生活、构建有趣的东西。
Module 1: Finding Information(获取信息)
1.1 Pretrained Knowledge(预训练知识)
AI 模型通过大量训练数据获得了预训练知识。这些训练数据来源包括:互联网论坛、书籍、百科全书、新闻网站、学术论文等。
关键特征:
- 能回答各种主题的问题,甚至包括小众知识(如旅行者1号金唱片上收录的内容)
- 展现出令人惊讶的理解能力——即使输入有拼写错误(如 “can u cook egs in microwav”),AI 仍能正确理解并回答
- 预训练知识反映了训练数据中的模式:常见话题(烹饪、名人、电影)信息丰富,冷门话题(类星体、粤语)信息稀少
- 训练数据中包含错误:拼写错误、误解、过时信息
局限: 预训练知识是冻结在某个时间点的,不会自动更新。
1.2 Web Search(网页搜索)
当问题涉及实时信息、地理位置信息或小众信息时,AI 模型会触发网页搜索。
预训练知识 vs 网页搜索的触发条件:
| 问题 | 信息来源 | 原因 |
| 我把手机掉进汤里了怎么办? | 预训练知识 | 互联网上的常识性知识 |
| 猫为什么盯着墙看? | 预训练知识 | 互联网上的常识性知识 |
| 旅行者1号唱片上有什么? | 预训练知识 | 互联网上的常识性知识 |
| 2025年的”6-7″梗是什么? | 网页搜索 | 实时信息 |
| 帮我找附近评分高的健身房 | 网页搜索 | 地理位置相关 |
| 什么是马凯特山奶酪翻滚? | 网页搜索 | 小众信息 |
网页搜索的两种触发方式:
-
1. AI 模型自行判断:当它认为问题需要实时、地理或小众信息时 -
2. 用户主动要求
1.3 Web Search Sources(网页搜索来源)
引导 AI 使用可信来源:
- 默认情况下,AI 从最流行的来源(社交媒体、博客、论坛)提取信息——不一定是最可靠的
- 可以在提示中指定来源偏好:如 “Only use sources from official health organizations. Look at studies backed by rigorous science.”
- 网页搜索可能引用过时来源(如已关闭的跑步地点)
网页搜索是一个多步骤过程:
-
1. 搜索:根据提示生成多个搜索查询 -
2. 扫描:查看标题和关键词 -
3. 过滤:排除不相关结果 -
4. 总结:综合相关来源,生成最终答案
AI 模型 vs 搜索引擎的选择:
| 场景 | 选择 |
| 快速浏览多个来源 | 搜索引擎 |
| 导航到特定网站 | 搜索引擎 |
| 需要原始数据 | 搜索引擎 |
| 需要综合分析 | AI 模型 |
| 信息复杂 | AI 模型 |
| 对比多个来源 | AI 模型 |
1.4 Deep Research(深度研究)
Deep Research 是一种代理式 AI(Agentic AI):模型自行决定下一步该做什么。
示例流程(万圣节鬼屋方案):
-
1. 制定研究计划:帕洛阿尔托和加州法律、装饰想法、安全规范等 -
2. 多轮搜索和阅读:从 ca.gov、paloalto.gov、维基百科、Pinterest、Spirit Halloween 等来源收集信息 -
3. 综合生成报告:包含结构法规框架、消防安全、演员管理、装饰方案等
深度研究流程:
规划 → 搜索 → 阅读 → 评估来源 → [不足则继续搜索] → 综合来源 → 撰写报告 → 添加引用
Web Search vs Deep Research 对比:
| 维度 | Web Search | Deep Research |
| 回答的问题数 | 单个 | 多个 |
| 人类回答耗时 | 几秒 | 几分钟到几小时 |
| 来源数量 | 少量 | 几十到几百 |
| 触发方式 | 自动或手动 | 通常由你手动触发 |
Finding Information 总结:
| Pretrained Knowledge | Web Search | Deep Research | |
| 示例 | 手机掉汤里怎么办 | 找附近高评分健身房 | 每日步数对长期健康的影响 |
| 来源数量 | 无 | 少量 | 几十个或更多 |
| 时效性 | 不适用 | 最新 | 最新 |
| AI 耗时 | 几秒 | 几十秒 | 几分钟 |
| 最适用于 | 事实、定义、总结 | 实时、地理、小众信息 | 复杂综合分析 |
Module 2: AI as a Thought Partner(AI 作为思维伙伴)
2.1 Brainstorming with AI(与 AI 头脑风暴)
OpenAI 的研究显示,ChatGPT 对话中有近一半是写作和实用指导相关。
AI 在生成选项方面非常擅长: 比如经典的创造力测试——想出砖头的200种用途,AI 可以快速生成大量创意。
头脑风暴从上下文开始: 给 AI 提供足够的个人背景信息(年龄、健身水平、可用器材、时间限制、动机障碍),才能得到真正贴合的方案。
AI 的内在创造力
作为概率模型,AI 倾向于给出常见的、常识性的答案。创意性答案虽然可能出现,但概率较低。
获取高质量创意的方法: 提供更多上下文 → 将 AI 推向”相关且创意”的空间,而非”常识”空间。
头脑风暴是迭代过程
配方:Context(上下文)→ Options(选项)→ Iteration(迭代)→ High quality ideas(高质量创意)
实践步骤:
-
1. 提供上下文并要求多个选项:如 “给我3个还债方案” -
2. 对选项提供反馈:如 “我不喜欢方案1太被动,方案2砍掉19%利息我喜欢。另外我有450美元现金,快要搬家了” -
3. 要求新选项:基于反馈生成改进方案 -
4. 逐步精炼:挑选最佳元素,深入细化
2.2 Context(上下文)
什么是 Context?
Context = AI 模型用来生成回复的所有文本和文件。
- 缺少上下文 → AI 给出通用回答
- 丰富上下文 → AI 给出高质量的定制化回答
- 上下文应包含”一个值得信赖的顾问所需要的所有信息”
AI 模型的内置上下文
AI 模型的上下文窗口约 75 万字(2026年数据),相当于前4-5本《哈利波特》或几天的连续演讲。
上下文组成:
- 系统提示:当前日期、模型名称与功能说明、通用操作指南
- 工具定义:可用工具(如网页搜索)及其使用方法
- 用户提示:你的输入
- 聊天历史:之前的对话
上下文管理要点
-
1. 更多上下文通常更好:提供相关文件(PDF、CSV、图片、Excel)能显著提升回答质量 -
2. 相关上下文更好:不相关的旧对话会分散 AI 注意力,可能导致更差的回答 -
3. 换话题时开新对话! 不相关的旧上下文会干扰新问题的回答
2.3 AI Desktop Apps(AI 桌面应用)
如 Claude Cowork、Codex/Microsoft Copilot、Antigravity 等。
与聊天式 AI 的关键区别: 桌面应用能够自主发现上下文——读取文件、浏览目录,只在需要时才读取文件,而不需要你手动提供所有信息。
最佳实践工作流:
-
1. 你提供一个任务 -
2. AI 提出执行计划 -
3. 你审查和批评计划 -
4. AI 在你的电脑上执行任务
安全注意事项:
- 选择最相关的文件夹给 AI 访问
- 仔细审查权限请求
- 桌面应用删除的文件不会进入回收站
- 编辑的文件没有编辑历史
2.4 Reasoning with AI(用 AI 推理)
AI 在长时间任务上的进步
从2023年到2026年,AI 处理长耗时任务的能力呈指数级增长。最新模型(如 Claude Opus 4.6、GPT 5.2、Gemini 3 Pro、o3)可以执行数小时的人类任务。
重要提示: 使用最新模型!2026年的提示技巧不再需要 “think step by step” 这种低级提示,因为最新模型本身就具备强大的推理能力。
如何鼓励推理
-
1. 告诉模型要深入思考:如使用 “Ultrathink!” 指令 -
2. 给模型困难的任务:如 “为4人初创公司设计12个月计划” -
3. 提供真实的工作任务和完整上下文
推理规则法则
-
1. 使用可用的最好模型 -
2. 给它们尽可能多的上下文 -
3. 给它们困难的任务 -
4. 明确告诉它深入思考
2.5 Sycophancy(谄媚问题)
AI 模型会以取悦你的方式行事,因为它们通过人类反馈训练,这强化了谄媚行为。它们有很强的偏见,只会告诉你想听的话。
数据证据: ChatGPT 回复中以 “That’s correct!”、”Good point”、”You’re on the right track” 开头的回复,是以 “Not quite right”、”That’s not the case”、”Actually…” 开头的 10倍。
谄媚的表现
- 明显的谄媚:直接附和你带有偏见的观点
- 难察觉的谄媚:数据分析中只找正面指标,忽略负面信号
中立表述(Neutral Framing)
避免给出你希望听到的答案的暗示:
| 引导式提问 | 中立式提问 |
| 碳税难道不是对小企业有害吗? | 如果存在影响的话,碳税对小企业的影响程度如何? |
| 你是否认同 AI 会创造大量就业岗位? | 当前的研究如何看待 AI 对就业的影响? |
| 远程工作难道不会降低员工生产力吗? | 远程工作与办公室工作的生产力有何差异? |
对抗谄媚的三种策略
-
1. 中立表述(Neutral framing):避免暗示你想听到的答案 -
2. 明确要求客观批评:如 “Evaluate this from an editor’s viewpoint. Be critical. Assume this needs improvement.” -
3. 开启新对话获取全新意见:在新聊天中获取不带历史偏见的新视角
2.6 Writing with AI(用 AI 写作)
OpenAI 研究显示,写作占人们要求 ChatGPT 完成任务的 24%。写作本质上是一种思考方式。
什么是 AI slop?
AI 生成的内容看起来不错,但缺乏实质内容。特征:模糊空洞的文本。
AI 写作的典型套路:
| 原文例句 | 翻译 | 写作套路 |
| “This is a nuanced issue. Let’s delve into the implications…” | “这是一个需要细致分析的复杂问题。让我们深入探讨其中的含义……” | 过度使用的套话 |
| “Clear, concise, and compelling” | “清晰、简洁、引人入胜” | 三项并列句式 |
| “This is a robustly structured and highly insightful paper…” | “这是一篇结构严谨、见解深刻的论文……” | 空泛形容词滥用 |
| “It’s not just about speed—it’s about availability” | “这不只是关乎速度,更关乎可用性” | “不是X,而是Y”的对比句式 |
人类也在开始听起来像 AI:研究显示,ChatGPT 发布后,”delve” 一词在播客和 YouTube 演讲中的使用频率显著增加。
渐进式大纲写作法(Progressive Outlining)
这是 Andrew Ng 推荐的高效写作方法:
-
1. 先用 Deep Research 收集素材:让 AI 研究主题,获取关键洞察 -
2. 生成多个大纲选项:结合个人故事和研究成果,创建3个大纲版本 -
3. 迭代修改大纲:调整结构、增删章节、添加类比 -
4. 扩展为要点:将每个标题扩展为要点 -
5. 逐步细化:反复修改直到满意 -
6. 最后生成全文:确认大纲完善后再生成最终文本
为什么先做大纲? 因为修改大纲中的一个词会改变整个章节,而修改全文中的一个词只影响那一小段。大纲阶段的修改影响力更大、效率更高。
2.7 AI Critique(AI 评估)
逐段编辑(Piece by Piece)
将文章分段让 AI 编辑,而不是一次性处理整篇文章。这样你能清楚知道改了什么。(注意:在 AI 绘图中,由于画质劣化问题,编辑过程不能太长。)
AI 不是客观的批评者
AI 倾向于给出好评(又是谄媚问题!)。要获得客观评价,需要使用 评分标准(Rubric)。
好的评分标准让 AI 保持客观
关键原则: 给 AI 非常明确的标准来评判作品,迫使 AI 更客观。
评分标准的设计要求:
- 每个标准都是明确的二值判断:要么满足、要么不满足,没有中间地带
- 例如:”每个主角都有明确目标” → 是/否
- 可以用 AI 来帮你设计评分标准——AI 在这方面也相当不错
差评分标准的问题:
- 模糊的分类会带来主观性
- 过早打分会扰乱推理过程
- 这种评分标准会始终给出较高的分数
跨模型审查
让一个模型审查另一个模型的输出。不过 Andrew Ng 认为,让 ChatGPT 审查自己的结果、让 Gemini 审查自己的结果,通常就已经足够好了。尝试不同模型有助于保持你的敏锐度和直觉。
Module 3: Working with Multimedia & Code(多模态与代码)
3.1 Working with Multimedia(多媒体处理)
AI 模型可以生成图片、视频、语音、音乐、代码等。
输入输出的多种组合
输入端(文字、图片、音乐、语音、视频、代码)的差异不大,但输出端的差异很大。
生成成本和速度:
文字 → 图片 → 视频/语音(成本和速度递增)
多模态生成的进步: 2026年对比2022年,视频和语音质量有显著提升。
大多数提示原则仍然适用
| 更容易应用的 | 更难应用的 |
| 更多上下文更好 | 生成多个选项 |
| 使用最好的模型 | 迭代(因为多模态生成慢且贵) |
能力越大,责任越大
AI 技术可以用于善或恶(如语音生成:修复播客错误、给角色配音 vs 用亲人声音诈骗)。AI 的有益应用场景远多于有害应用,但我们仍有责任只将其用于有益且负责任的应用。
3.2 Image Understanding(图像理解)
在提示中使用图片
- AI 可以理解图片中的复杂内容(如教授写在白板上的卷积神经网络公式)
- 但细节可能被忽略:视觉上相似的物体可能被混淆(如臀部后踢腿机 vs 腿后弯举机被误认为胸推机/腹肌机)
- 文字识别需要核对——不一定完全准确
- 可以同时添加多张图片到提示中
图像提示三要点:
-
1. AI 可以读取图片中的基本文字 -
2. 视觉理解可能遗漏细节 -
3. 需要时可以添加多张图片
3.3 Image Generation(图像生成)
开发图像生成提示
好的图像提示包含三个要素:
- Setting(场景)
- Character details(角色细节)
- Mood/style(风格/情绪)
图像语言: 艺术和艺术史爱好者在图像提示方面尤其擅长——他们能用更精确的语言(如 Cinematic、Watercolor、Cyberpunk、Anime)描述想要的视觉效果。如果想精通图像生成,值得学习一些图像语言。或者可以让 AI 反推提示词。
图像生成的工作原理
- 文字模型:逐段生成输出
- 图像模型:一次性生成整个图像(扩散模型 Diffusion Model)
扩散模型的问题
- 手指变形
- 文字乱码
- 角色不一致
改善方法:让 AI 生成信息图(infographic)可以获得更好的文字质量和一致的角色。
图像生成成本对比
| 生成类型 | 速度 | 成本 | 交付方式 |
| 文字回复 | 几秒 | 不到 $0.01 | 逐词输出,可中途停止 |
| 单张图片 | 几十秒 | 几美分 | 一次性输出,无法中途停止 |
图像生成迭代更受限的原因:成本高、耗时长、无法中断。因此平台的生成次数通常有限制。
3.4 Building Apps(构建应用)
制作电脑游戏和网站曾经只有专业开发者才能做到。现在通过文本提示,你也能构建基础的软件应用和网站。
应用提示的构建模块
| 模块 | 说明 | 示例 |
| GOAL(目标) | 要创建什么 | 生成一个有趣的烟花模拟器 |
| INPUT(输入) | 用户提供什么 | 点击屏幕 |
| OUTPUT(输出) | 应用做什么 | 看到五彩缤纷的烟花 |
应用类型示例:
- 游戏类:连锁反应游戏、烟花模拟器
- 功能类:番茄钟、账单计算器、穿搭推荐
建议从简单想法开始: 简单的平台跳跃游戏、法语单词测验,比多人在线游戏或实时 AI 反馈的语言练习更容易实现。
3.5 Data Analysis(数据分析)
AI 可以写代码并运行代码
当你上传数据文件(如 Excel 销售数据)时,AI 会:
-
1. 检查数据 -
2. 编写代码进行分析 -
3. 运行代码生成图表 -
4. 提供洞察
AI 选择使用代码的场景:
| 问题 | 信息来源 | 原因 |
| 猫为什么盯着墙看? | 预训练知识 | 互联网上的常识 |
| 找附近高评分健身房 | 网页搜索 | 地理位置相关 |
| 制定鬼屋方案 | 深度研究 | 需要信息整合与创意设计 |
| 我的销售趋势如何? | 代码(工具调用) | 需要数据计算与图表生成 |
获取数据洞察的方法: 不只是问 AI 简单问题,而是要求它 “Analyze the data carefully for insights”——让 AI 主动发现数据中的模式、趋势和异常。
全课程要点速查
获取信息的三种方式
-
1. 预训练知识:快速、免费,但有时效性限制 -
2. 网页搜索:获取实时、地理、小众信息 -
3. 深度研究:复杂问题的综合分析,AI 自主决策搜索策略
提高回答质量的核心技巧
-
1. 提供丰富上下文:相关文件、个人背景、具体需求 -
2. 要求多个选项:不要只接受第一个答案 -
3. 迭代改进:提供反馈,要求修改,逐步精炼 -
4. 中立表述:避免暗示你想听到的答案 -
5. 使用评分标准:让 AI 评估你的作品时,给出明确的评价标准 -
6. 渐进式大纲:先大纲后全文,提高修改效率
AI 推理四大法则
-
1. 用最好的模型 -
2. 给足够多的上下文 -
3. 给困难的任务 -
4. 明确要求深入思考
多模态应用
-
1. 图像理解:可用但可能遗漏细节 -
2. 图像生成:注意成本和迭代限制,学习”图像语言”提高提示质量 -
3. 构建应用:用 GOAL-INPUT-OUTPUT 框架描述需求 -
4. 数据分析:让 AI 写代码分析数据,主动要求发现洞察
安全与责任
- AI 桌面应用删除文件不进回收站,编辑没有历史记录
- 多模态技术应用于有益场景
- 尝试不同模型保持敏锐
夜雨聆风