乐于分享
好东西不私藏

AI Prompting for Everyone 课程笔记 吴恩达2026提示词课程

AI Prompting for Everyone 课程笔记 吴恩达2026提示词课程

AI Prompting for Everyone 课程笔记,本文用于速查回顾。

课程地址:https://www.deeplearning.ai/courses/ai-prompting-for-everyone/ 讲师:Andrew Ng 笔记整理:2026


AI 新手 vs AI 高手

能力维度 AI 新手 AI 高手
提问深度 用 AI 回答简单问题 给 AI 困难的任务,给它时间思考
上下文提供 写短提示,指望 AI 自己填空 添加高质量上下文、文件和图片
获取反馈 带偏见提问,得到带偏见的答案 用中立问题 + 评分标准(rubric)获取批评
写作方式 让 AI 直接写 从大纲开始,然后批评、迭代、扩展
研究方式 依赖聊天机器人知识 + 网页搜索 使用 Deep Research 深度研究

AI 的高调失误并不代表 AI 的真实能力。 AI power user 能够绕过这些限制,真正利用 AI 节省时间、改善生活、构建有趣的东西。


Module 1: Finding Information(获取信息)

1.1 Pretrained Knowledge(预训练知识)

AI 模型通过大量训练数据获得了预训练知识。这些训练数据来源包括:互联网论坛、书籍、百科全书、新闻网站、学术论文等。

关键特征:

  • 能回答各种主题的问题,甚至包括小众知识(如旅行者1号金唱片上收录的内容)
  • 展现出令人惊讶的理解能力——即使输入有拼写错误(如 “can u cook egs in microwav”),AI 仍能正确理解并回答
  • 预训练知识反映了训练数据中的模式:常见话题(烹饪、名人、电影)信息丰富,冷门话题(类星体、粤语)信息稀少
  • 训练数据中包含错误:拼写错误、误解、过时信息

局限: 预训练知识是冻结在某个时间点的,不会自动更新。

1.2 Web Search(网页搜索)

当问题涉及实时信息、地理位置信息或小众信息时,AI 模型会触发网页搜索。

预训练知识 vs 网页搜索的触发条件:

问题 信息来源 原因
我把手机掉进汤里了怎么办? 预训练知识 互联网上的常识性知识
猫为什么盯着墙看? 预训练知识 互联网上的常识性知识
旅行者1号唱片上有什么? 预训练知识 互联网上的常识性知识
2025年的”6-7″梗是什么? 网页搜索 实时信息
帮我找附近评分高的健身房 网页搜索 地理位置相关
什么是马凯特山奶酪翻滚? 网页搜索 小众信息

网页搜索的两种触发方式:

  1. 1. AI 模型自行判断:当它认为问题需要实时、地理或小众信息时
  2. 2. 用户主动要求

1.3 Web Search Sources(网页搜索来源)

引导 AI 使用可信来源:

  • 默认情况下,AI 从最流行的来源(社交媒体、博客、论坛)提取信息——不一定是最可靠的
  • 可以在提示中指定来源偏好:如 “Only use sources from official health organizations. Look at studies backed by rigorous science.”
  • 网页搜索可能引用过时来源(如已关闭的跑步地点)

网页搜索是一个多步骤过程:

  1. 1. 搜索:根据提示生成多个搜索查询
  2. 2. 扫描:查看标题和关键词
  3. 3. 过滤:排除不相关结果
  4. 4. 总结:综合相关来源,生成最终答案

AI 模型 vs 搜索引擎的选择:

场景 选择
快速浏览多个来源 搜索引擎
导航到特定网站 搜索引擎
需要原始数据 搜索引擎
需要综合分析 AI 模型
信息复杂 AI 模型
对比多个来源 AI 模型

1.4 Deep Research(深度研究)

Deep Research 是一种代理式 AI(Agentic AI):模型自行决定下一步该做什么。

示例流程(万圣节鬼屋方案):

  1. 1. 制定研究计划:帕洛阿尔托和加州法律、装饰想法、安全规范等
  2. 2. 多轮搜索和阅读:从 ca.gov、paloalto.gov、维基百科、Pinterest、Spirit Halloween 等来源收集信息
  3. 3. 综合生成报告:包含结构法规框架、消防安全、演员管理、装饰方案等

深度研究流程:

规划 → 搜索 → 阅读 → 评估来源 → [不足则继续搜索] → 综合来源 → 撰写报告 → 添加引用

Web Search vs Deep Research 对比:

维度 Web Search Deep Research
回答的问题数 单个 多个
人类回答耗时 几秒 几分钟到几小时
来源数量 少量 几十到几百
触发方式 自动或手动 通常由你手动触发

Finding Information 总结:

Pretrained Knowledge Web Search Deep Research
示例 手机掉汤里怎么办 找附近高评分健身房 每日步数对长期健康的影响
来源数量 少量 几十个或更多
时效性 不适用 最新 最新
AI 耗时 几秒 几十秒 几分钟
最适用于 事实、定义、总结 实时、地理、小众信息 复杂综合分析

Module 2: AI as a Thought Partner(AI 作为思维伙伴)

2.1 Brainstorming with AI(与 AI 头脑风暴)

OpenAI 的研究显示,ChatGPT 对话中有近一半是写作和实用指导相关。

AI 在生成选项方面非常擅长: 比如经典的创造力测试——想出砖头的200种用途,AI 可以快速生成大量创意。

头脑风暴从上下文开始: 给 AI 提供足够的个人背景信息(年龄、健身水平、可用器材、时间限制、动机障碍),才能得到真正贴合的方案。

AI 的内在创造力

作为概率模型,AI 倾向于给出常见的、常识性的答案。创意性答案虽然可能出现,但概率较低。

获取高质量创意的方法: 提供更多上下文 → 将 AI 推向”相关且创意”的空间,而非”常识”空间。

头脑风暴是迭代过程

配方:Context(上下文)→ Options(选项)→ Iteration(迭代)→ High quality ideas(高质量创意)

实践步骤:

  1. 1. 提供上下文并要求多个选项:如 “给我3个还债方案”
  2. 2. 对选项提供反馈:如 “我不喜欢方案1太被动,方案2砍掉19%利息我喜欢。另外我有450美元现金,快要搬家了”
  3. 3. 要求新选项:基于反馈生成改进方案
  4. 4. 逐步精炼:挑选最佳元素,深入细化

2.2 Context(上下文)

什么是 Context?

Context = AI 模型用来生成回复的所有文本和文件。

  • 缺少上下文 → AI 给出通用回答
  • 丰富上下文 → AI 给出高质量的定制化回答
  • 上下文应包含”一个值得信赖的顾问所需要的所有信息”

AI 模型的内置上下文

AI 模型的上下文窗口约 75 万字(2026年数据),相当于前4-5本《哈利波特》或几天的连续演讲。

上下文组成:

  • 系统提示:当前日期、模型名称与功能说明、通用操作指南
  • 工具定义:可用工具(如网页搜索)及其使用方法
  • 用户提示:你的输入
  • 聊天历史:之前的对话

上下文管理要点

  1. 1. 更多上下文通常更好:提供相关文件(PDF、CSV、图片、Excel)能显著提升回答质量
  2. 2. 相关上下文更好:不相关的旧对话会分散 AI 注意力,可能导致更差的回答
  3. 3. 换话题时开新对话! 不相关的旧上下文会干扰新问题的回答

2.3 AI Desktop Apps(AI 桌面应用)

如 Claude Cowork、Codex/Microsoft Copilot、Antigravity 等。

与聊天式 AI 的关键区别: 桌面应用能够自主发现上下文——读取文件、浏览目录,只在需要时才读取文件,而不需要你手动提供所有信息。

最佳实践工作流:

  1. 1. 你提供一个任务
  2. 2. AI 提出执行计划
  3. 3. 你审查和批评计划
  4. 4. AI 在你的电脑上执行任务

安全注意事项:

  • 选择最相关的文件夹给 AI 访问
  • 仔细审查权限请求
  • 桌面应用删除的文件不会进入回收站
  • 编辑的文件没有编辑历史

2.4 Reasoning with AI(用 AI 推理)

AI 在长时间任务上的进步

从2023年到2026年,AI 处理长耗时任务的能力呈指数级增长。最新模型(如 Claude Opus 4.6、GPT 5.2、Gemini 3 Pro、o3)可以执行数小时的人类任务。

重要提示: 使用最新模型!2026年的提示技巧不再需要 “think step by step” 这种低级提示,因为最新模型本身就具备强大的推理能力。

如何鼓励推理

  1. 1. 告诉模型要深入思考:如使用 “Ultrathink!” 指令
  2. 2. 给模型困难的任务:如 “为4人初创公司设计12个月计划”
  3. 3. 提供真实的工作任务和完整上下文

推理规则法则

  1. 1. 使用可用的最好模型
  2. 2. 给它们尽可能多的上下文
  3. 3. 给它们困难的任务
  4. 4. 明确告诉它深入思考

2.5 Sycophancy(谄媚问题)

AI 模型会以取悦你的方式行事,因为它们通过人类反馈训练,这强化了谄媚行为。它们有很强的偏见,只会告诉你想听的话。

数据证据: ChatGPT 回复中以 “That’s correct!”、”Good point”、”You’re on the right track” 开头的回复,是以 “Not quite right”、”That’s not the case”、”Actually…” 开头的 10倍

谄媚的表现

  • 明显的谄媚:直接附和你带有偏见的观点
  • 难察觉的谄媚:数据分析中只找正面指标,忽略负面信号

中立表述(Neutral Framing)

避免给出你希望听到的答案的暗示:

引导式提问 中立式提问
碳税难道不是对小企业有害吗? 如果存在影响的话,碳税对小企业的影响程度如何?
你是否认同 AI 会创造大量就业岗位? 当前的研究如何看待 AI 对就业的影响?
远程工作难道不会降低员工生产力吗? 远程工作与办公室工作的生产力有何差异?

对抗谄媚的三种策略

  1. 1. 中立表述(Neutral framing):避免暗示你想听到的答案
  2. 2. 明确要求客观批评:如 “Evaluate this from an editor’s viewpoint. Be critical. Assume this needs improvement.”
  3. 3. 开启新对话获取全新意见:在新聊天中获取不带历史偏见的新视角

2.6 Writing with AI(用 AI 写作)

OpenAI 研究显示,写作占人们要求 ChatGPT 完成任务的 24%。写作本质上是一种思考方式。

什么是 AI slop?

AI 生成的内容看起来不错,但缺乏实质内容。特征:模糊空洞的文本。

AI 写作的典型套路:

原文例句 翻译 写作套路
“This is a nuanced issue. Let’s delve into the implications…” “这是一个需要细致分析的复杂问题。让我们深入探讨其中的含义……” 过度使用的套话
“Clear, concise, and compelling” “清晰、简洁、引人入胜” 三项并列句式
“This is a robustly structured and highly insightful paper…” “这是一篇结构严谨、见解深刻的论文……” 空泛形容词滥用
“It’s not just about speed—it’s about availability” “这不只是关乎速度,更关乎可用性” “不是X,而是Y”的对比句式

人类也在开始听起来像 AI:研究显示,ChatGPT 发布后,”delve” 一词在播客和 YouTube 演讲中的使用频率显著增加。

渐进式大纲写作法(Progressive Outlining)

这是 Andrew Ng 推荐的高效写作方法:

  1. 1. 先用 Deep Research 收集素材:让 AI 研究主题,获取关键洞察
  2. 2. 生成多个大纲选项:结合个人故事和研究成果,创建3个大纲版本
  3. 3. 迭代修改大纲:调整结构、增删章节、添加类比
  4. 4. 扩展为要点:将每个标题扩展为要点
  5. 5. 逐步细化:反复修改直到满意
  6. 6. 最后生成全文:确认大纲完善后再生成最终文本

为什么先做大纲? 因为修改大纲中的一个词会改变整个章节,而修改全文中的一个词只影响那一小段。大纲阶段的修改影响力更大、效率更高。

2.7 AI Critique(AI 评估)

逐段编辑(Piece by Piece)

将文章分段让 AI 编辑,而不是一次性处理整篇文章。这样你能清楚知道改了什么。(注意:在 AI 绘图中,由于画质劣化问题,编辑过程不能太长。)

AI 不是客观的批评者

AI 倾向于给出好评(又是谄媚问题!)。要获得客观评价,需要使用 评分标准(Rubric)

好的评分标准让 AI 保持客观

关键原则: 给 AI 非常明确的标准来评判作品,迫使 AI 更客观。

评分标准的设计要求:

  • 每个标准都是明确的二值判断:要么满足、要么不满足,没有中间地带
  • 例如:”每个主角都有明确目标” → 是/否
  • 可以用 AI 来帮你设计评分标准——AI 在这方面也相当不错

差评分标准的问题:

  • 模糊的分类会带来主观性
  • 过早打分会扰乱推理过程
  • 这种评分标准会始终给出较高的分数

跨模型审查

让一个模型审查另一个模型的输出。不过 Andrew Ng 认为,让 ChatGPT 审查自己的结果、让 Gemini 审查自己的结果,通常就已经足够好了。尝试不同模型有助于保持你的敏锐度和直觉。


Module 3: Working with Multimedia & Code(多模态与代码)

3.1 Working with Multimedia(多媒体处理)

AI 模型可以生成图片、视频、语音、音乐、代码等。

输入输出的多种组合

输入端(文字、图片、音乐、语音、视频、代码)的差异不大,但输出端的差异很大

生成成本和速度:

文字 → 图片 → 视频/语音(成本和速度递增)

多模态生成的进步: 2026年对比2022年,视频和语音质量有显著提升。

大多数提示原则仍然适用

更容易应用的 更难应用的
更多上下文更好 生成多个选项
使用最好的模型 迭代(因为多模态生成慢且贵)

能力越大,责任越大

AI 技术可以用于善或恶(如语音生成:修复播客错误、给角色配音 vs 用亲人声音诈骗)。AI 的有益应用场景远多于有害应用,但我们仍有责任只将其用于有益且负责任的应用。

3.2 Image Understanding(图像理解)

在提示中使用图片

  • AI 可以理解图片中的复杂内容(如教授写在白板上的卷积神经网络公式)
  • 但细节可能被忽略:视觉上相似的物体可能被混淆(如臀部后踢腿机 vs 腿后弯举机被误认为胸推机/腹肌机)
  • 文字识别需要核对——不一定完全准确
  • 可以同时添加多张图片到提示中

图像提示三要点:

  1. 1. AI 可以读取图片中的基本文字
  2. 2. 视觉理解可能遗漏细节
  3. 3. 需要时可以添加多张图片

3.3 Image Generation(图像生成)

开发图像生成提示

好的图像提示包含三个要素:

  • Setting(场景)
  • Character details(角色细节)
  • Mood/style(风格/情绪)

图像语言: 艺术和艺术史爱好者在图像提示方面尤其擅长——他们能用更精确的语言(如 Cinematic、Watercolor、Cyberpunk、Anime)描述想要的视觉效果。如果想精通图像生成,值得学习一些图像语言。或者可以让 AI 反推提示词。

图像生成的工作原理

  • 文字模型:逐段生成输出
  • 图像模型:一次性生成整个图像(扩散模型 Diffusion Model)

扩散模型的问题

  • 手指变形
  • 文字乱码
  • 角色不一致

改善方法:让 AI 生成信息图(infographic)可以获得更好的文字质量和一致的角色。

图像生成成本对比

生成类型 速度 成本 交付方式
文字回复 几秒 不到 $0.01 逐词输出,可中途停止
单张图片 几十秒 几美分 一次性输出,无法中途停止

图像生成迭代更受限的原因:成本高、耗时长、无法中断。因此平台的生成次数通常有限制。

3.4 Building Apps(构建应用)

制作电脑游戏和网站曾经只有专业开发者才能做到。现在通过文本提示,你也能构建基础的软件应用和网站。

应用提示的构建模块

模块 说明 示例
GOAL(目标) 要创建什么 生成一个有趣的烟花模拟器
INPUT(输入) 用户提供什么 点击屏幕
OUTPUT(输出) 应用做什么 看到五彩缤纷的烟花

应用类型示例:

  • 游戏类:连锁反应游戏、烟花模拟器
  • 功能类:番茄钟、账单计算器、穿搭推荐

建议从简单想法开始: 简单的平台跳跃游戏、法语单词测验,比多人在线游戏或实时 AI 反馈的语言练习更容易实现。

3.5 Data Analysis(数据分析)

AI 可以写代码并运行代码

当你上传数据文件(如 Excel 销售数据)时,AI 会:

  1. 1. 检查数据
  2. 2. 编写代码进行分析
  3. 3. 运行代码生成图表
  4. 4. 提供洞察

AI 选择使用代码的场景:

问题 信息来源 原因
猫为什么盯着墙看? 预训练知识 互联网上的常识
找附近高评分健身房 网页搜索 地理位置相关
制定鬼屋方案 深度研究 需要信息整合与创意设计
我的销售趋势如何? 代码(工具调用) 需要数据计算与图表生成

获取数据洞察的方法: 不只是问 AI 简单问题,而是要求它 “Analyze the data carefully for insights”——让 AI 主动发现数据中的模式、趋势和异常。


全课程要点速查

获取信息的三种方式

  1. 1. 预训练知识:快速、免费,但有时效性限制
  2. 2. 网页搜索:获取实时、地理、小众信息
  3. 3. 深度研究:复杂问题的综合分析,AI 自主决策搜索策略

提高回答质量的核心技巧

  1. 1. 提供丰富上下文:相关文件、个人背景、具体需求
  2. 2. 要求多个选项:不要只接受第一个答案
  3. 3. 迭代改进:提供反馈,要求修改,逐步精炼
  4. 4. 中立表述:避免暗示你想听到的答案
  5. 5. 使用评分标准:让 AI 评估你的作品时,给出明确的评价标准
  6. 6. 渐进式大纲:先大纲后全文,提高修改效率

AI 推理四大法则

  1. 1. 用最好的模型
  2. 2. 给足够多的上下文
  3. 3. 给困难的任务
  4. 4. 明确要求深入思考

多模态应用

  1. 1. 图像理解:可用但可能遗漏细节
  2. 2. 图像生成:注意成本和迭代限制,学习”图像语言”提高提示质量
  3. 3. 构建应用:用 GOAL-INPUT-OUTPUT 框架描述需求
  4. 4. 数据分析:让 AI 写代码分析数据,主动要求发现洞察

安全与责任

  • AI 桌面应用删除文件不进回收站,编辑没有历史记录
  • 多模态技术应用于有益场景
  • 尝试不同模型保持敏锐