AI Prompting for Everyone 课程笔记吴恩达2026提示词课程

AI Prompting for Everyone 课程笔记，本文用于速查回顾。

课程地址：https://www.deeplearning.ai/courses/ai-prompting-for-everyone/ 讲师：Andrew Ng 笔记整理：2026

AI 新手 vs AI 高手

能力维度	AI 新手	AI 高手
提问深度	用 AI 回答简单问题	给 AI 困难的任务，给它时间思考
上下文提供	写短提示，指望 AI 自己填空	添加高质量上下文、文件和图片
获取反馈	带偏见提问，得到带偏见的答案	用中立问题 + 评分标准（rubric）获取批评
写作方式	让 AI 直接写	从大纲开始，然后批评、迭代、扩展
研究方式	依赖聊天机器人知识 + 网页搜索	使用 Deep Research 深度研究

AI 的高调失误并不代表 AI 的真实能力。 AI power user 能够绕过这些限制，真正利用 AI 节省时间、改善生活、构建有趣的东西。

Module 1: Finding Information（获取信息）

1.1 Pretrained Knowledge（预训练知识）

AI 模型通过大量训练数据获得了预训练知识。这些训练数据来源包括：互联网论坛、书籍、百科全书、新闻网站、学术论文等。

关键特征：

能回答各种主题的问题，甚至包括小众知识（如旅行者1号金唱片上收录的内容）
展现出令人惊讶的理解能力——即使输入有拼写错误（如 “can u cook egs in microwav”），AI 仍能正确理解并回答
预训练知识反映了训练数据中的模式：常见话题（烹饪、名人、电影）信息丰富，冷门话题（类星体、粤语）信息稀少
训练数据中包含错误：拼写错误、误解、过时信息

局限：预训练知识是冻结在某个时间点的，不会自动更新。

1.2 Web Search（网页搜索）

当问题涉及实时信息、地理位置信息或小众信息时，AI 模型会触发网页搜索。

预训练知识 vs 网页搜索的触发条件：

问题	信息来源	原因
我把手机掉进汤里了怎么办？	预训练知识	互联网上的常识性知识
猫为什么盯着墙看？	预训练知识	互联网上的常识性知识
旅行者1号唱片上有什么？	预训练知识	互联网上的常识性知识
2025年的”6-7″梗是什么？	网页搜索	实时信息
帮我找附近评分高的健身房	网页搜索	地理位置相关
什么是马凯特山奶酪翻滚？	网页搜索	小众信息

网页搜索的两种触发方式：

1. AI 模型自行判断：当它认为问题需要实时、地理或小众信息时
2. 用户主动要求

1.3 Web Search Sources（网页搜索来源）

引导 AI 使用可信来源：

默认情况下，AI 从最流行的来源（社交媒体、博客、论坛）提取信息——不一定是最可靠的
可以在提示中指定来源偏好：如 “Only use sources from official health organizations. Look at studies backed by rigorous science.”
网页搜索可能引用过时来源（如已关闭的跑步地点）

网页搜索是一个多步骤过程：

1. 搜索：根据提示生成多个搜索查询
2. 扫描：查看标题和关键词
3. 过滤：排除不相关结果
4. 总结：综合相关来源，生成最终答案

AI 模型 vs 搜索引擎的选择：

场景	选择
快速浏览多个来源	搜索引擎
导航到特定网站	搜索引擎
需要原始数据	搜索引擎
需要综合分析	AI 模型
信息复杂	AI 模型
对比多个来源	AI 模型

1.4 Deep Research（深度研究）

Deep Research 是一种代理式 AI（Agentic AI）：模型自行决定下一步该做什么。

示例流程（万圣节鬼屋方案）：

1. 制定研究计划：帕洛阿尔托和加州法律、装饰想法、安全规范等
2. 多轮搜索和阅读：从 ca.gov、paloalto.gov、维基百科、Pinterest、Spirit Halloween 等来源收集信息
3. 综合生成报告：包含结构法规框架、消防安全、演员管理、装饰方案等

深度研究流程：

规划 → 搜索 → 阅读 → 评估来源 → [不足则继续搜索] → 综合来源 → 撰写报告 → 添加引用

Web Search vs Deep Research 对比：

维度	Web Search	Deep Research
回答的问题数	单个	多个
人类回答耗时	几秒	几分钟到几小时
来源数量	少量	几十到几百
触发方式	自动或手动	通常由你手动触发

Finding Information 总结：

	Pretrained Knowledge	Web Search	Deep Research
示例	手机掉汤里怎么办	找附近高评分健身房	每日步数对长期健康的影响
来源数量	无	少量	几十个或更多
时效性	不适用	最新	最新
AI 耗时	几秒	几十秒	几分钟
最适用于	事实、定义、总结	实时、地理、小众信息	复杂综合分析

Module 2: AI as a Thought Partner（AI 作为思维伙伴）

2.1 Brainstorming with AI（与 AI 头脑风暴）

OpenAI 的研究显示，ChatGPT 对话中有近一半是写作和实用指导相关。

AI 在生成选项方面非常擅长：比如经典的创造力测试——想出砖头的200种用途，AI 可以快速生成大量创意。

头脑风暴从上下文开始：给 AI 提供足够的个人背景信息（年龄、健身水平、可用器材、时间限制、动机障碍），才能得到真正贴合的方案。

AI 的内在创造力

作为概率模型，AI 倾向于给出常见的、常识性的答案。创意性答案虽然可能出现，但概率较低。

获取高质量创意的方法：提供更多上下文 → 将 AI 推向”相关且创意”的空间，而非”常识”空间。

头脑风暴是迭代过程

配方：Context（上下文）→ Options（选项）→ Iteration（迭代）→ High quality ideas（高质量创意）

实践步骤：

1. 提供上下文并要求多个选项：如 “给我3个还债方案”
2. 对选项提供反馈：如 “我不喜欢方案1太被动，方案2砍掉19%利息我喜欢。另外我有450美元现金，快要搬家了”
3. 要求新选项：基于反馈生成改进方案
4. 逐步精炼：挑选最佳元素，深入细化

2.2 Context（上下文）

什么是 Context？

Context = AI 模型用来生成回复的所有文本和文件。

缺少上下文 → AI 给出通用回答
丰富上下文 → AI 给出高质量的定制化回答
上下文应包含”一个值得信赖的顾问所需要的所有信息”

AI 模型的内置上下文

AI 模型的上下文窗口约 75 万字（2026年数据），相当于前4-5本《哈利波特》或几天的连续演讲。

上下文组成：

系统提示：当前日期、模型名称与功能说明、通用操作指南
工具定义：可用工具（如网页搜索）及其使用方法
用户提示：你的输入
聊天历史：之前的对话

上下文管理要点

1. 更多上下文通常更好：提供相关文件（PDF、CSV、图片、Excel）能显著提升回答质量
2. 相关上下文更好：不相关的旧对话会分散 AI 注意力，可能导致更差的回答
3. 换话题时开新对话！不相关的旧上下文会干扰新问题的回答

2.3 AI Desktop Apps（AI 桌面应用）

如 Claude Cowork、Codex/Microsoft Copilot、Antigravity 等。

与聊天式 AI 的关键区别：桌面应用能够自主发现上下文——读取文件、浏览目录，只在需要时才读取文件，而不需要你手动提供所有信息。

最佳实践工作流：

1. 你提供一个任务
2. AI 提出执行计划
3. 你审查和批评计划
4. AI 在你的电脑上执行任务

安全注意事项：

选择最相关的文件夹给 AI 访问
仔细审查权限请求
桌面应用删除的文件不会进入回收站
编辑的文件没有编辑历史

2.4 Reasoning with AI（用 AI 推理）

AI 在长时间任务上的进步

从2023年到2026年，AI 处理长耗时任务的能力呈指数级增长。最新模型（如 Claude Opus 4.6、GPT 5.2、Gemini 3 Pro、o3）可以执行数小时的人类任务。

重要提示：使用最新模型！2026年的提示技巧不再需要 “think step by step” 这种低级提示，因为最新模型本身就具备强大的推理能力。

如何鼓励推理

1. 告诉模型要深入思考：如使用 “Ultrathink!” 指令
2. 给模型困难的任务：如 “为4人初创公司设计12个月计划”
3. 提供真实的工作任务和完整上下文

推理规则法则

1. 使用可用的最好模型
2. 给它们尽可能多的上下文
3. 给它们困难的任务
4. 明确告诉它深入思考

2.5 Sycophancy（谄媚问题）

AI 模型会以取悦你的方式行事，因为它们通过人类反馈训练，这强化了谄媚行为。它们有很强的偏见，只会告诉你想听的话。

数据证据： ChatGPT 回复中以 “That’s correct!”、”Good point”、”You’re on the right track” 开头的回复，是以 “Not quite right”、”That’s not the case”、”Actually…” 开头的 10倍。

谄媚的表现

明显的谄媚：直接附和你带有偏见的观点
难察觉的谄媚：数据分析中只找正面指标，忽略负面信号

中立表述（Neutral Framing）

避免给出你希望听到的答案的暗示：

引导式提问	中立式提问
碳税难道不是对小企业有害吗？	如果存在影响的话，碳税对小企业的影响程度如何？
你是否认同 AI 会创造大量就业岗位？	当前的研究如何看待 AI 对就业的影响？
远程工作难道不会降低员工生产力吗？	远程工作与办公室工作的生产力有何差异？

对抗谄媚的三种策略

1. 中立表述（Neutral framing）：避免暗示你想听到的答案
2. 明确要求客观批评：如 “Evaluate this from an editor’s viewpoint. Be critical. Assume this needs improvement.”
3. 开启新对话获取全新意见：在新聊天中获取不带历史偏见的新视角

2.6 Writing with AI（用 AI 写作）

OpenAI 研究显示，写作占人们要求 ChatGPT 完成任务的 24%。写作本质上是一种思考方式。

什么是 AI slop？

AI 生成的内容看起来不错，但缺乏实质内容。特征：模糊空洞的文本。

AI 写作的典型套路：

原文例句	翻译	写作套路
“This is a nuanced issue. Let’s delve into the implications…”	“这是一个需要细致分析的复杂问题。让我们深入探讨其中的含义……”	过度使用的套话
“Clear, concise, and compelling”	“清晰、简洁、引人入胜”	三项并列句式
“This is a robustly structured and highly insightful paper…”	“这是一篇结构严谨、见解深刻的论文……”	空泛形容词滥用
“It’s not just about speed—it’s about availability”	“这不只是关乎速度，更关乎可用性”	“不是X，而是Y”的对比句式

人类也在开始听起来像 AI：研究显示，ChatGPT 发布后，”delve” 一词在播客和 YouTube 演讲中的使用频率显著增加。

渐进式大纲写作法（Progressive Outlining）

这是 Andrew Ng 推荐的高效写作方法：

1. 先用 Deep Research 收集素材：让 AI 研究主题，获取关键洞察
2. 生成多个大纲选项：结合个人故事和研究成果，创建3个大纲版本
3. 迭代修改大纲：调整结构、增删章节、添加类比
4. 扩展为要点：将每个标题扩展为要点
5. 逐步细化：反复修改直到满意
6. 最后生成全文：确认大纲完善后再生成最终文本

为什么先做大纲？因为修改大纲中的一个词会改变整个章节，而修改全文中的一个词只影响那一小段。大纲阶段的修改影响力更大、效率更高。

2.7 AI Critique（AI 评估）

逐段编辑（Piece by Piece）

将文章分段让 AI 编辑，而不是一次性处理整篇文章。这样你能清楚知道改了什么。（注意：在 AI 绘图中，由于画质劣化问题，编辑过程不能太长。）

AI 不是客观的批评者

AI 倾向于给出好评（又是谄媚问题！）。要获得客观评价，需要使用评分标准（Rubric）。

好的评分标准让 AI 保持客观

关键原则：给 AI 非常明确的标准来评判作品，迫使 AI 更客观。

评分标准的设计要求：

每个标准都是明确的二值判断：要么满足、要么不满足，没有中间地带
例如：”每个主角都有明确目标” → 是/否
可以用 AI 来帮你设计评分标准——AI 在这方面也相当不错

差评分标准的问题：

模糊的分类会带来主观性
过早打分会扰乱推理过程
这种评分标准会始终给出较高的分数

跨模型审查

让一个模型审查另一个模型的输出。不过 Andrew Ng 认为，让 ChatGPT 审查自己的结果、让 Gemini 审查自己的结果，通常就已经足够好了。尝试不同模型有助于保持你的敏锐度和直觉。

Module 3: Working with Multimedia & Code（多模态与代码）

3.1 Working with Multimedia（多媒体处理）

AI 模型可以生成图片、视频、语音、音乐、代码等。

输入输出的多种组合

输入端（文字、图片、音乐、语音、视频、代码）的差异不大，但输出端的差异很大。

生成成本和速度：

文字 → 图片 → 视频/语音（成本和速度递增）

多模态生成的进步： 2026年对比2022年，视频和语音质量有显著提升。

大多数提示原则仍然适用

更容易应用的	更难应用的
更多上下文更好	生成多个选项
使用最好的模型	迭代（因为多模态生成慢且贵）

能力越大，责任越大

AI 技术可以用于善或恶（如语音生成：修复播客错误、给角色配音 vs 用亲人声音诈骗）。AI 的有益应用场景远多于有害应用，但我们仍有责任只将其用于有益且负责任的应用。

3.2 Image Understanding（图像理解）

在提示中使用图片

AI 可以理解图片中的复杂内容（如教授写在白板上的卷积神经网络公式）
但细节可能被忽略：视觉上相似的物体可能被混淆（如臀部后踢腿机 vs 腿后弯举机被误认为胸推机/腹肌机）
文字识别需要核对——不一定完全准确
可以同时添加多张图片到提示中

图像提示三要点：

1. AI 可以读取图片中的基本文字
2. 视觉理解可能遗漏细节
3. 需要时可以添加多张图片

3.3 Image Generation（图像生成）

开发图像生成提示

好的图像提示包含三个要素：

Setting（场景）
Character details（角色细节）
Mood/style（风格/情绪）

图像语言：艺术和艺术史爱好者在图像提示方面尤其擅长——他们能用更精确的语言（如 Cinematic、Watercolor、Cyberpunk、Anime）描述想要的视觉效果。如果想精通图像生成，值得学习一些图像语言。或者可以让 AI 反推提示词。

图像生成的工作原理

文字模型：逐段生成输出
图像模型：一次性生成整个图像（扩散模型 Diffusion Model）

扩散模型的问题

手指变形
文字乱码
角色不一致

改善方法：让 AI 生成信息图（infographic）可以获得更好的文字质量和一致的角色。

图像生成成本对比

生成类型	速度	成本	交付方式
文字回复	几秒	不到 $0.01	逐词输出，可中途停止
单张图片	几十秒	几美分	一次性输出，无法中途停止

图像生成迭代更受限的原因：成本高、耗时长、无法中断。因此平台的生成次数通常有限制。

3.4 Building Apps（构建应用）

制作电脑游戏和网站曾经只有专业开发者才能做到。现在通过文本提示，你也能构建基础的软件应用和网站。

应用提示的构建模块

模块	说明	示例
GOAL（目标）	要创建什么	生成一个有趣的烟花模拟器
INPUT（输入）	用户提供什么	点击屏幕
OUTPUT（输出）	应用做什么	看到五彩缤纷的烟花

应用类型示例：

游戏类：连锁反应游戏、烟花模拟器
功能类：番茄钟、账单计算器、穿搭推荐

建议从简单想法开始：简单的平台跳跃游戏、法语单词测验，比多人在线游戏或实时 AI 反馈的语言练习更容易实现。

3.5 Data Analysis（数据分析）

AI 可以写代码并运行代码

当你上传数据文件（如 Excel 销售数据）时，AI 会：

1. 检查数据
2. 编写代码进行分析
3. 运行代码生成图表
4. 提供洞察

AI 选择使用代码的场景：

问题	信息来源	原因
猫为什么盯着墙看？	预训练知识	互联网上的常识
找附近高评分健身房	网页搜索	地理位置相关
制定鬼屋方案	深度研究	需要信息整合与创意设计
我的销售趋势如何？	代码（工具调用）	需要数据计算与图表生成

获取数据洞察的方法：不只是问 AI 简单问题，而是要求它 “Analyze the data carefully for insights”——让 AI 主动发现数据中的模式、趋势和异常。

全课程要点速查

获取信息的三种方式

1. 预训练知识：快速、免费，但有时效性限制
2. 网页搜索：获取实时、地理、小众信息
3. 深度研究：复杂问题的综合分析，AI 自主决策搜索策略

提高回答质量的核心技巧

1. 提供丰富上下文：相关文件、个人背景、具体需求
2. 要求多个选项：不要只接受第一个答案
3. 迭代改进：提供反馈，要求修改，逐步精炼
4. 中立表述：避免暗示你想听到的答案
5. 使用评分标准：让 AI 评估你的作品时，给出明确的评价标准
6. 渐进式大纲：先大纲后全文，提高修改效率

AI 推理四大法则

1. 用最好的模型
2. 给足够多的上下文
3. 给困难的任务
4. 明确要求深入思考

多模态应用

1. 图像理解：可用但可能遗漏细节
2. 图像生成：注意成本和迭代限制，学习”图像语言”提高提示质量
3. 构建应用：用 GOAL-INPUT-OUTPUT 框架描述需求
4. 数据分析：让 AI 写代码分析数据，主动要求发现洞察

安全与责任

AI 桌面应用删除文件不进回收站，编辑没有历史记录
多模态技术应用于有益场景
尝试不同模型保持敏锐