如何用好 AI Image?

如何用好 AI Image？

如何才能生成我想要的图？我要去学什么？学 prompt 技巧？

不不，看看那些文学家如何描绘风景画的吧。

AI 生成图片已经很像 AI 编程

我看完 OpenAI 最新的图像生成 prompting guide 之后，最大的感受不是“模型又变强了”，而是 AI 画图正在变得像 AI 编程。

如果一张图没有生成出来，很多时候不是 AI 完全做不到，而是你没有把需求说清楚。你没有讲清楚背景、主体、细节、约束，也没有告诉它什么必须保持不变。

这跟现在用 AI 写代码很像。AI 已经能完成大部分代码，但你要让它真正写对，就必须讲清楚需求、接口、边界、不变量和测试反馈。图像生成也是同一个逻辑。

所以图像生成的关键，是你能不能按照 openai 的规则，描述出你脑子中想要的图。

其实很多人是没有想象力的（比如我），此时文学艺术，这里就能发挥作用了。我以前看村上春树的《挪威的森林》，那时才算开了窍，知道了文字上的描写，比电影不知高级多少。文字可以有太多的想象力。

我放个原文：

“最最喜欢你，绿子。”
“什么程度？”
“像喜欢春天的熊一样。”
“春天的熊？”绿子抬头仰望，“什么春天的熊？”
“你在春天的原野里一个人正走着，对面走来一只可爱的小熊，浑身的毛活像天鹅绒，圆鼓鼓的眼睛。它对你说道：‘你好，小姐，和我一同打滚玩好么？’ 接着你就和小熊抱在一起，顺着长满三叶草的山坡咕噜咕噜滚下去，整整玩了一大天。你说棒不棒？”
“太棒了。”
“我就这么喜欢你。”

太甜了呀！

把画面写成需求

如果是文生图，第一步不是立刻堆形容词，而是先明确你到底要什么类型的图片。它是一张广告图、logo、明信片、真实照片，还是游戏界面、插画、漫画分镜？用途决定了模型应该进入什么模式。

比如你要一张广告图，那就直接说清楚。接下来讲背景：产品是什么？公司是做什么的？这张广告想表达什么？

然后讲主体。画面里真正的主体是谁？如果是服装广告，主体可能是一群年轻人，穿着这个品牌设计的衣服，风格年轻、街头、多元。这个阶段要告诉 AI，画面中心到底是什么。

再讲细节。比如人物年龄、服装材质、颜色、光线、背景环境。你越能说清楚，画面越接近你脑子里的东西。

最后讲约束。前面讲的是你想要什么，这一步讲的是你不想要什么。比如不要水印、多余文字、错误品牌元素、额外人物，不要改变原有构图。

所以我现在会把文生图 prompt 总结成四步：背景、主体、细节、约束。这个结构看起来很简单，但它本质上是一种表达能力。你能不能把一张图片说清楚，决定了 AI 能不能把它画出来。

另外我觉得它不是你写一个完美 prompt，然后一下子就能拿到满意的图。更现实的方式是像写代码一样迭代：先生成一个基础版本，再看哪里不对，然后一次只改一个点。比如光线不对就只改光线，背景不对就只改背景，人物漂了就重新强调人物一致性。这跟编程很像，不是一口气写完，而是运行、看结果、修正。

文科能力会越来越重要

最近我看到一些新闻，说很多科技公司开始大量招文科生。我之前可能还没有那么强的体感，但看完这篇文章之后，我觉得图片生成这件事很能解释这个趋势。

图像生成越来越像文科生的活。它不需要你会编程，不需要你会写复杂代码，也不需要你掌握一整套专业软件。它需要的是你知道这张图片是什么，知道这张图片想表达什么，知道画面里具体有哪些细节。

但这里说的文科能力，不是说会写漂亮句子就够了。更准确地说，它是一种把画面写成规格说明的能力。你要能说清楚目标、主体、细节、约束，哪些东西必须保留，哪些东西只能局部修改。这既像写作，也像写产品需求。

以前我读《巴黎圣母院》的时候，里面有很多关于建筑的描写。高中老师推荐读，我基本都略过去了，因为我想象不出来，也不知道它到底在描写什么。但现在回过头看，那种能力非常重要。能够准确描述建筑、人物、场景、材质、气氛的人，在 AI 图像生成时代会非常有优势。

这件事跟传统意义上的理科、工科关系不大。它更接近一种文学、审美和场景描述能力。你脑子里有画面，又能把这个画面描述清楚，AI 就可以把制作环节补上。

杀死一批图片处理的小工具

官方文章里有一个漫画例子让我印象很深。一个人走出家门，狗在窗户里看着他，最后主人回家，狗坐在主人旁边。这个 prompt 并不复杂，但 AI 已经可以把小故事画成漫画分镜。

草图补全、黑白漫画上色、换背景、抠人物、去掉手里的花、把皮质椅子换成木质椅子，本质上都是一类事情：以前需要人工制作或专门工具，现在只要你把画面和修改要求说清楚，AI 就能直接做。

这样不就又是杀死一批图像处理小工具的网站，还有一些搞 PS 的接单的小需求。

最终图像生成也会有 harness

图像和视频生成，最终也会有类似 AI 编程里 harness 的东西。

单张图可以靠 prompt 反复试，但工业生产不是这样。广告图、电商图、漫画分镜、短视频素材、游戏素材，都不是生成一次就结束，而是要批量生产、保持风格一致、保持人物一致、符合品牌规范，还要能不断迭代。

这时候真正重要的就不是某一个 prompt，而是一整套生产流水线：先读品牌和角色设定，再生成初稿，再检查构图、文字、比例、风格、一致性，然后根据反馈继续修改。

这跟 AI 编程很像。写代码不是让 AI 随便写一段，而是给它上下文、约束、测试和反馈。图像生成以后也会这样：给它素材库、风格规则、检查标准和迭代机制。

所以图像生成的终点不会只是“会写 prompt 的人更厉害”，而是会出现一批能把图像生产流程系统化的人。他们把审美、描述、约束和流程组织起来，让 AI 稳定地产出可用素材。