乐于分享
好东西不私藏

如何用好 AI Image?

如何用好 AI Image?

如何用好 AI Image?

如何才能生成我想要的图?我要去学什么?学 prompt 技巧?

不不,看看那些文学家如何描绘风景画的吧。

AI 生成图片已经很像 AI 编程

我看完 OpenAI 最新的图像生成 prompting guide 之后,最大的感受不是“模型又变强了”,而是 AI 画图正在变得像 AI 编程。

如果一张图没有生成出来,很多时候不是 AI 完全做不到,而是你没有把需求说清楚。你没有讲清楚背景、主体、细节、约束,也没有告诉它什么必须保持不变。

这跟现在用 AI 写代码很像。AI 已经能完成大部分代码,但你要让它真正写对,就必须讲清楚需求、接口、边界、不变量和测试反馈。图像生成也是同一个逻辑。

所以图像生成的关键,是你能不能按照 openai 的规则,描述出你脑子中想要的图。

其实很多人是没有想象力的(比如我),此时文学艺术,这里就能发挥作用了。我以前看村上春树的《挪威的森林》,那时才算开了窍,知道了文字上的描写,比电影不知高级多少。文字可以有太多的想象力。

我放个原文:

“最最喜欢你,绿子。”
“什么程度?”
“像喜欢春天的熊一样。”
“春天的熊?”绿子抬头仰望,“什么春天的熊?”
“你在春天的原野里一个人正走着,对面走来一只可爱的小熊,浑身的毛活像天鹅绒,圆鼓鼓的眼睛。它对你说道:‘你好,小姐,和我一同打滚玩好么?’ 接着你就和小熊抱在一起,顺着长满三叶草的山坡咕噜咕噜滚下去,整整玩了一大天。你说棒不棒?”
“太棒了。”
“我就这么喜欢你。”

太甜了呀!

把画面写成需求

如果是文生图,第一步不是立刻堆形容词,而是先明确你到底要什么类型的图片。它是一张广告图、logo、明信片、真实照片,还是游戏界面、插画、漫画分镜?用途决定了模型应该进入什么模式。

比如你要一张广告图,那就直接说清楚。接下来讲背景:产品是什么?公司是做什么的?这张广告想表达什么?

然后讲主体。画面里真正的主体是谁?如果是服装广告,主体可能是一群年轻人,穿着这个品牌设计的衣服,风格年轻、街头、多元。这个阶段要告诉 AI,画面中心到底是什么。

再讲细节。比如人物年龄、服装材质、颜色、光线、背景环境。你越能说清楚,画面越接近你脑子里的东西。

最后讲约束。前面讲的是你想要什么,这一步讲的是你不想要什么。比如不要水印、多余文字、错误品牌元素、额外人物,不要改变原有构图。

所以我现在会把文生图 prompt 总结成四步:背景、主体、细节、约束。这个结构看起来很简单,但它本质上是一种表达能力。你能不能把一张图片说清楚,决定了 AI 能不能把它画出来。

另外我觉得它不是你写一个完美 prompt,然后一下子就能拿到满意的图。更现实的方式是像写代码一样迭代:先生成一个基础版本,再看哪里不对,然后一次只改一个点。比如光线不对就只改光线,背景不对就只改背景,人物漂了就重新强调人物一致性。这跟编程很像,不是一口气写完,而是运行、看结果、修正。

文科能力会越来越重要

最近我看到一些新闻,说很多科技公司开始大量招文科生。我之前可能还没有那么强的体感,但看完这篇文章之后,我觉得图片生成这件事很能解释这个趋势。

图像生成越来越像文科生的活。它不需要你会编程,不需要你会写复杂代码,也不需要你掌握一整套专业软件。它需要的是你知道这张图片是什么,知道这张图片想表达什么,知道画面里具体有哪些细节。

但这里说的文科能力,不是说会写漂亮句子就够了。更准确地说,它是一种把画面写成规格说明的能力。你要能说清楚目标、主体、细节、约束,哪些东西必须保留,哪些东西只能局部修改。这既像写作,也像写产品需求。

以前我读《巴黎圣母院》的时候,里面有很多关于建筑的描写。高中老师推荐读,我基本都略过去了,因为我想象不出来,也不知道它到底在描写什么。但现在回过头看,那种能力非常重要。能够准确描述建筑、人物、场景、材质、气氛的人,在 AI 图像生成时代会非常有优势。

这件事跟传统意义上的理科、工科关系不大。它更接近一种文学、审美和场景描述能力。你脑子里有画面,又能把这个画面描述清楚,AI 就可以把制作环节补上。

杀死一批图片处理的小工具

官方文章里有一个漫画例子让我印象很深。一个人走出家门,狗在窗户里看着他,最后主人回家,狗坐在主人旁边。这个 prompt 并不复杂,但 AI 已经可以把小故事画成漫画分镜。

草图补全、黑白漫画上色、换背景、抠人物、去掉手里的花、把皮质椅子换成木质椅子,本质上都是一类事情:以前需要人工制作或专门工具,现在只要你把画面和修改要求说清楚,AI 就能直接做。

这样不就又是杀死一批图像处理小工具的网站,还有一些搞 PS 的接单的小需求。

最终图像生成也会有 harness

图像和视频生成,最终也会有类似 AI 编程里 harness 的东西。

单张图可以靠 prompt 反复试,但工业生产不是这样。广告图、电商图、漫画分镜、短视频素材、游戏素材,都不是生成一次就结束,而是要批量生产、保持风格一致、保持人物一致、符合品牌规范,还要能不断迭代。

这时候真正重要的就不是某一个 prompt,而是一整套生产流水线:先读品牌和角色设定,再生成初稿,再检查构图、文字、比例、风格、一致性,然后根据反馈继续修改。

这跟 AI 编程很像。写代码不是让 AI 随便写一段,而是给它上下文、约束、测试和反馈。图像生成以后也会这样:给它素材库、风格规则、检查标准和迭代机制。

所以图像生成的终点不会只是“会写 prompt 的人更厉害”,而是会出现一批能把图像生产流程系统化的人。他们把审美、描述、约束和流程组织起来,让 AI 稳定地产出可用素材。