如何用好 AI Image?
如何用好 AI Image?
如何才能生成我想要的图?我要去学什么?学 prompt 技巧?
不不,看看那些文学家如何描绘风景画的吧。
AI 生成图片已经很像 AI 编程
我看完 OpenAI 最新的图像生成 prompting guide 之后,最大的感受不是“模型又变强了”,而是 AI 画图正在变得像 AI 编程。
如果一张图没有生成出来,很多时候不是 AI 完全做不到,而是你没有把需求说清楚。你没有讲清楚背景、主体、细节、约束,也没有告诉它什么必须保持不变。
这跟现在用 AI 写代码很像。AI 已经能完成大部分代码,但你要让它真正写对,就必须讲清楚需求、接口、边界、不变量和测试反馈。图像生成也是同一个逻辑。
所以图像生成的关键,是你能不能按照 openai 的规则,描述出你脑子中想要的图。
其实很多人是没有想象力的(比如我),此时文学艺术,这里就能发挥作用了。我以前看村上春树的《挪威的森林》,那时才算开了窍,知道了文字上的描写,比电影不知高级多少。文字可以有太多的想象力。
我放个原文:
“最最喜欢你,绿子。”
“什么程度?”
“像喜欢春天的熊一样。”
“春天的熊?”绿子抬头仰望,“什么春天的熊?”
“你在春天的原野里一个人正走着,对面走来一只可爱的小熊,浑身的毛活像天鹅绒,圆鼓鼓的眼睛。它对你说道:‘你好,小姐,和我一同打滚玩好么?’ 接着你就和小熊抱在一起,顺着长满三叶草的山坡咕噜咕噜滚下去,整整玩了一大天。你说棒不棒?”
“太棒了。”
“我就这么喜欢你。”
太甜了呀!
把画面写成需求
如果是文生图,第一步不是立刻堆形容词,而是先明确你到底要什么类型的图片。它是一张广告图、logo、明信片、真实照片,还是游戏界面、插画、漫画分镜?用途决定了模型应该进入什么模式。
比如你要一张广告图,那就直接说清楚。接下来讲背景:产品是什么?公司是做什么的?这张广告想表达什么?
然后讲主体。画面里真正的主体是谁?如果是服装广告,主体可能是一群年轻人,穿着这个品牌设计的衣服,风格年轻、街头、多元。这个阶段要告诉 AI,画面中心到底是什么。
再讲细节。比如人物年龄、服装材质、颜色、光线、背景环境。你越能说清楚,画面越接近你脑子里的东西。
最后讲约束。前面讲的是你想要什么,这一步讲的是你不想要什么。比如不要水印、多余文字、错误品牌元素、额外人物,不要改变原有构图。
所以我现在会把文生图 prompt 总结成四步:背景、主体、细节、约束。这个结构看起来很简单,但它本质上是一种表达能力。你能不能把一张图片说清楚,决定了 AI 能不能把它画出来。
另外我觉得它不是你写一个完美 prompt,然后一下子就能拿到满意的图。更现实的方式是像写代码一样迭代:先生成一个基础版本,再看哪里不对,然后一次只改一个点。比如光线不对就只改光线,背景不对就只改背景,人物漂了就重新强调人物一致性。这跟编程很像,不是一口气写完,而是运行、看结果、修正。
文科能力会越来越重要
最近我看到一些新闻,说很多科技公司开始大量招文科生。我之前可能还没有那么强的体感,但看完这篇文章之后,我觉得图片生成这件事很能解释这个趋势。
图像生成越来越像文科生的活。它不需要你会编程,不需要你会写复杂代码,也不需要你掌握一整套专业软件。它需要的是你知道这张图片是什么,知道这张图片想表达什么,知道画面里具体有哪些细节。
但这里说的文科能力,不是说会写漂亮句子就够了。更准确地说,它是一种把画面写成规格说明的能力。你要能说清楚目标、主体、细节、约束,哪些东西必须保留,哪些东西只能局部修改。这既像写作,也像写产品需求。
以前我读《巴黎圣母院》的时候,里面有很多关于建筑的描写。高中老师推荐读,我基本都略过去了,因为我想象不出来,也不知道它到底在描写什么。但现在回过头看,那种能力非常重要。能够准确描述建筑、人物、场景、材质、气氛的人,在 AI 图像生成时代会非常有优势。
这件事跟传统意义上的理科、工科关系不大。它更接近一种文学、审美和场景描述能力。你脑子里有画面,又能把这个画面描述清楚,AI 就可以把制作环节补上。
杀死一批图片处理的小工具
官方文章里有一个漫画例子让我印象很深。一个人走出家门,狗在窗户里看着他,最后主人回家,狗坐在主人旁边。这个 prompt 并不复杂,但 AI 已经可以把小故事画成漫画分镜。
草图补全、黑白漫画上色、换背景、抠人物、去掉手里的花、把皮质椅子换成木质椅子,本质上都是一类事情:以前需要人工制作或专门工具,现在只要你把画面和修改要求说清楚,AI 就能直接做。
这样不就又是杀死一批图像处理小工具的网站,还有一些搞 PS 的接单的小需求。
最终图像生成也会有 harness
图像和视频生成,最终也会有类似 AI 编程里 harness 的东西。
单张图可以靠 prompt 反复试,但工业生产不是这样。广告图、电商图、漫画分镜、短视频素材、游戏素材,都不是生成一次就结束,而是要批量生产、保持风格一致、保持人物一致、符合品牌规范,还要能不断迭代。
这时候真正重要的就不是某一个 prompt,而是一整套生产流水线:先读品牌和角色设定,再生成初稿,再检查构图、文字、比例、风格、一致性,然后根据反馈继续修改。
这跟 AI 编程很像。写代码不是让 AI 随便写一段,而是给它上下文、约束、测试和反馈。图像生成以后也会这样:给它素材库、风格规则、检查标准和迭代机制。
所以图像生成的终点不会只是“会写 prompt 的人更厉害”,而是会出现一批能把图像生产流程系统化的人。他们把审美、描述、约束和流程组织起来,让 AI 稳定地产出可用素材。
夜雨聆风