乐于分享
好东西不私藏

提示词增强插件 ComfyUI-QwenVL(z-image 文生图集成提示语增强能力)

提示词增强插件 ComfyUI-QwenVL(z-image 文生图集成提示语增强能力)

提示词增强插件 ComfyUI-QwenVL

ComfyUI 插件系列:

ComfyUI-QwenVL 核心有三个作用:反推图片或者视频内容增强润色文本提示语图生故事。本节我们来看第二个,我们先使用 6 种模式进行提示语增强测试,最后给出提示语增强工作流以及 z-image 在文生图中集成提示语增强能力。

效果展示

下面同样使用 Qwen3-VL-8B-Instruct-FP8 在 24G 4090 显卡上进行测试,提示语增强之后,使用 z-image 进行文生图。

测试文本

一个穿牛仔裤的女孩

Enhance:默认

在黄昏的旧西部小镇边缘,一位穿着褪色蓝牛仔裤的女孩正蹲在锈迹斑斑的铁轨旁,指尖轻抚过一株从裂缝中钻出的野花,她微微仰头,目光追随着远处被落日染成金红的云层。风卷起她的衣角和发丝,带来一丝尘土与青草的气息。背景是废弃的木制仓库与倾斜的电线杆,天空如油画般渐变,橙黄过渡到深紫,侧逆光勾勒出她纤细的轮廓与裤子上细微磨损的纹理。镜头采用85mm焦段大光圈拍摄,浅景深让女孩成为唯一清晰焦点,而身后荒芜的地面与模糊的栅栏形成纵深感。画面色调偏暖棕与钴蓝交织,布料褶皱、泥土颗粒与金属锈蚀质感强烈突出。整体氛围静谧又充满诗意,仿佛时间在此刻凝固,带有一种孤独却坚韧的西部浪漫主义情绪——不是悲凉,而是对生命在废墟中悄然绽放的温柔致敬。

可以看到人物细节/环境/镜头/画面整体色调/氛围这些关键元素都增强补齐了

Refine

一个穿牛仔裤的女孩站在黄昏的街角,微风轻拂她的衣摆,背景是模糊的霓虹招牌与斑驳砖墙,暖金色阳光从斜上方洒落,在她肩头与裤缝勾勒出柔和光晕。镜头采用85mm焦段中景构图,略微低角度捕捉她自然转身的瞬间,眼神望向远方,表情放松而沉思。画面以大地色系为主调——靛蓝牛仔布、赭石墙面、橙黄夕照,辅以金属拉链与磨损纹理细节。整体风格写实又带诗意,色调偏暖但不过分饱和,光影层次细腻,强调人物与环境的呼吸感,营造孤独却不失温柔的城市午后氛围。

Creative Rewrite

黄昏的斜阳把她的牛仔裤染成琥珀色,膝盖处磨出柔软褶皱,仿佛被无数个奔跑与跌倒的故事温柔揉捏过。她蹲在废弃铁轨旁,指尖轻触生锈的钢轨,脚下是碎石与枯草交织的大地,风卷起几片褪色的落叶,在她脚踝边旋舞如微型风暴。镜头低角度贴近地面,捕捉她侧脸凝望远方的轮廓——睫毛上悬着未落的光点,嘴角微扬似有无声的笑意。背景虚化成一片暖橘与灰蓝的渐变,远处一列火车正驶离站台,车轮碾过铁轨发出悠长回响。色彩饱和度略调高,让牛仔布料的粗粝纹理与天空的柔雾形成对比;焦外模糊中,她身后的野花悄然绽放,花瓣边缘泛着蜜糖般的金黄。整幅画面带着胶片颗粒感和轻微暗角,营造出电影般怀旧又静谧的氛围,仿佛时间在此刻放缓呼吸,只留下她与这片荒芜却充满诗意的土地共同存在。

Detailed Visual

在黄昏的废弃工厂后巷,一个穿着褪色蓝牛仔裤的女孩蹲在锈迹斑斑的铁皮桶旁,膝盖微屈,双手轻抚着桶沿,目光低垂凝视着桶内倒映的破碎天空——她发梢沾着细碎枯叶,脚踝处露出磨损的帆布鞋带,裤管被风鼓起如旗帜般飘动。前景是散落的玻璃碎片与半截生锈扳手,在斜射的暖橙光中折射出冷冽高光;中景是剥落灰墙与缠绕藤蔓的旧管道,墙面裂纹里渗出暗绿苔藓;背景是倾斜的钢梁结构投下巨大阴影,远处烟囱吞没最后一缕夕照。光线从右上方倾泻而下,金色调穿透尘埃颗粒,在她裸露的前臂上勾勒出柔和轮廓,与深蓝牛仔布料形成强烈对比。构图采用三分法偏左聚焦女孩面部侧面,镜头轻微仰拍强化其沉静姿态。画面饱和度偏低,但暖黄与冷灰交织营造出怀旧又孤寂的氛围,近景虚化处理使焦点牢牢锁定她睫毛微颤、嘴角轻抿的瞬间——仿佛时间在此刻停驻,唯有风在金属表面低语。

Artistic Style

在黄昏的斜阳里,一位穿着褪色蓝牛仔裤的女孩独自伫立于废弃铁轨旁,裤脚被风扬起,仿佛正与大地低语。她侧身回望,发丝随风轻舞,肩头披着薄暮的金粉,目光深邃如未解之谜。镜头以极简主义构图捕捉她的剪影——前景是锈蚀轨道的冷硬线条,背景是雾霭弥漫的枯树与远山轮廓,形成强烈的明暗对位。暖光从右上方倾泻而下,在她膝弯处投出柔和高光,而阴影则悄然吞噬她足踝,制造戏剧性张力。色调采用电影级胶片质感:饱和度压低,橙红与灰蓝交织,边缘晕染出柔焦朦胧感。画面呼吸着怀旧与孤独的诗意,像一幅被时间遗忘的西部肖像画。她不是主角,而是静默叙事者;摄影风格融合了街头纪实与超现实隐喻,每寸空间都充满留白与悬念。镜头微微倾斜,打破平衡,暗示命运不可控的流动。这是一幅关于等待、离别或重生的视觉诗篇——牛仔裤的耐磨布料映射着坚韧灵魂,而光影则温柔地包裹着她无声的告别。

Technical Specs

一个穿牛仔裤的女孩站在黄昏的街角,膝盖微屈,一手插兜,另一手轻抚背包带,目光望向远方。使用85mm镜头捕捉中近景,f/1.8大光圈制造浅景深,使背景街道虚化而突出人物轮廓;低角度仰拍强化她挺拔的姿态与街头氛围。侧逆光从右肩后方斜射,勾勒出衣料褶皱与发丝边缘高光,同时在面部形成柔和阴影增强立体感;色温设定为4600K,保留自然偏暖调但不艳丽,契合傍晚城市余晖。焦点精确对准她瞳孔中心,确保眼神锐利清晰。构图上采用三分法,女孩置于右侧黄金分割点,左侧留白延伸街道引导视线,画面底部加入几级台阶增加透视层次,整体强调孤独而坚定的情绪张力。

插件安装

使用 ComfyUI-Manager 安装插件 https://github.com/1038lab/ComfyUI-QwenVL,之后重启 ComfyUI。

模型下载

模型会在首次运行工作流的时候自动下载,也可以手动下载。下载之后放置到 ComfyUI/models/LLM/Qwen-VL/ 目录下。

例如,下载 Qwen3-VL-8B-Instruct 模型,最终的目录结构如下:

ComfyUI/models/LLM/Qwen-VL/-- Qwen3-VL-8B-Instruct  -- chat_template.json  -- model-00001-of-00004.safetensors  -- ...

除了在 最强图片视频提示词反推插件 ComfyUI-QwenVL(z-image 集成图生图能力)提到的 VL 模型之外,Qwen-VL 官方还推荐了一些文本模型,下载地址如下:

模型
链接
Qwen3-0.6B
https://huggingface.co/Qwen/Qwen3-0.6B
Qwen3-4B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
qwen3-4b-Z-Image-Engineer
https://huggingface.co/BennyDaBall/qwen3-4b-Z-Image-Engineer

最后一个模型看上去有点意思,其单独有个自定义节点,后续看看。

工作流

提示词增强工作流

核心节点 QwenVL Prompt Enhancer:核心参数如下

参数
描述
默认值
可选范围
model_name
模型
Qwen3-VL-4B-Instruct
quantization
在线量化模型,如果已经使用的是量化模型 (e.g.FP8),则该选项不生效
8-bit (Balanced)
4-bit, 8-bit, None
device
设备选择
auto
auto, cuda, cpu
prompt_text
用户提示语
Any text
custom_system_prompt
系统提示语
Any text
enhancement_style
6 种增强类型
Enhance
Any text
max_tokens
可生成的最大 token 数
1024
32-1024
keep_model_loaded
将模型保持在显存中
True
True/False
seed
种子,用于重现结果
1 – 2^64-1
temperature
值越大,越发散(适合图生故事);值越小,越确定(适合内容反推)
0.7
0.1-1.0
top_p
0.9
0.0-1.0
repetition_penalty
重复惩罚,避免重复性 token.较高的值(例如1.5)将减少重复
1.2
0.0-2.0

关于模型推理参数,在 基于 ollama 和 Qwen 让模型进行角色扮演和模型破限 一文中,有做说明。

z-image 提示语增强文生图工作流

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 提示词增强插件 ComfyUI-QwenVL(z-image 文生图集成提示语增强能力)

评论 抢沙发

4 + 9 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
×
订阅图标按钮