从零搭了个AI全文配图工具后,分享这套快又好的模型调用方案.-夜雨聆风

从零搭了个AI全文配图工具后,分享这套快又好的模型调用方案.

分享有趣 · 一起精进

嗨大家好！我是阿真！

最近在 Vibe Coding 一个小工具。

使用的模型套餐链接👇

https://www.volcengine.com/activity/codingplan?utm_source=5&utm_medium=weixin_daren&utm_term=codingplan_Irene&utm_campaign=0&utm_content=codingplan_kol

起因是我在B站看到一个科普账号，对方视频里所有的素材都是 AI 图片转视频的，口播和画面很契合，而且所有配图的色调和质感都很统一。

当时我就在想，有没有办法直接扔进去一篇文档或者文案内容，工具就能针对文章或脚本里每一句话都生成符合文字描述的图片，还能做到部分场景的人物一致性呢？

平时做视频和写公众号，最头疼的就是配图这件事。手动拆段、做提示词、挨个生成、重复修改提示词和抽卡，一次下来半天就没了。所以说干就干，我就 Vibe Coding 搓了一个丐版的全文配图工具👇

它的功能就是，丢进去一篇文章或视频脚本，它就精确到每 1-2 句话生成一组图片场景提示词。也能直接上传文档让它智能拆分文段、指定配图数量，甚至只选中文章中的某几句话单独配图。给它 API 和参考风格图（可选），就能自动输出提示词，生成风格统一、人物一致的图片。

项目是在 Trea 里搭的，最开始的时候 OpenClaw 和也有发挥作用。之前也试了好几家的大模型 API，原本就一个模糊的想法，想到什么做什么，随意尝试。不过做着做着，感觉钱包都要被掏空，模型调用的消耗比我想象中大多了。

词元消耗

写一个功能跟模型来回怼个好几轮，改个 bug 又是几分钟，调完逻辑还要调样式，调完样式发现交互有问题再改……有好几个功能改了好几版才做对（比如参考主体，第一版完全没效果，因为压根没把图片传给模型 🤣），还是有点抓狂的，从开始的轻言细语到后面输出靠吼，肾上腺素都上来了。

而且 Coding 除了写代码，中间还穿插着大量的理解需求、分析文档、优化提示词、做深度搜索调研的工作，每一步都在消耗词元（Token）。一天高强度开发下来，API 用量确实挺大的。

这还只是一个项目，平时我还经常整一些小工具、小脚本，比如之前做的视频分镜工具、批量内容处理、调研相关的工具之类的，几个项目同时推进的时候，消耗叠加起来就更明显了。

之前的模式是各个平台散着用，每个平台单独充值、单独管理 API Key，经常搞混。高频调用的时候还时不时遇到卡顿和限速，正写代码写到一半，模型响应突然开始转圈，特别打断思路。

看群友用的火山方舟 Coding Plan，我也盘了个套餐，简单说就是一个多模型聚合的订阅套餐，靠谱大厂，字节家的火山引擎，把 GLM-4.7、DeepSeek V3.2、Kimi-K2.5、Doubao-seed-2.0-code 打包在一起，一个订阅搞定，不用到处充值管理。能直接接进 OpenClaw、Trea、Claude Code、Cursor 这些工具里，我就订阅的40块那个，每月18000次请求额度，中高频使用还挺好。

配置也很简单：开通套餐 → 拿 API Key → 在 Coding 工具里填上就行。OpenClaw 详细的配置流程可以参考这篇👇

在OpenClaw，火山方舟模型服务助力开发者畅享模型自由

Trea 的配置更简单，打开下面这个页面：https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=%7B%7D&advancedActiveKey=subscribe

点击【快速配置】👇

点击上面的【选择编程工具】就可以找到不同工具的配置文档了，很详细👇

添加模型的时候服务商选【火山引擎Plan】，然后多次添加模型每次选一个模型，后续就可以随心调用了👇

过程细节

这个全文配图工具做得比我预想的要细一点，聊几个我在做的过程中的一些有意思的事情。

首先是 API 设置。因为是自己用，所以直接把它放在了第一步，非常粗暴，接好了后面就直接能用。最早只接了一两个模型，后来觉得既然做了就做全，让 AI 写了个通用的路由函数，根据 model ID 前缀自动匹配对应的 API，最终支持了 7 个平台、20 多个模型。默认用的是火山引擎的模型，点击标题旁边小图标【推荐模型】就能直接跳转到 API 设置界面👇

第二步是输入文章内容。这里可以粘贴文案也可以直接上传文档。配图模式做了三种：全文配图（给到的内容全部识别拆分配图）、分段配图（AI 根据内容智能判断分多少段或自己指定字段数）、手动选段（划词选中某几句话单独配图）。这个手动选段是我自己想要的，有时候可能一篇文章里就某几句特别需要画面感，选中就行👇

第三步风格配置。可以预设比例、视觉风格、色彩基调、图片模型和分辨率。比较有意思的是风格参考功能，上传一张参考图让 AI 反推风格提示词。

这个功能我调了好几版，一开始让 AI 什么都分析，包括构图、人物、场景等等。后来发现不对，风格参考应该只起到“滤镜”的作用，只分析色调、光影、质感这些，不能描述画面内容。因为如果风格参考里出现人物描述，跟提示词里的人物会打架，影响出图质量。改成严格只分析画风、色温、光源、颗粒感、氛围情绪之后，效果好了很多。

反推出来的风格提示词还能保存成预设，下次直接调用，不用每次重新上传👇

最后是生成结果页。这里我觉得参考主体的功能还是挺实用的，上传一张角色图片，后续配图就能参考这个主体保持一致性。还有个【智能分配主体】，AI 会自动判断哪些场景需要出现这个人物，纯空镜或者景物描写就不会强行塞人进去👇

下面是不参考和参考主体的效果对比（模型用的Seedream 4.5）。

这是不参考主体的效果👇

滑动或点击查看完整内容

参考主体的效果👇

滑动或点击查看完整内容

还有一堆零碎的功能，智能分段让 AI 分析文章结构建议分多少段；智能信息图会逐段判断要不要做成数据可视化的样式；API Key 按平台自动保存，切模型的时候 Key 自动跟着走；批量下载打包成 ZIP 一键导出。每一个小功能背后也是好几轮对话迭代出来的。

整个过程中翻车了无数次：图片尺寸太小 API 报错、跨域下载没反应、选了没 Key 的模型直接炸……但每次都是实际用的时候才发现问题，然后马上修。这种做着做着突然有灵感的迭代节奏，恰恰是 Vibe Coding 最有意思的地方。

这个工具目前算是刚做到 1.0 版本，可以生成图片，但还没有选择可以生成视频，主要还是用于配图。Bug 也比较多，还在一边做一边修。不过一直都是开源的，有需要给视频或者文章配图的朋友可以试试自己优化，GitHub链接：

https://github.com/irenerachel/ai-article-illustrator

如果不方便访问，也可以在后台发送关键词【AI配图】即可获得压缩包。

小结

用了火山方舟的 CodingPlan 一段时间了，整体感受就是工作流顺了不少。不用再操心模型从哪调、额度够不够、会不会突然卡住这些事情。模型使用从一个需要反复折腾的环节，变成了工作流里比较稳定的一环。

而且因为切换成本低，有的特定场景我会习惯性地让几个模型各跑一遍同一个任务，挑最好的结果。

国产大模型现在真的各有千秋，用下来也会发现一些规律：GLM-4.7 逻辑能力强，写复杂业务代码的时候思路清晰；DeepSeek V3.2 代码生成能力不错，写功能又快又稳；Kimi-K2.5 长文本处理很在行，理解大段需求文档和长代码文件的时候特别好用；Doubao-seed-2.0-code 响应快，高频迭代的时候体验很丝滑。

如果大家也在经常Vibe Coding，或者觉得零散用模型越来越不顺手，可以考虑试试这个聚合套餐。

👉 火山方舟 Coding Plan 活动链接：

https://www.volcengine.com/activity/codingplan?utm_source=5&utm_medium=weixin_daren&utm_term=codingplan_Irene&utm_campaign=0&utm_content=codingplan_kol

好了，今天的分享就到这里啦，如果大家也在用 Vibe Coding 自己的项目，或者对这个工具有什么想法，欢迎评论区一起交流讨论。如果内容对大家有用的话，欢迎在下方 👍🏻 和 🌸 鼓励，期待你的猛猛三连，这对阿真真的很重要~

下期见~

点击下方【阅读原文】可直达链接。