乐于分享
好东西不私藏

从零搭了个AI全文配图工具后,分享这套快又好的模型调用方案.

从零搭了个AI全文配图工具后,分享这套快又好的模型调用方案.

分享有趣 · 一起精进

嗨大家好!我是阿真!

最近在 Vibe Coding 一个小工具。

使用的模型套餐链接👇 

https://www.volcengine.com/activity/codingplan?utm_source=5&utm_medium=weixin_daren&utm_term=codingplan_Irene&utm_campaign=0&utm_content=codingplan_kol

起因是我在B站看到一个科普账号,对方视频里所有的素材都是 AI 图片转视频的,口播和画面很契合,而且所有配图的色调和质感都很统一。

当时我就在想,有没有办法直接扔进去一篇文档或者文案内容,工具就能针对文章或脚本里每一句话都生成符合文字描述的图片,还能做到部分场景的人物一致性呢?

平时做视频和写公众号,最头疼的就是配图这件事。手动拆段、做提示词、挨个生成、重复修改提示词和抽卡,一次下来半天就没了。所以说干就干,我就 Vibe Coding 搓了一个丐版的全文配图工具👇

它的功能就是,丢进去一篇文章或视频脚本,它就精确到每 1-2 句话生成一组图片场景提示词。也能直接上传文档让它智能拆分文段、指定配图数量,甚至只选中文章中的某几句话单独配图。给它 API 和参考风格图(可选),就能自动输出提示词,生成风格统一、人物一致的图片。

项目是在 Trea 里搭的,最开始的时候 OpenClaw 和也有发挥作用。之前也试了好几家的大模型 API,原本就一个模糊的想法,想到什么做什么,随意尝试。不过做着做着,感觉钱包都要被掏空,模型调用的消耗比我想象中大多了。

词元消耗

写一个功能跟模型来回怼个好几轮,改个 bug 又是几分钟,调完逻辑还要调样式,调完样式发现交互有问题再改……有好几个功能改了好几版才做对(比如参考主体,第一版完全没效果,因为压根没把图片传给模型 🤣),还是有点抓狂的,从开始的轻言细语到后面输出靠吼,肾上腺素都上来了。

而且 Coding 除了写代码,中间还穿插着大量的理解需求、分析文档、优化提示词、做深度搜索调研的工作,每一步都在消耗词元(Token)。一天高强度开发下来,API 用量确实挺大的。

这还只是一个项目,平时我还经常整一些小工具、小脚本,比如之前做的视频分镜工具、批量内容处理、调研相关的工具之类的,几个项目同时推进的时候,消耗叠加起来就更明显了。

之前的模式是各个平台散着用,每个平台单独充值、单独管理 API Key,经常搞混。高频调用的时候还时不时遇到卡顿和限速,正写代码写到一半,模型响应突然开始转圈,特别打断思路。

看群友用的火山方舟 Coding Plan,我也盘了个套餐,简单说就是一个多模型聚合的订阅套餐,靠谱大厂,字节家的火山引擎,把 GLM-4.7、DeepSeek V3.2、Kimi-K2.5、Doubao-seed-2.0-code 打包在一起,一个订阅搞定,不用到处充值管理。能直接接进 OpenClaw、Trea、Claude Code、Cursor 这些工具里,我就订阅的40块那个,每月18000次请求额度,中高频使用还挺好。

配置也很简单:开通套餐 → 拿 API Key → 在 Coding 工具里填上就行。OpenClaw 详细的配置流程可以参考这篇👇

在OpenClaw,火山方舟模型服务助力开发者畅享模型自由

Trea 的配置更简单,打开下面这个页面:https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=%7B%7D&advancedActiveKey=subscribe

点击【快速配置】👇

点击上面的【选择编程工具】就可以找到不同工具的配置文档了,很详细👇

添加模型的时候服务商选【火山引擎Plan】,然后多次添加模型每次选一个模型,后续就可以随心调用了👇

过程细节

这个全文配图工具做得比我预想的要细一点,聊几个我在做的过程中的一些有意思的事情。

首先是 API 设置。因为是自己用,所以直接把它放在了第一步,非常粗暴,接好了后面就直接能用。最早只接了一两个模型,后来觉得既然做了就做全,让 AI 写了个通用的路由函数,根据 model ID 前缀自动匹配对应的 API,最终支持了 7 个平台、20 多个模型。默认用的是火山引擎的模型,点击标题旁边小图标【推荐模型】就能直接跳转到 API 设置界面👇

第二步是输入文章内容。这里可以粘贴文案也可以直接上传文档。配图模式做了三种:全文配图(给到的内容全部识别拆分配图)、分段配图(AI 根据内容智能判断分多少段或自己指定字段数)、手动选段(划词选中某几句话单独配图)。这个手动选段是我自己想要的,有时候可能一篇文章里就某几句特别需要画面感,选中就行👇

第三步风格配置。可以预设比例、视觉风格、色彩基调、图片模型和分辨率。比较有意思的是风格参考功能,上传一张参考图让 AI 反推风格提示词。

这个功能我调了好几版,一开始让 AI 什么都分析,包括构图、人物、场景等等。后来发现不对,风格参考应该只起到“滤镜”的作用,只分析色调、光影、质感这些,不能描述画面内容。因为如果风格参考里出现人物描述,跟提示词里的人物会打架,影响出图质量。改成严格只分析画风、色温、光源、颗粒感、氛围情绪之后,效果好了很多。

反推出来的风格提示词还能保存成预设,下次直接调用,不用每次重新上传👇

最后是生成结果页。这里我觉得参考主体的功能还是挺实用的,上传一张角色图片,后续配图就能参考这个主体保持一致性。还有个【智能分配主体】,AI 会自动判断哪些场景需要出现这个人物,纯空镜或者景物描写就不会强行塞人进去👇

下面是不参考和参考主体的效果对比(模型用的Seedream 4.5)。

这是不参考主体的效果👇

滑动或点击查看完整内容

参考主体的效果👇

滑动或点击查看完整内容

还有一堆零碎的功能,智能分段让 AI 分析文章结构建议分多少段;智能信息图会逐段判断要不要做成数据可视化的样式;API Key 按平台自动保存,切模型的时候 Key 自动跟着走;批量下载打包成 ZIP 一键导出。每一个小功能背后也是好几轮对话迭代出来的。

整个过程中翻车了无数次:图片尺寸太小 API 报错、跨域下载没反应、选了没 Key 的模型直接炸……但每次都是实际用的时候才发现问题,然后马上修。这种做着做着突然有灵感的迭代节奏,恰恰是 Vibe Coding 最有意思的地方。

这个工具目前算是刚做到 1.0 版本,可以生成图片,但还没有选择可以生成视频,主要还是用于配图。Bug 也比较多,还在一边做一边修。不过一直都是开源的,有需要给视频或者文章配图的朋友可以试试自己优化,GitHub链接:

https://github.com/irenerachel/ai-article-illustrator

如果不方便访问,也可以在后台发送关键词【AI配图】即可获得压缩包。

小结

用了火山方舟的 CodingPlan 一段时间了,整体感受就是工作流顺了不少。不用再操心模型从哪调、额度够不够、会不会突然卡住这些事情。模型使用从一个需要反复折腾的环节,变成了工作流里比较稳定的一环。

而且因为切换成本低,有的特定场景我会习惯性地让几个模型各跑一遍同一个任务,挑最好的结果。

国产大模型现在真的各有千秋,用下来也会发现一些规律:GLM-4.7 逻辑能力强,写复杂业务代码的时候思路清晰;DeepSeek V3.2 代码生成能力不错,写功能又快又稳;Kimi-K2.5 长文本处理很在行,理解大段需求文档和长代码文件的时候特别好用;Doubao-seed-2.0-code 响应快,高频迭代的时候体验很丝滑。

如果大家也在经常Vibe Coding,或者觉得零散用模型越来越不顺手,可以考虑试试这个聚合套餐。

👉 火山方舟 Coding Plan 活动链接:

https://www.volcengine.com/activity/codingplan?utm_source=5&utm_medium=weixin_daren&utm_term=codingplan_Irene&utm_campaign=0&utm_content=codingplan_kol

好了,今天的分享就到这里啦,如果大家也在用 Vibe Coding 自己的项目,或者对这个工具有什么想法,欢迎评论区一起交流讨论。如果内容对大家有用的话,欢迎在下方 👍🏻 和 🌸 鼓励,期待你的猛猛三连,这对阿真真的很重要~

下期见~

点击下方【阅读原文】可直达链接。