卸载剪映了,Codex一条命令跑完书单号全流程
说实在的,做书单号这件事我以前试过。
流程大概是这样的:选书→写文案→找配图→配音→做字幕→剪辑→加BGM→导出。一条30秒的视频,从选题到上传,少说两小时。这还是熟练工,新手可能搞一下午。
最烦的是,每一步之间没有自动化。文案写完了,你还是要手动打开剪映。配图找完了,你还是要一个个拖进去。字幕做好了,BGM还是要自己调音量。
我一直觉得,AI时代不应该这样。

先看结果
昨天我折腾了一下午,最后跑出来一条视频。
书名《原则》,作者瑞·达利欧,竖屏9:16,1080×1920分辨率。14张AI生成的配图,14句中英双语字幕,edge-tts男声配音,PIL渲染字幕,FFmpeg视频合成。
成品参数一览
🔹 分辨率:1080×1920(竖屏9:16)
🔹 时长:37.55秒
🔹 音色:zh-CN-YunxiNeural(男声·阳光活泼)
🔹 配图:14张AI生成(gpt-image-1)
🔹 BGM:低音量原创背景音乐+淡入淡出
🔹 文件大小:约3.1MB
整个过程,从「帮我部署这个Skill」到「最终成品MP4在桌面」,全是Codex自己在跑。
产出视频
我中间就干了一件事:看着它踩坑,然后看着它自己修好。
部署Skill:先把武器装好
事情的起点是这样的。我桌面上有一个叫 book-video-maker-skill-fixed 的文件夹,里面有脚本、模板、字体,是之前做好的一套书单号视频生成技能。
把它部署到Codex的skills目录,然后检查环境依赖。Python 3.13.12、edge-tts 7.2.8、Pillow 12.2.0、FFmpeg 8.1.1,全部就位。
⚠️ 一个容易被忽略的坑:Windows系统里 python 命令可能被WindowsApps占位程序截获,运行会报"系统无法访问此文件"。实际Python在 workbuddy 目录下,需要手动修复PATH。
看起来万事俱备,结果一跑就炸了。
第一波踩坑:三连炸

炸1:图片模型不可用
原脚本硬编码了豆包的图片模型,一调接口就报:模型价格尚未配置,暂时无法使用。
Codex自己去查了API服务商支持的模型列表,筛选出可用的:dall-e-3、gemini-2.5-flash-image、gpt-image-1……逐个测试后选了 gpt-image-1。
Codex 自动做的事
1. 调API获取可用模型列表2. 筛选图片类模型(dall-e-3 / gemini / gpt-image-1)3. 逐个测试单张生成4. 选用 gpt-image-1,顺便改脚本支持第三方NewAPI格式
炸2:edge-tts中途503
图片问题刚解决,14张配图都生成好了,轮到语音合成时,微软的edge-tts突然报503握手失败。
这是微软语音服务的临时故障,不是代码逻辑问题。但如果你手动做视频,遇到这个就只能全部重来。
Codex的处理方式是:给每句语音合成加最多5次重试,已经生成过的mp3直接复用。第二次跑的时候,13句直接跳过(因为已生成),只有1句重试了一次。
炸3:Windows下FFmpeg drawtext翻车
字幕合成这步,原脚本用FFmpeg的 drawtext filter直接在视频上叠字幕。在Linux上完美运行,到了Windows上直接炸——路径里的反斜杠、中文、冒号、多个filter组合,FFmpeg解析到崩溃。
Codex没有死磕drawtext,直接换了方案:用PIL先把书名、作者、中英字幕绘制到每一张JPG上,再用FFmpeg把图片+单句音频合成视频片段,最后concat合并。
💡 关键认知:这个PIL方案比drawtext更稳定,而且以后每本书都能复用。Codex没有改需求,只换了实现路径。

Codex真正厉害的不是执行命令
很多人以为AI自动化就是「你说一句,它跑一条命令」。
Codex不一样的地方在于:它能自己定位问题、改脚本、重试、复用已有素材。
三个bug,每一个单独拿出来都够新手调试半天。但Codex一共处理了:
✅ 图片模型不可用 → 自动查模型列表 → 测试 → 选用 gpt-image-1
✅ edge-tts 503 → 自动加重试 → 复用已有mp3 → 不浪费已生成内容
✅ FFmpeg drawtext报错 → 换PIL渲染方案 → 不改需求只换实现
这不是「执行命令」,这是「把任务拆成步骤,然后每一步都自己想办法完成」。
稳定版SOP:以后换本书就改3个参数
跑通《原则》之后,我把全流程沉淀成了一套可复用的SOP。
以后生成任意一本书的视频,只需要准备一个金句模板文件,12到18句,每句中文不超过16字,英文不超过40字符:
《原则》金句模板示例
"好结果,来自好原则。""别逃避真实。""问题,是改进入口。""痛苦加反思,才会进化。""开放头脑,听真话。""别让自我挡住答案。""真正的原则,经得起重复。"
然后一条命令:
一键生成命令
python scripts\generate.py -b "书名" -a "作者" -q "模板.json" -o "输出目录"
Codex会依次完成:金句→AI配图→AI配音→字幕渲染→视频合成→BGM混音→成品交付。
下一本书只需要换3个参数:
📝 书名 → 比如《原子习惯》
👤 作者 → James Clear
💬 金句模板 → 12-18句核心思想
就可以批量生成新的书单号视频了。
写在最后
这次实操真正沉淀下来的三句话:
1️⃣ 真正的一键生成,不是一次命令不报错,而是Codex能把报错一路修到交付。
2️⃣ AI时代最值钱的,不是某个工具,而是你能不能把流程沉淀成自动化SOP。
3️⃣ 短视频生产的门槛,正在从「会不会剪辑」变成「会不会设计流程」。
过去做书单号靠剪辑经验,现在可以靠工作流工程。
花小钱办大事,才是普通人的AI生存之道。
你目前做短视频最耗时间的是哪个环节?欢迎评论区聊聊~
我是贺哥,关注我,每天分享一个AI副业实战技巧。
如果你也想拥抱AI,欢迎查看破局为你精选的【25个AI应用项目合集】,还有【3天AI实战营】,扫码免费领取,帮助你搞钱路上少走弯路。

下面是AI破局三天体验卡能体验AI破局90-180天内容所有AI的内容,信息资源(如AI带货,AI代创,AI自媒体,AI出海,AI办公、AI企培、AI编程、AI视频、AI智能体)

后面有年度会员限时超低价,三天体验后可以无脑入手
夜雨聆风