上回书说到
V1 做了一件事:扔 9 张伊豆旅行照片进去,AI 自动看图、写文、排版、发布。全程不用人碰键盘。
能跑,但糙。
文字像导游词,每张图都"美丽的""壮观的"。排版只有一套,不管什么内容都长一个样。图片原图直出,手机打开要转三秒的加载圈。
V2 针对这三个痛点,动了三刀。
第一刀:让 AI 学会"看"
V1 的 Vision prompt 问的是"描述这张照片"。AI 很听话,给你一段百科式的回答——"这是一座被绿色植被覆盖的山"。
正确但没用。
V2 把 prompt 换成了写作者视角的提问:
你是旅行摄影师兼作家。不要给我"美丽的风景"这种废话。告诉我:
- 具体有什么物体?什么材质、什么颜色?
- 光线从哪个方向来?现在是什么时间?
- 如果画面里有人,他们在干什么?穿什么?
- 用什么修辞手法能把这个画面写活?
同时加了 user_context 机制——上传时附一段旅行背景(比如"和女朋友从大室山走到城崎海岸"),这段话会注入 Vision 和写作的 prompt,让 AI 有上下文。
效果对比:
| V1 输出 | V2 输出 | |
|---|---|---|
| 大室山 | 一座绿色的山 | 碗状火山口内壁覆满短草,底部一座红色鸟居像图钉钉住了对自然力量的敬畏 |
| 城崎海岸 | 美丽的海岸线 | 熔岩凝固成黑色褶皱,浪花撞上去碎成白色粉末,退回去时岩面上留一层亮光 |
不是 AI 变聪明了,是问对了问题。
第二刀:6 种写作风格 + 禁用词
V1 只有一个写作 prompt,产出千篇一律。V2 拆成 6 个 prompt 模板,每个定义完全不同的叙事结构:
literary(文艺散文)——要求用一个反常识的观察开头,把最强烈的感受藏在最平淡的句子里。适合风景和人文旅行。
humorous(吐槽向)——短句为主,每三段必须有一个转折吐槽。适合美食探店和城市暴走。
minimal(极简白描)——惜字如金,一个段落不超过三句。适合建筑和设计感强的场景。
xiaohongshu(小红书风)——emoji 密集,种草感拉满。适合攻略和推荐类。
vision(视觉锚点叙事)——以照片为锚点展开叙事,每段从一个视觉细节切入。适合摄影为主的游记。
reviewer(自动评审)——不写文章,而是给已生成的文章打分。从画面感、节奏感、情感真实度、信息密度四个维度评分,给出修改建议。
关键设计:所有写作 prompt 里硬编码了一条铁律——
禁止使用:壮观的、美丽的、令人叹为观止的、宛如仙境
这四个词是 AI 写游记的万能膏药。一禁,就逼它去找真正有画面感的表达。
伊豆那篇文章跑完 reviewer,得分 8.2/10,主要扣分点是"中段节奏略平,缺少情绪起伏"。这个反馈可以直接喂回写作 prompt 做第二轮生成——写作和评审分离,互相制约。
第三刀:5 套视觉模板
V1 只有一个 HTML 模板。V2 做了 5 套完全不同的渲染风格,同一篇游记可以一键换装:
默认·书卷风 —— 暖色调衬线标题,经典图文交错。像一本纸质旅行杂志的电子版。
杂志·黑底分栏 —— 全屏 Hero 大图开场,左右分栏图文对照,章节编号。长篇深度游记的最佳搭档。
胶片·复古风 —— Polaroid 白边框、胶片齿孔装饰、微微倾斜的随机角度。情绪感拉满。
卡片·移动优先 —— 紫蓝渐变 Header、圆角卡片容器、入场动画。专为手机阅读优化。
极简·Apple 风 —— 大留白、细线分割、图片缩小居中。减到不能再减,内容即设计。
上传照片时传一个 template 参数就切换。模板选择延迟到发布时——同一份内容可以反复用不同模板发布,不需要重新生成文字。
意外收获:图片压缩
V1 的 9 张原图加起来 2.5MB,手机上要转好几秒加载圈。
V2 在上传环节加了自动缩略图生成——用 ffmpeg 把原图压缩到 800px 宽,博客页面只加载缩略图。
效果:2.5MB → 492KB,体积减少 80%。
CSS 也做了调优:图片 70% 宽度居中、最大高度 200px、object-fit: cover 裁剪。视觉上小巧精致,不喧宾夺主。
原图保留在服务器上,点击可查看大图。渲染和存储分离。
架构:三层分离
┌─────────────────────────────────┐
│ Hermes + Skill 层 │
│ Vision 分析 · 写作 · 自动评审 │
│ 6 个 Prompt 模板 · user_context │
├─────────────────────────────────┤
│ FastAPI 后端 │
│ 上传 · 发布 · 渲染 · 缩略图 │
│ 5 套 HTML 模板 · API Key 保护 │
├─────────────────────────────────┤
│ 静态文件层 │
│ 原图 · 缩略图 · 博客 HTML │
└─────────────────────────────────┘
核心原则:智能全放 Skill 层,后端只做管道。
改 prompt 不动后端代码。加模板不动 Skill。换 Vision 模型改一行配置。每一层都可以独立迭代,互不干扰。
V2 的数字
| 指标 | V1 | V2 |
|---|---|---|
| 写作风格 | 1 种 | 6 种 |
| 渲染模板 | 1 套 | 5 套 |
| 图片体积 | 2.5MB | 492KB(-80%) |
| Vision 输出质量 | 泛描述 | 细节+修辞建议 |
| 自动评审 | 无 | 四维度打分 |
| Reviewer 评分 | — | 8.2/10 |
下一步
V2 解决了"能用→好用"。V3 要解决"好用→规模化":
• 多语言:同一篇游记自动生成中英日三版
• 图片 CDN:从本地存储上 OSS,扛住流量
• 前端模板切换器:不重新发布,实时预览 5 套风格
• Vision 降本:从 Claude Vision 换 qwen-vl,成本降一个数量级
这是「AI 旅行博客生成器」系列第二篇。V1 从零跑通,V2 打磨细节。代码在跑,博客在线,欢迎私信交流。
👉 点击「阅读原文」可以查看五种排版风格的实际效果。
夜雨聆风