AI 旅行博客生成器 V2:五套排版与六种文风

上回书说到

V1 做了一件事：扔 9 张伊豆旅行照片进去，AI 自动看图、写文、排版、发布。全程不用人碰键盘。

能跑，但糙。

文字像导游词，每张图都"美丽的""壮观的"。排版只有一套，不管什么内容都长一个样。图片原图直出，手机打开要转三秒的加载圈。

V2 针对这三个痛点，动了三刀。

第一刀：让 AI 学会"看"

V1 的 Vision prompt 问的是"描述这张照片"。AI 很听话，给你一段百科式的回答——"这是一座被绿色植被覆盖的山"。

正确但没用。

V2 把 prompt 换成了写作者视角的提问：

你是旅行摄影师兼作家。不要给我"美丽的风景"这种废话。告诉我：

- 具体有什么物体？什么材质、什么颜色？

- 光线从哪个方向来？现在是什么时间？

- 如果画面里有人，他们在干什么？穿什么？

- 用什么修辞手法能把这个画面写活？

同时加了 user_context 机制——上传时附一段旅行背景（比如"和女朋友从大室山走到城崎海岸"），这段话会注入 Vision 和写作的 prompt，让 AI 有上下文。

效果对比：

	V1 输出	V2 输出
大室山	一座绿色的山	碗状火山口内壁覆满短草，底部一座红色鸟居像图钉钉住了对自然力量的敬畏
城崎海岸	美丽的海岸线	熔岩凝固成黑色褶皱，浪花撞上去碎成白色粉末，退回去时岩面上留一层亮光

不是 AI 变聪明了，是问对了问题。

第二刀：6 种写作风格 + 禁用词

V1 只有一个写作 prompt，产出千篇一律。V2 拆成 6 个 prompt 模板，每个定义完全不同的叙事结构：

literary（文艺散文）——要求用一个反常识的观察开头，把最强烈的感受藏在最平淡的句子里。适合风景和人文旅行。

humorous（吐槽向）——短句为主，每三段必须有一个转折吐槽。适合美食探店和城市暴走。

minimal（极简白描）——惜字如金，一个段落不超过三句。适合建筑和设计感强的场景。

xiaohongshu（小红书风）——emoji 密集，种草感拉满。适合攻略和推荐类。

vision（视觉锚点叙事）——以照片为锚点展开叙事，每段从一个视觉细节切入。适合摄影为主的游记。

reviewer（自动评审）——不写文章，而是给已生成的文章打分。从画面感、节奏感、情感真实度、信息密度四个维度评分，给出修改建议。

关键设计：所有写作 prompt 里硬编码了一条铁律——

禁止使用：壮观的、美丽的、令人叹为观止的、宛如仙境

这四个词是 AI 写游记的万能膏药。一禁，就逼它去找真正有画面感的表达。

伊豆那篇文章跑完 reviewer，得分 8.2/10，主要扣分点是"中段节奏略平，缺少情绪起伏"。这个反馈可以直接喂回写作 prompt 做第二轮生成——写作和评审分离，互相制约。

第三刀：5 套视觉模板

V1 只有一个 HTML 模板。V2 做了 5 套完全不同的渲染风格，同一篇游记可以一键换装：

默认·书卷风 —— 暖色调衬线标题，经典图文交错。像一本纸质旅行杂志的电子版。

杂志·黑底分栏 —— 全屏 Hero 大图开场，左右分栏图文对照，章节编号。长篇深度游记的最佳搭档。

胶片·复古风 —— Polaroid 白边框、胶片齿孔装饰、微微倾斜的随机角度。情绪感拉满。

卡片·移动优先 —— 紫蓝渐变 Header、圆角卡片容器、入场动画。专为手机阅读优化。

极简·Apple 风 —— 大留白、细线分割、图片缩小居中。减到不能再减，内容即设计。

上传照片时传一个 template 参数就切换。模板选择延迟到发布时——同一份内容可以反复用不同模板发布，不需要重新生成文字。

意外收获：图片压缩

V1 的 9 张原图加起来 2.5MB，手机上要转好几秒加载圈。

V2 在上传环节加了自动缩略图生成——用 ffmpeg 把原图压缩到 800px 宽，博客页面只加载缩略图。

效果：2.5MB → 492KB，体积减少 80%。

CSS 也做了调优：图片 70% 宽度居中、最大高度 200px、object-fit: cover 裁剪。视觉上小巧精致，不喧宾夺主。

原图保留在服务器上，点击可查看大图。渲染和存储分离。

架构：三层分离

┌─────────────────────────────────┐
│     Hermes + Skill 层           │
│  Vision 分析 · 写作 · 自动评审    │
│  6 个 Prompt 模板 · user_context │
├─────────────────────────────────┤
│     FastAPI 后端                 │
│  上传 · 发布 · 渲染 · 缩略图      │
│  5 套 HTML 模板 · API Key 保护    │
├─────────────────────────────────┤
│     静态文件层                    │
│  原图 · 缩略图 · 博客 HTML        │
└─────────────────────────────────┘

核心原则：智能全放 Skill 层，后端只做管道。

改 prompt 不动后端代码。加模板不动 Skill。换 Vision 模型改一行配置。每一层都可以独立迭代，互不干扰。

V2 的数字

指标	V1	V2
写作风格	1 种	6 种
渲染模板	1 套	5 套
图片体积	2.5MB	492KB（-80%）
Vision 输出质量	泛描述	细节+修辞建议
自动评审	无	四维度打分
Reviewer 评分	—	8.2/10

下一步

V2 解决了"能用→好用"。V3 要解决"好用→规模化"：

• 多语言：同一篇游记自动生成中英日三版

• 图片 CDN：从本地存储上 OSS，扛住流量

• 前端模板切换器：不重新发布，实时预览 5 套风格

• Vision 降本：从 Claude Vision 换 qwen-vl，成本降一个数量级

这是「AI 旅行博客生成器」系列第二篇。V1 从零跑通，V2 打磨细节。代码在跑，博客在线，欢迎私信交流。

👉 点击「阅读原文」可以查看五种排版风格的实际效果。