0 元打造 AI 绘画 APP,效果到底怎么样?

0 元打造 AI 绘画 APP，效果到底怎么样？

AI拾光织夜

用一台 4GB 显存的老笔记本，$0 预算，三周时间。先告诉你我做了一个什么东西，再看效果，最后聊怎么做。

📋 目录

一、这个软件能干什么二、效果怎么样三、花了多少钱四、为什么要自己做五、怎么做：先看整体思路六、第一步：选画师七、第二步：教用户跟画师说话八、第三步：让系统扛得住意外九、我不会编程，该怎么用 AI 写软件十、踩坑记录十一、优势在哪十二、下一步：我们要去哪十三、怎么开始用

一、这个软件能干什么

核心能力

文生图 — 输入一句话，AI 生成图片。支持 3 个顶级模型随时切：FLUX.1-schnell（极速出图）、SDXL（高分辨率）、SD 1.5（轻量经典）图生图— 上传一张参考图，告诉 AI 怎么改。换风格、换背景、换光影，想怎么变就怎么变文生视频— 输入一句话，AI 直接生成短视频。可调时长、帧率、分辨率AI 提示词优化— 写「一只猫」三个字，DeepSeek 自动给你扩写成一段专业英文描述，小白也能出大片风格预设— 一键切换写实照片 / 动漫 / 油画 / 3D 渲染，不用自己研究参数高级参数调节— 图片尺寸、生成步数、引导系数、随机种子，想精细控制的都能调负面提示词— 告诉 AI “不要什么”：不要模糊、不要变形、不要低画质多引擎自动切换— 硅基流动 / 阿里百炼 / HuggingFace 三平台自动 fallback，一个挂了切另一个，用户无感异步任务队列— 提交生成任务后可以关页面，回来再看结果。实时进度条，做到哪了一目了然作品画廊— 所有历史生成集中展示，支持分页、筛选、大图预览、一键下载用户系统— 注册登录、JWT 鉴权、Token 自动续期，50 次/天配额防滥用，次数可以改成不限内容安全 — 内置敏感词过滤，合规不踩线

一句话总结

一个免费、开源、零显卡门槛、能文生图/图生图/文生视频的 AI 创作工具。

二、效果怎么样

1、软件界面—效果图

2、提示词优化后的效果图

3、豆包生成的效果：

豆包 95 分 → AIGen 85-90 分

差的 10 分是大厂烧几亿自研模型的价值。剩下 85 分，开源模型 + 好提示词，0 元拿到。

三、花了多少钱

项目	花费	说明
FLUX / SDXL / Kolors 调用	¥0	硅基流动注册即送
CogVideoX 视频生成	¥0	硅基流动免费额度覆盖
提示词优化	¥0	DeepSeek 新用户 500 万 tokens
备用引擎	¥0	Pollinations + HuggingFace 社区
数据库 / 缓存 / 存储	¥0	PostgreSQL + Redis + MinIO 全开源
前端 / 后端框架	¥0	React + FastAPI + 所有依赖全开源
开发阶段总支出	¥0

上线后：云服务器 ¥50-80/月 + 域名 ¥50/年。

四、为什么要自己做

豆包和即梦我用过，确实好。但越用越不舒服：

1. 要收费。 免费额度两周用完，想继续就掏钱。2. 是黑盒。 用的什么模型？为什么这张好那张差？没法知道。3. 数据不属于你。 提示词、作品全存大厂服务器，哪天产品关了全没了。

市面主流产品一览

产品	背后模型	费用	能定制吗	数据在谁手里
豆包/即梦	字节自研	付费	✗	✗
Midjourney	自研 V6	$30/月	✗	✗
DALL·E 3	OpenAI	GPT Plus	✗	✗
FLUX.1 Pro	Black Forest	付费	✗	✗
Imagen 3	Google	付费	✗	✗

大厂的壁垒无非自研模型 + GPU 集群。但 FLUX、SDXL、Kolors 这些开源旗舰，效果完全不输他们自研的。

硬件壁垒被打穿了

一张 H100 二十万，我买不起。但云 API 已经帮我把模型部署好了——硅基流动的免费额度 + DeepSeek 送的 500 万 tokens，够跑几千张图。

五、怎么做：先看整体思路

我完全不知道怎么做，于是我这次直接向AI下发了指令：我想拥有豆包、即梦那样的AI绘画工具，可以生成图片、视频，你能告诉我该怎么做吗？你先根据IPD开发流程写一下工作任务书、需求规格说明书、概要设计、软件详细设计文档，给我评审下。

AI写完文档，我就让他直接编程，生成可执行文件，又让他写了测试用例，让他自己通过所有测试用例后，交给我一个可执行文件。然后我就运行体验了

做一个 AI 绘画工具，本质上要解决四个问题。想清楚这四个问题，剩下的就是写代码：

#	问题	普通人怎么理解	我们的方案
1	画师在哪	市面上几十个 AI 模型，选谁？收费还是免费？画得好不好？	主力 FLUX-schnell + Kolors，全走硅基流动免费 API
2	怎么跟画师说需求	用户写「一只猫」三个字，再好的模型也画不出大片	DeepSeek 自动把大白话变专业描述
3	画师罢工怎么办	API 会维护、会挂、会限流，不能把鸡蛋放一个篮子里	多引擎 fallback + 异步队列
4	用户等不了那么久	AI 画一张图要几十秒，浏览器不能一直转圈	任务队列 + 实时进度条，提交完可以关页面

下面逐个展开，每一步都告诉你「为什么这么做」而不只是「做了什么」。

六、第一步：选画师

先搞懂一个最容易踩的坑：DeepSeek 能不能直接画图？

不能。DeepSeek 是文字模型，不会画图。

这就像你能写一手好字，不代表你能画一幅好画——这是两种完全不同的能力。

	文字模型	图片模型
能力	写文章、编程、聊天	画图、生成视频
代表	DeepSeek / GPT	FLUX / SDXL

但两者可以配合：DeepSeek 写提示词 → FLUX 画图。各司其职。

画师名单——不花钱的顶级选手

模型	擅长什么	显存	哪里免费调
FLUX.1-schnell ⭐	4 步出图，质量接近商用 Pro 版	12GB	硅基流动
Kolors ⭐	快手开源，中文理解最强	8GB	硅基流动
SDXL 1.0	生态最丰富，ControlNet 插件最多	8GB	硅基流动
SD 3.5 Large	Stability AI 最新旗舰	12GB	HuggingFace
PixArt-α	华为开源，速度快	4GB	HuggingFace
CogVideoX	智谱开源，文生视频	12GB	硅基流动

显存列是给想本地部署的人看的。用云 API——0GB 也能跑，这些数字跟你没关系。

零门槛——注册都不用

方式	怎么用	质量
Pollinations	URL 直接访问，不需要 Key	★★★
HuggingFace 社区	网页免费使用，模型直接跑	★★★★

Pollinations 最简单粗暴——URL 发过去就出图。HuggingFace 社区质量更好，挑热度高的空间就行。这两个连注册都不用，适合当备用引擎。

为什么选硅基流动？一个平台集成了 FLUX + Kolors + SDXL + CogVideoX，注册即送免费额度。

最佳组合

硅基流动（免费）→ FLUX + SDXL + Kolors + CogVideoXDeepSeek（免费）→ 提示词优化一次注册，零成本开工。

七、第二步：教用户跟画师说话

为什么需要这一步？

普通用户不会写提示词。你让他描述画面，他就写「一个女孩」。AI 从三个字里猜他要什么——结果当然随机。

这不是用户的问题，也不是模型的问题。是中间缺了一个翻译。

AI 绘画效果 = 模型能力 × 提示词质量。模型大家都一样，差距出在提示词。

回头看第二章的对比图——同一模型，好提示词和差提示词，天壤之别。

怎么解决

后端接 DeepSeek API。用户写「一只猫」→ 点一下按钮 → DeepSeek 自动扩写成带光影、构图、画质的英文专业描述 → 送进 FLUX 出图。

为什么选 DeepSeek？新用户送 500 万 tokens，优化一条几百 tokens，够用几万次。中文理解一流。

DeepSeek 不能画图，但它能让画图模型发挥十成功力。

八、第三步：让系统扛得住意外

第三步要解决两个实际问题：

问题一：画师换人怎么办

硅基流动、阿里百炼、HuggingFace……每家 API 格式都不一样。

打个比方：就像你买了华为手机、小米充电宝、苹果耳机——充电口互不兼容。你不可能出门带三根线。

方案：万能转接头。写一个统一接口，每家平台配一个”转接头”，系统只认接口不认人。

# 统一接口——系统只认这三个方法 class AIAdapter: def create_task(params) → 提交任务 def query_task(task_id) → 查询进度 def get_models() → 有哪些模型可用 # 每家平台给一个”转接头” SiliconFlowAdapter → 硅基流动专用 BailianAdapter → 阿里百炼专用 HuggingFaceAdapter → HuggingFace 专用

实际效果：硅基流动某天挂了，5 分钟切到 HuggingFace，用户毫无感知。

问题二：用户不可能盯着屏幕等

AI 画一张图要 5-30 秒，视频要 1-5 分钟。浏览器不能一直转圈。

打个比方：餐厅取餐号——你不需要站厨房门口等，回去坐着，菜好了叫号。

用户点「生成」 → 系统秒回 task_id（取餐号） → 后台排队慢慢画 → 前端每 2 秒偷问一次「画好了没」 → 画好了 → 展示

为什么用 Redis + Celery？Redis 是消息中转站——来一个任务记一笔。Celery 是干活的工人——领任务、调 AI、存结果。工人倒了任务不丢，重启继续。

九、我不会编程，该怎么用 AI 写软件

看到这里你可能会想：「我又不会编程，这些东西跟我有什么关系？」

关系大了。因为这个软件的代码——

全部是 AI 写的。我一行代码都没手打。

我不是程序员。我做的只是告诉 AI 我要什么，检查它做出来的东西对不对，不对就让它们改，对了就让它们继续下一步。就像包工头管施工队——你不用自己搬砖，但你要知道房子该盖成什么样。

第一步：先写文档，不写代码

很多人一上来就让 AI 写代码。这就是为什么大多数人的项目最终烂尾。

你想想盖房子——施工队进场之前，是不是先要看图纸？没有图纸，工人今天砌墙明天拆，材料乱买，工期失控。

软件也一样。我用的方法是 IPD——集成产品开发流程。华为、IBM 用了几十年。简单说就是：

你先说想法，让AI帮你想清楚要做什么 → 写成文档 → 审核通过 → 再动手做。

我让 AI 按顺序写了四份文档，每一份写完我都要审核，通过了才让它写下一份：

#	文档	解决什么问题	你的审核重点
1	工作任务书	项目要做什么？目标是什么？范围多大？	目标说清楚了没？功能多了还是少了？
2	需求规格说明书	每个功能具体长什么样？用户怎么操作？	你能想象出软件界面吗？每个按钮点下去发生什么？
3	概要设计说明书	系统分几层？模块怎么划分？	架构图你看得懂吗？数据流向清晰吗？
4	详细设计说明书	每个接口叫什么？参数是什么？数据库怎么建？	API 列全了吗？数据库字段合理吗？

为什么这四份文档能防止烂尾？如果直接让 AI 写 5000 行代码，发现前后端对不上、API 不一致、缺字段——这时候改代码，牵一发动全身，项目只能烂尾。但先审核过文档再写代码，AI 只是翻译已达成共识的规格，出错概率低一个数量级。

四份文档加起来 80 多页。我一个字都没写，全是 AI 写的。但我每一页都看了一遍。

第二步：文档通过后，让 AI 写代码

四份文档审核通过后，AI 写代码效率极高——它不是凭空瞎猜，而是照着已经定好的规格一本一本来。

我的做法：把详细设计说明书里对应的章节贴给 AI，让它按规格实现。比如写「文生图」API，就把详细设计里那几页贴过去，AI 照着接口定义、参数列表、返回格式一行一行写。写完一个模块就跑测试，通了再写下一个。

整个项目 40 多个文件、6000 行代码。我做的事：贴文档 → 看代码 → 跑验证 → 有问题让 AI 改 → 通过后提交。

第三步：让 AI 编译成可运行的程序

代码写完了，接下来：怎么把这些代码变成能打开的软件？

用 Docker——理解成「软件打包机」。它把后端、前端、数据库、缓存、存储全部打包成一个整体。一个命令全部启动。

1. 安装 Docker

去 Docker 官网下载 Docker Desktop，一路「下一步」。这是唯一需要你装的东西。

2. 配置 API Key（可选但强烈推荐）

用记事本打开 backend/.env，填一行：SILICONFLOW_API_KEY=sk-你的key。不填也能用，系统自动走免费备用引擎，但填了画质从 ★★★ 跳到 ★★★★★。

3. 一键启动

docker-compose up -d

就这一行。Docker 自动下载依赖、启动数据库、后端、前端。第一次几分钟，之后十几秒。

4. 打开软件

启动完成后，浏览器输入：

在浏览器地址栏输入 localhost 并回车

注册一个账号，开始画图。

5. 不想用了，停止

docker-compose down

所有服务干净关闭，不占内存。下次想用重新 docker-compose up -d 就行。

整个过程，我的角色是什么？

我不是程序员，我是产品经理 + 测试员 + 决策者。

▪ AI 是施工队——写文档、写代码、编译、排错▪ 我是包工头——提需求、审文档、验代码、做决策▪ 施工队可以换（DeepSeek 不行换 GPT，GPT 不行换 Claude），但包工头只能是你自己

你不需要会编程。你需要的是：知道想要什么，能看出来做出来的东西对不对，不对的时候知道怎么描述问题让 AI 改。

十、踩坑记录

道理都对，实操全是坑：

坑	现象	解决
中文直接送图片 API	牛头不对马嘴	DeepSeek 先转英文
Token 过期	页面卡死	Axios 拦截器自动刷新
Base64 图片过大	10MB 转 Base64 后 13MB，网关拒	前端 Canvas 压缩到 1024px
API 字段名不统一	有的返 task_id，有的返 id	兼容两种字段名
Worker 崩溃丢任务	进行中的任务没了	task_acks_late=True

最大的教训：永远给你的 AI 引擎加 fallback。一个挂了，另一个顶上。

十一、优势在哪

vs 豆包 / 即梦 / Midjourney

维度	大厂	AIGen
费用	付费	免费
透明度	黑盒	能选、能换、能调
数据	存大厂服务器	在你手里
可定制	不可以	源码开源随便改

vs Stable Diffusion WebUI

维度	SD WebUI	AIGen
显卡	12GB+ 显存	不需要显卡
安装	Python 环境 + 模型下载 + 依赖地狱	Docker 一键
移动端	不支持	微信小程序

不需要几万块的显卡，就能用 FLUX 级别顶级模型出图。

十二、下一步：我们要去哪

现在的 AIGen 是 1.0——能用，但远没到「惊艳」。以下是已经在路线图上的功能：

即将上线

ControlNet 线稿上色 — 手绘草图，AI 自动填色渲染。设计师画线稿 → 一键出成品图片超分辨率 — 512px 一键拉 4K，老照片、低清素材直接重生局部重绘（Inpainting） — 涂抹图片一小块，AI 只改那一块。换发型、去路人、加道具图片扩展（Outpainting） — AI 脑补画面外内容。竖图变横图，半身变全身

中期规划

AI 写真生成 — 上传 5-10 张自拍，AI 学你面部特征，用你的脸生成任意风格照片风格迁移 — 一键转梵高油画、宫崎骏动画、新海诚电影风批量生成 — 上传 CSV 一次性生成几百张图，电商刚需提示词社区 — 分享提示词和效果图，一键复制别人配方语音输入 — 对着手机说需求，自动转文字 → 优化 → 出图

远期愿景

视频编辑 — 上传视频，文字指令改画面。说「把背景换成雪山」就换背景图片转视频 — 静态照片生成动态效果。照片里的人眨眨眼、树叶飘落插件市场 — 开放 API，任何人都能写扩展。社区共建iOS / Android 原生 APP — 离线也能用本地模型出图企业 API 开放 — 把 AIGen 变成 API 服务，其他工具直接调用

最终目标：让每个人都能用 AI 创作，不需要显卡、不需要技术、不需要花钱。

十三、怎么开始用

想直接上手体验

# 前提：装了 Node.js（Node.js 官网下载） cd mock-server && npm install && node server.js cd frontend && npm install && npm run dev # 浏览器打开本地地址 → 注册 → 开画

想接硅基流动提升画质（免费，强烈推荐）

1. 打开硅基流动官网 → 微信扫码注册 → 拿到 API Key2. 设置环境变量：SILICONFLOW_API_KEY=sk-你的key3. 重启 → 画质从 ★★★ 跳到 ★★★★★

想看完整设计文档

8 份软件工程文档已整理好（Web 版 + 微信小程序版）。

这个项目我一个人在做，免费开源。如果对你有启发，欢迎转发给同样喜欢折腾的朋友。有问题直接留言。