乐于分享
好东西不私藏

0 元打造 AI 绘画 APP,效果到底怎么样?

0 元打造 AI 绘画 APP,效果到底怎么样?

0 元打造 AI 绘画 APP,效果到底怎么样?

                                        AI拾光织夜

用一台 4GB 显存的老笔记本,$0 预算,三周时间。先告诉你我做了一个什么东西,再看效果,最后聊怎么做。

📋 目录

一、这个软件能干什么二、效果怎么样三、花了多少钱四、为什么要自己做五、怎么做:先看整体思路六、第一步:选画师七、第二步:教用户跟画师说话八、第三步:让系统扛得住意外九、我不会编程,该怎么用 AI 写软件十、踩坑记录十一、优势在哪十二、下一步:我们要去哪十三、怎么开始用


一、这个软件能干什么

核心能力

文生图 — 输入一句话,AI 生成图片。支持 3 个顶级模型随时切:FLUX.1-schnell(极速出图)、SDXL(高分辨率)、SD 1.5(轻量经典)图生图— 上传一张参考图,告诉 AI 怎么改。换风格、换背景、换光影,想怎么变就怎么变文生视频— 输入一句话,AI 直接生成短视频。可调时长、帧率、分辨率AI 提示词优化— 写「一只猫」三个字,DeepSeek 自动给你扩写成一段专业英文描述,小白也能出大片风格预设— 一键切换写实照片 / 动漫 / 油画 / 3D 渲染,不用自己研究参数高级参数调节— 图片尺寸、生成步数、引导系数、随机种子,想精细控制的都能调负面提示词— 告诉 AI “不要什么”:不要模糊、不要变形、不要低画质多引擎自动切换— 硅基流动 / 阿里百炼 / HuggingFace 三平台自动 fallback,一个挂了切另一个,用户无感异步任务队列— 提交生成任务后可以关页面,回来再看结果。实时进度条,做到哪了一目了然作品画廊— 所有历史生成集中展示,支持分页、筛选、大图预览、一键下载用户系统— 注册登录、JWT 鉴权、Token 自动续期,50 次/天配额防滥用,次数可以改成不限内容安全 — 内置敏感词过滤,合规不踩线

一句话总结

一个免费、开源、零显卡门槛、能文生图/图生图/文生视频的 AI 创作工具。

二、效果怎么样

1、软件界面—效果图

2、提示词优化后的效果图

3、豆包生成的效果:

豆包 95 分 → AIGen 85-90 分

差的 10 分是大厂烧几亿自研模型的价值。剩下 85 分,开源模型 + 好提示词,0 元拿到。


三、花了多少钱

项目
花费
说明
FLUX / SDXL / Kolors 调用
¥0
硅基流动注册即送
CogVideoX 视频生成
¥0
硅基流动免费额度覆盖
提示词优化
¥0
DeepSeek 新用户 500 万 tokens
备用引擎
¥0
Pollinations + HuggingFace 社区
数据库 / 缓存 / 存储
¥0
PostgreSQL + Redis + MinIO 全开源
前端 / 后端框架
¥0
React + FastAPI + 所有依赖全开源
开发阶段总支出
¥0

上线后:云服务器 ¥50-80/月 + 域名 ¥50/年。


四、为什么要自己做

豆包和即梦我用过,确实好。但越用越不舒服:

1. 要收费。 免费额度两周用完,想继续就掏钱。2. 是黑盒。 用的什么模型?为什么这张好那张差?没法知道。3. 数据不属于你。 提示词、作品全存大厂服务器,哪天产品关了全没了。


市面主流产品一览

产品
背后模型
费用
能定制吗
数据在谁手里
豆包/即梦
字节自研
付费
Midjourney
自研 V6
$30/月
DALL·E 3
OpenAI
GPT Plus
FLUX.1 Pro
Black Forest
付费
Imagen 3
Google
付费

大厂的壁垒无非自研模型 + GPU 集群。但 FLUX、SDXL、Kolors 这些开源旗舰,效果完全不输他们自研的。

硬件壁垒被打穿了

一张 H100 二十万,我买不起。但云 API 已经帮我把模型部署好了——硅基流动的免费额度 + DeepSeek 送的 500 万 tokens,够跑几千张图。


五、怎么做:先看整体思路

我完全不知道怎么做,于是我这次直接向AI下发了指令:我想拥有豆包、即梦那样的AI绘画工具,可以生成图片、视频,你能告诉我该怎么做吗?你先根据IPD开发流程写一下工作任务书、需求规格说明书、概要设计、软件详细设计文档,给我评审下。

AI写完文档,我就让他直接编程,生成可执行文件,又让他写了测试用例,让他自己通过所有测试用例后,交给我一个可执行文件。然后我就运行体验了

做一个 AI 绘画工具,本质上要解决四个问题。想清楚这四个问题,剩下的就是写代码:

#
问题
普通人怎么理解
我们的方案
1
画师在哪
市面上几十个 AI 模型,选谁?收费还是免费?画得好不好?
主力 FLUX-schnell + Kolors,全走硅基流动免费 API
2
怎么跟画师说需求
用户写「一只猫」三个字,再好的模型也画不出大片
DeepSeek 自动把大白话变专业描述
3
画师罢工怎么办
API 会维护、会挂、会限流,不能把鸡蛋放一个篮子里
多引擎 fallback + 异步队列
4
用户等不了那么久
AI 画一张图要几十秒,浏览器不能一直转圈
任务队列 + 实时进度条,提交完可以关页面

下面逐个展开,每一步都告诉你「为什么这么做」而不只是「做了什么」。


六、第一步:选画师

先搞懂一个最容易踩的坑:DeepSeek 能不能直接画图?

不能。DeepSeek 是文字模型,不会画图。

这就像你能写一手好字,不代表你能画一幅好画——这是两种完全不同的能力。
文字模型
图片模型
能力
写文章、编程、聊天
画图、生成视频
代表
DeepSeek / GPT
FLUX / SDXL

但两者可以配合:DeepSeek 写提示词 → FLUX 画图。各司其职。

画师名单——不花钱的顶级选手

模型
擅长什么
显存
哪里免费调
FLUX.1-schnell

 ⭐
4 步出图,质量接近商用 Pro 版
12GB
硅基流动
Kolors

 ⭐
快手开源,中文理解最强
8GB
硅基流动
SDXL 1.0
生态最丰富,ControlNet 插件最多
8GB
硅基流动
SD 3.5 Large
Stability AI 最新旗舰
12GB
HuggingFace
PixArt-α
华为开源,速度快
4GB
HuggingFace
CogVideoX
智谱开源,文生视频
12GB
硅基流动
显存列是给想本地部署的人看的。用云 API——0GB 也能跑,这些数字跟你没关系。

零门槛——注册都不用

方式
怎么用
质量
Pollinations
URL 直接访问,不需要 Key
★★★
HuggingFace 社区
网页免费使用,模型直接跑
★★★★

Pollinations 最简单粗暴——URL 发过去就出图。HuggingFace 社区质量更好,挑热度高的空间就行。这两个连注册都不用,适合当备用引擎。

为什么选硅基流动?一个平台集成了 FLUX + Kolors + SDXL + CogVideoX,注册即送免费额度。

最佳组合

硅基流动(免费)→ FLUX + SDXL + Kolors + CogVideoXDeepSeek(免费)→ 提示词优化一次注册,零成本开工。

七、第二步:教用户跟画师说话

为什么需要这一步?

普通用户不会写提示词。你让他描述画面,他就写「一个女孩」。AI 从三个字里猜他要什么——结果当然随机。

这不是用户的问题,也不是模型的问题。是中间缺了一个翻译。

AI 绘画效果 = 模型能力 × 提示词质量。模型大家都一样,差距出在提示词。

回头看第二章的对比图——同一模型,好提示词和差提示词,天壤之别。

怎么解决

后端接 DeepSeek API。用户写「一只猫」→ 点一下按钮 → DeepSeek 自动扩写成带光影、构图、画质的英文专业描述 → 送进 FLUX 出图。

为什么选 DeepSeek?新用户送 500 万 tokens,优化一条几百 tokens,够用几万次。中文理解一流。

DeepSeek 不能画图,但它能让画图模型发挥十成功力。


八、第三步:让系统扛得住意外

第三步要解决两个实际问题

问题一:画师换人怎么办

硅基流动、阿里百炼、HuggingFace……每家 API 格式都不一样。

打个比方:就像你买了华为手机、小米充电宝、苹果耳机——充电口互不兼容。你不可能出门带三根线。

方案:万能转接头。写一个统一接口,每家平台配一个”转接头”,系统只认接口不认人。

# 统一接口——系统只认这三个方法 class AIAdapter:     def create_task(params)  → 提交任务     def query_task(task_id)  → 查询进度     def get_models()         → 有哪些模型可用  # 每家平台给一个”转接头” SiliconFlowAdapter  → 硅基流动专用 BailianAdapter      → 阿里百炼专用 HuggingFaceAdapter  → HuggingFace 专用

实际效果:硅基流动某天挂了,5 分钟切到 HuggingFace,用户毫无感知。

问题二:用户不可能盯着屏幕等

AI 画一张图要 5-30 秒,视频要 1-5 分钟。浏览器不能一直转圈。

打个比方:餐厅取餐号——你不需要站厨房门口等,回去坐着,菜好了叫号。

用户点「生成」 → 系统秒回 task_id(取餐号) → 后台排队慢慢画 → 前端每 2 秒偷问一次「画好了没」 → 画好了 → 展示

为什么用 Redis + Celery?Redis 是消息中转站——来一个任务记一笔。Celery 是干活的工人——领任务、调 AI、存结果。工人倒了任务不丢,重启继续。


九、我不会编程,该怎么用 AI 写软件

看到这里你可能会想:「我又不会编程,这些东西跟我有什么关系?」

关系大了。因为这个软件的代码——

全部是 AI 写的。我一行代码都没手打。

我不是程序员。我做的只是告诉 AI 我要什么,检查它做出来的东西对不对,不对就让它们改,对了就让它们继续下一步。就像包工头管施工队——你不用自己搬砖,但你要知道房子该盖成什么样。


第一步:先写文档,不写代码

很多人一上来就让 AI 写代码。这就是为什么大多数人的项目最终烂尾。

你想想盖房子——施工队进场之前,是不是先要看图纸?没有图纸,工人今天砌墙明天拆,材料乱买,工期失控。

软件也一样。我用的方法是 IPD——集成产品开发流程。华为、IBM 用了几十年。简单说就是:

你先说想法,让AI帮你想清楚要做什么 → 写成文档 → 审核通过 → 再动手做。

我让 AI 按顺序写了四份文档,每一份写完我都要审核,通过了才让它写下一份:

#
文档
解决什么问题
你的审核重点
1
工作任务书
项目要做什么?目标是什么?范围多大?
目标说清楚了没?功能多了还是少了?
2
需求规格说明书
每个功能具体长什么样?用户怎么操作?
你能想象出软件界面吗?每个按钮点下去发生什么?
3
概要设计说明书
系统分几层?模块怎么划分?
架构图你看得懂吗?数据流向清晰吗?
4
详细设计说明书
每个接口叫什么?参数是什么?数据库怎么建?
API 列全了吗?数据库字段合理吗?

为什么这四份文档能防止烂尾?如果直接让 AI 写 5000 行代码,发现前后端对不上、API 不一致、缺字段——这时候改代码,牵一发动全身,项目只能烂尾。但先审核过文档再写代码,AI 只是翻译已达成共识的规格,出错概率低一个数量级。

四份文档加起来 80 多页。我一个字都没写,全是 AI 写的。但我每一页都看了一遍。


第二步:文档通过后,让 AI 写代码

四份文档审核通过后,AI 写代码效率极高——它不是凭空瞎猜,而是照着已经定好的规格一本一本来。

我的做法:把详细设计说明书里对应的章节贴给 AI,让它按规格实现。比如写「文生图」API,就把详细设计里那几页贴过去,AI 照着接口定义、参数列表、返回格式一行一行写。写完一个模块就跑测试,通了再写下一个。

整个项目 40 多个文件、6000 行代码。我做的事:贴文档 → 看代码 → 跑验证 → 有问题让 AI 改 → 通过后提交。


第三步:让 AI 编译成可运行的程序

代码写完了,接下来:怎么把这些代码变成能打开的软件?

用 Docker——理解成「软件打包机」。它把后端、前端、数据库、缓存、存储全部打包成一个整体。一个命令全部启动。

1. 安装 Docker

去 Docker 官网下载 Docker Desktop,一路「下一步」。这是唯一需要你装的东西。

2. 配置 API Key(可选但强烈推荐)

用记事本打开 backend/.env,填一行:SILICONFLOW_API_KEY=sk-你的key。不填也能用,系统自动走免费备用引擎,但填了画质从 ★★★ 跳到 ★★★★★。

3. 一键启动

docker-compose up -d

就这一行。Docker 自动下载依赖、启动数据库、后端、前端。第一次几分钟,之后十几秒。

4. 打开软件

启动完成后,浏览器输入:

在浏览器地址栏输入 localhost 并回车

注册一个账号,开始画图。

5. 不想用了,停止

docker-compose down

所有服务干净关闭,不占内存。下次想用重新 docker-compose up -d 就行。


整个过程,我的角色是什么?

我不是程序员,我是产品经理 + 测试员 + 决策者

▪ AI 是施工队——写文档、写代码、编译、排错▪ 我是包工头——提需求、审文档、验代码、做决策▪ 施工队可以换(DeepSeek 不行换 GPT,GPT 不行换 Claude),但包工头只能是你自己

你不需要会编程。你需要的是:知道想要什么,能看出来做出来的东西对不对,不对的时候知道怎么描述问题让 AI 改。


十、踩坑记录

道理都对,实操全是坑:

现象
解决
中文直接送图片 API
牛头不对马嘴
DeepSeek 先转英文
Token 过期
页面卡死
Axios 拦截器自动刷新
Base64 图片过大
10MB 转 Base64 后 13MB,网关拒
前端 Canvas 压缩到 1024px
API 字段名不统一
有的返 task_id,有的返 id
兼容两种字段名
Worker 崩溃丢任务
进行中的任务没了
task_acks_late=True

最大的教训:永远给你的 AI 引擎加 fallback。一个挂了,另一个顶上。


十一、优势在哪

vs 豆包 / 即梦 / Midjourney

维度
大厂
AIGen
费用
付费
免费
透明度
黑盒
能选、能换、能调
数据
存大厂服务器
在你手里
可定制
不可以
源码开源随便改

vs Stable Diffusion WebUI

维度
SD WebUI
AIGen
显卡
12GB+ 显存
不需要显卡
安装
Python 环境 + 模型下载 + 依赖地狱
Docker 一键
移动端
不支持
微信小程序

不需要几万块的显卡,就能用 FLUX 级别顶级模型出图。


十二、下一步:我们要去哪

现在的 AIGen 是 1.0——能用,但远没到「惊艳」。以下是已经在路线图上的功能:

即将上线

ControlNet 线稿上色 — 手绘草图,AI 自动填色渲染。设计师画线稿 → 一键出成品图片超分辨率 — 512px 一键拉 4K,老照片、低清素材直接重生局部重绘(Inpainting) — 涂抹图片一小块,AI 只改那一块。换发型、去路人、加道具图片扩展(Outpainting) — AI 脑补画面外内容。竖图变横图,半身变全身

中期规划

AI 写真生成 — 上传 5-10 张自拍,AI 学你面部特征,用你的脸生成任意风格照片风格迁移 — 一键转梵高油画、宫崎骏动画、新海诚电影风批量生成 — 上传 CSV 一次性生成几百张图,电商刚需提示词社区 — 分享提示词和效果图,一键复制别人配方语音输入 — 对着手机说需求,自动转文字 → 优化 → 出图

远期愿景

视频编辑 — 上传视频,文字指令改画面。说「把背景换成雪山」就换背景图片转视频 — 静态照片生成动态效果。照片里的人眨眨眼、树叶飘落插件市场 — 开放 API,任何人都能写扩展。社区共建iOS / Android 原生 APP — 离线也能用本地模型出图企业 API 开放 — 把 AIGen 变成 API 服务,其他工具直接调用

最终目标:让每个人都能用 AI 创作,不需要显卡、不需要技术、不需要花钱。


十三、怎么开始用

想直接上手体验

# 前提:装了 Node.js(Node.js 官网下载) cd mock-server && npm install && node server.js cd frontend && npm install && npm run dev # 浏览器打开本地地址 → 注册 → 开画

想接硅基流动提升画质(免费,强烈推荐)

1. 打开硅基流动官网 → 微信扫码注册 → 拿到 API Key2. 设置环境变量:SILICONFLOW_API_KEY=sk-你的key3. 重启 → 画质从 ★★★ 跳到 ★★★★★

想看完整设计文档

8 份软件工程文档已整理好(Web 版 + 微信小程序版)。


这个项目我一个人在做,免费开源。如果对你有启发,欢迎转发给同样喜欢折腾的朋友。有问题直接留言。