0 元打造 AI 绘画 APP,效果到底怎么样?
0 元打造 AI 绘画 APP,效果到底怎么样?
AI拾光织夜
用一台 4GB 显存的老笔记本,$0 预算,三周时间。先告诉你我做了一个什么东西,再看效果,最后聊怎么做。
📋 目录
一、这个软件能干什么二、效果怎么样三、花了多少钱四、为什么要自己做五、怎么做:先看整体思路六、第一步:选画师七、第二步:教用户跟画师说话八、第三步:让系统扛得住意外九、我不会编程,该怎么用 AI 写软件十、踩坑记录十一、优势在哪十二、下一步:我们要去哪十三、怎么开始用
一、这个软件能干什么
核心能力
文生图 — 输入一句话,AI 生成图片。支持 3 个顶级模型随时切:FLUX.1-schnell(极速出图)、SDXL(高分辨率)、SD 1.5(轻量经典)图生图— 上传一张参考图,告诉 AI 怎么改。换风格、换背景、换光影,想怎么变就怎么变文生视频— 输入一句话,AI 直接生成短视频。可调时长、帧率、分辨率AI 提示词优化— 写「一只猫」三个字,DeepSeek 自动给你扩写成一段专业英文描述,小白也能出大片风格预设— 一键切换写实照片 / 动漫 / 油画 / 3D 渲染,不用自己研究参数高级参数调节— 图片尺寸、生成步数、引导系数、随机种子,想精细控制的都能调负面提示词— 告诉 AI “不要什么”:不要模糊、不要变形、不要低画质多引擎自动切换— 硅基流动 / 阿里百炼 / HuggingFace 三平台自动 fallback,一个挂了切另一个,用户无感异步任务队列— 提交生成任务后可以关页面,回来再看结果。实时进度条,做到哪了一目了然作品画廊— 所有历史生成集中展示,支持分页、筛选、大图预览、一键下载用户系统— 注册登录、JWT 鉴权、Token 自动续期,50 次/天配额防滥用,次数可以改成不限内容安全 — 内置敏感词过滤,合规不踩线
一句话总结
一个免费、开源、零显卡门槛、能文生图/图生图/文生视频的 AI 创作工具。
二、效果怎么样
1、软件界面—效果图

2、提示词优化后的效果图

3、豆包生成的效果:

豆包 95 分 → AIGen 85-90 分
差的 10 分是大厂烧几亿自研模型的价值。剩下 85 分,开源模型 + 好提示词,0 元拿到。
三、花了多少钱
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 开发阶段总支出 |
|
上线后:云服务器 ¥50-80/月 + 域名 ¥50/年。
四、为什么要自己做
豆包和即梦我用过,确实好。但越用越不舒服:
1. 要收费。 免费额度两周用完,想继续就掏钱。2. 是黑盒。 用的什么模型?为什么这张好那张差?没法知道。3. 数据不属于你。 提示词、作品全存大厂服务器,哪天产品关了全没了。
市面主流产品一览
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
大厂的壁垒无非自研模型 + GPU 集群。但 FLUX、SDXL、Kolors 这些开源旗舰,效果完全不输他们自研的。
硬件壁垒被打穿了
一张 H100 二十万,我买不起。但云 API 已经帮我把模型部署好了——硅基流动的免费额度 + DeepSeek 送的 500 万 tokens,够跑几千张图。
五、怎么做:先看整体思路
我完全不知道怎么做,于是我这次直接向AI下发了指令:我想拥有豆包、即梦那样的AI绘画工具,可以生成图片、视频,你能告诉我该怎么做吗?你先根据IPD开发流程写一下工作任务书、需求规格说明书、概要设计、软件详细设计文档,给我评审下。
AI写完文档,我就让他直接编程,生成可执行文件,又让他写了测试用例,让他自己通过所有测试用例后,交给我一个可执行文件。然后我就运行体验了
做一个 AI 绘画工具,本质上要解决四个问题。想清楚这四个问题,剩下的就是写代码:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
下面逐个展开,每一步都告诉你「为什么这么做」而不只是「做了什么」。
六、第一步:选画师
先搞懂一个最容易踩的坑:DeepSeek 能不能直接画图?
不能。DeepSeek 是文字模型,不会画图。
这就像你能写一手好字,不代表你能画一幅好画——这是两种完全不同的能力。
|
|
|
|
|
|
|
|
|
|
|
|
但两者可以配合:DeepSeek 写提示词 → FLUX 画图。各司其职。
画师名单——不花钱的顶级选手
|
|
|
|
|
| FLUX.1-schnell
|
|
|
|
| Kolors
|
|
|
|
| SDXL 1.0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
| CogVideoX |
|
|
|
显存列是给想本地部署的人看的。用云 API——0GB 也能跑,这些数字跟你没关系。
零门槛——注册都不用
|
|
|
|
| Pollinations |
|
|
| HuggingFace 社区 |
|
|
Pollinations 最简单粗暴——URL 发过去就出图。HuggingFace 社区质量更好,挑热度高的空间就行。这两个连注册都不用,适合当备用引擎。
为什么选硅基流动?一个平台集成了 FLUX + Kolors + SDXL + CogVideoX,注册即送免费额度。
最佳组合
硅基流动(免费)→ FLUX + SDXL + Kolors + CogVideoXDeepSeek(免费)→ 提示词优化一次注册,零成本开工。
七、第二步:教用户跟画师说话
为什么需要这一步?
普通用户不会写提示词。你让他描述画面,他就写「一个女孩」。AI 从三个字里猜他要什么——结果当然随机。
这不是用户的问题,也不是模型的问题。是中间缺了一个翻译。
AI 绘画效果 = 模型能力 × 提示词质量。模型大家都一样,差距出在提示词。
回头看第二章的对比图——同一模型,好提示词和差提示词,天壤之别。
怎么解决
后端接 DeepSeek API。用户写「一只猫」→ 点一下按钮 → DeepSeek 自动扩写成带光影、构图、画质的英文专业描述 → 送进 FLUX 出图。
为什么选 DeepSeek?新用户送 500 万 tokens,优化一条几百 tokens,够用几万次。中文理解一流。
DeepSeek 不能画图,但它能让画图模型发挥十成功力。
八、第三步:让系统扛得住意外
第三步要解决两个实际问题:
问题一:画师换人怎么办
硅基流动、阿里百炼、HuggingFace……每家 API 格式都不一样。
打个比方:就像你买了华为手机、小米充电宝、苹果耳机——充电口互不兼容。你不可能出门带三根线。
方案:万能转接头。写一个统一接口,每家平台配一个”转接头”,系统只认接口不认人。
# 统一接口——系统只认这三个方法 class AIAdapter: def create_task(params) → 提交任务 def query_task(task_id) → 查询进度 def get_models() → 有哪些模型可用 # 每家平台给一个”转接头” SiliconFlowAdapter → 硅基流动专用 BailianAdapter → 阿里百炼专用 HuggingFaceAdapter → HuggingFace 专用
实际效果:硅基流动某天挂了,5 分钟切到 HuggingFace,用户毫无感知。
问题二:用户不可能盯着屏幕等
AI 画一张图要 5-30 秒,视频要 1-5 分钟。浏览器不能一直转圈。
打个比方:餐厅取餐号——你不需要站厨房门口等,回去坐着,菜好了叫号。
用户点「生成」 → 系统秒回 task_id(取餐号) → 后台排队慢慢画 → 前端每 2 秒偷问一次「画好了没」 → 画好了 → 展示
为什么用 Redis + Celery?Redis 是消息中转站——来一个任务记一笔。Celery 是干活的工人——领任务、调 AI、存结果。工人倒了任务不丢,重启继续。
九、我不会编程,该怎么用 AI 写软件
看到这里你可能会想:「我又不会编程,这些东西跟我有什么关系?」
关系大了。因为这个软件的代码——
全部是 AI 写的。我一行代码都没手打。
我不是程序员。我做的只是告诉 AI 我要什么,检查它做出来的东西对不对,不对就让它们改,对了就让它们继续下一步。就像包工头管施工队——你不用自己搬砖,但你要知道房子该盖成什么样。
第一步:先写文档,不写代码
很多人一上来就让 AI 写代码。这就是为什么大多数人的项目最终烂尾。
你想想盖房子——施工队进场之前,是不是先要看图纸?没有图纸,工人今天砌墙明天拆,材料乱买,工期失控。
软件也一样。我用的方法是 IPD——集成产品开发流程。华为、IBM 用了几十年。简单说就是:
你先说想法,让AI帮你想清楚要做什么 → 写成文档 → 审核通过 → 再动手做。
我让 AI 按顺序写了四份文档,每一份写完我都要审核,通过了才让它写下一份:
|
|
|
|
|
|
|
工作任务书 |
|
|
|
|
需求规格说明书 |
|
|
|
|
概要设计说明书 |
|
|
|
|
详细设计说明书 |
|
|
为什么这四份文档能防止烂尾?如果直接让 AI 写 5000 行代码,发现前后端对不上、API 不一致、缺字段——这时候改代码,牵一发动全身,项目只能烂尾。但先审核过文档再写代码,AI 只是翻译已达成共识的规格,出错概率低一个数量级。
四份文档加起来 80 多页。我一个字都没写,全是 AI 写的。但我每一页都看了一遍。
第二步:文档通过后,让 AI 写代码
四份文档审核通过后,AI 写代码效率极高——它不是凭空瞎猜,而是照着已经定好的规格一本一本来。
我的做法:把详细设计说明书里对应的章节贴给 AI,让它按规格实现。比如写「文生图」API,就把详细设计里那几页贴过去,AI 照着接口定义、参数列表、返回格式一行一行写。写完一个模块就跑测试,通了再写下一个。
整个项目 40 多个文件、6000 行代码。我做的事:贴文档 → 看代码 → 跑验证 → 有问题让 AI 改 → 通过后提交。
第三步:让 AI 编译成可运行的程序
代码写完了,接下来:怎么把这些代码变成能打开的软件?
用 Docker——理解成「软件打包机」。它把后端、前端、数据库、缓存、存储全部打包成一个整体。一个命令全部启动。
1. 安装 Docker
去 Docker 官网下载 Docker Desktop,一路「下一步」。这是唯一需要你装的东西。
2. 配置 API Key(可选但强烈推荐)
用记事本打开 backend/.env,填一行:SILICONFLOW_API_KEY=sk-你的key。不填也能用,系统自动走免费备用引擎,但填了画质从 ★★★ 跳到 ★★★★★。
3. 一键启动
docker-compose up -d
就这一行。Docker 自动下载依赖、启动数据库、后端、前端。第一次几分钟,之后十几秒。
4. 打开软件
启动完成后,浏览器输入:
在浏览器地址栏输入 localhost 并回车
注册一个账号,开始画图。
5. 不想用了,停止
docker-compose down
所有服务干净关闭,不占内存。下次想用重新 docker-compose up -d 就行。
整个过程,我的角色是什么?
我不是程序员,我是产品经理 + 测试员 + 决策者。
▪ AI 是施工队——写文档、写代码、编译、排错▪ 我是包工头——提需求、审文档、验代码、做决策▪ 施工队可以换(DeepSeek 不行换 GPT,GPT 不行换 Claude),但包工头只能是你自己
你不需要会编程。你需要的是:知道想要什么,能看出来做出来的东西对不对,不对的时候知道怎么描述问题让 AI 改。
十、踩坑记录
道理都对,实操全是坑:
|
|
|
|
| 中文直接送图片 API |
|
|
| Token 过期 |
|
|
| Base64 图片过大 |
|
|
| API 字段名不统一 |
|
|
| Worker 崩溃丢任务 |
|
|
最大的教训:永远给你的 AI 引擎加 fallback。一个挂了,另一个顶上。
十一、优势在哪
vs 豆包 / 即梦 / Midjourney
|
|
|
|
|
|
|
免费 |
|
|
|
能选、能换、能调 |
|
|
|
在你手里 |
|
|
|
源码开源随便改 |
vs Stable Diffusion WebUI
|
|
|
|
|
|
|
不需要显卡 |
|
|
|
Docker 一键 |
|
|
|
微信小程序 |
不需要几万块的显卡,就能用 FLUX 级别顶级模型出图。
十二、下一步:我们要去哪
现在的 AIGen 是 1.0——能用,但远没到「惊艳」。以下是已经在路线图上的功能:
即将上线
ControlNet 线稿上色 — 手绘草图,AI 自动填色渲染。设计师画线稿 → 一键出成品图片超分辨率 — 512px 一键拉 4K,老照片、低清素材直接重生局部重绘(Inpainting) — 涂抹图片一小块,AI 只改那一块。换发型、去路人、加道具图片扩展(Outpainting) — AI 脑补画面外内容。竖图变横图,半身变全身
中期规划
AI 写真生成 — 上传 5-10 张自拍,AI 学你面部特征,用你的脸生成任意风格照片风格迁移 — 一键转梵高油画、宫崎骏动画、新海诚电影风批量生成 — 上传 CSV 一次性生成几百张图,电商刚需提示词社区 — 分享提示词和效果图,一键复制别人配方语音输入 — 对着手机说需求,自动转文字 → 优化 → 出图
远期愿景
视频编辑 — 上传视频,文字指令改画面。说「把背景换成雪山」就换背景图片转视频 — 静态照片生成动态效果。照片里的人眨眨眼、树叶飘落插件市场 — 开放 API,任何人都能写扩展。社区共建iOS / Android 原生 APP — 离线也能用本地模型出图企业 API 开放 — 把 AIGen 变成 API 服务,其他工具直接调用
最终目标:让每个人都能用 AI 创作,不需要显卡、不需要技术、不需要花钱。
十三、怎么开始用
想直接上手体验
# 前提:装了 Node.js(Node.js 官网下载) cd mock-server && npm install && node server.js cd frontend && npm install && npm run dev # 浏览器打开本地地址 → 注册 → 开画
想接硅基流动提升画质(免费,强烈推荐)
1. 打开硅基流动官网 → 微信扫码注册 → 拿到 API Key2. 设置环境变量:SILICONFLOW_API_KEY=sk-你的key3. 重启 → 画质从 ★★★ 跳到 ★★★★★
想看完整设计文档
8 份软件工程文档已整理好(Web 版 + 微信小程序版)。
这个项目我一个人在做,免费开源。如果对你有启发,欢迎转发给同样喜欢折腾的朋友。有问题直接留言。
夜雨聆风