乐于分享
好东西不私藏

微调大模型终于被做成了「Web App」:100+模型、一张显卡、不写代码,近7000人疯狂收藏!

微调大模型终于被做成了「Web App」:100+模型、一张显卡、不写代码,近7000人疯狂收藏!

导读
【导读】一个开源项目把微调大模型这件事,从「写几百行训练脚本」变成了「打开浏览器点点按钮」。LlamaFactory 支持 100+ 主流大模型、覆盖 LoRA/QLoRA/DPO/PPO 等几乎所有训练方法,用一张消费级显卡就能跑起来。一条推文拿下4200+ 点赞、近 7000 人收藏,有人直呼:「这就是大模型界的 Automatic1111!」

一条推文引爆全网:4254 赞、6877 收藏

2025 年 5 月 24 日,AI 博主 Avi Chawla 在 X 上发了一条推文。

内容很简单——

“Fine-tune 100+ LLMs directly from a UI!”

「直接通过用户界面微调 100 多个 LLM!」

就这一句话,配一段 LlamaFactory Web UI 的演示视频。

4254 个赞。587 次转发。6877 人收藏。

▲ Avi Chawla(@_avichawla)的推文,55.7 万次查看,近 7000 人收藏

这不是一个新项目的发布。LlamaFactory 已经存在快两年了。但这条推文戳中了所有 AI 开发者的痛点:微调大模型,真的太折腾了。

写训练脚本、配 YAML、装各种依赖、处理 OOM 报错、模型不收敛了反复调参……每一步都在劝退。

而 LlamaFactory 说:这些,我全包了。你只管打开浏览器。

这玩意到底是什么?

LlamaFactory(项目名 LLaMA-Factory)是北航研究者郑耀威(GitHub:hiyouga)主导开发的开源微调平台。

一句话概括:它把「微调大模型」这件需要写代码的工程活,做成了「填表单 + 点按钮」的产品。

官方 README 原话:

“Easily fine-tune 100+ large language models with zero-code CLI and Web UI”

「通过零代码的命令行和 Web UI,轻松微调 100 多个大语言模型。」

arXiv 论文标题更直白——《LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models》,把「100+」直接写进了标题。2024 年被 ACL(计算语言学顶会)接收为系统演示论文。

GitHub 星标超过6.9 万,265 位贡献者,被 NVIDIA、Amazon 等企业在生产环境中使用。

▲ LlamaFactory 官方推文,宣布 v0.9.4 版本发布,支持 500+ 模型

「单张消费级 GPU」到底怎么做到的?

先泼一盆冷水:不是所有 70B 大模型都能在一张 4090 上随便训。

但 LlamaFactory 的核心策略是:把省显存的技术栈产品化了。

关键词是两个——LoRAQLoRA

打个比方:全参数微调就像「重写整本书」,LoRA 是「在书旁边贴一小叠便签」——只训练极小一部分参数,显存需求暴降。QLoRA 更狠,先把模型压缩到 4-bit 精度再训练。

效果有多夸张?看 README 里的官方显存表:

训练方式
7B 模型
14B 模型
70B 模型
全参数(32-bit)
120GB
天文数字
QLoRA(4-bit)
6GB 12GB 48GB
QLoRA(2-bit)
4GB 8GB 24GB

7B 模型 + QLoRA 4-bit = 6GB 显存。一张 GTX 1660 Ti 就够了。

14B 模型只要 12GB——一张 RTX 3060 搞定。

当然,README 也很诚实地写了:「FSDP+QLoRA fine-tunes a 70B model on2x24GBGPUs」——70B 级别即使压缩也需要两张 24GB 卡。

它没有神化「单卡」,但确实把「消费级 GPU 能做微调」这件事从理论变成了现实。

▲ 中文圈 @aigclink 的传播帖,1.2 万次查看,138 人收藏

Web UI 才是真正的「破圈杀器」

LlamaFactory 支持的功能列表长到让人窒息:

  • 训练方法:SFT(指令微调)、DPO、PPO、KTO、ORPO、SimPO……
  • 效率方案:LoRA、2/3/4/5/6/8-bit QLoRA、FlashAttention-2、Unsloth……
  • 模型支持:LLaMA、Qwen、Mistral、DeepSeek、Gemma、Phi、Yi……

但真正让它「出圈」的,不是功能多。

是它把这些复杂到让人头秃的选项,做成了下拉框和输入框。

官方博客教程里,启动 Web UI 只需要一条命令:

“` llamafactory-cli webui “`

然后你就进入了一个 Gradio 页面——选模型、选训练方法(LoRA/QLoRA)、配学习率和 epochs、挂数据集、点开始训练。

整个过程不需要写一行 Python。

训练完了?还有下一步:

“` llamafactory-cli chat    # 跟你微调的模型对话 llamafactory-cli export  # 导出模型 “`

甚至可以直接从 UI 导出到 Ollama 和 vLLM,训完直接本地部署。

这不是训练脚本,这是一个完整的「微调工作流产品」。

「大模型界的 Automatic1111」

有一条推文说得最到位。

X 用户 @techNmak 写道:

“Fine-tuning an LLM used to require a PhD. Now it takes 3 clicks.”

“I found the tool that democratizes custom models. It’s called LlamaFactory.”

“It is the ‘Automatic1111’ for Large Language Models.”

「微调 LLM 以前需要博士学位。现在只要点三下。」

「我找到了一个让所有人都能定制大模型的工具。它叫 LlamaFactory。」

「它就是大语言模型界的 Automatic1111。」

▲ @techNmak 把 LlamaFactory 比作「大模型的 Automatic1111」,1.8 万次查看

这个类比太精准了。

2023 年,Stable Diffusion 的 Automatic1111 WebUI 让「AI 画图」从程序员的命令行走进了每个人的浏览器。

2025 年,LlamaFactory 正在对「AI 微调」做同样的事。

推特上的集体复读:同一个「爆点公式」

翻一遍 X 上关于 LlamaFactory 的高赞帖子,你会发现一个有趣的现象——几乎所有爆款帖都在用同一个模板。

公式大概是这样的:

「Fine-tune 100+ LLMs」+「directly from a UI / no code」+「supports PPO/DPO/…」+「open-source + 很多 stars」

▲ @akshay_pachaar 的帖子,8.2 万次查看,1.8K 人收藏

▲ @Sumanth_077 的功能详解帖,1.4 万次查看

▲ 科技媒体 @TheTuringPost 的报道,5400 次查看

为什么同样的内容反复被传播?

因为 LlamaFactory 的核心卖点太好「复述」了——「100 个模型 + 一个界面 + 不写代码」,任何人在推文 280 字以内都能把故事讲完。

好产品自带传播力。当你的价值主张能用一句话说清楚,每个用户都会成为你的营销团队。

社区的另一面:「别太天真了」

Reddit 和 Hacker News 上的讨论,提供了更冷静的视角。

在 Reddit r/LocalLLaMA 社区,有人把 LlamaFactory 和 Axolotl(另一个微调框架)放在一起比较,认为 LlamaFactory「更流畅」(more streamlined)。但也有人追问:「为什么它在这个圈子没那么火?」

回答很直白:

“Marketing, lack of guides, ignorance?”

「营销不够、教程不全、信息茧房。」

Unsloth 的作者 danielhanchen 在另一个帖子里给了正面评价:

“Llama Factory … pretty cool for a UI for finetuning! … includes my OSS package Unsloth … 2.2x faster and use 62% less memory!!”

「LlamaFactory 的微调 UI 挺酷的!集成了我的 Unsloth,速度快 2.2 倍,显存省 62%!」

而 Hacker News 上的工程师们则更直接:

「别只看 fine-tune,它也支持 pre-training、reward model、RL。但——要好效果可能需要很强硬件。家用的话建议从小模型、窄任务开始。」

▲ @heyrimsha 的帖子,详细列出了 LlamaFactory 的量化支持和部署能力

▲ @Suryanshti777 称 LlamaFactory 为「完整的微调基础设施层」

别忘了那头房间里的大象

说了这么多好话,必须补几句「清醒剂」。

第一,微调不等于变强。数据烂就是把模型推歪。LlamaFactory 降低了微调的门槛,但没有解决数据工程的问题。你用垃圾数据训出来的模型,只会更精准地输出垃圾。

第二,显存只是第一关。即使 QLoRA 把 7B 压到 6GB,训练时间、实验次数、评估方式仍然是实际成本。没有回归测试,你可能「以为模型更好了,其实更糟了」。

第三,WebUI 的「零代码」会制造幻觉。很多新手会误以为「点一下就能做出 GPT 级别的助手」。事实是:对话模板、系统提示词策略、数据格式,每一个都能让你的微调效果天差地别。

工具变简单了,不代表问题变简单了。

微调的「iPhone 时刻」?

回头看,LlamaFactory 做对了一件事:

它没有发明新技术,但把已有的技术做成了产品。

LoRA 是别人的论文。QLoRA 是别人的论文。DPO 是别人的论文。FlashAttention 是别人的论文。

LlamaFactory 做的事情是——把这些论文变成了下拉框。

就像 iPhone 没有发明触摸屏、没有发明摄像头、没有发明互联网,但它把这些东西放进了一块玻璃里。

当「微调 100 个大模型」变成了「打开浏览器 → 选模型 → 点训练」,这件事的参与者就不再只是 AI 研究员了。

每一个有数据、有业务场景的团队,都可以开始尝试。

客服对话微调成专属助手?可以。行业术语训练成垂直模型?可以。多模态识图 + 说明?也可以。

当然,能不能做好是另一回事。

「能开始尝试」本身,就已经改变了游戏规则。

▲ @akshay_pachaar 的早期推文(2025 年 6 月),6.1 万次查看,51k+ stars 时期

LlamaFactory 的 GitHub 地址:https://github.com/hiyouga/LLaMA-Factory

论文地址:https://arxiv.org/abs/2403.13372

官方博客教程(Qwen3.5 微调):https://blog.llamafactory.net/en/posts/qwen3_5_finetuning/


— END —

— END —