乐于分享
好东西不私藏

本地大模型部署选型技术文档

本地大模型部署选型技术文档

版本:v1.0
适用对象:研发团队、技术负责人、AI 中台建设团队、个人本地模型使用者
适用场景:Mac 本地模型、团队云 GPU 模型服务、OpenClaw / Dify / Cherry Studio / Ollama / LM Studio / llama.cpp 接入

0. 核心结论

本地模型部署的目标不是“替代所有云端大模型”,而是建立一层低成本、低延迟、可控、可私有化的基础模型能力。

合理架构通常是:

个人本地模型↓高频轻量任务、私密任务、快速试错团队 GPU 模型服务↓多人共享、统一 API、内部 Agent / AI 中台云端顶级大模型 API↓高难推理、关键代码、复杂多工具任务、需要最高可靠性的任务

推荐原则:

不要盲目追最大模型优先选择可稳定部署、可长期使用、生态成熟的模型

2.2 团队 GPU 服务器配置建议

入门团队模型服务器

推荐配置:

4 × V100 32GB总显存:128GBCPU 内存:128GB~256GB系统盘:200GB+数据盘:1TB+系统:Ubuntu 22.04 / 24.04推理框架:vLLM / SGLang

适合部署:

Qwen3.6-27BGemma 4 31BQwen Coder 30B 级模型Embedding / Reranker

适合用途:
  • 10 人左右团队内部使用
  • OpenAI-compatible API
  • OpenClaw / Dify / Cherry Studio 接入
  • 内部 AI 中台 PoC
  • 文档总结、代码解释、需求拆解
V100 32GB 是老架构 GPU,但仍具备 32GB HBM2 显存和较高内存带宽,适合做 30B 级模型的团队起步服务。NVIDIA 官方资料显示 V100 提供 32GB HBM2 版本,显存带宽为 900GB/s 或 1134GB/s。(NVIDIA)

中阶团队模型服务器

推荐配置:

2 × A100 80GB或4 × A100 80GB或4 × H20 96GB

适合部署:

Qwen3.6-27BQwen3.6-35B-A3BGemma 4 31B部分 MiniMax 量化版本

适合用途:
  • 更高并发
  • 更长上下文
  • 多模型 API
  • 团队生产环境初步使用

高端大模型服务器

推荐配置:

8 × A100 80GB8 × H100 / H200 / H20高速 NVLink / RDMACPU 内存 512GB+高速 NVMe

适合部署:

MiniMax M2.7Kimi K2.6DeepSeek / 其他大型 MoE

MiniMax 官方推荐使用 SGLang 部署 M2.7,并强调 SGLang 适合高吞吐、内存管理和批处理推理场景。(GitHub)

5. 有了 API 大模型,为什么还需要本地模型?

5.1 本地模型和 API 大模型不是替代关系

更合理的关系是:

本地模型负责高频、低成本、私密、可控任务API 大模型负责高难、关键、最高质量任务

5.2 本地模型适合的场景

高频低成本任务

  • 翻译
  • 改写
  • 摘要
  • 分类
  • 提取
  • 代码解释
  • 命令解释
  • 文档初步整理
  • Prompt 草稿生成
这些任务大量使用 API 会产生持续 token 成本,本地模型更适合承接。

私密内容处理

  • 内部文档
  • 项目代码
  • 会议纪要
  • 运维脚本
  • 内部知识库
  • 未公开产品方案
本地模型的优势是:

数据不离开本机或内网

本地 Agent / 工具调用

适合:
  • OpenClaw 本地任务分解
  • 本地文件整理
  • 本地代码解释
  • 脚本生成
  • 命令行助手
  • 本地知识库问答
  • 低风险自动化任务

API 前置处理

本地模型可以作为云端大模型的预处理层。

例如:

长文档↓本地模型先分块、摘要、提取要点↓再将关键内容发给 GPT / Claude / Gemini

这样可以降低云端 token 成本,也能提高输入质量。

离线与稳定可用

本地模型不依赖:
  • 外部网络
  • API 限流
  • API 价格变化
  • 服务可用性
  • 账号权限
适合做基础能力层。

5.3 API 大模型适合的场景

API 大模型仍然适合:
  • 最高质量复杂推理
  • 关键技术决策
  • 高难代码重构
  • 多工具复杂 Agent
  • 最新信息检索
  • 多模态高质量任务
  • 高风险场景的辅助分析
本地模型不应承担所有高难任务。

6. 推荐落地架构

6.1 个人本地架构

LM Studio / Ollama / llama.cpp↓轻量模型:7B / 9B / 14B Q4-Q5↓主力模型:Qwen3.6-27B-Q5_K_M↓高质量模型:Qwen3.6-27B-Q6_K / Gemma 4 31B

适合:
  • 个人知识处理
  • 本地代码辅助
  • 快速任务
  • OpenClaw 本地接入

6.2 团队服务架构

GPU Server↓vLLM / SGLang↓Gemma 4 31B / Qwen3.6-27B↓OpenAI-compatible API↓OpenClaw / Dify / Cherry Studio / 内部 AI 中台

推荐第一阶段模型:

Qwen3.6-27BGemma 4 31BQwen Coder 30B 级模型

推荐第一阶段机器:

4 × V100 32GB或2 × A100 80GB

第一阶段不建议直接部署:

MiniMax M2.7Kimi K2.6DeepSeek 级超大 MoE

6.3 混合架构

本地轻量模型↓快速任务本地主力模型 / 团队 GPU 模型↓日常复杂任务、内部文档、代码解释云端 API 大模型↓高难任务、关键决策、最高质量推理

7. 最终建议

模型选择

推荐优先级:

第一阶段:Qwen3.6-27BGemma 4 31B第二阶段:Qwen3.6-35B-A3BQwen Coder 30B第三阶段:MiniMax M2.7Kimi K2.6DeepSeek 级大 MoE

精度选择

个人本地:

优先 Q5_K_M / Q6_K不建议 BF16 常驻

团队 GPU:

V100:优先 FP16 / 量化A100/H100/H20:可考虑 BF16 / FP8 / 高质量量化

工具选择

场景

推荐工具

Mac 本地聊天和测试

LM Studio

Mac 本地 API / 命令行

Ollama

GGUF 深度调参

llama.cpp

GPU 服务器 API

vLLM

Agent / 高并发推理

SGLang

Apple Silicon 原生优化

MLX

最终结论

本地模型不是为了完全替代云端大模型,而是为了建立稳定、低成本、私密、可控的基础 AI 能力。

一句话总结:

本地模型提供自由度团队 GPU 提供共享能力云端大模型提供能力上限

推荐从以下组合开始:

个人本地:Qwen3.6-27B-Q5_K_M团队 GPU:Qwen3.6-27B 或 Gemma 4 31B推理框架:个人使用 Ollama / LM Studio团队服务 vLLM / SGLang