AI 大模型|本地运行大模型,开发者的 AI 助手进阶指南

你还在为 AI 编程助手的 API 费用发愁吗？
你是否担心将公司代码发送到云端 AI 服务会有隐私风险？
今天介绍一个本地运行大语言模型的利器——Ollama。只需一条命令，就能在你的 Mac 上运行 Llama、Qwen、DeepSeek等主流大模型。无需联网、零 API 费用、数据永不离开本地，让 AI真正成为你的私有代码助手。无论你是想提升开发效率，还是想深入了解大模型技术，这篇指南都能帮你快速上手。

1. 什么是 Ollama

Ollama 是一个开源的本地大语言模型运行工具，让你能够在本地电脑上轻松运行和部署大型语言模型（LLM），无需依赖云服务。

2. 为什么选择 Ollama

隐私保护：数据不离开本地，代码和敏感信息安全
无网络依赖：离线可用，不受网络限制
零成本：无 API 费用，无限次调用
低延迟：本地运行，响应更快
模型丰富：支持 Llama、Qwen、DeepSeek、Mistral 等主流模型
简单易用：一行命令即可完成模型下载和运行

3. 适用场景

本地代码开发辅助
代码审查和重构
文档撰写
数据分析
学习和研究大模型

4. Mac 安装方法

方法一：官网下载（推荐）

访问官网：https://ollama.com/download
下载 macOS 版本
打开 dmg 文件，将 Ollama 拖入 Applications
运行 Ollama，终端会自动配置好 ollama 命令

方法二：Homebrew 安装

bash复制代码

brew install ollama

验证安装

bash复制代码

ollama --version

5. 基本命令

bash复制代码

# 启动服务ollama serve# 查看已安装模型ollama list# 下载模型ollama pull <model_name># 运行模型对话ollama run <model_name># 查看运行中的模型ollama ps# 删除模型ollama rm <model_name>

6. 停止运行中的模型

方法一：使用 stop 命令

bash复制代码

# 查看运行中的模型ollama ps# 停止指定模型ollama stop qwen2.5-coder:32b# 停止所有运行中的模型ollama stop

方法二：设置自动卸载时间

bash复制代码

# 模型在 5 分钟无活动后自动卸载ollama run qwen2.5-coder:32b --keep-alive 5m# 立即卸载（0 表示立即）ollama run qwen2.5-coder:32b --keep-alive 0

方法三：在交互会话中退出

bash复制代码

# 在 ollama run 会话中/bye# 或使用快捷键Ctrl+D

方法四：停止 Ollama 服务

bash复制代码

# macOS - 停止后台服务launchctl bootout system/com.ollama.ollama# 或直接终止进程pkill ollama# Linuxsystemctl stop ollama

验证模型已卸载

bash复制代码

# 查看运行中的模型（应无输出）ollama ps

keep-alive 参数说明

值	说明
`0`	立即卸载
`5m`	5 分钟后卸载
`10m`	10 分钟后卸载
`24h`	24 小时后卸载
`-1`	永不卸载

7. 热门模型列表

模型	说明	参数规模
`llama3.1`	Meta 最新旗舰模型	8B, 70B, 405B
`llama3.2`	Meta 轻量版	1B, 3B
`llama3.3`	高性能 70B	70B
`deepseek-r1`	推理能力强	1.5B - 671B
`deepseek-v3`	MoE 架构	671B
`qwen3`	阿里最新	0.6B - 235B
`qwen3.5`	多模态	0.8B - 122B
`qwen2.5`	通用	0.5B - 72B
`qwen2.5-coder`	代码专用	0.5B - 32B
`mistral`	Mistral AI	7B
`mistral-nemo`	长上下文	12B
`gemma3`	Google 最新	270M - 27B
`gemma4`	Google 最新多模态	E2B - 31B
`phi3`	微软轻量	3.8B, 14B
`phi4`	微软最新	14B
`codellama`	代码生成	7B - 70B
`llava`	多模态视觉	7B - 34B
`nomic-embed-text`	文本嵌入	-
`bge-m3`	多语言嵌入	567M

8. 代码开发推荐模型

小型项目

模型	优势	适用场景
`qwen2.5-coder:7b`	中文友好，代码能力强	综合最佳选择
`deepseek-r1:7b`	推理能力强，适合复杂逻辑	复杂代码、调试
`codellama:7b`	Meta 专门优化代码	通用代码任务

大型项目

模型	优势	硬件要求
`qwen2.5-coder:32b`	代码能力强，中文友好	24GB+ 内存
`deepseek-r1:32b`	推理能力出色，适合复杂逻辑	24GB+ 内存
`deepseek-coder-v2`	专业代码模型	16GB+ 内存
`qwen2.5-coder:14b`	平衡性能与资源	12GB+ 内存

参数规模选择

MacBook M1/M2: 7B (约需 8GB 内存)
性能更好: 14B 或 32B
轻量快速: 3B 或 1.5B

以上就是关于在本地下载、安装、使用 Ollama 运行大模型服务的基本操作了，下篇文章，我们将带来有关主流大模型服务的选型及优劣势对比，以及通过 Ollama 使用大模型的实际案例，也将带来在国内环境下如何加速模型文件获取的多种方式，欢迎持续关注！

#AI #LLM #API #大模型 #Ollama #deepseek #ChatGPT #Claude #Codex #OpenAI #指南 #开发者 #Mac #llama #Qwen