在自己电脑上跑大模型:Ollama + 硅基流动实战指南(2026版)

说三个我遇到的真实场景，你看看有没有戳中的：

场景一：公司的业务数据不能上云，但甲方爸爸又要求做个 AI 问答功能。去调第三方 API？法务直接打回来，说不行。

场景二：调 OpenAI 的 API，网络时不时抽风。给客户做 demo 演示，AI 回答转了三圈才出来，场面一度非常尴尬。

场景三：每天跑几十次调 API 的任务，月底账单出来心在滴血。量大的时候，一个月大几千真不是开玩笑的。

如果你也遇到类似问题，本地部署大模型就是一个值得认真考虑的解法。反正我自己用了大半年了，确实香。

先搞清楚两个方案

	Ollama	硅基流动
模型在哪跑	自己的电脑/服务器	云端（国内服务器）
费用	完全免费（电费自理 😄）	按量付费，新用户有免费额度
数据隐私	完全私有，不出本地	国内合规，数据不上境外
网络延迟	极低（本地）	低（国内节点）
模型规模	受限于本机配置	可跑任意规模模型

两个方案解决的问题不太一样，不矛盾。很多人（包括我）的用法是：小任务本地跑，省钱省心；大任务调云端 API，高效稳定。

方案一：Ollama——在自己电脑上跑（免费）

1. 安装，三分钟搞定

https://ollama.com/download/

可直接安装按需下载自己需要的版本。

装完之后打开终端验证一下：

ollama --version

2. 下载模型

#  模型 ollama pull qwen2.5:7b-instruct

3. 直接对话试试

ollama run qwen2.5:7b

这里建议用7b 因为大的带不动 小的又太难用

4. 接口调用（开发者重点看这里）

开启服务（默认端口 11434）：

ollama serve

然后用 node 调用：

const http=require('http');function callOllama(prompt) {  const data=JSON.stringify({    model:"qwen2.5:7b",      // 你本地的模型名    prompt:prompt,         // 你要问的问题    stream:false// 非流式，一次性返回结果（最简单）  });const options= {  hostname:'localhost',  port:11434,  path:'/api/generate',  method:'POST',  headers: {    'Content-Type':'application/json',    'Content-Length':data.length    }  };return newPromise((resolve, reject) => {const req=http.request(options, (res) => {let result='';res.on('data', (chunk) =>result+=chunk);res.on('end', () =>resolve(JSON.parse(result)));    });req.on('error', reject);req.write(data);req.end();  });}callOllama('内容')

这就是 Ollama 的调用方式，不过这个是js版本的调用方式！！！

5. Ollama 的坑，我替你踩了

坑一：Mac 上跑起来很烫跑 `qwen2.5:7b` 的时候风扇狂转，CPU 长期顶着 90%+，笔记本直接变成暖手宝。这个我建议直接加装风扇，如果不可以的话可以使用1.5b

坑二：响应很慢本地推理速度取决于硬件配置。7B 模型在我这台 Windows 台式机（RTX 3060）上大概 10-15 tokens/s，能接受；MacBook Air 大概只有 3-5 tokens/s，当作玩具可以，生产环境很难办。

坑三：Ollama 默认模板不支持 tools 参数如果你的 Agent 需要调用工具（Function Calling），注意不是所有 Ollama 模型都支持。我之前用 OpenClaw 接入的时候就踩过这个坑，换了带 tool 能力的模型版本才解决。

方案二：硅基流动——云端 API，按需付费

1. 为什么我选硅基流动

我自己在做一个微信小程序的 AI 功能，用的就是硅基流动。选它的原因：

• 国内服务器：不用科学上网，延迟低，稳定性好

• 价格便宜：按量计费，新用户有免费额度，薅羊毛首选

• 模型丰富：Qwen、DeepSeek、GLM 各种国产模型都有

• OpenAI 兼容：接口格式一样，迁移成本为零

2. 注册并获取 API Key

1. 打开 siliconflow.cn，注册一个账号

2. 进入控制台 → API 密钥 → 创建一个新密钥

3. 把 Key 保存好（只显示一次，记住了再关页面！）

免费额度大概够跑几万次对话，测试阶段完全够用。

3. 代码调用

async function chatWithSiliconFlow() {  const apiKey = "你的硅基流动API_KEY";  const res = await fetch("https://api.siliconflow.cn/v1/chat/completions", {    method: "POST",    headers: {      "Content-Type": "application/json",      "Authorization": `Bearer ${apiKey}`    },    body: JSON.stringify({      model: "deepseek-ai/DeepSeek-V3",      messages: [        { role: "user", content: "用简单几句话介绍什么是AI大模型" }      ],      stream: false, // 关闭流式，一次性返回      temperature: 0.7    })  });  const data = await res.json();  if (data?.choices?.length) {    console.log("🤖 AI回答：");    console.log(data.choices[0].message.content);  } else {    console.log("❌ 调用失败：", data);  }}

两种方案怎么选？

有没有隐私数据/合规要求？

├── 有 → Ollama 本地，稳

└── 没有

├── 有 GPU / 预算有限 / 小任务 → Ollama

└── 追求效果 / 要跑大参数模型 → 硅基流动

我自己现在的用法：

• 本地 Ollama：写代码、翻译、小工具脚本，省 API 额度

• 硅基流动：微信小程序正式功能、对接生产环境、需要调用大参数模型

常见问题

Q：Ollama 能跑多大的模型？A：理论上无限，但实际受内存/显存限制。经验参考——16G 内存跑 7B 模型勉强可以；想流畅跑 13B 以上，建议 24G+ 显存（RTX 3090/4090 级别）。

Q：硅基流动免费额度用完了怎么办？A：按量付费，价格透明。可以设一个额度预警，用超了会邮件通知，不至于无感超支。

Q：Ollama 和硅基流动能同时用吗？A：完全可以。我的实际项目里，根据任务复杂度自动路由——简单的走 Ollama，复杂的走硅基流动，一套代码搞定，体验很好。

Q：模型效果和 GPT-4 比怎么样？A：7B 级别的开源模型在多数任务上接近 GPT-3.5 的水平，和 GPT-4 比还是有差距。但日常开发够用，关键是不花钱和数据不出境这两个优势，有时候比模型能力更重要。

最后

本地跑大模型这件事，2024 年还有点折腾，2026 年真的已经非常成熟了。

Ollama 直接下载就能跑，硅基流动注册完十分钟接进项目。

我个人的感受是：不要在"用不用 AI"这个问题上犹豫了，先用起来，在用的过程中你会发现哪些场景真正需要 AI，哪些场景其实人工更快。

工具是拿来用的，不是拿来研究的。

你在本地部署大模型的过程中遇到过什么问题？评论区聊聊，互相避坑。