【AI驾驭手册-第六集】免费大模型的使用和本地部署指南

就在前几天，我常用的那个 AI 助手又涨价了，基础会员从 59 涨到了 79，不限次数的超级会员直接冲到了 129 一个月。我算了一下，一年光 AI 会员就要花一千多，比我所有视频、音乐、读书会员加起来还贵。

其实前几集我们就说过，AI 涨价是必然的，因为算力和推理成本真的很高。但很多人不知道，现在根本不用花这个冤枉钱。市面上有很多完全免费的大模型，能力一点都不输付费版；而且只要你有一台普通电脑，就能自己部署一个属于自己的大模型，不用联网、没有广告、没有任何限制。

我自己亲测了几十个免费模型和部署工具，踩了无数坑，今天把最简单、最实用的方法分享给你。不用懂代码，不用花一分钱，最快 5 分钟就能搞定。

一、这些免费大模型，足够日常 90% 的使用

先给大家整理几个我日常用得最多的免费在线大模型，覆盖聊天、写文案、写代码、画图等所有场景，不用充会员，打开就能用。

首先是综合能力最强的免费模型。字节的豆包基础版、阿里的通义千问基础版、百度的文心一言基础版，这三个都是完全免费不限次数的。日常写文案、整理资料、解答问题、做表格，它们的能力和大多数付费模型没有本质区别，完全够用。

然后是专门写代码的免费模型。首推 DeepSeek Coder，这是目前最好用的免费代码模型，没有之一。写 Python、Java、前端都没问题，还能帮你查 bug、改代码，速度比很多付费模型还快。还有 Github 的 Copilot 免费版，学生和开源作者可以申请，非常好用。

接下来是多模态免费模型。通义千问的免费版支持上传图片、PDF、Word 文档，还能生成图片；豆包的免费版也能识图和生成简单的图片。如果需要生成高质量图片，可以用国内的无界 AI、国外的 Stable Diffusion 在线版，每天都有免费额度。

最后是完全开源的免费模型。很多开源模型都有在线演示站，比如 Llama 3、通义千问 2、Qwen2-VL，这些模型完全免费，任何人都可以用，而且没有任何使用限制。

二、本地部署大模型，到底有什么好？

很多人问我，在线模型已经这么好用了，为什么还要自己本地部署？其实本地部署的优点，是在线模型永远给不了你的。

第一个优点是绝对隐私。在线模型不管怎么说，你输入的所有内容都会上传到平台的服务器。如果你要处理公司的敏感文件、个人的隐私数据，或者写一些不想让别人知道的东西，本地模型是唯一的选择。所有数据都在你自己的电脑里，永远不会泄露。

第二个优点是没有任何限制。在线模型会有各种限制：敏感词过滤、生成字数限制、每天使用次数限制、不能生成某些内容。本地模型完全没有这些限制，你想怎么用就怎么用，想生成什么就生成什么。

第三个优点是离线可用。不用联网，没有网络也能正常使用。出差、坐飞机、去没有信号的地方，照样可以用 AI 干活。而且没有广告，没有弹窗，界面干净纯粹，打开就是聊天框。

当然，本地部署也有缺点。首先是能力上限比不过顶级闭源模型，比如 GPT-4o、Claude 3 Opus，目前开源模型还达不到它们的水平。其次是需要一定的硬件支持，太老的电脑跑起来会很慢。最后是需要自己动手折腾一下，虽然很简单，但还是比直接打开网页多了几步。

三、本地部署的硬件要求，普通电脑就能跑

很多人以为本地部署大模型需要几万块的高端电脑，其实完全不是。现在的模型优化得非常好，普通的家用电脑、甚至笔记本电脑都能流畅运行。

我把硬件要求分成三个档次，大家可以对号入座：

入门档：可以流畅运行 7B-14B 参数的模型，满足日常聊天、写文案、写简单代码的需求。需要 CPU 是最近 5 年的 i5 或同等水平，内存至少 16G，独立显卡显存至少 6G。现在大多数笔记本电脑都能达到这个要求。

进阶档：可以流畅运行 34B-70B 参数的模型，能力接近 GPT-3.5，能处理复杂推理、长文档、写复杂代码。需要 CPU 是 i7 或同等水平，内存至少 32G，独立显卡显存至少 16G。主流的游戏台式机都能达到这个要求。

发烧档：可以运行 100B 以上参数的模型，能力和顶级闭源模型差距很小。需要 CPU 是 i9 或同等水平，内存至少 64G，独立显卡显存至少 24G。这个档次适合对 AI 要求比较高的用户。

这里要特别说明一下，本地部署大模型，显存是最重要的，比 CPU 和显卡的算力重要得多。显存越大，能跑的模型越大，速度也越快。如果没有独立显卡，用纯 CPU 也能跑，就是速度会慢很多，适合体验一下。

四、最简单的本地部署工具：Ollama

本地部署的工具有很多，我试过至少十几种，最推荐的就是 Ollama。没有之一，它是目前最简单、最适合新手的工具。

Ollama 是一个完全免费的开源工具，支持 Windows、Mac、Linux 三大系统，一键安装，一条命令就能部署模型，不用装任何其他依赖，不用懂任何代码。

安装步骤非常简单：

打开 Ollama 的官网，点击下载按钮，下载对应系统的安装包。

双击安装包，按照提示下一步下一步，完成安装。

打开电脑的命令提示符（Windows）或终端（Mac/Linux），输入一行命令，比如 "ollama run qwen2:7b"，然后回车。

就这么简单。Ollama 会自动下载对应的模型，下载完成后就可以直接在命令行里和 AI 聊天了。整个过程不需要任何其他操作，5 分钟就能搞定。

如果你不喜欢用命令行，也可以安装一个图形界面，比如 Open WebUI。同样是一键安装，安装完成后打开浏览器，输入，就能看到和 ChatGPT 一模一样的界面，使用体验完全一样。

五、模型怎么选？这些模型最好用

Ollama 支持几百个开源模型，不用都下载，我给大家推荐几个目前最好用的，覆盖所有场景。

日常通用首选 Qwen2-7B。这是阿里最新出的开源模型，中文能力极强，速度快，显存占用小，16G 显存就能流畅运行 4bit 量化版。日常聊天、写文案、整理资料、写简单代码，它都能胜任，是目前综合体验最好的 7B 模型。

写代码首选 DeepSeek Coder-7B。专门为代码训练的模型，写代码的能力比很多通用模型强得多，6G 显存就能跑，程序员必备。

多模态首选 Qwen2-VL-7B。能看懂图片、识别文字、分析图表，还能生成简单的图片，16G 显存就能跑，是目前最好用的开源多模态模型。

如果你的显存够大，有 24G 以上，可以直接上 Qwen2-72B。能力接近 GPT-3.5，甚至在某些中文场景下比 GPT-3.5 还好用，能处理复杂推理、长文档、写复杂代码。

下载模型的时候，推荐下载 4bit 量化版。量化就是把模型压缩一下，损失一点点几乎感知不到的精度，换更小的显存占用和更快的速度。对于普通人来说，4bit 量化版和原版没有任何区别。

六、本地部署的简单优化技巧

部署完模型之后，稍微做几个简单的优化，速度和体验能提升一大截。

第一个优化是默认使用 4bit 量化。Ollama 默认下载的就是 4bit 量化版，不用改。如果觉得精度不够，可以下载 8bit 版，但显存占用会翻倍。

第二个优化是调整上下文窗口。默认的上下文窗口一般是 8k，也就是能记住大约 6000 字的内容。如果你需要处理长文档，可以在运行模型的时候加上参数，比如 "ollama run qwen2:7b --ctx-size 32768"，这样上下文窗口就变成了 32k，能记住大约 2 万多字的内容。当然，显存占用也会相应增加。

第三个优化是开启 GPU 加速。Ollama 会自动检测你的显卡并开启 GPU 加速，不用手动设置。如果你的显卡比较老，不支持 GPU 加速，它会自动切换到 CPU 模式。

第四个优化是关闭不必要的后台程序。本地部署大模型会占用大量内存和显存，运行的时候最好关闭其他不用的程序，特别是浏览器和游戏，这样速度会快很多。

后记

其实现在免费和本地大模型的发展速度，远远超出了大多数人的想象。一年前，本地部署一个能用的大模型还需要几万块的显卡；现在，几千块的普通电脑就能跑一个能力不错的模型。

对我们普通人来说，根本不用去追那些最贵的顶级会员。日常 90% 的需求，免费在线模型就能满足；剩下 10% 对隐私和自由度有要求的需求，本地部署就能解决。

AI 不应该是少数人付费才能用的奢侈品，它应该是每个人都能自由使用的工具。