【AI驾驭手册-第六集】免费大模型的使用和本地部署指南就在前几天,我常用的那个 AI 助手又涨价了,基础会员从 59 涨到了 79,不限次数的超级会员直接冲到了 129 一个月。我算了一下,一年光 AI 会员就要花一千多,比我所有视频、音乐、读书会员加起来还贵。其实前几集我们就说过,AI 涨价是必然的,因为算力和推理成本真的很高。但很多人不知道,现在根本不用花这个冤枉钱。市面上有很多完全免费的大模型,能力一点都不输付费版;而且只要你有一台普通电脑,就能自己部署一个属于自己的大模型,不用联网、没有广告、没有任何限制。我自己亲测了几十个免费模型和部署工具,踩了无数坑,今天把最简单、最实用的方法分享给你。不用懂代码,不用花一分钱,最快 5 分钟就能搞定。
一、这些免费大模型,足够日常 90% 的使用
先给大家整理几个我日常用得最多的免费在线大模型,覆盖聊天、写文案、写代码、画图等所有场景,不用充会员,打开就能用。首先是综合能力最强的免费模型。字节的豆包基础版、阿里的通义千问基础版、百度的文心一言基础版,这三个都是完全免费不限次数的。日常写文案、整理资料、解答问题、做表格,它们的能力和大多数付费模型没有本质区别,完全够用。然后是专门写代码的免费模型。首推 DeepSeek Coder,这是目前最好用的免费代码模型,没有之一。写 Python、Java、前端都没问题,还能帮你查 bug、改代码,速度比很多付费模型还快。还有 Github 的 Copilot 免费版,学生和开源作者可以申请,非常好用。接下来是多模态免费模型。通义千问的免费版支持上传图片、PDF、Word 文档,还能生成图片;豆包的免费版也能识图和生成简单的图片。如果需要生成高质量图片,可以用国内的无界 AI、国外的 Stable Diffusion 在线版,每天都有免费额度。最后是完全开源的免费模型。很多开源模型都有在线演示站,比如 Llama 3、通义千问 2、Qwen2-VL,这些模型完全免费,任何人都可以用,而且没有任何使用限制。二、本地部署大模型,到底有什么好?
很多人问我,在线模型已经这么好用了,为什么还要自己本地部署?其实本地部署的优点,是在线模型永远给不了你的。第一个优点是绝对隐私。在线模型不管怎么说,你输入的所有内容都会上传到平台的服务器。如果你要处理公司的敏感文件、个人的隐私数据,或者写一些不想让别人知道的东西,本地模型是唯一的选择。所有数据都在你自己的电脑里,永远不会泄露。第二个优点是没有任何限制。在线模型会有各种限制:敏感词过滤、生成字数限制、每天使用次数限制、不能生成某些内容。本地模型完全没有这些限制,你想怎么用就怎么用,想生成什么就生成什么。第三个优点是离线可用。不用联网,没有网络也能正常使用。出差、坐飞机、去没有信号的地方,照样可以用 AI 干活。而且没有广告,没有弹窗,界面干净纯粹,打开就是聊天框。当然,本地部署也有缺点。首先是能力上限比不过顶级闭源模型,比如 GPT-4o、Claude 3 Opus,目前开源模型还达不到它们的水平。其次是需要一定的硬件支持,太老的电脑跑起来会很慢。最后是需要自己动手折腾一下,虽然很简单,但还是比直接打开网页多了几步。三、本地部署的硬件要求,普通电脑就能跑
很多人以为本地部署大模型需要几万块的高端电脑,其实完全不是。现在的模型优化得非常好,普通的家用电脑、甚至笔记本电脑都能流畅运行。入门档:可以流畅运行 7B-14B 参数的模型,满足日常聊天、写文案、写简单代码的需求。需要 CPU 是最近 5 年的 i5 或同等水平,内存至少 16G,独立显卡显存至少 6G。现在大多数笔记本电脑都能达到这个要求。进阶档:可以流畅运行 34B-70B 参数的模型,能力接近 GPT-3.5,能处理复杂推理、长文档、写复杂代码。需要 CPU 是 i7 或同等水平,内存至少 32G,独立显卡显存至少 16G。主流的游戏台式机都能达到这个要求。发烧档:可以运行 100B 以上参数的模型,能力和顶级闭源模型差距很小。需要 CPU 是 i9 或同等水平,内存至少 64G,独立显卡显存至少 24G。这个档次适合对 AI 要求比较高的用户。这里要特别说明一下,本地部署大模型,显存是最重要的,比 CPU 和显卡的算力重要得多。显存越大,能跑的模型越大,速度也越快。如果没有独立显卡,用纯 CPU 也能跑,就是速度会慢很多,适合体验一下。四、最简单的本地部署工具:Ollama
本地部署的工具有很多,我试过至少十几种,最推荐的就是 Ollama。没有之一,它是目前最简单、最适合新手的工具。Ollama 是一个完全免费的开源工具,支持 Windows、Mac、Linux 三大系统,一键安装,一条命令就能部署模型,不用装任何其他依赖,不用懂任何代码。打开 Ollama 的官网,点击下载按钮,下载对应系统的安装包。打开电脑的命令提示符(Windows)或终端(Mac/Linux),输入一行命令,比如 "ollama run qwen2:7b",然后回车。就这么简单。Ollama 会自动下载对应的模型,下载完成后就可以直接在命令行里和 AI 聊天了。整个过程不需要任何其他操作,5 分钟就能搞定。如果你不喜欢用命令行,也可以安装一个图形界面,比如 Open WebUI。同样是一键安装,安装完成后打开浏览器,输入,就能看到和 ChatGPT 一模一样的界面,使用体验完全一样。五、模型怎么选?这些模型最好用
Ollama 支持几百个开源模型,不用都下载,我给大家推荐几个目前最好用的,覆盖所有场景。日常通用首选 Qwen2-7B。这是阿里最新出的开源模型,中文能力极强,速度快,显存占用小,16G 显存就能流畅运行 4bit 量化版。日常聊天、写文案、整理资料、写简单代码,它都能胜任,是目前综合体验最好的 7B 模型。写代码首选 DeepSeek Coder-7B。专门为代码训练的模型,写代码的能力比很多通用模型强得多,6G 显存就能跑,程序员必备。多模态首选 Qwen2-VL-7B。能看懂图片、识别文字、分析图表,还能生成简单的图片,16G 显存就能跑,是目前最好用的开源多模态模型。如果你的显存够大,有 24G 以上,可以直接上 Qwen2-72B。能力接近 GPT-3.5,甚至在某些中文场景下比 GPT-3.5 还好用,能处理复杂推理、长文档、写复杂代码。下载模型的时候,推荐下载 4bit 量化版。量化就是把模型压缩一下,损失一点点几乎感知不到的精度,换更小的显存占用和更快的速度。对于普通人来说,4bit 量化版和原版没有任何区别。六、本地部署的简单优化技巧
部署完模型之后,稍微做几个简单的优化,速度和体验能提升一大截。第一个优化是默认使用 4bit 量化。Ollama 默认下载的就是 4bit 量化版,不用改。如果觉得精度不够,可以下载 8bit 版,但显存占用会翻倍。第二个优化是调整上下文窗口。默认的上下文窗口一般是 8k,也就是能记住大约 6000 字的内容。如果你需要处理长文档,可以在运行模型的时候加上参数,比如 "ollama run qwen2:7b --ctx-size 32768",这样上下文窗口就变成了 32k,能记住大约 2 万多字的内容。当然,显存占用也会相应增加。第三个优化是开启 GPU 加速。Ollama 会自动检测你的显卡并开启 GPU 加速,不用手动设置。如果你的显卡比较老,不支持 GPU 加速,它会自动切换到 CPU 模式。第四个优化是关闭不必要的后台程序。本地部署大模型会占用大量内存和显存,运行的时候最好关闭其他不用的程序,特别是浏览器和游戏,这样速度会快很多。后记
其实现在免费和本地大模型的发展速度,远远超出了大多数人的想象。一年前,本地部署一个能用的大模型还需要几万块的显卡;现在,几千块的普通电脑就能跑一个能力不错的模型。对我们普通人来说,根本不用去追那些最贵的顶级会员。日常 90% 的需求,免费在线模型就能满足;剩下 10% 对隐私和自由度有要求的需求,本地部署就能解决。AI 不应该是少数人付费才能用的奢侈品,它应该是每个人都能自由使用的工具。