个人 AI 基础设施搭建——服务器和模型怎么选

开篇

这篇专栏主要是作为视频《个人AI基础设施搭建》的补充，对我介绍的这个系统中相关的服务器资源和模型资源，根据我的个人体验做的解决方案分享，2026年5月版本，偏个人体验向，不是评测，但保证真实。有必要会根据技术和市场的发展持续更新。

一、服务器选择：任意大厂

我用的是腾讯云，对个人用户相对友好，也是大厂中最重视小开发者和新形态用户（比如养龙虾）的，首年价格不是最低，但是续费提价相对温和，活动折扣多。

大厂差距不大，阿里，字节都可以选，稍微二线的京东这一类会有极低价抢市场，但是不太推荐，虽然不用担心稳定性，但系统后台不够完善。

有些野鸡服务器提供商，价格很低，常常会有5年期打包价，也不推荐，无法保证安全性和跑路风险。

一般云服务商续费都会比首年价格明显高一截，可以到期看情况，如果上涨不多，直接续费就行。

上涨多的话，可以用原号推荐开新号拿首年优惠加推荐返现，注意合规风险，一般没问题。然后旧服务器做个镜像，直接镜像过去，腾讯云支持跨号镜像，但是不支持跨地域。不镜像的话，也有其他方式转移数据，最多一个小时就可以做迁移，如果费用省的比较多的话，可以这么操作。

如果选择腾讯云，可以用我这个链接进去，不会比自己访问价格更高，但是可能给我回点血，提前感谢。

链接：https://curl.qcloud.com/xroncOSO

1.1 具体配置推荐

因为我人在海外，我的配置是这样的：

主服务器（硅谷）： 双核 / 8G内存 — 海外模型 + VS Code + Codex + 应用矩阵 + OpenClaw

副服务器（广州）： 双核 / 4G内存 — 国内模型 + VS Code + Hermes Agent

大部分朋友在国内，我建议把配置调整为：

主服务器（北上广）： 双核 / 8G内存 — 国内模型 + VS Code + Roo Code + 应用矩阵 + OpenClaw

副服务器（硅谷）： 双核 / 4G内存 — 海外模型 + VS Code + Claude Code / Codex

配置选择首要保证内存够用。我的主服务器8G内存，平时内存占用大概40%左右。如果是4G内存，可能平时会少量用到swap（部分硬盘空间作为对内存的支持），性能会有微小下降。如果是2G的话，也能跑，但是会持续swap，性能明显下降，掉线卡死是经常的，我都实际测试体验过。

服务器系统选择Ubuntu 24.04 LTS（代号 Noble）。

这里提醒一下，很多服务器厂商会提供定制龙虾服务器，购买后一键安装龙虾，这样的服务器可以买，但是不要用这种方式装龙虾，后患无穷。就装原生ubuntu，然后VS Code装好以后用Roo Code装原生OpenClaw。

如果主服务器在国内，但是上面的底座模型也想用海外的行不行，你可以在海外服务器上直接问你的编程Agent，使用合法合规的解决方案。

二、模型推荐

这个系统下面有四个地方需要自己接模型，其中三个是必需的：

2.1 OpenClaw / Hermes Agent

主要特点是大量Token，体验和响应速度相关，而比较复杂的任务因为可以交给后台编程Agent，我们不需要它完成高智能推理，所以模型选择可以务实一些，我只推荐我用过的，比较合适用在这里的是：

Gemini 3.0 Flash（Latest）： Agent环境下表现极其稳定，响应速度可接受。

关键是Gemini有羊毛可以薅：学生账户一年免费Pro，可以获得一个6个账号的家庭组，每个账号启用Google Cloud，可以获得300美金的赠金，可作为API抵扣，有效期三个月，每个账号每个月还能领有效期一年的10美金赠金（不稳定，需手动领取），所以大概能薅到2000美金，即使以Gemini不便宜的定价，大部分都可以靠这一个羊毛站起来蹬了。

就算拿学生账户比较困难，有时促销期有100美金每年的价格，即使正价200美金也不算太亏。如果你本身可以使用Google服务的话，额外还有家庭账户共享5T容量 Google Drive。

本月的20号，谷歌会有开发者大会，大概率会迭代新的模型版本。

MiMo V2.5： 速度飞快，V2.5 Pro在Agent场景下性能一流，是我个人认为的国区SOTA，缺点是API按量计费价格高，即使是Token Plan价格也不便宜，用2.5而不是Pro，是因为性能差别不大，但便宜很多。目前在搞活动，如果能申请到开发者福利，可以免费薅一个月。

DeepSeek V4 Flash： V4的基础性能强大，虽然针对Agent优化不如其他更商业化的公司，但是用在OpenClaw很够用了。

目前在以超低价打折，持续到本月底，试用阶段我发现扣费极少。研究了一下，发现除了打折，它的缓存命中扣费很离谱——输入命中是2分钱百万Token。用OpenClaw的命中概率很高，用Roo Code这种专门的Coding Agent，一个任务跑下来，绝大部分用量都是缓存命中，简直离谱。这时没有Token Plan，反而是种优势了，充上值不存在额度过期。

MiniMax M2.7： 极致的便宜省心，Token Plan按用量几乎是最便宜的，哪怕29的套餐都可以支撑一个OpenClaw的Token消耗，只要避免短时间集中使用，比如两个小时不停交互，很难超限。如果就想随便玩玩，这是个很好的选择，缺点是参数规模和激活参数规模都比较小，靠针对Agent的优化弥补了一些，但始终性能上限不高。

Kimi 2.5 / 2.6： 只用过2.5，用的不多，开过一个月最低档的Token Plan，性能接近MiMo，比MiniMax强，但是Token Plan的用量明显比MiniMax少，价格便宜了可以用。

其他如果没提到就是我没用过的，没法评价。

大厂拼盘Token Plan： 优点是往往包含多个模型，缺点是能打的模型不多，后台算力因为多模型分配不稳定，越好用的模型越慢，整体不推荐。

但有一种情况例外：如果包含以下几个开源模型其中之一的稳定服务，并且比官方便宜，可以考虑——MiMo V2.5，DeepSeek V4，Kimi 2.6。

各种中转站： 不推荐。原因如下：无法保证模型对应性和服务稳定性，不排除靠谱的，但筛选成本太高。

更主要的原因是，你的所有API交互数据对服务方是完全透明的，很多人没意识到这个问题，隐患很大，犯不上冒这个风险。

2.2 Roo Code 等轻量 Coding Agent

这里的模型一定要选性能最强的：

Gemini 3.1 Pro Preview： 目前是被鄙视的对象，但我实际使用很多，我的结论是被低估了，毕竟参数规模在这摆着，超长上下文很稳，薅羊毛来的，还要啥自行车，具体的上面讲过了。

MiMo V2.5 Pro： 多数情况比Gemini还要好，它的出发点就是agent基座，所以在agent中表现堪称惊艳。题外话，新模型出来了有些人跑去聊天窗口测试，三年前这么干还行，现在这么干跟闹着玩一样。

DeepSeek V4 Pro： 上限很高，很复杂的事能处理的很好。但是比较常见一些奇怪的问题，比如一些因为输出格式导致的问题，不知道官方会不会优化，抛开这一点的话，绝对性能非常堪用。而且缓存命中率逆天的高，命中就相当于免费，前面提过了。

Kimi 2.5： 表现很稳定，翻车少，但是惊喜也少，能感觉到对编程Agent针对性优化，可以用。

MiniMax： 各种问题最多，不推荐用在这。

2.3 应用矩阵

这里的建议很简单，保持灵活性。

我这里有个很有用的经验：所有应用共用模型配置文件，把备用模型放进去，然后每个应用前端都留个显性的模型选择功能。这样比如Token Plan过期，或者各种原因需要换模型，不用再去动代码，在这个统一的配置文件里维护模型、更新API Key就可以了，后续少很多麻烦。

2.4 Claude Code / Codex

因为是插件形式在VS Code中存在，使用非默认模型很麻烦，而且意义并不大。我的观点是要用就用原配，Claude Code换其他底层，不如就老老实实用Codex + GPT 5.5。

现在市面上对CC的评价有点过热，CC是强，但也没那么夸张。实际上对99%的人，现在用Codex不会比CC有什么体验上的差距，20刀的Plus用量比CC高出很多，所以我首推GPT Plus用Codex。

三、VS Code 安装

整个系统搭建中，可能唯一需要你亲自动手的一步，是VS Code的安装。

安装方式是：在服务器上安装 VS Code Server → 通过远程隧道暴露 → 浏览器用 vscode.dev 访问。登录走 GitHub/Microsoft 账号，本地甚至不需要装 VS Code。

具体操作找个靠谱AI，把上面的流程发给它，让它一步步指导你操作，不复杂。

这个装好了，再把Roo Code插件装好，后面几乎没有需要你自己亲自动手的事情了。

让Roo Code帮你装OpenClaw，包括后续升级。我看到很多人抱怨OpenClaw升级出各种问题，我用Roo Code和Codex升级没碰到任何问题。

Codex甚至能做到，我一句话指令：帮我把OpenClaw升级到最新版本，中间没有任何干预，执行完就是最新版本了。它会备份，更新，修复异常，重启网关，检查飞书匹配，我啥也不用干。

接下来就是享受自由的构建，开发和使用了，再碰到问题可以问我，或者AI，祝你玩儿的开心。