Claude Code 虽然运行在你的本地终端,但它为了理解代码逻辑,会将你本地的文件内容打包作为“上下文(Context)”发送给 Anthropic 的云端服务器。同时,如果它生成的代码调用了 GLM-5,并且把含有 Key 的代码片段作为 Prompt 发给了 GLM-5,你的 Key 就又流向了智谱 AI 的服务器。
为了阻断风险Gemini给我下面三种方案:
方案一:本地加密API
既然是跑在你自己的电脑上,核心原则就是:让密钥只存在于你电脑的本地配置文件中,绝对不进入代码仓库(Git),也绝对不让 Claude Code 读到它。
你现在需要做以下 3 步:
1. 创建环境变量文件 (.env.local)
在你的项目最外层文件夹(根目录)下,新建一个没有任何前缀、名字就叫 .env.local的文件。把你自己的 API Key 写在里面:
Plaintext
ANTHROPIC_API_KEY=sk-ant-api03-xxxxxxxxxxxxxxx
💡 解释:这种文件叫做“环境变量”,Next.js 和 Node.js 启动时会自动读取它,并把它变成内存里的 process.env.ANTHROPIC_API_KEY。代码里只写变量名,不写真实的 Key。
2. 配置.gitignore(防 Git 泄露)
如果你未来要把代码传到 GitHub(即使是私有仓库),也绝对不能传 .env.local。 打开项目里.gitignore文件里确保有这行代码:
Plaintext
.env*.local
3. 配置.claudesignore(防 AI 泄露)
这是你使用 Claude Code 必须要做的动作!因为 Claude Code 为了理解项目,会疯狂读取你的本地文件并发给云端。 在项目根目录新建一个文件叫 .claudesignore里写上:
Plaintext
.env*
💡 解释:这相当于给 Claude Code 戴上了眼罩,告诉它:“只要是 .env开头的文件,你连看都不许看。”
方案二:SaaS 商业化加密与代理
当你把软件发布到公网,让张三、李四登录并填入他们自己的 API Key 时,上面那套.env的玩法就彻底失效了。因为每个人的 Key 都不一样,你必须把它们存进数据库。
你需要遵循 SaaS 行业“三大铁律”:
1. 静态加密 (Encryption at Rest)
绝对不能把用户的明文 Key(如 sk-xxx)直接存进 MySQL 或 Postgres 数据库!
做法:当用户在前端填入 Key 并点击保存时,你的后端服务器要使用高级加密算法(通常是AES-256-GCM),用一把只有你服务器才知道的“主密钥 (Master Key)”把用户的 Key 加密成一串乱码,然后再存进数据库。
效果:哪怕黑客把你的数据库端了,没有你服务器里的主密钥,他们也解不开。
2. 永远不向前端返回明文 (One-way Visibility)
用户填完 Key 之后,未来他再打开设置页面,前端接口返回的只能是掩码(例如 sk-...****a1b2)或者一个布尔值 hasKey: true。绝对不能让后端把完整的 Key 传回给前端浏览器。
3. 后端代理请求 (BFF 架构)
这是最重要的一点:绝对不能让用户的浏览器直接拿着 Key 去请求大模型!
错误做法:前端网页拿到用户的 Key -> 前端直接发起 fetch('https://api.anthropic.com')。这就意味着Key暴露在了浏览器网络面板F12里。
正确做法:前端网页把聊天内容发给你的服务器 (比如 /api/llm)-> 你的服务器从数据库查出该用户的加密 Key -> 你的服务器在内存里解密 -> 你的服务器拿着明文 Key 去请求 Anthropic -> 拿到结果后再返回给前端。
方案三:接入本地离线大模型
物理隔离的终极方案就是干脆把“大脑”也搬到本地呢,零密钥,断网可用,这是目前开源界最火的玩法。
工作流:
为什么极其安全:这套方案根本不需要 API Key。你的文本发给了你自己电脑的显卡去算,完全不需要联网,是绝对的 100% 隐私和安全。对于“拆解 JSON 功能列表”这种结构化任务,现在的开源小模型已经完全够用。
1.你的硬件能跑多大的模型?
Ollama 在本地运行时,默认会使用 4-bit 量化技术(把模型体积压缩,但几乎不损失智商)。基于我的iMac 16GB 统一内存分析我的“性能边界”:
1B - 3B 模型(极速起飞):占用内存仅 1.5GB - 3GB。速度极快,每秒能生成上百个词,适合做非常简单的文本分类。
7B - 8B 模型(完美甜点区 ⭐):占用内存约4.5GB - 6GB。这是最适合你的尺寸!跑起来速度很快(每秒 30-50 词),并且你的系统还有整整 10GB 内存留给浏览器、VS Code、Next.js 服务器和 Claude Code。这完全不会卡顿!
14B 模型(勉强能跑):占用内存约 9GB - 10GB。可以运行,但如果你开了太多浏览器标签,电脑可能会开始动用交换内存(Swap),变得有些卡。
32B 及以上模型(绝对不要碰):占用内存 19GB 以上。点运行后,你的电脑会直接卡死或者报错内存不足。
2.如何安装本地模型?
去官网(ollama.com)下载一个 Mac 版或者Windows版本,下载完成之后直接在终端复制运行以下推荐模型:
1. 最强本地深度思考(探索发散首选):
Bash
ollama run deepseek-r1:8b
推荐理由:这是基于 Llama 3.1 训练的 DeepSeek-R1 本地蒸馏版。它保留了 R1 强大的自我思考和反思能力,非常适合你在工作台左侧跟它进行业务发散和逻辑推演。
2. 中文指令跟随王者(生成 JSON 卡片首选):
Bash
ollama run qwen2.5:7b
推荐理由:阿里开源的通义千问 2.5。它的中文语感极其自然,而且极度听话。当你的后端接口要求输出严谨的 [{"title": "...", "priority": "high"}]JSON 格式时,它比其他模型都不容易出错。
3. 本地代码小助手(如果你需要它帮你检查前端代码):
Bash
ollama run qwen2.5-coder:7b
推荐理由:目前同级别开源模型中的代码能力天花板,专为写代码和检查 Bug 优化。
我最终选择了方案3解决了我的安全焦虑,用本地deepseek-r1:8b跑写脑爆创意等简单对话目前看完全够用。
夜雨聆风