AI开发如何保证api密钥安全

Claude Code 虽然运行在你的本地终端，但它为了理解代码逻辑，会将你本地的文件内容打包作为“上下文（Context）”发送给 Anthropic 的云端服务器。同时，如果它生成的代码调用了 GLM-5，并且把含有 Key 的代码片段作为 Prompt 发给了 GLM-5，你的 Key 就又流向了智谱 AI 的服务器。

为了阻断风险Gemini给我下面三种方案：

方案一：本地加密API

既然是跑在你自己的电脑上，核心原则就是：让密钥只存在于你电脑的本地配置文件中，绝对不进入代码仓库（Git），也绝对不让 Claude Code 读到它。

你现在需要做以下 3 步：

1. 创建环境变量文件 (.env.local)

在你的项目最外层文件夹（根目录）下，新建一个没有任何前缀、名字就叫 .env.local的文件。把你自己的 API Key 写在里面：

Plaintext

ANTHROPIC_API_KEY=sk-ant-api03-xxxxxxxxxxxxxxx

💡 解释：这种文件叫做“环境变量”，Next.js 和 Node.js 启动时会自动读取它，并把它变成内存里的 process.env.ANTHROPIC_API_KEY。代码里只写变量名，不写真实的 Key。

2. 配置.gitignore（防 Git 泄露）

如果你未来要把代码传到 GitHub（即使是私有仓库），也绝对不能传 .env.local。打开项目里.gitignore文件里确保有这行代码：

Plaintext

.env*.local

3. 配置.claudesignore（防 AI 泄露）

这是你使用 Claude Code 必须要做的动作！因为 Claude Code 为了理解项目，会疯狂读取你的本地文件并发给云端。在项目根目录新建一个文件叫 .claudesignore里写上：

Plaintext

.env*

💡 解释：这相当于给 Claude Code 戴上了眼罩，告诉它：“只要是 .env开头的文件，你连看都不许看。”

方案二：SaaS 商业化加密与代理

当你把软件发布到公网，让张三、李四登录并填入他们自己的 API Key 时，上面那套.env的玩法就彻底失效了。因为每个人的 Key 都不一样，你必须把它们存进数据库。

你需要遵循 SaaS 行业“三大铁律”：

1. 静态加密 (Encryption at Rest)

绝对不能把用户的明文 Key（如 sk-xxx）直接存进 MySQL 或 Postgres 数据库！

做法：当用户在前端填入 Key 并点击保存时，你的后端服务器要使用高级加密算法（通常是AES-256-GCM），用一把只有你服务器才知道的“主密钥 (Master Key)”把用户的 Key 加密成一串乱码，然后再存进数据库。

效果：哪怕黑客把你的数据库端了，没有你服务器里的主密钥，他们也解不开。

2. 永远不向前端返回明文 (One-way Visibility)

用户填完 Key 之后，未来他再打开设置页面，前端接口返回的只能是掩码（例如 sk-...****a1b2）或者一个布尔值 hasKey: true。绝对不能让后端把完整的 Key 传回给前端浏览器。

3. 后端代理请求 (BFF 架构)

这是最重要的一点：绝对不能让用户的浏览器直接拿着 Key 去请求大模型！

错误做法：前端网页拿到用户的 Key -> 前端直接发起 fetch('https://api.anthropic.com')。这就意味着Key暴露在了浏览器网络面板F12里。

正确做法：前端网页把聊天内容发给你的服务器 (比如 /api/llm)-> 你的服务器从数据库查出该用户的加密 Key -> 你的服务器在内存里解密 -> 你的服务器拿着明文 Key 去请求 Anthropic -> 拿到结果后再返回给前端。

方案三：接入本地离线大模型

物理隔离的终极方案就是干脆把“大脑”也搬到本地呢，零密钥，断网可用，这是目前开源界最火的玩法。

工作流：

为什么极其安全：这套方案根本不需要 API Key。你的文本发给了你自己电脑的显卡去算，完全不需要联网，是绝对的 100% 隐私和安全。对于“拆解 JSON 功能列表”这种结构化任务，现在的开源小模型已经完全够用。

1.你的硬件能跑多大的模型？

Ollama 在本地运行时，默认会使用 4-bit 量化技术（把模型体积压缩，但几乎不损失智商）。基于我的iMac 16GB 统一内存分析我的“性能边界”：

1B - 3B 模型（极速起飞）：占用内存仅 1.5GB - 3GB。速度极快，每秒能生成上百个词，适合做非常简单的文本分类。

7B - 8B 模型（完美甜点区 ⭐）：占用内存约4.5GB - 6GB。这是最适合你的尺寸！跑起来速度很快（每秒 30-50 词），并且你的系统还有整整 10GB 内存留给浏览器、VS Code、Next.js 服务器和 Claude Code。这完全不会卡顿！

14B 模型（勉强能跑）：占用内存约 9GB - 10GB。可以运行，但如果你开了太多浏览器标签，电脑可能会开始动用交换内存（Swap），变得有些卡。

32B 及以上模型（绝对不要碰）：占用内存 19GB 以上。点运行后，你的电脑会直接卡死或者报错内存不足。

2.如何安装本地模型？

去官网（ollama.com）下载一个 Mac 版或者Windows版本，下载完成之后直接在终端复制运行以下推荐模型：

1. 最强本地深度思考（探索发散首选）：

Bash

ollama run deepseek-r1:8b

推荐理由：这是基于 Llama 3.1 训练的 DeepSeek-R1 本地蒸馏版。它保留了 R1 强大的自我思考和反思能力，非常适合你在工作台左侧跟它进行业务发散和逻辑推演。

2. 中文指令跟随王者（生成 JSON 卡片首选）：

Bash

ollama run qwen2.5:7b

推荐理由：阿里开源的通义千问 2.5。它的中文语感极其自然，而且极度听话。当你的后端接口要求输出严谨的 [{"title": "...", "priority": "high"}]JSON 格式时，它比其他模型都不容易出错。

3. 本地代码小助手（如果你需要它帮你检查前端代码）：

Bash

ollama run qwen2.5-coder:7b

推荐理由：目前同级别开源模型中的代码能力天花板，专为写代码和检查 Bug 优化。

我最终选择了方案3解决了我的安全焦虑，用本地deepseek-r1:8b跑写脑爆创意等简单对话目前看完全够用。

—— 拓荒者 · Amimosa / 2026-05-11