本地AI全家桶:五大工具,一个启动器,打造你的专属智能工作流

无需联网、隐私安全、永久免费，带你玩转本地大模型。

最近很多朋友问我：有没有既安全又免费的AI工具？网上那些在线服务要么收费，要么担心数据泄露。其实，只要你的电脑有一块还不错的显卡（或者足够的内存），完全可以把AI“请回家”——本地部署，隐私无忧，而且永久免费。

今天，我就把自己一直在用的五款本地AI工具打包分享给大家。一个BAT启动器，五个入口，覆盖聊天、翻译、创意写作等日常需求。全部基于llama.cpp或Ollama后端，模型自己选，数据自己存，完全掌控。

•隐私安全：所有对话、翻译、文档都在你自己的电脑上处理，不会上传到任何云端。

•永久免费：没有API计费，没有会员订阅，只要你愿意，可以用一辈子。

•离线可用：没网也能用，出差、旅行、办公室内网环境，照常工作。

•模型自由：支持 DeepSeek、Qwen、Llama、Gemma 等上千种开源模型，随便换。

•极速响应：没有网络延迟，生成速度只取决于你的硬件。

🧰五大工具，一键启动

我写了一个 BAT启动器（批处理文件），放在 F:\AItools\LLM 目录下。双击运行，会出现一个简洁的菜单：

下面逐一介绍每个工具的用途和亮点。

1️⃣原生浏览器 – 在线AI的“导航台”

2️⃣双语字幕翻译工具 – 视频创作者的救星

做视频的朋友都知道，给外文视频配双语字幕有多麻烦。这个工具专门解决痛点：

•支持 SRT / TXT 字幕：直接上传字幕文件，或者粘贴内容。

•调用本地 llama.cpp 翻译：完全离线，不用担心字幕内容泄露。

•智能长文本分段：遇到几百字的台词自动拆分，不会撑爆模型上下文。

•四种双语样式：上下对照、括号对照、斜杠分隔、原文优先。

•批量处理：一次翻译整个文件夹的字幕文件。

•输出多种格式：双语SRT、纯译文TXT、对照表等。

适合场景：自媒体翻译、外语学习、企业培训视频本地化。

3️⃣ AI Buddy – 带思考过程的智能伙伴

这是最常用的聊天工具。它基于 llama.cpp或Ollama后端，支持多模态（图片识别），并且会显示AI的思考过程。

核心功能：

•流式对话：逐字显示回答，像真人聊天。

•思考过程可视化：AI 会先用标签写下推理步骤，然后给出最终答案。你可以点击展开查看它是如何“想”的。

•长期记忆：所有对话自动保存到 memory/chat_memory.json，下次启动还能接着聊。

•性格切换：内置12种人格（温柔体贴、傲娇可爱、热血中二……），还可以自定义。

•图片识别：选择支持多模态的模型（如 Qwen2.5-VL、LLaVA），上传图片，AI 能看懂图中内容。

适合场景：日常闲聊、头脑风暴、学习辅助、情绪陪伴。

4️⃣有记忆聊天 – 真正“认识你”的AI

这个版本专注于长期对话记忆，没有复杂的思考过程显示，界面更简洁，但记忆容量更大。

•自动记住最近10轮对话，即使关掉程序，下次打开还能接着上次的话题聊。

•支持模型切换：可以随时换模型，记忆不会丢失。

•轻量级：适合长时间、多轮次的深度对话，比如写小说时和AI一起构思情节。

适合场景：角色扮演、创作协作、心理咨询式聊天。

5️⃣无记忆聊天 – 用完即走，不留痕迹

如果你只是临时问个问题，不希望留下任何记录，就用这个。

•不保存任何对话历史，关闭窗口后一切清零。

•极简界面，只有输入框和回复区。

•速度最快，因为没有记忆加载和保存的开销。

适合场景：查资料、算数学题、临时翻译一句话、测试不同模型的回答风格。

🛠️技术栈 & 环境要求

所有工具均基于以下开源项目：

后端	说明
llama.cpp	高效运行 GGUF 格式模型，支持 CPU / GPU 混合推理
Ollama	可选后端，用于 ai_buddy.py（原版）
Gradio 6.x	统一 WebUI 框架，所有工具都是独立的 Gradio 应用

硬件要求（最低）：

•CPU：4核以上（建议 8核）

•内存：16GB（推荐 32GB）

•显卡：可选，有 NVIDIA GPU 可大幅提速

•硬盘：至少 20GB 用于存放模型文件

软件要求：

•Windows 10 / 11

•Python 3.10+ 环境（已打包在python_embeded 文件夹中，无需额外安装）

📦如何获取和安装？

通过百度网盘分享的文件：本地AI部署

链接:https://pan.baidu.com/s/1OTsi50VMkwVc_znh5uMpLQ?pwd=6688

安装步骤：

1.下载压缩包，解压到 F:\AItools\LLM（或其他任意英文路径）。

2.双击启动AI.bat，根据提示选择要运行的工具。

4.浏览器会自动打开对应的 Gradio 界面（默认端口 7861~7866，冲突时自动切换）。

⚠️注意：本工具包不包含任何模型文件，需要您自行从 Hugging Face 或国内镜像下载 GGUF 格式模型。推荐使用 deepseek-r1-8b-q5、qwen3.5-7b 等。

🧪实际使用演示

场景一：深夜学习英文论文

打开 双语字幕翻译工具，上传一个 TED 演讲的 SRT 字幕，选择qwen3.5-7b 模型，目标语言“中文”，5分钟后得到双语字幕。导入剪映，直接出片。

场景二：和AI讨论人生规划

打开 有记忆聊天，设定性格为“理性冷静”，连续聊三天，AI 记住了你昨天提到的职业困惑，今天的回答更有针对性。

场景三：测试不同模型的创造力

同时打开 无记忆聊天 和 AI Buddy，问同一个问题：“给我讲一个关于月亮的恐怖故事”。对比DeepSeek-R1 和 Qwen 的回答风格，选出最喜欢的。

彩蛋功能：接入ComfyUI，让提示词工程起飞

如果你玩 Stable Diffusion / ComfyUI，一定遇到过这样的痛点：写提示词写到词穷，或者想让画面内容更贴合剧本，却不知道怎么用英文精确描述。

现在，本地大模型可以直接为 ComfyUI 服务！

omfyUI 插件：一键生成/优化提示词

我做了一个 ComfyUI 插件节点，功能包括：

节点名称	功能
LLM Prompt Enhancer	输入简单中文描述，AI自动扩写成高质量英文提示词（支持 SDXL / SD3 / Flux 风格）
LLM Negative Prompt Gen	根据画面内容，自动生成反向提示词，去除畸形手、多余肢体等
LLM Prompt Translate	中英文提示词互译，保留专业术语（如 “8K, masterpiece, cinematic lighting”）
Batch Prompt Engineering	批量处理提示词列表，一键风格化改写（赛博朋克、水墨风、黏土动画等）

工作流示例：

•在 ComfyUI 中输入中文：“一个穿着机甲的女孩站在雨中，背景是未来城市，霓虹灯反射在水洼里”

•调用本地 qwen3.5-7b 模型，通过 OpenClaw 发送请求。

•返回英文提示词："A cyberpunk girl in mecha suit standing in the rain, futuristic city background, neon lights reflecting in puddles, 8K, cinematic, intricate details, volumetric lighting"

•直接送入采样器生成图片。

完全离线，不用花钱买 GPT 的API，而且可以反复调试模型参数（温度、top_p），找到最适合你画风的提示词风格。

⚙️如何使用？

在 ComfyUI 中安装插件：将comfyui_llm_prompt_engineer 文件夹放入 custom_nodes 目录。

•配置插件中的 API 地址（默认 http://127.0.0.1:8080/v1/chat/completions），选择本地模型。

•拖拽节点，连接你的提示词输入框，即可享受 AI 辅助提示词工程。

💡小技巧：把常用画风（比如 “analog film grain, 35mm, f/1.8”）写进系统提示词，每次扩写都会自动附加，省去重复输入的麻烦。

整体架构回顾

现在，这套工具已经不仅仅是“聊天+翻译”了，而是一个完整的本地AI中枢：

用户交互层：

•AI Buddy（带思考过程聊天）

•有记忆聊天（长期对话）

•无记忆聊天（临时问答）

•双语字幕翻译

能力扩展层：

•OpenClaw（API 代理）

•ComfyUI 插件（提示词工程）

•原生浏览器（在线AI入口）

后端引擎：

•llama.cpp (llama-server)

•Ollama（可选）

模型层：

•DeepSeek-R1（推理）

•Qwen3.5（多模态/翻译）

•LLaVA（图片识别）

•任何 GGUF 格式模型

所有组件都可以独立运行，也可以互相调用。比如：

•在 ComfyUI 里用 AI Buddy 的思考过程来生成提示词。

•把双语字幕翻译的结果直接喂给 AI Buddy，让它帮你润色。

•用无记忆聊天快速测试不同模型的翻译质量。

最后:ComfyUI插件的确是我最得意的“隐藏功能”之一。这样一来，本地AI不仅能聊，还能画，真正打通了语言模型和图像生成之间的壁垒。