乐于分享
好东西不私藏

本地AI编程助手来了:ggml-org推出llama-vscode插件

本地AI编程助手来了:ggml-org推出llama-vscode插件

本地 AI 编程助手来了:ggml-org 推出 llama-vscode 插件

在云端大模型服务价格水涨船高、隐私问题日益突出的今天,越来越多的开发者开始关注本地部署的 AI 编程助手。近日,ggml-org(llama.cpp 官方组织)正式推出了 llama-vscode 插件——一个完全在本地运行的 LLM 辅助代码补全、聊天和智能编码扩展。

什么是 llama-vscode?

llama-vscode 是 ggml-org 推出的 VS Code 扩展,基于其著名的 llama.cpp(https://github.com/ggerganov/llama.cpp) 项目构建。它的核心理念很简单:让你的代码编辑器拥有本地 AI 能力,数据不出本机。

插件提供了三大核心功能:

🔥 智能代码补全(FIM)

基于 Fill-In-the-Middle 技术,插件会在你输入时实时给出代码建议。支持多种快捷操作:

  • 按 Tab 接受整条建议
  • Shift + Tab 接受第一行
  • Ctrl/Cmd + Right 逐词接受
  • Ctrl + L 手动切换建议显示

💬 本地 AI 聊天

内置聊天界面,可以直接与本地模型对话,无需联网。支持多轮交互,适合代码审查、架构讨论等场景。

🤖 Llama Agent 智能编码

这是最让人兴奋的功能——Agentic Coding。Llama Agent 可以:

  • 自主读取文件、浏览网页
  • 调用 MCP(Model Context Protocol)工具
  • 支持用户自定义 JavaScript 工具
  • 最大循环次数可配置,完全可控

硬件要求不高,消费级显卡就能跑

llama-vscode 的一大亮点是对硬件的友好度。根据显存大小,推荐以下模型:

显存
推荐模型
> 64GB
Qwen-30B
> 16GB
Qwen-7B
< 16GB
Qwen-3B
< 8GB
Qwen-1.5B

即使只有 CPU,也能运行 Qwen2.5-Coder-0.5B 或 1.5B 模型进行基础补全。

核心特性一览

  • 环境(Env)概念:将多个模型分组管理,一键切换完整工作流
  • HuggingFace 集成:直接在插件内搜索、下载模型
  • 超长上下文:通过智能上下文复用技术,在低端硬件上也能支持超大上下文窗口
  • 性能监控:实时显示生成速度和资源占用
  • MCP 工具链:接入 VS Code 中已安装的 MCP Server

快速上手

安装 llama.cpp 后端

# macOSbrew install llama.cpp# Windowswinget install llama.cpp

在 VS Code 中安装插件

从 VS Code 扩展市场(https://marketplace.visualstudio.com/items?itemName=ggml-org.llama-vscode) 搜索安装,或通过 Open VSX 获取。

启动环境

点击状态栏的 llama-vscode 图标 → Select/start env,选择适合你硬件的配置即可开始使用。

为什么值得关注?

  • 隐私安全:所有数据在本地处理,代码不会泄露到云端
  • 零成本运行:无需 API Key,不需要付费订阅
  • 开箱即用:预置多种模型和环境配置,安装即用
  • 持续进化:背后是 ggml-org 和 llama.cpp 的强大生态支撑

总结

llama-vscode 代表了 AI 编程工具的一个重要趋势——让强大的 AI 能力回归本地。对于重视数据安全的开发者来说,这是一个值得尝试的选择。即使你的硬件配置不高,也能通过选择合适的模型获得不错的编码辅助体验。

如果你受够了云端 API 的延迟、费用和隐私顾虑,不妨试试这个完全本地的解决方案。

📌 相关链接GitHub: ggml-org/llama.vscodeVS Code 市场: llama-vscodellama.cpp: github.com/ggerganov/llama.cpp